Statistiek
Descriptive Statistics
Concept of a variable
Categorical: geen getallen
Discrete: je kan
kommagetallen hebben maar
het moet eindig zijn (bv.
aantal studenten in een
klaslokaal)
Continuous: oneindig aantal
uitkomsten (bv. lengte)
Scales of measurement (hoe lager, hoe meer data je verzamelt door de meting)
- Nominale: distinct categories without ‘magnitude’
o Je kan ze niet in een bepaalde volgorde plaatsen
- Ordinale: ordered categories
o Kan je wel in een volgorde plaatsen
o Kan het verschil tussen de variabelen niet echt meten
o Bv. hoe voel je u vandaag? Goed naar slecht is een volgorde maar
niet hoe goed of hoe slecht
- Interval: meaningful distances without absolute zero point
- Ratio: meaningful distances with absolute zero point
o Verschil: de waarde 0 een betekenis of niet
o Voorbeeld ratio: 0 als bedrijfsresultaat heeft een betekenis want wil
zeggen break-even
Opm: je kan van een ratio schaal naar een ordinale schaal gaan maar niet
omgekeerd, je kan een variabele dus op meerdere manieren gaan meten,
bv. met klasses die tot ordinaal behoort
About population and sample
Populatie: all items of interest -> size = N
o Vaak te groot om volledig te bevragen daardoor een steekproef = sample
Sample: subset of items selected from population -> size = n (<N)
o Resultaten als conclusie voor de volledige populatie = hypothesetest
1
,Soorten:
Non probability sample: chance of being
selected is unknown -> meer subjectief
- Judgment: onderzoek kiest volledig zelf
wie hij de steekproef steekt
- Quota: een aantal vertegenwoordigingen
afdwingen
- Convenience: je gaat gaan hergebruiken,
past niet perfect maar genoeg volgens uw
mening
- Snowball: onderzoeker kiest iemand en
die persoon mag dan weer iemand kiezen
en zo komt groep tot stand
Probability sample: chance of being selected
is known, de kans dat je bij de steekproef hoort
kan je berekenen -> objectief
- Simple random: mensen worden gekozen door computer, every sample of
size n has the same probability of being chosen
o Probability of being chosen is equal to n/N
- Systematic: groep opdelen in deelgroepen en dan uit elke groep een
aantal mensen kiezen volgens interval
o Ordering scheme
o Not every sample of size n has same probability of being chosen
o Sampling interval is equal to N/n
o Random starting point in first interval
- Stratified: opdelen in subgroepen (using strata = subpopulations)
o High variation between strata, little variation within stratum -> de
subgroup zo homogeen mogelijk maar de subgroup zelf heel
verschillend
o Select from each subgroup (proportionally?)
- Cluster: ook opdelen in subgroepen maar vooraf kiezen welke cluster we
gaan gebruiken
o Select one or more clusters (so not all the subgroups are used)
What about errors?
Population Sample
- 𝜇 - X met streep erboven
- Unknown value - Known value
- Point estimate of the population
mean
𝜇<𝑥 𝜇= 𝑥 𝜇> 𝑥
2
,Sampling errors:
- Inevitable result of using a sample instead of entire population
Some common pitfalls leading to bias:
- Non-response bias: mensen die niet antwoorden
- Response bias: de antwoorden zijn niet helemaal duidelijk voor het
onderzoek
o Measurement error: antwoord kan verschillende interpretaties
hebben, geen eenheid achter het antwoord
o Non- truthful responses: vragen die in het persoonlijk leven raken,
kan persoon om liegen om een maatschappelijk correct antwoord te
geven
Vb. Trip advisor -> niet veel mensen vullen een score in, enkel bij extreem
goed of extreem slecht waardoor een vertekend beeld want geen neutrale
persoon
Do we always prefer large sample sizes?
o What about cost of sampling?
o What about timely collection of data?
o What about the trade-off between sampling error and nong-sampling
error?
Think
critically about samples! -> kunnen mensen uit de steekproef laten verdwijnen
om de resultaten anders voor te stellen
Descriptive statistics/ Summary measures
Measures of central location: => CENTRALE LOCATIE
Griekse letters voor populatie, kleine letters voor steekproeven
Centrale locatie: gemiddelde berekenen => mean (gemiddelde)
Population: µ Sample: 𝑥ҧ
3
, Mediaan = the middle value (odd number of data entries), the average of
the two middle values (even number of data entries)
o Sort data in ascending order
Measures of dispersion: => SPREIDING
Minimum, Maximum & Range
o Range = Maximum - Minimum
Quartiles & Interquartile range (IQR)
o About 25% of data are smaller than the first quartile Q1
o About 50% of data are smaller than second quartile Q2
o About 75% of data are smaller than third quartile Q3
o IQR = Q3 –Q1
Percentiles
o About p% of data is smaller than the pth percentile
Variance: voor elke waarde kijken wat de afwijking is van het gemiddelde
o Variantie = het verschil tussen de waarde en het gemiddelde
o Population variance= 𝜎²
o Sample variance = 𝑠²
o Praktijk: standard deviation
(hoe lager de sample deviation, hoe minder spreiding)
o
Measures of association: => ASSOCIATIE
Covariance
o Only linear relationships between two variables
o Strength and direction of linear relationships
o Problem: units of measurement
o Population covariance Sample Covariance
Correlation
o Only linear relationships between two variables
o Strength and direction of linear relationships
o Unaffected by units of measurement
o -1 ≤ correlation(X,Y) ≤ 1
4
Descriptive Statistics
Concept of a variable
Categorical: geen getallen
Discrete: je kan
kommagetallen hebben maar
het moet eindig zijn (bv.
aantal studenten in een
klaslokaal)
Continuous: oneindig aantal
uitkomsten (bv. lengte)
Scales of measurement (hoe lager, hoe meer data je verzamelt door de meting)
- Nominale: distinct categories without ‘magnitude’
o Je kan ze niet in een bepaalde volgorde plaatsen
- Ordinale: ordered categories
o Kan je wel in een volgorde plaatsen
o Kan het verschil tussen de variabelen niet echt meten
o Bv. hoe voel je u vandaag? Goed naar slecht is een volgorde maar
niet hoe goed of hoe slecht
- Interval: meaningful distances without absolute zero point
- Ratio: meaningful distances with absolute zero point
o Verschil: de waarde 0 een betekenis of niet
o Voorbeeld ratio: 0 als bedrijfsresultaat heeft een betekenis want wil
zeggen break-even
Opm: je kan van een ratio schaal naar een ordinale schaal gaan maar niet
omgekeerd, je kan een variabele dus op meerdere manieren gaan meten,
bv. met klasses die tot ordinaal behoort
About population and sample
Populatie: all items of interest -> size = N
o Vaak te groot om volledig te bevragen daardoor een steekproef = sample
Sample: subset of items selected from population -> size = n (<N)
o Resultaten als conclusie voor de volledige populatie = hypothesetest
1
,Soorten:
Non probability sample: chance of being
selected is unknown -> meer subjectief
- Judgment: onderzoek kiest volledig zelf
wie hij de steekproef steekt
- Quota: een aantal vertegenwoordigingen
afdwingen
- Convenience: je gaat gaan hergebruiken,
past niet perfect maar genoeg volgens uw
mening
- Snowball: onderzoeker kiest iemand en
die persoon mag dan weer iemand kiezen
en zo komt groep tot stand
Probability sample: chance of being selected
is known, de kans dat je bij de steekproef hoort
kan je berekenen -> objectief
- Simple random: mensen worden gekozen door computer, every sample of
size n has the same probability of being chosen
o Probability of being chosen is equal to n/N
- Systematic: groep opdelen in deelgroepen en dan uit elke groep een
aantal mensen kiezen volgens interval
o Ordering scheme
o Not every sample of size n has same probability of being chosen
o Sampling interval is equal to N/n
o Random starting point in first interval
- Stratified: opdelen in subgroepen (using strata = subpopulations)
o High variation between strata, little variation within stratum -> de
subgroup zo homogeen mogelijk maar de subgroup zelf heel
verschillend
o Select from each subgroup (proportionally?)
- Cluster: ook opdelen in subgroepen maar vooraf kiezen welke cluster we
gaan gebruiken
o Select one or more clusters (so not all the subgroups are used)
What about errors?
Population Sample
- 𝜇 - X met streep erboven
- Unknown value - Known value
- Point estimate of the population
mean
𝜇<𝑥 𝜇= 𝑥 𝜇> 𝑥
2
,Sampling errors:
- Inevitable result of using a sample instead of entire population
Some common pitfalls leading to bias:
- Non-response bias: mensen die niet antwoorden
- Response bias: de antwoorden zijn niet helemaal duidelijk voor het
onderzoek
o Measurement error: antwoord kan verschillende interpretaties
hebben, geen eenheid achter het antwoord
o Non- truthful responses: vragen die in het persoonlijk leven raken,
kan persoon om liegen om een maatschappelijk correct antwoord te
geven
Vb. Trip advisor -> niet veel mensen vullen een score in, enkel bij extreem
goed of extreem slecht waardoor een vertekend beeld want geen neutrale
persoon
Do we always prefer large sample sizes?
o What about cost of sampling?
o What about timely collection of data?
o What about the trade-off between sampling error and nong-sampling
error?
Think
critically about samples! -> kunnen mensen uit de steekproef laten verdwijnen
om de resultaten anders voor te stellen
Descriptive statistics/ Summary measures
Measures of central location: => CENTRALE LOCATIE
Griekse letters voor populatie, kleine letters voor steekproeven
Centrale locatie: gemiddelde berekenen => mean (gemiddelde)
Population: µ Sample: 𝑥ҧ
3
, Mediaan = the middle value (odd number of data entries), the average of
the two middle values (even number of data entries)
o Sort data in ascending order
Measures of dispersion: => SPREIDING
Minimum, Maximum & Range
o Range = Maximum - Minimum
Quartiles & Interquartile range (IQR)
o About 25% of data are smaller than the first quartile Q1
o About 50% of data are smaller than second quartile Q2
o About 75% of data are smaller than third quartile Q3
o IQR = Q3 –Q1
Percentiles
o About p% of data is smaller than the pth percentile
Variance: voor elke waarde kijken wat de afwijking is van het gemiddelde
o Variantie = het verschil tussen de waarde en het gemiddelde
o Population variance= 𝜎²
o Sample variance = 𝑠²
o Praktijk: standard deviation
(hoe lager de sample deviation, hoe minder spreiding)
o
Measures of association: => ASSOCIATIE
Covariance
o Only linear relationships between two variables
o Strength and direction of linear relationships
o Problem: units of measurement
o Population covariance Sample Covariance
Correlation
o Only linear relationships between two variables
o Strength and direction of linear relationships
o Unaffected by units of measurement
o -1 ≤ correlation(X,Y) ≤ 1
4