Methoden en technieken van kwantitatief onderzoek
College 1 - Inleiding
Statistiek = science of data:
Verzamelen, classificeren, samenvatten, organiseren, analyseren en interpreteren
van numerieke gegevens.
= toegepaste wiskunde: beschrijven, verklaren, voorspellen, besluiten
nemen.
Twee soorten statistiek:
1. Beschrijvende statistiek: beschrijven van verzamelde gegevens
2. Inferentiële statistiek: generaliserende uitspraken doen over populatie
gebaseerd op een deel van die groep (steekproef)
Soorten gegevens: meetniveau
- Kwantitatieve gegevens (zijn van zichzelf al in cijfers uitgedrukt)
o Gemeten op een van nature voorkomende numerieke schaal
o Gelijke intervallen (waardoor je gegevens mag optellen en
aftrekken)
o Gegevens met een relatief nulpunt zijn intervalgegevens (iets waar
wij het getal 0 aan hebben gegeven: 0 graden Celsius)
o Gegevens met een absoluut nulpunt zijn ratiogegevens (cijfer 0
betekent ook echt 0: bijvoorbeeld je leeftijd)
- Kwalitatieve gegevens
o Kunnen niet worden gemeten op een van nature voorkomende
numerieke schaal
o Gemeten door middel van classificatie > categorieën
o Categorieën van nominale gegevens kunnen niet betekenisvol
worden gerangordend (de ene is niet beter dan de andere vb.
geslacht)
o Categorieën van ordinale gegevens kunnen betekenisvol worden
gerangordend (de een is wel meer dan de andere vb. hoeveelheid
tijd studie)
Meetniveau:
- Vervoersmiddel = nominaal
- Aantal biertjes = ratio
- Hoeveelheid tijd studie = ordinaal
- Aanvangstijden hoorcolleges = interval
- Duur tentamen = ratio
- Wel of niet halen BSA = nominaal
Gebruik van meetniveaus:
- Kwalitatieve en kwantitatieve gegevens kunnen bij sommige technieken
tegelijk worden gebruikt
- Kwantitatieve gegevens kunnen worden getransformeerd in kwalitatieve
gegevens door middel van het maken van categorieën/classificatie
- Kwalitatieve gegevens kunnen niet betekenisvol worden omgezet in
kwantitatieve gegevens, met uitzondering van dummy variabelen en Likert
schalen
Variabelen beschrijven:
- Kwalitatieve gegevens beschrijven:
,Valide percentage = je kijkt alleen naar de waarnemingen die valide zijn. Missing:
antwoord ontbreekt; men wil antwoord niet geven of weet het niet.
- Kwantitatieve gegevens beschrijven
Drie centrummaten: centrale tendensie.
1. Modus = de meting die het vaakst voorkomt in de gegevensverzameling
2. Mediaan = het middelste getal wanneer de meetwaarden zijn
gerangordend
3. Gemiddelde = de som van de metingen gedeeld door het aantal metingen
in de gegevensverzameling
U – gemiddelde populatie. –x is gemiddelde steekproef
WISKUNDE ACADEMIE op youtube zoeken.
Waarom drie verschillende maten? Waarom niet gewoon alleen gemiddelde?
1. Meetniveau van de variabele; niet altijd mogelijk
Bijv. voor nominale en ordinale variabelen kun je dat niet doen, zegt namelijk
helemaal niks.
2. Verdeling van de variabele; niet altijd zinvol
Meer informatie over de verdelingen:
Drie spreidingsmaten > Spreiding zegt iets over de afwijking van de het
gemiddelde.
1. Bereik (variatiebreedte) = ook wel interkwartielafstand
- Grootste meetwaarde minus de kleinste meetwaarde
- Ongevoelige maat voor variatie als de gegevensverzamelingen groot zijn
2. Steekproefvariantie (s2)
- Maat voor de afstand van alle waarnemingen ten opzicht van het
gemiddelde = de verspreiding van de waarnemingen tov het gemiddelde
- Hoe hoger de variantie hoe groter de spreiding
3. Variantie:
- Opsomming van alle afstanden van de waarnemingen (x) tov het
gemiddelde (u) > dus we kijken niet naar de absolute verschillen
- Kwadrateren (want anders totaal = 0)
Standaardafwijking = the average distance to the mean.
Filmpje:
1, 2, 3, 4, 5
- Mean (mediaan) = 3
- Standaardafwijking (2+1+0+1+2)/5 = 1,2
Som(Xi-u) = 0. Voorkom je negatives. Oplossing: som(Xi-u) 2 maar dan krijg je:
- Average squared distance to the mean = variance = variantie.
- Dus standaardafwijking is wortel van de variantie.
som ( Xi−u ) 2
= √
n
Bij een steekproef: n-1
Bij populatie: n
College 2 – Kansverdelingen en steekproeven
Waarom kansrekening?
- Om uitspraken te doen over de populatie
, - Zonder kunnen we niet statistisch toetsen
- Kans is afhankelijk van de kansverdeling
Drie soorten kans:
1. Weetkans = objectieve kans > weet zeker wat aantal uitkomsten is, achter
je bureau te rekenen. Je weet precies wat de kans is.
o Gebaseerd op logisch beredeneren
o Aantal mogelijke uitkomsten bekend
Vb. 1 op 52 kaarten
2. Empirische kans = relatieve kans > niet achter je bureau te berekenen, op
straat vragen of via een enquete
o Gebaseerd op een kans experiment
3. Subjectieve kans > is gebaseerd op een mening en andere factoren
o Additionele factoren (mening)
CPB: maken gebruik van empirische kansen en subjectief soms.
Wet van de grote getallen: als je maar oneindig keer het kansexperiment
uitvoert, dan kom je dichterbij de objectieve kans/weetkans.
Selecte vs aselecte steekproeven:
- Selecte steekproef
o Iedereen die wil meedoen
o Quota
o Sneeuwbal
o Doelgericht
o Zelfselectie
- A-selecte steekproef
o Enkelvoudig; stratificatie; systematisch met een aselect begin;
cluster
o Wordt vaak gebruik gemaakt van toevalsgetallengenerator
o Aselect is niet representatief!
Fouten in survey gegevens:
- Selection bias: bepaald deel populatie sluit je uit, door mensen via telefoon
te vragen
- Non-response bias: vertekening doordat niet alle eenheden in steekproef
responderen
- Measurement error:
Soorten kansverdelingen:
- Discrete kansverdelingen (telbaar heel getal)
o Hypergeometrische kansverdeling ‘aselecte steekproef zonder
terugleggen uit een eindige populatie’
o Binominiale kansverdeling: trekken met teruglegen, succes vs geen
succes
Continue kansverdeling
Van normaal naar standaardnormale verdeling
College 1 - Inleiding
Statistiek = science of data:
Verzamelen, classificeren, samenvatten, organiseren, analyseren en interpreteren
van numerieke gegevens.
= toegepaste wiskunde: beschrijven, verklaren, voorspellen, besluiten
nemen.
Twee soorten statistiek:
1. Beschrijvende statistiek: beschrijven van verzamelde gegevens
2. Inferentiële statistiek: generaliserende uitspraken doen over populatie
gebaseerd op een deel van die groep (steekproef)
Soorten gegevens: meetniveau
- Kwantitatieve gegevens (zijn van zichzelf al in cijfers uitgedrukt)
o Gemeten op een van nature voorkomende numerieke schaal
o Gelijke intervallen (waardoor je gegevens mag optellen en
aftrekken)
o Gegevens met een relatief nulpunt zijn intervalgegevens (iets waar
wij het getal 0 aan hebben gegeven: 0 graden Celsius)
o Gegevens met een absoluut nulpunt zijn ratiogegevens (cijfer 0
betekent ook echt 0: bijvoorbeeld je leeftijd)
- Kwalitatieve gegevens
o Kunnen niet worden gemeten op een van nature voorkomende
numerieke schaal
o Gemeten door middel van classificatie > categorieën
o Categorieën van nominale gegevens kunnen niet betekenisvol
worden gerangordend (de ene is niet beter dan de andere vb.
geslacht)
o Categorieën van ordinale gegevens kunnen betekenisvol worden
gerangordend (de een is wel meer dan de andere vb. hoeveelheid
tijd studie)
Meetniveau:
- Vervoersmiddel = nominaal
- Aantal biertjes = ratio
- Hoeveelheid tijd studie = ordinaal
- Aanvangstijden hoorcolleges = interval
- Duur tentamen = ratio
- Wel of niet halen BSA = nominaal
Gebruik van meetniveaus:
- Kwalitatieve en kwantitatieve gegevens kunnen bij sommige technieken
tegelijk worden gebruikt
- Kwantitatieve gegevens kunnen worden getransformeerd in kwalitatieve
gegevens door middel van het maken van categorieën/classificatie
- Kwalitatieve gegevens kunnen niet betekenisvol worden omgezet in
kwantitatieve gegevens, met uitzondering van dummy variabelen en Likert
schalen
Variabelen beschrijven:
- Kwalitatieve gegevens beschrijven:
,Valide percentage = je kijkt alleen naar de waarnemingen die valide zijn. Missing:
antwoord ontbreekt; men wil antwoord niet geven of weet het niet.
- Kwantitatieve gegevens beschrijven
Drie centrummaten: centrale tendensie.
1. Modus = de meting die het vaakst voorkomt in de gegevensverzameling
2. Mediaan = het middelste getal wanneer de meetwaarden zijn
gerangordend
3. Gemiddelde = de som van de metingen gedeeld door het aantal metingen
in de gegevensverzameling
U – gemiddelde populatie. –x is gemiddelde steekproef
WISKUNDE ACADEMIE op youtube zoeken.
Waarom drie verschillende maten? Waarom niet gewoon alleen gemiddelde?
1. Meetniveau van de variabele; niet altijd mogelijk
Bijv. voor nominale en ordinale variabelen kun je dat niet doen, zegt namelijk
helemaal niks.
2. Verdeling van de variabele; niet altijd zinvol
Meer informatie over de verdelingen:
Drie spreidingsmaten > Spreiding zegt iets over de afwijking van de het
gemiddelde.
1. Bereik (variatiebreedte) = ook wel interkwartielafstand
- Grootste meetwaarde minus de kleinste meetwaarde
- Ongevoelige maat voor variatie als de gegevensverzamelingen groot zijn
2. Steekproefvariantie (s2)
- Maat voor de afstand van alle waarnemingen ten opzicht van het
gemiddelde = de verspreiding van de waarnemingen tov het gemiddelde
- Hoe hoger de variantie hoe groter de spreiding
3. Variantie:
- Opsomming van alle afstanden van de waarnemingen (x) tov het
gemiddelde (u) > dus we kijken niet naar de absolute verschillen
- Kwadrateren (want anders totaal = 0)
Standaardafwijking = the average distance to the mean.
Filmpje:
1, 2, 3, 4, 5
- Mean (mediaan) = 3
- Standaardafwijking (2+1+0+1+2)/5 = 1,2
Som(Xi-u) = 0. Voorkom je negatives. Oplossing: som(Xi-u) 2 maar dan krijg je:
- Average squared distance to the mean = variance = variantie.
- Dus standaardafwijking is wortel van de variantie.
som ( Xi−u ) 2
= √
n
Bij een steekproef: n-1
Bij populatie: n
College 2 – Kansverdelingen en steekproeven
Waarom kansrekening?
- Om uitspraken te doen over de populatie
, - Zonder kunnen we niet statistisch toetsen
- Kans is afhankelijk van de kansverdeling
Drie soorten kans:
1. Weetkans = objectieve kans > weet zeker wat aantal uitkomsten is, achter
je bureau te rekenen. Je weet precies wat de kans is.
o Gebaseerd op logisch beredeneren
o Aantal mogelijke uitkomsten bekend
Vb. 1 op 52 kaarten
2. Empirische kans = relatieve kans > niet achter je bureau te berekenen, op
straat vragen of via een enquete
o Gebaseerd op een kans experiment
3. Subjectieve kans > is gebaseerd op een mening en andere factoren
o Additionele factoren (mening)
CPB: maken gebruik van empirische kansen en subjectief soms.
Wet van de grote getallen: als je maar oneindig keer het kansexperiment
uitvoert, dan kom je dichterbij de objectieve kans/weetkans.
Selecte vs aselecte steekproeven:
- Selecte steekproef
o Iedereen die wil meedoen
o Quota
o Sneeuwbal
o Doelgericht
o Zelfselectie
- A-selecte steekproef
o Enkelvoudig; stratificatie; systematisch met een aselect begin;
cluster
o Wordt vaak gebruik gemaakt van toevalsgetallengenerator
o Aselect is niet representatief!
Fouten in survey gegevens:
- Selection bias: bepaald deel populatie sluit je uit, door mensen via telefoon
te vragen
- Non-response bias: vertekening doordat niet alle eenheden in steekproef
responderen
- Measurement error:
Soorten kansverdelingen:
- Discrete kansverdelingen (telbaar heel getal)
o Hypergeometrische kansverdeling ‘aselecte steekproef zonder
terugleggen uit een eindige populatie’
o Binominiale kansverdeling: trekken met teruglegen, succes vs geen
succes
Continue kansverdeling
Van normaal naar standaardnormale verdeling