Inleiding statistiek
Hoorcollege 1
Correlatie ≠ causatie
Statistics is a set of mathematical procedures for organizing, summarizing and interpreting
information.
• Beschrijvende en inferentiele statistiek
Beschrijvende statistiek = kwantitatieve samenvatting van informatie/ data.
Inferentiele statistiek = inductieve inferenties van data (een steekproef) naar een meer algemene
situatie (de populatie).
Als we iets willen zeggen over een populatie op basis van een random steekproef, dan moeten we
rekening houden met steekproe uctuaties.
• Typen random variabelen
Random variabelen (X), bijvoorbeeld man of vrouw
- Variabelen waarvan de mogelijke uitkomsten het resultaat zijn van een random fenomeen.
- Statistische notatie: meestal X of Y.
- Speci eke uitkomsten en speci eke observaties worden opgeschreven met een kleine x of y.
X = Leeftijd
x1 = 18,00
Fixed variabelen, bijvoorbeeld alléén man
Kwanti ceren van random variabelen
- Het meetniveau van een variabele bepaalt wat voor betekenis de nummers die we toewijzen
hebben.
- 4 niveaus: nominaal, ordinaal, interval, ratio.
- De niveaus zijn cumulatief — elk niveau heeft de eigenschappen van de vorige niveaus.
- Het meetniveau van een random variabele bepaalt wat voor analyses je er beter wel/niet op kan
uitvoeren.
Meetniveaus van random variabelen
1 Nominale variabelen
Toewijzen van mutueel exclusieve getallen aan de mutueel exclusieve uitkomsten
2 Ordinale variabelen
Er is een betekenisvolle ordening in de mogelijke uitkomsten
voorbeeld Likert schaal (5+) = interval variabelen
3 Interval variabelen
De intervallen tussen elk van de geordende uitkomsten is betekenisvol en dezelfde grootte
4 Ratio variabelen
“Absoluut nulpunt”: Een nul betekent dat de gemeten eigenschap afwezig is
Discrete vs continue random variabelen
Het type variabele bepaalt wat voor analyses we er beter wel/ niet op uit kunnen voeren.
Discrete variabele = de mogelijke uitkomsten voor de variabelen zijn te vangen in een eindige,
telbare lijst van waarden
voorbeeld leeftijd afgerond op hele jaren
- histogram
fifi fiffl
,Continue variabele = de mogelijke uitkomsten van de variabelen kunnen elke waarde aannemen
binnen een bepaald interval (dat interval zou kunnen lopen van -oneindig tot oneindig)
- Scatter/Dot
A. Juist
• Frequentieverdelingen en kansverdelingen
Frequentie = hoe vaak een bepaalde uitkomst is geobserveerd.
Frequentieverdelingen = een tabel of gra ek die weergeeft hoe vaak elke mogelijke uitkomst voor
die variabele.
Kans = de relatieve frequentie van de uitkomst/ hoe vaak de uitkomst voorkomt in verhouding tot
het totaal aantal observaties.
Kansverdelingen = laten de kans zien op elke mogelijke uitkomst voor een random variabele.
• Beschrijvende statistieken
Voor het samenvatten van variabelen en hun kansverdelingen in een paar getallen.
Centrummaten = beschrijven het ‘centrum’ of ‘midden’ of ‘typische waarde’ voor een variabele
- Modus
De uitkomst die het vaakst voorkomt, d.w.z. de uitkomst met de hoogste frequentie.
- Mediaan
De waarde die de hoogste helft van de data scheidt van de laagste helft van de data.
- Gemiddelde
Notatie: µ, voor het gemiddelde van een populatie.
µ=ΣX:N
Notatie: x̄ , voor het gemiddelde van een steekproef.
x̄ = Σ X : n
fi
, Spreidingsmaten = beschrijven de variatie, spreiding, breedte van een variabele.
- Bereik
Het verschil tussen de laagste en hoogste waarde van de variabele.
- Variantie
Zie afbeelding.
- Standaarddeviatie
De wortel van de variantie.
Zie afbeelding.
A. de modus, mediaan en gemiddelde allemaal dezelfde waarde hebben in het midden van deze
verdeling.
Hoorcollege 1
Correlatie ≠ causatie
Statistics is a set of mathematical procedures for organizing, summarizing and interpreting
information.
• Beschrijvende en inferentiele statistiek
Beschrijvende statistiek = kwantitatieve samenvatting van informatie/ data.
Inferentiele statistiek = inductieve inferenties van data (een steekproef) naar een meer algemene
situatie (de populatie).
Als we iets willen zeggen over een populatie op basis van een random steekproef, dan moeten we
rekening houden met steekproe uctuaties.
• Typen random variabelen
Random variabelen (X), bijvoorbeeld man of vrouw
- Variabelen waarvan de mogelijke uitkomsten het resultaat zijn van een random fenomeen.
- Statistische notatie: meestal X of Y.
- Speci eke uitkomsten en speci eke observaties worden opgeschreven met een kleine x of y.
X = Leeftijd
x1 = 18,00
Fixed variabelen, bijvoorbeeld alléén man
Kwanti ceren van random variabelen
- Het meetniveau van een variabele bepaalt wat voor betekenis de nummers die we toewijzen
hebben.
- 4 niveaus: nominaal, ordinaal, interval, ratio.
- De niveaus zijn cumulatief — elk niveau heeft de eigenschappen van de vorige niveaus.
- Het meetniveau van een random variabele bepaalt wat voor analyses je er beter wel/niet op kan
uitvoeren.
Meetniveaus van random variabelen
1 Nominale variabelen
Toewijzen van mutueel exclusieve getallen aan de mutueel exclusieve uitkomsten
2 Ordinale variabelen
Er is een betekenisvolle ordening in de mogelijke uitkomsten
voorbeeld Likert schaal (5+) = interval variabelen
3 Interval variabelen
De intervallen tussen elk van de geordende uitkomsten is betekenisvol en dezelfde grootte
4 Ratio variabelen
“Absoluut nulpunt”: Een nul betekent dat de gemeten eigenschap afwezig is
Discrete vs continue random variabelen
Het type variabele bepaalt wat voor analyses we er beter wel/ niet op uit kunnen voeren.
Discrete variabele = de mogelijke uitkomsten voor de variabelen zijn te vangen in een eindige,
telbare lijst van waarden
voorbeeld leeftijd afgerond op hele jaren
- histogram
fifi fiffl
,Continue variabele = de mogelijke uitkomsten van de variabelen kunnen elke waarde aannemen
binnen een bepaald interval (dat interval zou kunnen lopen van -oneindig tot oneindig)
- Scatter/Dot
A. Juist
• Frequentieverdelingen en kansverdelingen
Frequentie = hoe vaak een bepaalde uitkomst is geobserveerd.
Frequentieverdelingen = een tabel of gra ek die weergeeft hoe vaak elke mogelijke uitkomst voor
die variabele.
Kans = de relatieve frequentie van de uitkomst/ hoe vaak de uitkomst voorkomt in verhouding tot
het totaal aantal observaties.
Kansverdelingen = laten de kans zien op elke mogelijke uitkomst voor een random variabele.
• Beschrijvende statistieken
Voor het samenvatten van variabelen en hun kansverdelingen in een paar getallen.
Centrummaten = beschrijven het ‘centrum’ of ‘midden’ of ‘typische waarde’ voor een variabele
- Modus
De uitkomst die het vaakst voorkomt, d.w.z. de uitkomst met de hoogste frequentie.
- Mediaan
De waarde die de hoogste helft van de data scheidt van de laagste helft van de data.
- Gemiddelde
Notatie: µ, voor het gemiddelde van een populatie.
µ=ΣX:N
Notatie: x̄ , voor het gemiddelde van een steekproef.
x̄ = Σ X : n
fi
, Spreidingsmaten = beschrijven de variatie, spreiding, breedte van een variabele.
- Bereik
Het verschil tussen de laagste en hoogste waarde van de variabele.
- Variantie
Zie afbeelding.
- Standaarddeviatie
De wortel van de variantie.
Zie afbeelding.
A. de modus, mediaan en gemiddelde allemaal dezelfde waarde hebben in het midden van deze
verdeling.