Les 1: descriptieve of beschrijvende statistiek
Lineaire transformaties
Moeilijk om variabelen in verschillende eenheden te gaan vergelijken met elkaar
Transformeren = omzetten in dezelfde meeteenheid
→ Nodig om ze vergelijkbaar te maken met waarden van andere variabele
1. Lineaire transformaties
o Enkel rekenkundige bewerkingen
o Optellen, aftrekken, vermenigvuldigen en delen
2. Non-lineaire transformaties
o Kwadrateren van waarden van variabele
Constante bij alle waarden van variabele optellen of aftrekken → gemiddelde verandert op dezelfde
manier mee, variantie blijft onveranderd
Standaardiseren van variabelen
Wanneer transformeren niet altijd makkelijk is
Bv. gewicht vergelijken met lengte
Standaardiseren = alle waarden (Xi) van een variabele transformeren zodat gemiddelde 0 wordt en
de standaardafwijking → X = 0, S = 1
Z-score = nieuw gevormde waarden, standaardscores
Xi = specifieke waarneming/waarde
X = gemiddelde
S = standaarddeviatie
Eenheden van de variabelen moeten eenheidsloos worden
Eenheden in de teller en noemer vallen weg
Hoe verder de z-score van het nulpunt verwijdert is, hoe meer we waarden als extreem
kunnen beschouden
Meeteenheid z-score
Uitgedrukt in aantal standaardafwijkingen dat waarde zich bevindt van gemiddelde
Frequentiekromme van z-scores met normale vorm wordt de standaardnormaalverdeling of
de z-verdeling genoemd
Standaardnormaalverdeling = verdeling
die zich verdeelt rond 0
1
,Standaarddeviatie = onder de curve heb
je 100 % of 1
Les 2: inferentiële of inducatieve statistiek
Belang van de normale verdeling
Histogrammen en numerieke mate (gemiddelde) gebruiken om verdeling van respondenten over
mogelijke waarden van metrische variabele te beschrijven
Dichtheidskromme
Op histogram → zo dicht mogelijk bij balkjes aansluiten
Oppervlakte onder kromme = proporties (relatieve percentages) van aantal eenheden
Volledige oppervlakte onder kromme = 100 % van alle respondenten
Vorm van dichtheidskromme
Voor elke variabele en elke steekproef uniek
MAAR benadert bij metrische variabelen vaak de normale verdeling
o Klokvormug, ééntoppig en symmetrisch rond gemiddelde
Vb. gewicht, lengte, bloedsuiker, IQ
Normale verdeling = vertoont telkens grootste aantal waarnemingen rond het gemiddelde
Hoe verder weg van gemiddelde in het midden
Hoe minder respondenten
Hoe minder een waarde voorkomt → hoe
extremer waarden
Voorbeeld:
Gewicht = weinig mensen met extreem hoog/laag
gewicht, meeste mensen zitten niet ver van gemiddelde
Lengte, bloeddruk of intelligentievermogen = normaal verdeelde variabelen
Kenmerken normale verdeling
50 % v/d waarnemingen liggen onder gemiddelde
50 % v/d waarnemingen liggen boven gemiddelde
68 – 95 – 99,7 – vuistregel
68 % v/d waarden bevindt zich op minder dan één standaardafwijking vn het gemiddelde
2
, 95 % v/d waarden bevinden zich op minder dan 2 standaardafwijkingen vn het gemiddelde
99,7 % v/d waarden bevinden zich op minder dan 3 standaardafwijkingen vn het gemiddelde
= zo makkelijk uitspraken doen over verdeling v/d waarden van eender welke normaal verdeelde
variabele, als we gemiddelde en standaardafwijking weten
Voorbeeld:
‘Variabele gewicht is normaal verdeeld, met gemiddelde (x) = 80 kg & standaarddeviatie = 10 kg’
68 % ligt tussen X – 1 s = 70 En X + 1 s = 90
95 % ligt tussen X – 2 s = 60 En X + 2 s = 100
99, 7 % ligt tussen X – 3 s = 50 En X + 3 s = 110
Adhv vuistregel kan je zeggen dat 68 % van de respondenten in steekrpoef meer dan 70 en minder
dan 90 kg weegt.
Beperkingen
Vb. hoeveel % v/d respondenten links van 94 kg en hoeveel % rechts
= exacte waarde in de verdeling
Oplossing
Scores standaardiseren
Dichtheidskromme = standaardnormale verdeling of z-verdeling
o Je weet bij benadering dat variabele normaal verdeelt is, dan kan je waarden
standaardiseren via berekenen v/d z-scores
o Klokvormige verdeling zoals normale verdeling, maar met gemiddelde van 0 en
standaardafwijking van 1 + mate van vorm = scheefheid & kurtosis van 0
Scheefheid van 0 → 100 % symmetrisch
Kurtosis van 0 → geen te spitse of vlakke top v/d curve
3
,Kennis over standaardnormale dichtheidskromme
= genoeg voor uitspraken over eender welke normaal verdeelde variabele
Voorbeeld uitwerken:
Vb. hoeveel % v/d respondenten links van 94 kg en hoeveel % rechts
Gemiddelde gewicht = 80 kg
Standaarddeviatie gewicht = 10 kg
1. Z-score gewicht berekenen
2. Kijken in tabel van standaardnormale verdeling (z-tabel)
o Z = 1, 40 → 91,92 % weegt minder dan 94 kg
o 8,08 % (100 – 91,92) weegt meer dan 94 kg
3. 1e kolom = z-waarde zoeken obv steekproefgegevens (stap 1)
2e kolom = info over hoe groot proportie onder z-verdeling
links is van z-score
3e kolom = info over hoe groot proportie onder z-verdeling
rechts is van z-score
Kennis van verdelingsvorm van onderzochte variabele
= vereiste om inferenties te kunnen maken over populatie obv een steekproef
Andere gekende verdelingen naast de normale verdeling
Vb. binominale, students t-verdeling, bernoulli- of poisson-verdeling
T-verdeling
Lijkt harder op normaalverdeling
Meer afgeplat in midden
Er zitten minder gegevens rond het gemiddelde
Gebruiken bij kleinere steekproeven
Steekproevenverdeling en centrale limietstelling
Steekproeffout
4
, Aangezien een steekproef slechts een deel is van de populatie, kunnen de waarden van
grootheden in de steekproef afwijken van de waarden van de populatieparameter
Het verschil tussen de steekproefuitkomst en de werkelijke populatiewaarde vanwege het
feit dat er een steekproef is getrokken
Naarmate n groter is, benadert het gemiddelde van de steekproef dit van de populatie en is
de fout kleiner
‘Hoe groter steekproef is, hoe groter gemiddelde van de steekproef het gemiddelde van de populatie
zal benaderen (= erop lijken)
Belangrijk: standaardafwijking standaardfout (SE)
Standaardafwijking = spreidingsmaat voor de steekproefverdeling van variabelen
Standaardfout = spreidingsmaat voor de steekproevenverdeling van variabelen
o Speciale naam voor de ‘standaardafwijking’ van een steekproevenverdeling
Vb. steekproevenverdeling van
Inferentiële statistiek gaat over kansen
Populatieparameter = onbekend
MAAR uitspraak mogelijik met een bepaalde zekerheid of kans, o.b.v. steekproef
Frequentieverdelingen → kansverdelingen
Kans dat een bepaalde waarde bij een variabele voorkomt
o Vb. ‘hoeveel % v/d respondenten weegt minder dan 94 kg’
Wat is de kans dat een respondent minder dan 94 kg weegt
Nieuwe verdeling nodig om interventies te maken → steekproevenverdeling
Verdelingen
Populatieverdeling
o Verdeling van variabele in de populatie
o Waarden zijn zo goed als altijd onbekend, proberen schatten
Steekproefverdeling
o Verdeling van variabele in de steekproef
o Waarden zijn altijd bekend, kunnen allemaal berekend worden
Steekproevenverdeling
o Verdeling vn alle mogelijke steekproeven met zelfde n over een steekproefgrootheid
o ‘gedrag’ van steekproefgrootheid bij onbeperkt aantal trekkingen
o Vooraleer starten met inducatieve statistiek → studie van steekproevenverdeling van
gangbare steekproefgrootheden
Steekproevenverdeling = geeft weer hoe steekproefgrootheden variëren bij een onbeperkt aantal
herhaalde steekproeftrekkingen (theoretische verdeling) uit zelfde populatie met telkens zelfde
steekproefomvang (n)
Vb. verdeling van steekproefgemiddelden
5
Lineaire transformaties
Moeilijk om variabelen in verschillende eenheden te gaan vergelijken met elkaar
Transformeren = omzetten in dezelfde meeteenheid
→ Nodig om ze vergelijkbaar te maken met waarden van andere variabele
1. Lineaire transformaties
o Enkel rekenkundige bewerkingen
o Optellen, aftrekken, vermenigvuldigen en delen
2. Non-lineaire transformaties
o Kwadrateren van waarden van variabele
Constante bij alle waarden van variabele optellen of aftrekken → gemiddelde verandert op dezelfde
manier mee, variantie blijft onveranderd
Standaardiseren van variabelen
Wanneer transformeren niet altijd makkelijk is
Bv. gewicht vergelijken met lengte
Standaardiseren = alle waarden (Xi) van een variabele transformeren zodat gemiddelde 0 wordt en
de standaardafwijking → X = 0, S = 1
Z-score = nieuw gevormde waarden, standaardscores
Xi = specifieke waarneming/waarde
X = gemiddelde
S = standaarddeviatie
Eenheden van de variabelen moeten eenheidsloos worden
Eenheden in de teller en noemer vallen weg
Hoe verder de z-score van het nulpunt verwijdert is, hoe meer we waarden als extreem
kunnen beschouden
Meeteenheid z-score
Uitgedrukt in aantal standaardafwijkingen dat waarde zich bevindt van gemiddelde
Frequentiekromme van z-scores met normale vorm wordt de standaardnormaalverdeling of
de z-verdeling genoemd
Standaardnormaalverdeling = verdeling
die zich verdeelt rond 0
1
,Standaarddeviatie = onder de curve heb
je 100 % of 1
Les 2: inferentiële of inducatieve statistiek
Belang van de normale verdeling
Histogrammen en numerieke mate (gemiddelde) gebruiken om verdeling van respondenten over
mogelijke waarden van metrische variabele te beschrijven
Dichtheidskromme
Op histogram → zo dicht mogelijk bij balkjes aansluiten
Oppervlakte onder kromme = proporties (relatieve percentages) van aantal eenheden
Volledige oppervlakte onder kromme = 100 % van alle respondenten
Vorm van dichtheidskromme
Voor elke variabele en elke steekproef uniek
MAAR benadert bij metrische variabelen vaak de normale verdeling
o Klokvormug, ééntoppig en symmetrisch rond gemiddelde
Vb. gewicht, lengte, bloedsuiker, IQ
Normale verdeling = vertoont telkens grootste aantal waarnemingen rond het gemiddelde
Hoe verder weg van gemiddelde in het midden
Hoe minder respondenten
Hoe minder een waarde voorkomt → hoe
extremer waarden
Voorbeeld:
Gewicht = weinig mensen met extreem hoog/laag
gewicht, meeste mensen zitten niet ver van gemiddelde
Lengte, bloeddruk of intelligentievermogen = normaal verdeelde variabelen
Kenmerken normale verdeling
50 % v/d waarnemingen liggen onder gemiddelde
50 % v/d waarnemingen liggen boven gemiddelde
68 – 95 – 99,7 – vuistregel
68 % v/d waarden bevindt zich op minder dan één standaardafwijking vn het gemiddelde
2
, 95 % v/d waarden bevinden zich op minder dan 2 standaardafwijkingen vn het gemiddelde
99,7 % v/d waarden bevinden zich op minder dan 3 standaardafwijkingen vn het gemiddelde
= zo makkelijk uitspraken doen over verdeling v/d waarden van eender welke normaal verdeelde
variabele, als we gemiddelde en standaardafwijking weten
Voorbeeld:
‘Variabele gewicht is normaal verdeeld, met gemiddelde (x) = 80 kg & standaarddeviatie = 10 kg’
68 % ligt tussen X – 1 s = 70 En X + 1 s = 90
95 % ligt tussen X – 2 s = 60 En X + 2 s = 100
99, 7 % ligt tussen X – 3 s = 50 En X + 3 s = 110
Adhv vuistregel kan je zeggen dat 68 % van de respondenten in steekrpoef meer dan 70 en minder
dan 90 kg weegt.
Beperkingen
Vb. hoeveel % v/d respondenten links van 94 kg en hoeveel % rechts
= exacte waarde in de verdeling
Oplossing
Scores standaardiseren
Dichtheidskromme = standaardnormale verdeling of z-verdeling
o Je weet bij benadering dat variabele normaal verdeelt is, dan kan je waarden
standaardiseren via berekenen v/d z-scores
o Klokvormige verdeling zoals normale verdeling, maar met gemiddelde van 0 en
standaardafwijking van 1 + mate van vorm = scheefheid & kurtosis van 0
Scheefheid van 0 → 100 % symmetrisch
Kurtosis van 0 → geen te spitse of vlakke top v/d curve
3
,Kennis over standaardnormale dichtheidskromme
= genoeg voor uitspraken over eender welke normaal verdeelde variabele
Voorbeeld uitwerken:
Vb. hoeveel % v/d respondenten links van 94 kg en hoeveel % rechts
Gemiddelde gewicht = 80 kg
Standaarddeviatie gewicht = 10 kg
1. Z-score gewicht berekenen
2. Kijken in tabel van standaardnormale verdeling (z-tabel)
o Z = 1, 40 → 91,92 % weegt minder dan 94 kg
o 8,08 % (100 – 91,92) weegt meer dan 94 kg
3. 1e kolom = z-waarde zoeken obv steekproefgegevens (stap 1)
2e kolom = info over hoe groot proportie onder z-verdeling
links is van z-score
3e kolom = info over hoe groot proportie onder z-verdeling
rechts is van z-score
Kennis van verdelingsvorm van onderzochte variabele
= vereiste om inferenties te kunnen maken over populatie obv een steekproef
Andere gekende verdelingen naast de normale verdeling
Vb. binominale, students t-verdeling, bernoulli- of poisson-verdeling
T-verdeling
Lijkt harder op normaalverdeling
Meer afgeplat in midden
Er zitten minder gegevens rond het gemiddelde
Gebruiken bij kleinere steekproeven
Steekproevenverdeling en centrale limietstelling
Steekproeffout
4
, Aangezien een steekproef slechts een deel is van de populatie, kunnen de waarden van
grootheden in de steekproef afwijken van de waarden van de populatieparameter
Het verschil tussen de steekproefuitkomst en de werkelijke populatiewaarde vanwege het
feit dat er een steekproef is getrokken
Naarmate n groter is, benadert het gemiddelde van de steekproef dit van de populatie en is
de fout kleiner
‘Hoe groter steekproef is, hoe groter gemiddelde van de steekproef het gemiddelde van de populatie
zal benaderen (= erop lijken)
Belangrijk: standaardafwijking standaardfout (SE)
Standaardafwijking = spreidingsmaat voor de steekproefverdeling van variabelen
Standaardfout = spreidingsmaat voor de steekproevenverdeling van variabelen
o Speciale naam voor de ‘standaardafwijking’ van een steekproevenverdeling
Vb. steekproevenverdeling van
Inferentiële statistiek gaat over kansen
Populatieparameter = onbekend
MAAR uitspraak mogelijik met een bepaalde zekerheid of kans, o.b.v. steekproef
Frequentieverdelingen → kansverdelingen
Kans dat een bepaalde waarde bij een variabele voorkomt
o Vb. ‘hoeveel % v/d respondenten weegt minder dan 94 kg’
Wat is de kans dat een respondent minder dan 94 kg weegt
Nieuwe verdeling nodig om interventies te maken → steekproevenverdeling
Verdelingen
Populatieverdeling
o Verdeling van variabele in de populatie
o Waarden zijn zo goed als altijd onbekend, proberen schatten
Steekproefverdeling
o Verdeling van variabele in de steekproef
o Waarden zijn altijd bekend, kunnen allemaal berekend worden
Steekproevenverdeling
o Verdeling vn alle mogelijke steekproeven met zelfde n over een steekproefgrootheid
o ‘gedrag’ van steekproefgrootheid bij onbeperkt aantal trekkingen
o Vooraleer starten met inducatieve statistiek → studie van steekproevenverdeling van
gangbare steekproefgrootheden
Steekproevenverdeling = geeft weer hoe steekproefgrootheden variëren bij een onbeperkt aantal
herhaalde steekproeftrekkingen (theoretische verdeling) uit zelfde populatie met telkens zelfde
steekproefomvang (n)
Vb. verdeling van steekproefgemiddelden
5