Statistiek 1 samenvatting
Week 1
Meetniveaus
- Nominaal: categorie
o Categorieën (cijfers hebben geen betekenis)
o Speciaal geval: dichotome variabele heeft maar twee
categorieën (bijv. geslacht)
- Ordinaal: categorie + volgorde
o Categorieën met volgorde (cijfers hebben zelf geen betekenis,
maar wel belangrijk voor volgorde)
o Geen natuurlijk nulpunt
- Interval: categorie + volgorde + verschillen
o Cijfers hebben betekenis gelijke afstand in meetwaarden
o Geen natuurlijk nulpunt
- Ratio: categorie + volgorde + verschillen + verhouding
o Gelijke afstand in meetwaarden
o Natuurlijk nulpunt (bijv. 0 kilo is niks, bij 0 kinderen heb je geen
kinderen)
o Speciaal geval: absoluut meetniveau natuurlijke getallen
(tellen)
Frequentieverdeling – histogram
Frequentieverdeling is een grafiek waarbij de waardes van de uitkomsten op de
x-as staan en de hoogte van de bars aangeeft hoe vaak iedere waarde in de
dataset voorkomt. Frequenties staan dus op de y-as.
Frequentieverdeling is een kansverdeling
Diverse frequentieverdelingen
- Uniforme verdeling: alle uitkomsten komen even vaak voor
- Unimodale verdeling: normale verdeling
- Bimodale verdeling: twee pieken
- Multimodale verdeling: meerdere pieken
Normaalverdeling
- Middelste waarde = meest voorkomende waarde
- Waardes lopen af naar links en rechts -> uitkomsten zijn
onwaarschijnlijker
- Unimodale verdeling
- Gemiddelde = mediaan = modus
- 95% van de data ligt tussen + 2 sd en -2 sd van het gemiddelde ->
1.96 * sd
Bij de normaalverdeling kunnen verdelingen variëren in gemiddelde en sd. Er zijn
dus veel verschillende normaalverdelingen. De z-verdeling is de enige
standaardnormaal verdeling
,z-verdeling
z-verdeling is de gestandaardiseerde vorm van een normaalverdeling
- Gemiddelde = 0
- sd = 1
- 95% van de data ligt tussen de +1.96 sd en -1.96 sd -> kans om deze
data te vinden is waarschijnlijk
- 2.5% van de data ligt boven de +1.96 of onder de -1.96 -> kans om
deze data te vinden is klein
z-score: aantal standaarddeviaties boven of onder het gemiddelde
X−μ
Z= = gemiddelde, = standaarddeviatie, X = uitkomst
σ
Rekenen aan normale verdeling
Met de z-score kan je waarde opzoeken in de z-tabel. Er is een positieve en
negatieve z-tabel. In de rijen staat de eerste decimaal van de z-score en in de
kolommen de tweede decimaal. Hierdoor krijg je rechter en linker
overschrijdingskans in procenten.
Controleren normaliteit dataset
Gemiddelde en sd geven goede beschrijving van een normaal verdeelde
verdeling
- Skewness: maat voor scheefheid (modus < mediaan < gemiddelde)
o Positief scheve verdeling = >> 0 (piek ligt links)
o Negatief scheve verdeling = << 0 (piek ligt rechts)
- Kurtosis: maat voor platheid
o Leptokurtic = >> 0 (hele sterke piek, weinig data in staarten)
o Platykurtic = << 0 (hele lage piek, veel data in staarten)
Bij een skewness of kurtosis waarde van >1 of <-1 is er waarschijnlijk sprake
van een niet-normale verdeling
Inferentiële statistiek
Om een uitspraak te doen over de populatie wordt een
steekproef getrokken. Deze steekproef representeert
de populatie die je wil onderzoeken. Er wordt
beschrijvende statistiek toegepast, verdeling wordt
gecontroleerd en de steekproefresultaten worden
gegeven. Aan de hand hiervan wordt een hypothese
bevestigd of verworpen.
Voorwaarde steekproef: steekproef is aselect en
betrouwbaar
Populatie vs. steekproef
Populatie = complete verzameling Steekproef = deelverzameling
Parameter Kengetallen
x of M
s of SD
∑ ( X i −μ)
2
∑ ( xi−x)
2
2 2
σ = s=
N n−1
, Een steekproefresultaat wordt deels bepaald door toeval en door de populatie.
Een andere steekproef, zal dus ook een ander steekproefresultaat geven.
Week 1
Meetniveaus
- Nominaal: categorie
o Categorieën (cijfers hebben geen betekenis)
o Speciaal geval: dichotome variabele heeft maar twee
categorieën (bijv. geslacht)
- Ordinaal: categorie + volgorde
o Categorieën met volgorde (cijfers hebben zelf geen betekenis,
maar wel belangrijk voor volgorde)
o Geen natuurlijk nulpunt
- Interval: categorie + volgorde + verschillen
o Cijfers hebben betekenis gelijke afstand in meetwaarden
o Geen natuurlijk nulpunt
- Ratio: categorie + volgorde + verschillen + verhouding
o Gelijke afstand in meetwaarden
o Natuurlijk nulpunt (bijv. 0 kilo is niks, bij 0 kinderen heb je geen
kinderen)
o Speciaal geval: absoluut meetniveau natuurlijke getallen
(tellen)
Frequentieverdeling – histogram
Frequentieverdeling is een grafiek waarbij de waardes van de uitkomsten op de
x-as staan en de hoogte van de bars aangeeft hoe vaak iedere waarde in de
dataset voorkomt. Frequenties staan dus op de y-as.
Frequentieverdeling is een kansverdeling
Diverse frequentieverdelingen
- Uniforme verdeling: alle uitkomsten komen even vaak voor
- Unimodale verdeling: normale verdeling
- Bimodale verdeling: twee pieken
- Multimodale verdeling: meerdere pieken
Normaalverdeling
- Middelste waarde = meest voorkomende waarde
- Waardes lopen af naar links en rechts -> uitkomsten zijn
onwaarschijnlijker
- Unimodale verdeling
- Gemiddelde = mediaan = modus
- 95% van de data ligt tussen + 2 sd en -2 sd van het gemiddelde ->
1.96 * sd
Bij de normaalverdeling kunnen verdelingen variëren in gemiddelde en sd. Er zijn
dus veel verschillende normaalverdelingen. De z-verdeling is de enige
standaardnormaal verdeling
,z-verdeling
z-verdeling is de gestandaardiseerde vorm van een normaalverdeling
- Gemiddelde = 0
- sd = 1
- 95% van de data ligt tussen de +1.96 sd en -1.96 sd -> kans om deze
data te vinden is waarschijnlijk
- 2.5% van de data ligt boven de +1.96 of onder de -1.96 -> kans om
deze data te vinden is klein
z-score: aantal standaarddeviaties boven of onder het gemiddelde
X−μ
Z= = gemiddelde, = standaarddeviatie, X = uitkomst
σ
Rekenen aan normale verdeling
Met de z-score kan je waarde opzoeken in de z-tabel. Er is een positieve en
negatieve z-tabel. In de rijen staat de eerste decimaal van de z-score en in de
kolommen de tweede decimaal. Hierdoor krijg je rechter en linker
overschrijdingskans in procenten.
Controleren normaliteit dataset
Gemiddelde en sd geven goede beschrijving van een normaal verdeelde
verdeling
- Skewness: maat voor scheefheid (modus < mediaan < gemiddelde)
o Positief scheve verdeling = >> 0 (piek ligt links)
o Negatief scheve verdeling = << 0 (piek ligt rechts)
- Kurtosis: maat voor platheid
o Leptokurtic = >> 0 (hele sterke piek, weinig data in staarten)
o Platykurtic = << 0 (hele lage piek, veel data in staarten)
Bij een skewness of kurtosis waarde van >1 of <-1 is er waarschijnlijk sprake
van een niet-normale verdeling
Inferentiële statistiek
Om een uitspraak te doen over de populatie wordt een
steekproef getrokken. Deze steekproef representeert
de populatie die je wil onderzoeken. Er wordt
beschrijvende statistiek toegepast, verdeling wordt
gecontroleerd en de steekproefresultaten worden
gegeven. Aan de hand hiervan wordt een hypothese
bevestigd of verworpen.
Voorwaarde steekproef: steekproef is aselect en
betrouwbaar
Populatie vs. steekproef
Populatie = complete verzameling Steekproef = deelverzameling
Parameter Kengetallen
x of M
s of SD
∑ ( X i −μ)
2
∑ ( xi−x)
2
2 2
σ = s=
N n−1
, Een steekproefresultaat wordt deels bepaald door toeval en door de populatie.
Een andere steekproef, zal dus ook een ander steekproefresultaat geven.