Statistiek
Hoorcollege 1
——————————————
Toetsing
- Midterm (35%)
- Tentamen (65%)
Onderzoeksproces:
1. Data → Initial Observation
2. Generate Theory
3. Generate Hypotheses → Identify Variables
4. Collect Data to Test Theory → Measure Variables
5. Analyseren van data → Graph Data Fit a Model
(statistiek!!)
● Descriptieve statistiek:
- Steekproefgrootte (N)
- Gemiddeldes (mean) per conditie
- Standaard-deviatie (SD) bij elk gemiddelde
● Toetsende statistiek
- Zijn de verschillen significant?
- Ofwel: Kunnen we de uitkomsten van het experiment (met 115 kinderen)
generaliseren naar alle kinderen van de wereld?
Meetniveaus
1. Categoriële scores: coderen verschillende waarden
(bijv.: bloedgroep, links/-rechtshandigheid, oogkleur)
, ● Nominale scores duiden aan tot welke categorie van een variabele een
bepaald geval behoort.
● Ordinale scores zijn categoriaal, maar ze impliceren ook een ordening op een
bepaalde schaal.
2. Continue scores: duiden bepaalde hoeveelheden aan ‘van iets’
(bijv.: leeftijd, lengte, IQ)
● Interval scores duiden
- ‘Gelijkheid’, ‘ordening’, maar ook ‘verschil’
● Ratio scores duiden dus ook waarden aan op een bepaalde schaal, maar die
schaal kent een absoluut nulpunt.
- ‘Gelijkheid’, ‘ordening’, ‘verschil’, maar ook ‘verhouding’
- Voorbeeld: Rob weegt 90 kg en Mark weegt 60 kg
1. Rob en Mark hebben verschillende gewichten (90 ≠ 60) → nominaal
2. Rob weegt meer dan Mark (90 > 60) → ordinaal
3. Rob weegt 30 kg meer dan Mark (90 - 60 = 30) → interval
4. Rob weegt 1,5x zoveel als Mark → ratio
VARIABELE Categorical Continuous
NIVEAU Nominaal Ordinaal Interval Ratio
KENMERKENDE Categorieën Geordende Betekenisvolle Absoluut
EIGENSCHAP categorieën afstand nulpunt
BETEKENIS =, ≠ =, ≠, <, > =, ≠, <, >, +, - =, ≠, <, >, +, -, x, /
gelijkheid gelijkheid, gelijkheid, gelijkheid,
ordening ordening, verschil ordening, verschil,
verhouding
TOEGESTANE Tellen Tellen Tellen Tellen
OPERATIES Ordenen Ordenen Ordenen
Optellen Optellen
Aftrekken Aftrekken
Vermenigvuldigen
Delen
,Hoorcollege 2
——————————————————————————————
Data analyseren:
1. Frequenties-verdeling vaststellen
2. Histogram (= grafische weergave van een frequentieverdeling) maken
Frequentieverdelingen vertonen een bepaald patroon:
- Scores rond het gemiddeld zijn relatief frequent
- Scores ‘ver van’ het gemiddelde zijn relatief ‘zeldzaam’
→ dit patroon heeft een normaalverdeling
Descriptives: (Centrummaten Spreidingsmaten)
- N = steekproefgrootte
- Mean (M) = som van alle scores gedeeld door de steekproefgrootte
- Median = score waaronder en waarboven 50% van alles scores liggen
- Mode = score met de hoogste frequentie (= die het vaakst voorkomt)
- Standard deviation (SD) = gemiddelde afwijking van de scores t.o.v. het gemiddelde
- Variance ( s2) = standaarddeviatie in het kwadraat
Centrummaten
Formule Mean =
VARIABELE Categorical Continuous
NIVEAU Nominaal Ordinaal Interval Ratio
BETEKENIS (gelijkheid) (gelijkheid + (gelijkheid, (gelijkheid,
ordening) ordening, ordening, verschil,
verschil) verhouding)
GESCHIKTE Modus Modus Modus
CENTRUMMAAT Mediaan Mediaan
Mean
Welke te gebruiken: mean, mediaan, modus bij continue scores?
1. Als modus, mediaan en mean ongeveer gelijk zijn → MEAN
2. Verschillen ze evident van elkaar → check je dataset en ga na wat er gaande is
, Spreidingsmaten
Hoe ‘goed’ is dat gemiddelde nu in het karakteriseren van de individuele
scores?
- Soms behoorlijk goed”
lln 5 (= 4), mean zit ‘dichtbij’: 5.0 vs 4
- Soms matig:
lln 3 (= 3), mean zit er ‘verder’ vandaan: 5.0 vs 3
- Soms slecht:
lln 11 (= 8), mean zit er ver vandaan: 5.0 vs 8
Afwijkingen van individuele scores en de mean, noemen we ‘fouten’ (‘error’ of ‘residuals’)
→ Hoe ‘groter’ de spreiding, hoe ‘slechter’ de mean als karakteristiek van alle score
Standaarddeviatie (SD) → hoe ver zitten de data gemiddeld af van het gemiddelde
s= √ s2
2
s
Variantie ( ) →
1. Trek van elke score het gemiddelde af (xi−x )
2. Kwadrateer de uitkomsten van (xi−x )2
❑
3. Tel alle kwadraten van 2 bij elkaar op: ∑
❑
2
❑( xi−x )
4. Deel de uitkomst van 3 door N−1
Het gemiddelde van een set scores, is een statistisch model van die scores!
Outcomei=(model)+error i
- Outcome = individuele score die we ‘voorspellen’
- Model = statistische model waarmee we die voorspelling doen
- Error = ‘fout’ in de voorspelling
Afwijkingen van normaliteit → belangrijk!!
● Skewness: de symmetrie van de verdeling
- ‘Rechts-scheef’/negatief: ophoping bij lage
scores (aan de linkerkant dus)
- ‘Links-scheef’/positief: ophoping bij hoge scores
(aan de rechterkant dus)
● Kurtosis:
- ‘Leptokurtic’: hoge piek, weinig bij uiteinden
- ‘Platykurtic’: lage piek, veel bij uiteinden
Hoorcollege 1
——————————————
Toetsing
- Midterm (35%)
- Tentamen (65%)
Onderzoeksproces:
1. Data → Initial Observation
2. Generate Theory
3. Generate Hypotheses → Identify Variables
4. Collect Data to Test Theory → Measure Variables
5. Analyseren van data → Graph Data Fit a Model
(statistiek!!)
● Descriptieve statistiek:
- Steekproefgrootte (N)
- Gemiddeldes (mean) per conditie
- Standaard-deviatie (SD) bij elk gemiddelde
● Toetsende statistiek
- Zijn de verschillen significant?
- Ofwel: Kunnen we de uitkomsten van het experiment (met 115 kinderen)
generaliseren naar alle kinderen van de wereld?
Meetniveaus
1. Categoriële scores: coderen verschillende waarden
(bijv.: bloedgroep, links/-rechtshandigheid, oogkleur)
, ● Nominale scores duiden aan tot welke categorie van een variabele een
bepaald geval behoort.
● Ordinale scores zijn categoriaal, maar ze impliceren ook een ordening op een
bepaalde schaal.
2. Continue scores: duiden bepaalde hoeveelheden aan ‘van iets’
(bijv.: leeftijd, lengte, IQ)
● Interval scores duiden
- ‘Gelijkheid’, ‘ordening’, maar ook ‘verschil’
● Ratio scores duiden dus ook waarden aan op een bepaalde schaal, maar die
schaal kent een absoluut nulpunt.
- ‘Gelijkheid’, ‘ordening’, ‘verschil’, maar ook ‘verhouding’
- Voorbeeld: Rob weegt 90 kg en Mark weegt 60 kg
1. Rob en Mark hebben verschillende gewichten (90 ≠ 60) → nominaal
2. Rob weegt meer dan Mark (90 > 60) → ordinaal
3. Rob weegt 30 kg meer dan Mark (90 - 60 = 30) → interval
4. Rob weegt 1,5x zoveel als Mark → ratio
VARIABELE Categorical Continuous
NIVEAU Nominaal Ordinaal Interval Ratio
KENMERKENDE Categorieën Geordende Betekenisvolle Absoluut
EIGENSCHAP categorieën afstand nulpunt
BETEKENIS =, ≠ =, ≠, <, > =, ≠, <, >, +, - =, ≠, <, >, +, -, x, /
gelijkheid gelijkheid, gelijkheid, gelijkheid,
ordening ordening, verschil ordening, verschil,
verhouding
TOEGESTANE Tellen Tellen Tellen Tellen
OPERATIES Ordenen Ordenen Ordenen
Optellen Optellen
Aftrekken Aftrekken
Vermenigvuldigen
Delen
,Hoorcollege 2
——————————————————————————————
Data analyseren:
1. Frequenties-verdeling vaststellen
2. Histogram (= grafische weergave van een frequentieverdeling) maken
Frequentieverdelingen vertonen een bepaald patroon:
- Scores rond het gemiddeld zijn relatief frequent
- Scores ‘ver van’ het gemiddelde zijn relatief ‘zeldzaam’
→ dit patroon heeft een normaalverdeling
Descriptives: (Centrummaten Spreidingsmaten)
- N = steekproefgrootte
- Mean (M) = som van alle scores gedeeld door de steekproefgrootte
- Median = score waaronder en waarboven 50% van alles scores liggen
- Mode = score met de hoogste frequentie (= die het vaakst voorkomt)
- Standard deviation (SD) = gemiddelde afwijking van de scores t.o.v. het gemiddelde
- Variance ( s2) = standaarddeviatie in het kwadraat
Centrummaten
Formule Mean =
VARIABELE Categorical Continuous
NIVEAU Nominaal Ordinaal Interval Ratio
BETEKENIS (gelijkheid) (gelijkheid + (gelijkheid, (gelijkheid,
ordening) ordening, ordening, verschil,
verschil) verhouding)
GESCHIKTE Modus Modus Modus
CENTRUMMAAT Mediaan Mediaan
Mean
Welke te gebruiken: mean, mediaan, modus bij continue scores?
1. Als modus, mediaan en mean ongeveer gelijk zijn → MEAN
2. Verschillen ze evident van elkaar → check je dataset en ga na wat er gaande is
, Spreidingsmaten
Hoe ‘goed’ is dat gemiddelde nu in het karakteriseren van de individuele
scores?
- Soms behoorlijk goed”
lln 5 (= 4), mean zit ‘dichtbij’: 5.0 vs 4
- Soms matig:
lln 3 (= 3), mean zit er ‘verder’ vandaan: 5.0 vs 3
- Soms slecht:
lln 11 (= 8), mean zit er ver vandaan: 5.0 vs 8
Afwijkingen van individuele scores en de mean, noemen we ‘fouten’ (‘error’ of ‘residuals’)
→ Hoe ‘groter’ de spreiding, hoe ‘slechter’ de mean als karakteristiek van alle score
Standaarddeviatie (SD) → hoe ver zitten de data gemiddeld af van het gemiddelde
s= √ s2
2
s
Variantie ( ) →
1. Trek van elke score het gemiddelde af (xi−x )
2. Kwadrateer de uitkomsten van (xi−x )2
❑
3. Tel alle kwadraten van 2 bij elkaar op: ∑
❑
2
❑( xi−x )
4. Deel de uitkomst van 3 door N−1
Het gemiddelde van een set scores, is een statistisch model van die scores!
Outcomei=(model)+error i
- Outcome = individuele score die we ‘voorspellen’
- Model = statistische model waarmee we die voorspelling doen
- Error = ‘fout’ in de voorspelling
Afwijkingen van normaliteit → belangrijk!!
● Skewness: de symmetrie van de verdeling
- ‘Rechts-scheef’/negatief: ophoping bij lage
scores (aan de linkerkant dus)
- ‘Links-scheef’/positief: ophoping bij hoge scores
(aan de rechterkant dus)
● Kurtosis:
- ‘Leptokurtic’: hoge piek, weinig bij uiteinden
- ‘Platykurtic’: lage piek, veel bij uiteinden