GZW1026 – Introductie statistische methoden
Samenvatting gehele blok (Syllabus, videomateriaal en boek)
- Kwalitatieve en kwantitatieve variabelen
- Samenvatten van data
o Frequentieverdeling
o Staafdiagram
o Histogram
o Groepering
- Theoretische verdeling
o Theoretische verdeling
o Meting van centrale neiging (Gemiddelde, mediaan en modus)
o Meting van spreiding (Range, variantie en standaarddeviatie)
o Normale distributie (Modaliteit, Skewness en Kurtosis)
o Pearson-correlatie
o Regressie
▪ Least squared regression line
▪ R-square
- Interkwartielbereik
- Boxplot
- Kruistabelanalyse
o Relatief risico
o Odds ratio
o RR vs. OR
o Chi-square
- Statistical inference
o Betrouwbaarheidsintervallen
o Hypothesis test
- Van populatie naar steekproef
o Central limit theorem
o Sampling distribution
- Van steekproef naar populatie
- Responsiecollege
- OLS
- Hypothese testen
o Testen van de nulhypothese op 3 verschillende manieren
▪ P-waarde
▪ Betrouwbaarheidsinterval
▪ Test-statistic
• Z-test
• T-test
- Type 1 error, type 2 error en power of a test
- Statistical significance vs. Pratical significance
- One sample problem
- Two sample problem
o Dependent samples problem
o Independent samples problem
▪ (Un)pooled variance t-tests
- Paired difference procedures
- X2-kruistabelanalyse
- Hypothesetesten – Testen van regressieparameters
- Pooled variance t-test als regressie
- Assumpties met residual plots in simple lineair regression
- Samenvatting boek
o Variabelen
o Verdelingen
o Hypothesetoetsen
o T-toetsen
o X2-kruistabeltoets
o Enkelvoudige regressie
1
,1.Variabelen
Hoe hoger het niveau van de meting, hoe meer statistische testen er kunnen worden
gedaan: Nominaal → Ordinaal → Interval → Ratio (NOIR).
Het is daarom het beste om het hoogst mogelijke niveau te gebruiken om data
te verzamelen.
- Variabelen: Dingen die kunnen veranderen (tussen mensen of locaties
bijvoorbeeld
o Onafhankelijke variabele: Een variabele die gedacht wordt het oorzaak van
een effect te zijn. De onderzoeker zal deze variabele hebben gemanipuleerd
o Afhankelijke variabele: Een variabele waarvan gedacht wordt dat die
beïnvloed wordt door de onafhankelijke variabele
o Voorspellende variabele: Een variabele waarvan gedacht wordt dat hij de
uitkomstvariabele voorspelt (onafhankelijke variabele)
o Uitkomstvariabele: Een variabele waarvan gedacht wordt dat hij verandert als
functie van veranderingen in de voorspellende variabele (afhankelijke
variabele)
1.1 Kwalitatieve variabelen
- Ook wel categorisch of discrete variabelen genoemd
- Nominaal
o Laagste niveau van meting
o Onderverdeeld in discrete categorieën
o Geen natuurlijke volgorde
▪ Categorieën zijn niet geordend
o Categorisch of dichotoom
o Getallen zijn bepaalde waardes en hebben dus geen waarde
▪ De scores zelf hebben geen betekenis
o Mogelijke metingen
▪ Mode
▪ Modal percentage
▪ Range
▪ Frequency distribution
o Variabelen waarvoor de scores alleen bedoeld zijn om onderscheid te maken
tussen verschillende categorieën
o Bijvoorbeeld:
Haarkleur met de categorieën bruin, blond of rood kan worden gescoord als
1, 2 en 3.
o Ruimte tussen de scores heeft geen betekenis
o Men kan niet zeggen dat score 2 dubbel zoveel waard is als score 1
- Ordinaal
2
, o Geordende categorieën
▪ Wel natuurlijke ordening
▪ Zijn nominale variabelen waarvoor de categorieën zijn gerangschikt
o Relatieve ranking
o Onbekende afstand tussen rankings
▪ Ruimte tussen de categorieën heeft geen enkele betekenis
▪ Je kan namelijk niet zeggen dat score 2 twee keer zo hoog is als score 1
o SES is een variabele met bijvoorbeeld categorieën laag, midden en hoog.
Deze categorieën kunnen nog steeds scoren als 1, 2 en 3 of 2, 1 en 3.
o 0 is willekeurig
o Voorbeeld: Pijn ranken van 1-10
o De waarden in ordinale schaal geven enkel een volgorde aan
▪ Wanneer mensen aangeven dat ze voor pijnmedicatie een 8 gaven aan
de pijn en nu 3, weet je dat het is afgenomen. Maar hoeveel precies is
moeilijk te vertellen
o Mogelijke metingen:
▪ Alle metingen die bij nominaal kunnen worden gedaan
▪ Mediaan
▪ Percentage
▪ Semiquartile range
▪ Rank order coefficients of correlation
o Ordinale data kan worden geteld en geordend, maar niet gemeten
1.2 Kwantitatieve variabelen
- Ook wel continue variabelen genoemd
- Interval
o Geordende categorieën
o Gelijke afstand tussen waarden
▪ Kan verschillen meten
o Een geaccepteerde unit van meting
o 0 is willekeurig
▪ 0 betekent niet dat het niet bestaat, maar dat er een extra punt is
▪ 0 is niet het laagst mogelijke
o Voorbeelden:
▪ IQ is continu, kan waarden aannemen tussen 0 en 200 en elke waarde
tussen deze 2 eindpunten is mogelijk. Door de objectieve betekenis
kunnen IQ-scores vergeleken worden. Zo is de stijging van het IQ van
100 naar 110 gelijk aan de stijging van IQ van 150 naar 160
3
, ▪ Temperatuur (graden celsius). Een verhoging van 10 naar 20 is dezelfde
stijging als van 25 naar 25 graden
• Het is echter niet logisch om te zeggen dat 20 graden 2x zo warm is
als 10 graden. Dit komt omdat 0 willekeurige is gekozen als het
vriespunt van water
▪ Schooltoetsen
o Verschil tussen scores heeft wel een objectieve betekenis
o Intervalvariabelen bevatten dezelfde informatie als nominale en ordinale
variabelen, plus de extra informatie dat verschillen tussen scores zinvol
geïnterpreteerd kunnen worden.
o Mogelijke metingen
▪ Alle ordinale testen
▪ Gemiddelde
▪ Standaarddeviatie
▪ Optellen en aftrekken
• Kan niet vermenigvuldigen of delen → Doordat het niet echt een 0
heeft
- Ratio
o Meest precies
o Geordend
o Precieze waarden
o Gelijke intervals
o Natuurlijke 0
▪ Wanneer een variabele 0 is, betekent dat er geen variabele is
▪ We kunnen verschillende scores van een ratio-variabele vergelijken,
omdat er een vaste nulwaarde bestaat (0 leeftijd of 0 broers)
o Mogelijke metingen
▪ Gewicht
▪ Lengte
▪ Hartslag
▪ Bloeddruk
▪ Tijd
▪ Graden Kelvin
▪ Alles is mogelijk
• Beschrijvende en inferentieel
▪ Kan vergelijkingen maken
• Een baby van 8 kg is 2x zo zwaar als een baby van 4 kg
▪ Kan optellen, aftrekken, vermenigvuldigen, delen (ratios)
4
Samenvatting gehele blok (Syllabus, videomateriaal en boek)
- Kwalitatieve en kwantitatieve variabelen
- Samenvatten van data
o Frequentieverdeling
o Staafdiagram
o Histogram
o Groepering
- Theoretische verdeling
o Theoretische verdeling
o Meting van centrale neiging (Gemiddelde, mediaan en modus)
o Meting van spreiding (Range, variantie en standaarddeviatie)
o Normale distributie (Modaliteit, Skewness en Kurtosis)
o Pearson-correlatie
o Regressie
▪ Least squared regression line
▪ R-square
- Interkwartielbereik
- Boxplot
- Kruistabelanalyse
o Relatief risico
o Odds ratio
o RR vs. OR
o Chi-square
- Statistical inference
o Betrouwbaarheidsintervallen
o Hypothesis test
- Van populatie naar steekproef
o Central limit theorem
o Sampling distribution
- Van steekproef naar populatie
- Responsiecollege
- OLS
- Hypothese testen
o Testen van de nulhypothese op 3 verschillende manieren
▪ P-waarde
▪ Betrouwbaarheidsinterval
▪ Test-statistic
• Z-test
• T-test
- Type 1 error, type 2 error en power of a test
- Statistical significance vs. Pratical significance
- One sample problem
- Two sample problem
o Dependent samples problem
o Independent samples problem
▪ (Un)pooled variance t-tests
- Paired difference procedures
- X2-kruistabelanalyse
- Hypothesetesten – Testen van regressieparameters
- Pooled variance t-test als regressie
- Assumpties met residual plots in simple lineair regression
- Samenvatting boek
o Variabelen
o Verdelingen
o Hypothesetoetsen
o T-toetsen
o X2-kruistabeltoets
o Enkelvoudige regressie
1
,1.Variabelen
Hoe hoger het niveau van de meting, hoe meer statistische testen er kunnen worden
gedaan: Nominaal → Ordinaal → Interval → Ratio (NOIR).
Het is daarom het beste om het hoogst mogelijke niveau te gebruiken om data
te verzamelen.
- Variabelen: Dingen die kunnen veranderen (tussen mensen of locaties
bijvoorbeeld
o Onafhankelijke variabele: Een variabele die gedacht wordt het oorzaak van
een effect te zijn. De onderzoeker zal deze variabele hebben gemanipuleerd
o Afhankelijke variabele: Een variabele waarvan gedacht wordt dat die
beïnvloed wordt door de onafhankelijke variabele
o Voorspellende variabele: Een variabele waarvan gedacht wordt dat hij de
uitkomstvariabele voorspelt (onafhankelijke variabele)
o Uitkomstvariabele: Een variabele waarvan gedacht wordt dat hij verandert als
functie van veranderingen in de voorspellende variabele (afhankelijke
variabele)
1.1 Kwalitatieve variabelen
- Ook wel categorisch of discrete variabelen genoemd
- Nominaal
o Laagste niveau van meting
o Onderverdeeld in discrete categorieën
o Geen natuurlijke volgorde
▪ Categorieën zijn niet geordend
o Categorisch of dichotoom
o Getallen zijn bepaalde waardes en hebben dus geen waarde
▪ De scores zelf hebben geen betekenis
o Mogelijke metingen
▪ Mode
▪ Modal percentage
▪ Range
▪ Frequency distribution
o Variabelen waarvoor de scores alleen bedoeld zijn om onderscheid te maken
tussen verschillende categorieën
o Bijvoorbeeld:
Haarkleur met de categorieën bruin, blond of rood kan worden gescoord als
1, 2 en 3.
o Ruimte tussen de scores heeft geen betekenis
o Men kan niet zeggen dat score 2 dubbel zoveel waard is als score 1
- Ordinaal
2
, o Geordende categorieën
▪ Wel natuurlijke ordening
▪ Zijn nominale variabelen waarvoor de categorieën zijn gerangschikt
o Relatieve ranking
o Onbekende afstand tussen rankings
▪ Ruimte tussen de categorieën heeft geen enkele betekenis
▪ Je kan namelijk niet zeggen dat score 2 twee keer zo hoog is als score 1
o SES is een variabele met bijvoorbeeld categorieën laag, midden en hoog.
Deze categorieën kunnen nog steeds scoren als 1, 2 en 3 of 2, 1 en 3.
o 0 is willekeurig
o Voorbeeld: Pijn ranken van 1-10
o De waarden in ordinale schaal geven enkel een volgorde aan
▪ Wanneer mensen aangeven dat ze voor pijnmedicatie een 8 gaven aan
de pijn en nu 3, weet je dat het is afgenomen. Maar hoeveel precies is
moeilijk te vertellen
o Mogelijke metingen:
▪ Alle metingen die bij nominaal kunnen worden gedaan
▪ Mediaan
▪ Percentage
▪ Semiquartile range
▪ Rank order coefficients of correlation
o Ordinale data kan worden geteld en geordend, maar niet gemeten
1.2 Kwantitatieve variabelen
- Ook wel continue variabelen genoemd
- Interval
o Geordende categorieën
o Gelijke afstand tussen waarden
▪ Kan verschillen meten
o Een geaccepteerde unit van meting
o 0 is willekeurig
▪ 0 betekent niet dat het niet bestaat, maar dat er een extra punt is
▪ 0 is niet het laagst mogelijke
o Voorbeelden:
▪ IQ is continu, kan waarden aannemen tussen 0 en 200 en elke waarde
tussen deze 2 eindpunten is mogelijk. Door de objectieve betekenis
kunnen IQ-scores vergeleken worden. Zo is de stijging van het IQ van
100 naar 110 gelijk aan de stijging van IQ van 150 naar 160
3
, ▪ Temperatuur (graden celsius). Een verhoging van 10 naar 20 is dezelfde
stijging als van 25 naar 25 graden
• Het is echter niet logisch om te zeggen dat 20 graden 2x zo warm is
als 10 graden. Dit komt omdat 0 willekeurige is gekozen als het
vriespunt van water
▪ Schooltoetsen
o Verschil tussen scores heeft wel een objectieve betekenis
o Intervalvariabelen bevatten dezelfde informatie als nominale en ordinale
variabelen, plus de extra informatie dat verschillen tussen scores zinvol
geïnterpreteerd kunnen worden.
o Mogelijke metingen
▪ Alle ordinale testen
▪ Gemiddelde
▪ Standaarddeviatie
▪ Optellen en aftrekken
• Kan niet vermenigvuldigen of delen → Doordat het niet echt een 0
heeft
- Ratio
o Meest precies
o Geordend
o Precieze waarden
o Gelijke intervals
o Natuurlijke 0
▪ Wanneer een variabele 0 is, betekent dat er geen variabele is
▪ We kunnen verschillende scores van een ratio-variabele vergelijken,
omdat er een vaste nulwaarde bestaat (0 leeftijd of 0 broers)
o Mogelijke metingen
▪ Gewicht
▪ Lengte
▪ Hartslag
▪ Bloeddruk
▪ Tijd
▪ Graden Kelvin
▪ Alles is mogelijk
• Beschrijvende en inferentieel
▪ Kan vergelijkingen maken
• Een baby van 8 kg is 2x zo zwaar als een baby van 4 kg
▪ Kan optellen, aftrekken, vermenigvuldigen, delen (ratios)
4