ONDERZOEKSTRAINING 2
Module 1: Onderzoek samenhang tussen twee kwalitatieve variabelen........................................................... 2
(On)afhankelijkheid............................................................................................................................................2
1.2 Achtergrond Pearson X2-grootheid onderzoek gegeven kansverdeling.................................................... 3
1.3 Toepassing Pearson X2-grootheid onderzoek afhankelijkheid....................................................................5
Toets onafhankelijkheid..................................................................................................................................... 7
Onafhankelijkheid van X en Y............................................................................................................................8
Waargenomen waarde toetsgrootheid:..............................................................................................................9
1.4 Kruistabel: bijzonderheden..............................................................................................................................9
Minimaal vereiste steekproefomvang.............................................................................................................. 10
Aard en mate van de samenhang, rapportage................................................................................................ 13
Module 2: Bivariate analyse spreidingsdiagram, covariantie en correlatiecoëfficiënt.................................. 14
2.1 Spreidingsdiagrammen (scatter plots)......................................................................................................... 14
2.2 Steekproefcovariantie en Pearson’s correlatiecoëfficiënt Robs (+ standaarddeviatie)...........................16
Partiële correlatiecoëfficiënt.............................................................................................................................17
2.3 Achtergrond Pearson’s correlatiecoëfficiënt en toetsen............................................................................ 18
2.4 Toetsen statistische onafhankelijkheid. Tobs.............................................................................................. 19
2.5. Bijzonderheden Pearson’s correlatiecoëfficiënt.........................................................................................19
Fisher-transformatie.........................................................................................................................................20
Spearman’s rangcorrelatie...............................................................................................................................21
Module 3: Bivariate analyse, t-toets....................................................................................................................22
3.2 T-toets met Pooled Variance (Tp).................................................................................................................. 25
3.3 T-toets met Separate Variance (Ts) → de Welch’s t-toets........................................................................... 25
3.4 F-test voor variantie........................................................................................................................................26
Toepassing op t-toetsen (7 stappen schema’s)................................................................................................. 27
F toets 7 stappen schema............................................................................................................................... 28
TP 7 stappen schema......................................................................................................................................28
Betrouwbaarheidsinterval................................................................................................................................ 28
Standaardfout.................................................................................................................................................. 29
Module 4: Bivariate analyse, variantie analyse (Anova)................................................................................... 30
4.1 Idee van variantieanalyse...............................................................................................................................30
4.2 One way Anova: Theoretische achtergrond.................................................................................................31
Anova-tabel......................................................................................................................................................33
De F-toets........................................................................................................................................................ 34
Puntschatting verschil gemiddelden & geschatte staandaardfout verschil steekproefgemiddelden..........35
Verschillen gewone betrouwbaarheid en simultane betrouwbaarheid:............................................................36
Het berekenen van simultane intervalschattingen voor alle paarsgewijze verschillen tussen
populatiegemiddelden......................................................................................................................................37
Uitvoering in R:................................................................................................................................................ 37
4.3 Two-way Anova............................................................................................................................................... 37
4.4 Toepassing toetsen........................................................................................................................................ 41
Uitvoeren variantieanalysie met R................................................................................................................... 42
Aard van samenhang, rapportage................................................................................................................... 43
Vuistregel......................................................................................................................................................... 44
Verdelingsvrije toetsen.....................................................................................................................................46
Toetsen en aantal vrijheidsgraden...................................................................................................................... 48
Wat wanneer gebruiken met voorbeeldvragen:................................................................................................. 49
Verschillende toetsen en alternatieven...............................................................................................................51
Betrouwbaarheidsinterval op basis van foutenmarge......................................................................................52
1
,Module 1: Onderzoek samenhang tussen twee kwalitatieve variabelen
Binomiaal: 2 uitkomsten
Multinomiaal: meer dan 2 uitkomsten (alle uitkomsten zijn uniform): voorbeeld: dobbelsteen
Wat weten we over onderzoek naar samenhang tussen twee kwalitatieve variabelen?
- Kenmerkend: uitkomsten kwalitatieve variabelen hebben geen afstandsinterpretatie,
vaak ook geen volgorde-interpretatie (kwalitatief zijn namelijk dingen die je kunt
omschrijven, niet meten. Vaak dus geen cijfers)
- Gevolg: Er kan alleen geteld worden hoe vaak combinaties van uitkomsten
voorkomen. Het berekenen van gemiddelden of varianties is voor deze tabel niet
zinvol. (Het is bijvoorbeeld nutteloos om het gemiddelde automerk te berekenen)
- Oplossing: Maken (2-dimensionale) frequentietabellen (kruistabellen) of
staafdiagrammen. Hier wordt namelijk duidelijk hoe vaak bepaalde combinaties
voorkomen
- Probleem: Hoe zijn samenhangen te ontdekken in kruistabellen of
staafdiagrammen? Hoe wordt statische (on)afhankelijkheid onderzocht?
Bijvoorbeeld: Is er echt een verband tussen iemands favoriete seizoen en het
automerk? → Om dat uit te zoeken, gebruiken onderzoekers speciale methodes,
zoals testen of de variabelen statistisch onafhankelijk zijn. Dit betekent dat ze kijken
of het ene geen invloed heeft op het andere.
(On)afhankelijkheid
→ gaat over de vraag of variabelen elkaar beïnvloeden of niet.
Wat is de waargenomen verdeling?
Dit is wat we daadwerkelijk zien in de data. Bijvoorbeeld, hoe vaak bepaalde combinaties
van variabelen voorkomen in jouw onderzoek.
Wat is de verwachte verdeling?
Dit is wat je zou verwachten als de variabelen onafhankelijk van elkaar zijn. Deze verdeling
wordt berekend op basis van het idee dat de ene variabele geen invloed heeft op de andere.
Hoe testen we onafhankelijkheid?
- We vergelijken de waargenomen verdeling (wat we zien in de data: b.v . hoe vaak
bepaalde combinaties van variabelen voorkomen), met de verwachte verdeling (wat
we zouden verwachten als er geen verband is: b.v. hoe vaak zouden mensen voor X
kiezen, als Y daar geen invloed op zou hebben)
- Onafhankelijkheid: als de waargenomen verdeling lijkt op de verwachte verdeling.
- Afhankelijkheid: als de waargenomen verdeling niet lijkt op de verwachte verdeling
(de ene variabele heeft geen invloed op de andere)
Afhankelijke variabele: waarover we een voorspelling willen doen of een hypothese willen
testen
Onafhankelijke variabele: de variabele die we gebruiken om die voorspelling te maken
2
,Statische samenhang: Als tussen twee variabelen een patroon zichtbaar is in de
gezamenlijke uitkomsten.
→ Als je weet hoe X zich gedraagt, kun je beter voorspellen hoe Y zich waarschijnlijk zal
gedragen.
Statisch onafhankelijk verdeeld: als informatie over X, geen enkele informatie geeft over
de uitkomsten van Y.
1.2 Achtergrond Pearson X2-grootheid onderzoek gegeven kansverdeling
→ gebruik je om te kijken of de waarnemingen dicht genoeg bij de verwachtingen liggen.
Uniform en gegeven verdeling.
Komen de waargenomen frequenties in een kruistabel overeen met de frequenties die je zou
verwachten als de variabelen onafhankelijk van elkaar zijn?
Stappenplan:
1. Bepalen nulhypothese H0
2. Bepalen verwachte frequenties onder H0
3. Lees waargenomen frequenties af uit output (uit kruistabel die eerder gemaakt is)
4. Vergelijk waargenomen en verwachte frequenties → Het idee is: als de
waargenomen frequentie dicht bij de verwachte frequentie ligt, kunnen we stellen dat
de variabele aan onze verwachting voldoet. (In dit geval dat de verdeling uniform is)
→ probleem: we hebben geen enkel antwoord, maar 3 losse antwoorden. We hebben ook
nog niet vastgesteld of deze verschillen groot of klein zijn.
3
, Oplossing: samenvattende maatstaf
Om te kijken of de veronderstelling klopt, vergelijken we de verwachte en waargenomen
frequenties. Liggen ze dicht bij elkaar, dan kunnen we de H0 aannemen. Zo niet, dan
verwerpen we H0. → Wordt altijd rechtszijdig uitgevoerd
→ De max van het verschil wordt aangegeven met punt CR (De rechter kritieke waarde).
Om dit punt te vinden maken we gebruik van de X^2 verdeling.
In R: aantal df is aantal categorieën - 1. Dus 2.
→ qchisq(0.95,2)
We richten de toets zo in dat we een kans hebben op het maken van een fout van de eerste
soort. Dit doen we met a = ..
df (aantal categorieën en niet n - 1)
4
Module 1: Onderzoek samenhang tussen twee kwalitatieve variabelen........................................................... 2
(On)afhankelijkheid............................................................................................................................................2
1.2 Achtergrond Pearson X2-grootheid onderzoek gegeven kansverdeling.................................................... 3
1.3 Toepassing Pearson X2-grootheid onderzoek afhankelijkheid....................................................................5
Toets onafhankelijkheid..................................................................................................................................... 7
Onafhankelijkheid van X en Y............................................................................................................................8
Waargenomen waarde toetsgrootheid:..............................................................................................................9
1.4 Kruistabel: bijzonderheden..............................................................................................................................9
Minimaal vereiste steekproefomvang.............................................................................................................. 10
Aard en mate van de samenhang, rapportage................................................................................................ 13
Module 2: Bivariate analyse spreidingsdiagram, covariantie en correlatiecoëfficiënt.................................. 14
2.1 Spreidingsdiagrammen (scatter plots)......................................................................................................... 14
2.2 Steekproefcovariantie en Pearson’s correlatiecoëfficiënt Robs (+ standaarddeviatie)...........................16
Partiële correlatiecoëfficiënt.............................................................................................................................17
2.3 Achtergrond Pearson’s correlatiecoëfficiënt en toetsen............................................................................ 18
2.4 Toetsen statistische onafhankelijkheid. Tobs.............................................................................................. 19
2.5. Bijzonderheden Pearson’s correlatiecoëfficiënt.........................................................................................19
Fisher-transformatie.........................................................................................................................................20
Spearman’s rangcorrelatie...............................................................................................................................21
Module 3: Bivariate analyse, t-toets....................................................................................................................22
3.2 T-toets met Pooled Variance (Tp).................................................................................................................. 25
3.3 T-toets met Separate Variance (Ts) → de Welch’s t-toets........................................................................... 25
3.4 F-test voor variantie........................................................................................................................................26
Toepassing op t-toetsen (7 stappen schema’s)................................................................................................. 27
F toets 7 stappen schema............................................................................................................................... 28
TP 7 stappen schema......................................................................................................................................28
Betrouwbaarheidsinterval................................................................................................................................ 28
Standaardfout.................................................................................................................................................. 29
Module 4: Bivariate analyse, variantie analyse (Anova)................................................................................... 30
4.1 Idee van variantieanalyse...............................................................................................................................30
4.2 One way Anova: Theoretische achtergrond.................................................................................................31
Anova-tabel......................................................................................................................................................33
De F-toets........................................................................................................................................................ 34
Puntschatting verschil gemiddelden & geschatte staandaardfout verschil steekproefgemiddelden..........35
Verschillen gewone betrouwbaarheid en simultane betrouwbaarheid:............................................................36
Het berekenen van simultane intervalschattingen voor alle paarsgewijze verschillen tussen
populatiegemiddelden......................................................................................................................................37
Uitvoering in R:................................................................................................................................................ 37
4.3 Two-way Anova............................................................................................................................................... 37
4.4 Toepassing toetsen........................................................................................................................................ 41
Uitvoeren variantieanalysie met R................................................................................................................... 42
Aard van samenhang, rapportage................................................................................................................... 43
Vuistregel......................................................................................................................................................... 44
Verdelingsvrije toetsen.....................................................................................................................................46
Toetsen en aantal vrijheidsgraden...................................................................................................................... 48
Wat wanneer gebruiken met voorbeeldvragen:................................................................................................. 49
Verschillende toetsen en alternatieven...............................................................................................................51
Betrouwbaarheidsinterval op basis van foutenmarge......................................................................................52
1
,Module 1: Onderzoek samenhang tussen twee kwalitatieve variabelen
Binomiaal: 2 uitkomsten
Multinomiaal: meer dan 2 uitkomsten (alle uitkomsten zijn uniform): voorbeeld: dobbelsteen
Wat weten we over onderzoek naar samenhang tussen twee kwalitatieve variabelen?
- Kenmerkend: uitkomsten kwalitatieve variabelen hebben geen afstandsinterpretatie,
vaak ook geen volgorde-interpretatie (kwalitatief zijn namelijk dingen die je kunt
omschrijven, niet meten. Vaak dus geen cijfers)
- Gevolg: Er kan alleen geteld worden hoe vaak combinaties van uitkomsten
voorkomen. Het berekenen van gemiddelden of varianties is voor deze tabel niet
zinvol. (Het is bijvoorbeeld nutteloos om het gemiddelde automerk te berekenen)
- Oplossing: Maken (2-dimensionale) frequentietabellen (kruistabellen) of
staafdiagrammen. Hier wordt namelijk duidelijk hoe vaak bepaalde combinaties
voorkomen
- Probleem: Hoe zijn samenhangen te ontdekken in kruistabellen of
staafdiagrammen? Hoe wordt statische (on)afhankelijkheid onderzocht?
Bijvoorbeeld: Is er echt een verband tussen iemands favoriete seizoen en het
automerk? → Om dat uit te zoeken, gebruiken onderzoekers speciale methodes,
zoals testen of de variabelen statistisch onafhankelijk zijn. Dit betekent dat ze kijken
of het ene geen invloed heeft op het andere.
(On)afhankelijkheid
→ gaat over de vraag of variabelen elkaar beïnvloeden of niet.
Wat is de waargenomen verdeling?
Dit is wat we daadwerkelijk zien in de data. Bijvoorbeeld, hoe vaak bepaalde combinaties
van variabelen voorkomen in jouw onderzoek.
Wat is de verwachte verdeling?
Dit is wat je zou verwachten als de variabelen onafhankelijk van elkaar zijn. Deze verdeling
wordt berekend op basis van het idee dat de ene variabele geen invloed heeft op de andere.
Hoe testen we onafhankelijkheid?
- We vergelijken de waargenomen verdeling (wat we zien in de data: b.v . hoe vaak
bepaalde combinaties van variabelen voorkomen), met de verwachte verdeling (wat
we zouden verwachten als er geen verband is: b.v. hoe vaak zouden mensen voor X
kiezen, als Y daar geen invloed op zou hebben)
- Onafhankelijkheid: als de waargenomen verdeling lijkt op de verwachte verdeling.
- Afhankelijkheid: als de waargenomen verdeling niet lijkt op de verwachte verdeling
(de ene variabele heeft geen invloed op de andere)
Afhankelijke variabele: waarover we een voorspelling willen doen of een hypothese willen
testen
Onafhankelijke variabele: de variabele die we gebruiken om die voorspelling te maken
2
,Statische samenhang: Als tussen twee variabelen een patroon zichtbaar is in de
gezamenlijke uitkomsten.
→ Als je weet hoe X zich gedraagt, kun je beter voorspellen hoe Y zich waarschijnlijk zal
gedragen.
Statisch onafhankelijk verdeeld: als informatie over X, geen enkele informatie geeft over
de uitkomsten van Y.
1.2 Achtergrond Pearson X2-grootheid onderzoek gegeven kansverdeling
→ gebruik je om te kijken of de waarnemingen dicht genoeg bij de verwachtingen liggen.
Uniform en gegeven verdeling.
Komen de waargenomen frequenties in een kruistabel overeen met de frequenties die je zou
verwachten als de variabelen onafhankelijk van elkaar zijn?
Stappenplan:
1. Bepalen nulhypothese H0
2. Bepalen verwachte frequenties onder H0
3. Lees waargenomen frequenties af uit output (uit kruistabel die eerder gemaakt is)
4. Vergelijk waargenomen en verwachte frequenties → Het idee is: als de
waargenomen frequentie dicht bij de verwachte frequentie ligt, kunnen we stellen dat
de variabele aan onze verwachting voldoet. (In dit geval dat de verdeling uniform is)
→ probleem: we hebben geen enkel antwoord, maar 3 losse antwoorden. We hebben ook
nog niet vastgesteld of deze verschillen groot of klein zijn.
3
, Oplossing: samenvattende maatstaf
Om te kijken of de veronderstelling klopt, vergelijken we de verwachte en waargenomen
frequenties. Liggen ze dicht bij elkaar, dan kunnen we de H0 aannemen. Zo niet, dan
verwerpen we H0. → Wordt altijd rechtszijdig uitgevoerd
→ De max van het verschil wordt aangegeven met punt CR (De rechter kritieke waarde).
Om dit punt te vinden maken we gebruik van de X^2 verdeling.
In R: aantal df is aantal categorieën - 1. Dus 2.
→ qchisq(0.95,2)
We richten de toets zo in dat we een kans hebben op het maken van een fout van de eerste
soort. Dit doen we met a = ..
df (aantal categorieën en niet n - 1)
4