STATISTIEK VOOR HUMANE WETENSCHAPPEN
Inhoud
Doel en inhoud.................................................................................................................... 5
Inleiding........................................................................................................................... 6
Inhoud en opbouw........................................................................................................ 6
Examen........................................................................................................................ 6
Hoofdstuk 1: Eerste verkenning van de datasets................................................................7
Structuur van data........................................................................................................... 7
Archeologische dataset: oxford-pots................................................................................7
Ecologische dataset: pollution.........................................................................................8
Meetniveaus (levels of measurement)...........................................................................10
Conventies voor aanmaak............................................................................................. 11
Tekstbestanden............................................................................................................. 11
Toepassing.................................................................................................................... 11
Video 1....................................................................................................................... 11
Video 2....................................................................................................................... 12
Hoofdstuk 2: Eerste verkenning van de software (RStudio)..............................................14
Inleiding......................................................................................................................... 14
Openen van bestand C02-session.R in RStudio..........................................................14
Over bestanden zoals C02-session.R..........................................................................14
Instellen van working directory......................................................................................14
Uitvoeren R-instructies............................................................................................... 15
Laden van packages...................................................................................................... 15
Beschikbaar maken van een package........................................................................15
Packages gebruikt in de sessie C02-session.R............................................................16
Meldingen die je krijgt bij activeren van tidyverse packages......................................16
Importeren data............................................................................................................. 16
Importeren van een tvs-bestand.................................................................................16
Inspecteren van dataset student.cvs (of student.txt).................................................16
Importeren van dataset students.csv.........................................................................17
Opvragen van documentatie......................................................................................18
Inspecteren van een object........................................................................................18
Inspecteren van eigenschappen van data frame........................................................19
Aanpassen van data frames.......................................................................................... 19
Nieuwe kolommen maken.......................................................................................... 19
Inspectie resultaat met frequentietabel......................................................................20
Inspectie resultaat met staafdiagram.........................................................................21
Inspectie structuur van object met str().....................................................................21
1
, Omzetting van character data naar factor..................................................................21
Veranderen van volgorde van levels met fct_relevel()................................................22
Verwijderen van een kolom met select ()...................................................................22
Hernoemen van levels met fct_recode().....................................................................23
Levels samenklappen met fct_recode()......................................................................23
Liever factor dan numerische codes voor categoriale variabelen...............................23
Liever logical variable dan numerische codes voor ja-nee-variabelen........................24
Verwijderen van verschillende kolommen met select()..............................................25
Aanmaken van vectoren met c()................................................................................25
Bewaren van data frame als tsv-bestand...................................................................25
Sorteren van een data frame met arrange()...............................................................26
Grafieken....................................................................................................................... 27
Spreidingsdiagram van languages tegenover statistics..............................................27
Staafdiagram voor math............................................................................................. 28
Staafdiagram voor sex................................................................................................ 28
Samenvatting................................................................................................................ 28
R afsluiten...................................................................................................................... 29
Hoofdstuk 3: Beschrijvende statistieken...........................................................................30
Inleiding......................................................................................................................... 30
Centraliteit..................................................................................................................... 30
Modus (mode)............................................................................................................. 31
Gemiddelde (mean).................................................................................................... 32
Mediaan (median)....................................................................................................... 33
Spreiding....................................................................................................................... 34
Bereik (range)............................................................................................................. 35
Variantie (variance).................................................................................................... 35
Standaarddeviatie (standard deviation).....................................................................35
Variatiecoëfficiënt (coefficient of variation)................................................................36
Interkwartielbereik (interquartile range).....................................................................36
Vorm.............................................................................................................................. 36
Correlatie....................................................................................................................... 36
Covariantie (covariance)............................................................................................. 36
Correlatie (correlation)............................................................................................... 37
Hoofdstuk 4: Datavisualisatie........................................................................................... 39
Inleiding......................................................................................................................... 39
Staafdiagram (bar plot)................................................................................................. 39
Histogram...................................................................................................................... 39
Cumulatieve frequentiegrafiek......................................................................................41
Boxplot.......................................................................................................................... 41
Smooth lines scatter plot............................................................................................... 42
2
,Hoofdstuk 5: Kansverdelingen.......................................................................................... 43
Inleiding......................................................................................................................... 43
Stochastisch experiment............................................................................................... 43
Kans (probability).......................................................................................................... 44
Kanswetten................................................................................................................. 46
Regel van Bayes (gestratificeerde data):....................................................................47
Kansverdeling (probability distribution).........................................................................48
Dichtheidsfunctie........................................................................................................ 48
Verdelingsfunctie........................................................................................................ 49
Kwantielfunctie........................................................................................................... 50
Populatieparameters.................................................................................................. 51
Modellen........................................................................................................................ 53
Binaire verdeling........................................................................................................ 53
Binomiale verdeling.................................................................................................... 55
Poissonverdeling......................................................................................................... 56
Exponentiële verdeling............................................................................................... 57
Normale verdeling...................................................................................................... 58
Andere verdelingen.................................................................................................... 60
Centrale limietstelling (CLT).......................................................................................... 60
Hoofdstuk 6: Normaliteitstoetsen.....................................................................................62
Inleiding......................................................................................................................... 62
Normaal kwantieldiagram.............................................................................................. 62
Shapiro-Wilktoets........................................................................................................... 66
Lilliefors-toets................................................................................................................ 66
Hoofdstuk 7: Betrouwbaarheidsintervallen.......................................................................68
Inleiding......................................................................................................................... 68
Met t-verdeling.............................................................................................................. 69
Met z-verdeling.............................................................................................................. 70
Voor proportie................................................................................................................ 70
Voor proportie, met t-verdeling..................................................................................71
Vereisten n voor bepaalde ε.......................................................................................... 71
Parameters σ en p invullen?.......................................................................................71
Hoofdstuk 8: Toetsen van hypotheses..............................................................................73
Inleiding......................................................................................................................... 73
Tweezijdige t-toets........................................................................................................ 73
Een ‘wat als’-redenering............................................................................................. 74
Eenzijdige t-toets........................................................................................................... 76
Eenzijdige t-toets, rechterstaart.................................................................................76
Eenzijdige t-toets, linkerstaart....................................................................................77
Eenzijdige versus tweezijdige t-toetsen......................................................................78
3
, CI................................................................................................................................... 78
De z-toets...................................................................................................................... 78
Stappen bij inferentiële toetsen.....................................................................................79
Kwaliteitsmaten............................................................................................................. 79
Effectgrootte.................................................................................................................. 80
Niet-parametrische toetsen........................................................................................... 81
Hoofdstuk 9: Toetsen in de praktijk..................................................................................82
Inleiding......................................................................................................................... 82
Centraliteit..................................................................................................................... 82
t-toets voor gemiddelde voor één groep....................................................................82
Rangtekentoets van Wilcoxon voor één groep...........................................................84
t-toets voor gemiddelde voor twee gepaarde groepen...............................................85
Rangtekentoets van Wilcoxon voor twee gepaarde groepen......................................87
Rangtekentoets van Wicoxon voor één groep............................................................87
t-toets voor gemiddelde voor twee onafhankelijke groepen.......................................87
Mann-Whitney-Wilcoxontoets voor twee onafhankelijke groepen...............................88
Frequentietabellen......................................................................................................... 89
Toetsen voor frequentietabellen.................................................................................89
Toetsen voor proporties................................................................................................. 96
t-toets voor een proportie........................................................................................... 96
Binominiale toets voor een proportie..........................................................................96
Toetsen voor correlatie.................................................................................................. 97
Pearson-correlatietoets............................................................................................... 97
Spearman-correlatietoets........................................................................................... 98
4
,Doel en inhoud
Doel van dit vak is om een basiskennis van toegepaste statistiek voor humane
wetenschappen te verwerven, met een attitude van aandacht voor statistische
significantie en een vaardigheid met statistische software. Statistische concepten en
methodes worden aangebracht op basis van reële datasets en met behulp van het
statistische pakket R.
De volgende concepten en technieken komen aan bod:
- Populatie en steekproef.
- Beschrijvende statistiek.
- Statistische modellen: kansregels, normale verdeling, binomiale verdeling.
- Verklarende statistiek. Schatting en standaardfout. Betrouwbaarheidsinterval voor
een gemiddelde en een proportie. Vereiste steekproefgrootte.
- Statistische test voor een hypothese: basisconcept, p-waarde.
- Tests voor gemiddelden en voor proporties, voor één groep en voor twee groepen:
z-test, t-tests, F-test, binomiale test.
- Niet-parametrische tests: mediaan, Wilcoxon, Mann-Whitney.
- Tests voor celverdelingen: chikwadraattest voor een celverdeling, voor een
kruistabel, voor homogeniteit; Fisher's exacte test.
- Lineaire regressie, correlatie.
5
,Inleiding
Inhoud en opbouw
Eerste deel (inleiding/eerste verkenning):
- Voorwoord – Inleiding
- Hoofdstuk 1 – Verkenning van de datasets
- Hoofdstuk 2 – Verkenning van de statistische software R
Tweede deel (descriptieve statistiek):
- Hoofdstuk 3 – Descriptieve statistieken
- Hoofdstuk 4 – Visualisatie van data (grafieken)
(descriptief <-> inferentieel)
Derde deel (opstap naar inferentiële statistiek)
- Hoofdstuk 5 – Verdelingen
- Hoofdstuk 6 – Testen van normaliteit
Vierde deel (basis van inferentiële statistiek)
- Hoofdstuk 7 – Betrouwbaarheidsintervallen
- Hoofdstuk 8 – Toetsen van hypotheses
- Hoofdstuk 9 – Gebruik van statistische toetsen
Vijfde deel (meer geavanceerde inferentiële statistiek)
- Hoofdstuk 10 – Regressie-analyse
Examen
- Schriftelijk en open book (toegelaten om cursusmateriaal mee te brengen)
- 5 vragen, telkens op 4 punten
- 3 uur de tijd
- De meeste vragen hebben een conceptuele component (welke strategie gebruik
je) en een praktische component (wat doe je met de software).
- Ook de praktische component is op papier (je beschrijft wat je doet; je doet het
niet daadwerkelijk op de computer)
6
,Hoofdstuk 1: Eerste verkenning van de
datasets
Structuur van data
Typische structuur van data
- Data in rechthoekig, tabelvormig blok
- Rijen zijn cases/observaties/items
Het zijn allemaal synoniemen voor rijen
- Kolommen zijn (bijna allemaal) variabelen
Variabelen waarop je de statistiek doet
Cellen zijn de waarden voor de variabelen
Archeologische dataset: oxford-pots
Toepassing
- Cases zijn 30 archeologische sites
30 rijen
Plus één rij voor de kolomnaam
- Onderzoek naar invloedssfeer van Oxford als productiecentrum van keramische
potten
- 4
variabelen die informatie geven over de
cases
distance: afstand van Oxford in km.
Afstand (in km) tussen
vindplaats en oxford
perc: percentage, van alle
potscherven gevonden in site, dat in
Oxford geproduceerd werd
logperc: de log10-transformatie van
perc (m.a.w. 10logperc = perc)
Logaritmische transformatie
van het andere percentage
river: is de site gemakkelijk vanop
het water bereikbaar vanuit Oxford?
(1=ja; 0=nee)
Categorisch
7
, Niet-lineair verband: hoe verder je van oxford gaat, hoe sneller het percentage
naar beneden gaat. Dichtbij heb je een hoog percentage.
Kenmerk van deze dataset
Cases hebben geen naam, label of identificatienummer. In R zullen ze daarom gewoon
gekend zijn als site 1, site 2, enz.
Ecologische dataset: pollution
Toepassing
- Cases zijn 60 steden uit de Verenigde staten
- Onderzoek naar invloed van pollutie op mortaliteit (maar de rijke dataset leent
zich ook tot het stellen van andere vragen)
Mortaliteit = sterftepercentage
Variabelen:
- Region: deel van de
Verenigde Staten waar de
stad gesitueerd is.
Mogelijke waarden zijn C
voor `center', SE voor
`south-east', N voor `north',
NE voor `north-east', en W
voor
- `west'.
- JanT: gemiddelde januari-
temperatuur (Fahrenheit)
8
Inhoud
Doel en inhoud.................................................................................................................... 5
Inleiding........................................................................................................................... 6
Inhoud en opbouw........................................................................................................ 6
Examen........................................................................................................................ 6
Hoofdstuk 1: Eerste verkenning van de datasets................................................................7
Structuur van data........................................................................................................... 7
Archeologische dataset: oxford-pots................................................................................7
Ecologische dataset: pollution.........................................................................................8
Meetniveaus (levels of measurement)...........................................................................10
Conventies voor aanmaak............................................................................................. 11
Tekstbestanden............................................................................................................. 11
Toepassing.................................................................................................................... 11
Video 1....................................................................................................................... 11
Video 2....................................................................................................................... 12
Hoofdstuk 2: Eerste verkenning van de software (RStudio)..............................................14
Inleiding......................................................................................................................... 14
Openen van bestand C02-session.R in RStudio..........................................................14
Over bestanden zoals C02-session.R..........................................................................14
Instellen van working directory......................................................................................14
Uitvoeren R-instructies............................................................................................... 15
Laden van packages...................................................................................................... 15
Beschikbaar maken van een package........................................................................15
Packages gebruikt in de sessie C02-session.R............................................................16
Meldingen die je krijgt bij activeren van tidyverse packages......................................16
Importeren data............................................................................................................. 16
Importeren van een tvs-bestand.................................................................................16
Inspecteren van dataset student.cvs (of student.txt).................................................16
Importeren van dataset students.csv.........................................................................17
Opvragen van documentatie......................................................................................18
Inspecteren van een object........................................................................................18
Inspecteren van eigenschappen van data frame........................................................19
Aanpassen van data frames.......................................................................................... 19
Nieuwe kolommen maken.......................................................................................... 19
Inspectie resultaat met frequentietabel......................................................................20
Inspectie resultaat met staafdiagram.........................................................................21
Inspectie structuur van object met str().....................................................................21
1
, Omzetting van character data naar factor..................................................................21
Veranderen van volgorde van levels met fct_relevel()................................................22
Verwijderen van een kolom met select ()...................................................................22
Hernoemen van levels met fct_recode().....................................................................23
Levels samenklappen met fct_recode()......................................................................23
Liever factor dan numerische codes voor categoriale variabelen...............................23
Liever logical variable dan numerische codes voor ja-nee-variabelen........................24
Verwijderen van verschillende kolommen met select()..............................................25
Aanmaken van vectoren met c()................................................................................25
Bewaren van data frame als tsv-bestand...................................................................25
Sorteren van een data frame met arrange()...............................................................26
Grafieken....................................................................................................................... 27
Spreidingsdiagram van languages tegenover statistics..............................................27
Staafdiagram voor math............................................................................................. 28
Staafdiagram voor sex................................................................................................ 28
Samenvatting................................................................................................................ 28
R afsluiten...................................................................................................................... 29
Hoofdstuk 3: Beschrijvende statistieken...........................................................................30
Inleiding......................................................................................................................... 30
Centraliteit..................................................................................................................... 30
Modus (mode)............................................................................................................. 31
Gemiddelde (mean).................................................................................................... 32
Mediaan (median)....................................................................................................... 33
Spreiding....................................................................................................................... 34
Bereik (range)............................................................................................................. 35
Variantie (variance).................................................................................................... 35
Standaarddeviatie (standard deviation).....................................................................35
Variatiecoëfficiënt (coefficient of variation)................................................................36
Interkwartielbereik (interquartile range).....................................................................36
Vorm.............................................................................................................................. 36
Correlatie....................................................................................................................... 36
Covariantie (covariance)............................................................................................. 36
Correlatie (correlation)............................................................................................... 37
Hoofdstuk 4: Datavisualisatie........................................................................................... 39
Inleiding......................................................................................................................... 39
Staafdiagram (bar plot)................................................................................................. 39
Histogram...................................................................................................................... 39
Cumulatieve frequentiegrafiek......................................................................................41
Boxplot.......................................................................................................................... 41
Smooth lines scatter plot............................................................................................... 42
2
,Hoofdstuk 5: Kansverdelingen.......................................................................................... 43
Inleiding......................................................................................................................... 43
Stochastisch experiment............................................................................................... 43
Kans (probability).......................................................................................................... 44
Kanswetten................................................................................................................. 46
Regel van Bayes (gestratificeerde data):....................................................................47
Kansverdeling (probability distribution).........................................................................48
Dichtheidsfunctie........................................................................................................ 48
Verdelingsfunctie........................................................................................................ 49
Kwantielfunctie........................................................................................................... 50
Populatieparameters.................................................................................................. 51
Modellen........................................................................................................................ 53
Binaire verdeling........................................................................................................ 53
Binomiale verdeling.................................................................................................... 55
Poissonverdeling......................................................................................................... 56
Exponentiële verdeling............................................................................................... 57
Normale verdeling...................................................................................................... 58
Andere verdelingen.................................................................................................... 60
Centrale limietstelling (CLT).......................................................................................... 60
Hoofdstuk 6: Normaliteitstoetsen.....................................................................................62
Inleiding......................................................................................................................... 62
Normaal kwantieldiagram.............................................................................................. 62
Shapiro-Wilktoets........................................................................................................... 66
Lilliefors-toets................................................................................................................ 66
Hoofdstuk 7: Betrouwbaarheidsintervallen.......................................................................68
Inleiding......................................................................................................................... 68
Met t-verdeling.............................................................................................................. 69
Met z-verdeling.............................................................................................................. 70
Voor proportie................................................................................................................ 70
Voor proportie, met t-verdeling..................................................................................71
Vereisten n voor bepaalde ε.......................................................................................... 71
Parameters σ en p invullen?.......................................................................................71
Hoofdstuk 8: Toetsen van hypotheses..............................................................................73
Inleiding......................................................................................................................... 73
Tweezijdige t-toets........................................................................................................ 73
Een ‘wat als’-redenering............................................................................................. 74
Eenzijdige t-toets........................................................................................................... 76
Eenzijdige t-toets, rechterstaart.................................................................................76
Eenzijdige t-toets, linkerstaart....................................................................................77
Eenzijdige versus tweezijdige t-toetsen......................................................................78
3
, CI................................................................................................................................... 78
De z-toets...................................................................................................................... 78
Stappen bij inferentiële toetsen.....................................................................................79
Kwaliteitsmaten............................................................................................................. 79
Effectgrootte.................................................................................................................. 80
Niet-parametrische toetsen........................................................................................... 81
Hoofdstuk 9: Toetsen in de praktijk..................................................................................82
Inleiding......................................................................................................................... 82
Centraliteit..................................................................................................................... 82
t-toets voor gemiddelde voor één groep....................................................................82
Rangtekentoets van Wilcoxon voor één groep...........................................................84
t-toets voor gemiddelde voor twee gepaarde groepen...............................................85
Rangtekentoets van Wilcoxon voor twee gepaarde groepen......................................87
Rangtekentoets van Wicoxon voor één groep............................................................87
t-toets voor gemiddelde voor twee onafhankelijke groepen.......................................87
Mann-Whitney-Wilcoxontoets voor twee onafhankelijke groepen...............................88
Frequentietabellen......................................................................................................... 89
Toetsen voor frequentietabellen.................................................................................89
Toetsen voor proporties................................................................................................. 96
t-toets voor een proportie........................................................................................... 96
Binominiale toets voor een proportie..........................................................................96
Toetsen voor correlatie.................................................................................................. 97
Pearson-correlatietoets............................................................................................... 97
Spearman-correlatietoets........................................................................................... 98
4
,Doel en inhoud
Doel van dit vak is om een basiskennis van toegepaste statistiek voor humane
wetenschappen te verwerven, met een attitude van aandacht voor statistische
significantie en een vaardigheid met statistische software. Statistische concepten en
methodes worden aangebracht op basis van reële datasets en met behulp van het
statistische pakket R.
De volgende concepten en technieken komen aan bod:
- Populatie en steekproef.
- Beschrijvende statistiek.
- Statistische modellen: kansregels, normale verdeling, binomiale verdeling.
- Verklarende statistiek. Schatting en standaardfout. Betrouwbaarheidsinterval voor
een gemiddelde en een proportie. Vereiste steekproefgrootte.
- Statistische test voor een hypothese: basisconcept, p-waarde.
- Tests voor gemiddelden en voor proporties, voor één groep en voor twee groepen:
z-test, t-tests, F-test, binomiale test.
- Niet-parametrische tests: mediaan, Wilcoxon, Mann-Whitney.
- Tests voor celverdelingen: chikwadraattest voor een celverdeling, voor een
kruistabel, voor homogeniteit; Fisher's exacte test.
- Lineaire regressie, correlatie.
5
,Inleiding
Inhoud en opbouw
Eerste deel (inleiding/eerste verkenning):
- Voorwoord – Inleiding
- Hoofdstuk 1 – Verkenning van de datasets
- Hoofdstuk 2 – Verkenning van de statistische software R
Tweede deel (descriptieve statistiek):
- Hoofdstuk 3 – Descriptieve statistieken
- Hoofdstuk 4 – Visualisatie van data (grafieken)
(descriptief <-> inferentieel)
Derde deel (opstap naar inferentiële statistiek)
- Hoofdstuk 5 – Verdelingen
- Hoofdstuk 6 – Testen van normaliteit
Vierde deel (basis van inferentiële statistiek)
- Hoofdstuk 7 – Betrouwbaarheidsintervallen
- Hoofdstuk 8 – Toetsen van hypotheses
- Hoofdstuk 9 – Gebruik van statistische toetsen
Vijfde deel (meer geavanceerde inferentiële statistiek)
- Hoofdstuk 10 – Regressie-analyse
Examen
- Schriftelijk en open book (toegelaten om cursusmateriaal mee te brengen)
- 5 vragen, telkens op 4 punten
- 3 uur de tijd
- De meeste vragen hebben een conceptuele component (welke strategie gebruik
je) en een praktische component (wat doe je met de software).
- Ook de praktische component is op papier (je beschrijft wat je doet; je doet het
niet daadwerkelijk op de computer)
6
,Hoofdstuk 1: Eerste verkenning van de
datasets
Structuur van data
Typische structuur van data
- Data in rechthoekig, tabelvormig blok
- Rijen zijn cases/observaties/items
Het zijn allemaal synoniemen voor rijen
- Kolommen zijn (bijna allemaal) variabelen
Variabelen waarop je de statistiek doet
Cellen zijn de waarden voor de variabelen
Archeologische dataset: oxford-pots
Toepassing
- Cases zijn 30 archeologische sites
30 rijen
Plus één rij voor de kolomnaam
- Onderzoek naar invloedssfeer van Oxford als productiecentrum van keramische
potten
- 4
variabelen die informatie geven over de
cases
distance: afstand van Oxford in km.
Afstand (in km) tussen
vindplaats en oxford
perc: percentage, van alle
potscherven gevonden in site, dat in
Oxford geproduceerd werd
logperc: de log10-transformatie van
perc (m.a.w. 10logperc = perc)
Logaritmische transformatie
van het andere percentage
river: is de site gemakkelijk vanop
het water bereikbaar vanuit Oxford?
(1=ja; 0=nee)
Categorisch
7
, Niet-lineair verband: hoe verder je van oxford gaat, hoe sneller het percentage
naar beneden gaat. Dichtbij heb je een hoog percentage.
Kenmerk van deze dataset
Cases hebben geen naam, label of identificatienummer. In R zullen ze daarom gewoon
gekend zijn als site 1, site 2, enz.
Ecologische dataset: pollution
Toepassing
- Cases zijn 60 steden uit de Verenigde staten
- Onderzoek naar invloed van pollutie op mortaliteit (maar de rijke dataset leent
zich ook tot het stellen van andere vragen)
Mortaliteit = sterftepercentage
Variabelen:
- Region: deel van de
Verenigde Staten waar de
stad gesitueerd is.
Mogelijke waarden zijn C
voor `center', SE voor
`south-east', N voor `north',
NE voor `north-east', en W
voor
- `west'.
- JanT: gemiddelde januari-
temperatuur (Fahrenheit)
8