SAMENVATTING
STATISTIEK VOOR DE HUMANE WETENSCHAPPEN
FIEN GILIAS
,Inhoudstafel
1 – eerste verkenning van de datasets ............................................................................................... 6
meetniveaus (level of measurement) ............................................................................................................ 6
Onderscheid 1: sta/s/sche vs non-sta/s/sche variabelen ........................................................................................ 6
Onderscheid 2: categorische vs numerische variabelen ............................................................................................ 6
2 – basisinstruc5es in rstudio ............................................................................................................. 7
inleiding ....................................................................................................................................................... 7
Se<ng work directory ............................................................................................................................................... 7
Uitvoeren R-instruc/es .............................................................................................................................................. 7
Beschikbaar maken van een package ........................................................................................................................ 7
Meldingen die je krijgt bij ac/veren van /dyverse packages..................................................................................... 7
importeren data ........................................................................................................................................... 8
Importeren van een tsv-bestand ............................................................................................................................... 8
Bestanden inspecteren .............................................................................................................................................. 8
Importeren van dataset ............................................................................................................................................. 8
Opvragen van documenta/e ..................................................................................................................................... 9
Inspecteren van een object ..................................................................................................................................... 10
Inspecteren van eigenschappen van data frame ..................................................................................................... 10
Aanpassen van data frames ........................................................................................................................ 11
Nieuwe kolommen maken ....................................................................................................................................... 11
Inspec/e resultaat met frequen/etabel .................................................................................................................. 13
Inspec/e resultaat met staafdiagram ...................................................................................................................... 14
Inspec/e structuur van object met str() .................................................................................................................. 14
Omze<ng van character data naar factor ............................................................................................................... 15
Verwijderen van een kolom met select() ................................................................................................................. 16
Hernoemen van levels met fct_recode() ................................................................................................................. 17
Levels samenklappen met fct_recode() ................................................................................................................... 17
Numerische code omzeXen naar factors of logische variabelen ............................................................................. 18
Liever logical variable dan numerische codes voor ja-nee-variabelen .................................................................... 18
Kruistabel maken ..................................................................................................................................................... 19
Kruistabel visueel voorstellen .................................................................................................................................. 19
Verwijderen van meerdere kolommen met select () ............................................................................................... 20
Aanmaken van vectoren met c () ............................................................................................................................. 20
Een data frame als tsv-bestand opslaan .................................................................................................................. 20
Sorteren en filteren ................................................................................................................................................. 21
Met filter() een sub-dataframe maken die slechte bepaalde rijen bevat ................................................................ 23
grafieken .................................................................................................................................................... 24
Spreidingsdiagram van languages tegenover sta/s/cs ............................................................................................ 24
Staafdiagram voor math .......................................................................................................................................... 27
Staafdiagram voor sex ............................................................................................................................................. 27
3 – descrip5eve sta5s5ek ................................................................................................................. 28
centraliteit .................................................................................................................................................. 28
Maten van centraliteit ............................................................................................................................................. 28
1
, Modus ...................................................................................................................................................................... 28
Histogram ................................................................................................................................................................ 29
Het gemiddelde ....................................................................................................................................................... 30
De mediaan.............................................................................................................................................................. 32
Kwar/elen ................................................................................................................................................................ 32
Kwan/elen & percen/elen ...................................................................................................................................... 32
centrummaten berekenen in R.................................................................................................................... 33
Gemiddelde, mediaan, kwan/el, min en max ......................................................................................................... 33
Skim ( ) en descr ( ) .................................................................................................................................................. 33
Alterna/eve nota/e met pipe-symbol ..................................................................................................................... 33
Filteren in het resultaat van descrip/eve sta/s/eken ............................................................................................. 34
De Rfunc/e summarize ............................................................................................................................................ 34
Group_by ................................................................................................................................................................. 35
Gewogen gemiddelde in RStudio............................................................................................................................. 35
de modus berekenen in RStudio .............................................................................................................................. 36
De modus voor een numerische variabele met veel mogelijke waarden ................................................................ 37
spreidingsmaten ......................................................................................................................................... 38
Mate van spreiding (dispersion, spread) ................................................................................................................. 38
Bereik ....................................................................................................................................................................... 38
Varian/e................................................................................................................................................................... 38
Standaardafwijking / standaarddevia/e .................................................................................................................. 39
Standaardiseren van variabele ................................................................................................................................ 39
Varia/ecoëfficient .................................................................................................................................................... 40
Interkwar/elbereik .................................................................................................................................................. 40
spreidingsmaten berekenen in rstudio ........................................................................................................ 41
Skim ......................................................................................................................................................................... 41
Descr ........................................................................................................................................................................ 41
Summarize ............................................................................................................................................................... 41
vorm ........................................................................................................................................................... 42
Scheefeid / skewness ............................................................................................................................................. 42
Kurtosis .................................................................................................................................................................... 42
covarianBe en correlaBe ............................................................................................................................. 43
Covarian/e............................................................................................................................................................... 43
Correla/e ................................................................................................................................................................. 45
Berekenen van covarian/e en correla/e in RStudio ................................................................................................ 46
4 – datavisualisa5e .......................................................................................................................... 47
Staafdiagram (bar plot) ............................................................................................................................................ 47
Historgrammen en dichtheidsgrafieken................................................................................................................... 47
Count histograms maken in RStudio ........................................................................................................................ 48
Het toevoegen van een face<ng laag ..................................................................................................................... 48
Frequen/epolygoons ............................................................................................................................................... 49
Dichtheidsgrafieken maken in RStudio .................................................................................................................... 50
Een rug plot (tapijt) .................................................................................................................................................. 52
Een rijk dichtheidshistogram maken in RStudio....................................................................................................... 53
Cumula/eve frequen/egrafiek ................................................................................................................................ 54
2
, De cumula/eve frequen/egrafiek ........................................................................................................................... 55
Rela/eve frequen/e distribu/eplot maken in RStudio ............................................................................................ 56
Boxplot..................................................................................................................................................................... 57
Gladde lijnen toevoegen aan scaXer plots (spreidingsdiagrammen) ...................................................................... 60
5 – kansverdeling ............................................................................................................................. 61
stochasBsch experiment ............................................................................................................................. 61
Doen van een me/ng............................................................................................................................................... 61
Het begrip popula/e ................................................................................................................................................ 61
kans ............................................................................................................................................................ 62
Een gebeurtenis ....................................................................................................................................................... 62
De kans op een gebeurtenis .................................................................................................................................... 62
Conceptualiseren van kans op gebeurtenissen ....................................................................................................... 63
Wet van grote getallen ............................................................................................................................................ 63
KansweXen .............................................................................................................................................................. 64
Kansbomen .............................................................................................................................................................. 66
De regel van Bayes voor gestra/ficeerde data......................................................................................................... 67
kansverdeling ............................................................................................................................................. 68
Dichtheidsfunc/e ..................................................................................................................................................... 68
Verdelingsfunc/e ..................................................................................................................................................... 70
Kwan/elfunc/e ........................................................................................................................................................ 71
Popula/eparameters ............................................................................................................................................... 72
modellen .................................................................................................................................................... 75
Modellen voor discrete variabelen .............................................................................................................. 75
Binaire verdeling ...................................................................................................................................................... 75
Binomiale verdeling ................................................................................................................................................. 77
Poissonverdelingen .................................................................................................................................................. 81
Modellen voor conBnue variabelen ............................................................................................................ 84
Exponen/ële verdelingen ........................................................................................................................................ 84
Normaalverdeling .................................................................................................................................................... 86
Andere verdelingen ................................................................................................................................................. 88
centrale limietstelling ................................................................................................................................. 89
CLT voor een gestandaardiseerde gemiddelde Z ..................................................................................................... 91
CLT voor een gestandaardiseerd gemiddelde T ....................................................................................................... 91
6 – normaliteitstoetsen .................................................................................................................... 92
normaal kwanBeldiagram ........................................................................................................................... 92
QQ plots analyseren op normaliteit ........................................................................................................................ 96
shapiro-Wilk test ........................................................................................................................................ 99
de lilliefors test ......................................................................................................................................... 100
Werking van de Kolmogorov-Smirnov test ............................................................................................................ 100
Werking van de Lilliefors test ................................................................................................................................. 100
Het effect van outliers ........................................................................................................................................... 103
3
STATISTIEK VOOR DE HUMANE WETENSCHAPPEN
FIEN GILIAS
,Inhoudstafel
1 – eerste verkenning van de datasets ............................................................................................... 6
meetniveaus (level of measurement) ............................................................................................................ 6
Onderscheid 1: sta/s/sche vs non-sta/s/sche variabelen ........................................................................................ 6
Onderscheid 2: categorische vs numerische variabelen ............................................................................................ 6
2 – basisinstruc5es in rstudio ............................................................................................................. 7
inleiding ....................................................................................................................................................... 7
Se<ng work directory ............................................................................................................................................... 7
Uitvoeren R-instruc/es .............................................................................................................................................. 7
Beschikbaar maken van een package ........................................................................................................................ 7
Meldingen die je krijgt bij ac/veren van /dyverse packages..................................................................................... 7
importeren data ........................................................................................................................................... 8
Importeren van een tsv-bestand ............................................................................................................................... 8
Bestanden inspecteren .............................................................................................................................................. 8
Importeren van dataset ............................................................................................................................................. 8
Opvragen van documenta/e ..................................................................................................................................... 9
Inspecteren van een object ..................................................................................................................................... 10
Inspecteren van eigenschappen van data frame ..................................................................................................... 10
Aanpassen van data frames ........................................................................................................................ 11
Nieuwe kolommen maken ....................................................................................................................................... 11
Inspec/e resultaat met frequen/etabel .................................................................................................................. 13
Inspec/e resultaat met staafdiagram ...................................................................................................................... 14
Inspec/e structuur van object met str() .................................................................................................................. 14
Omze<ng van character data naar factor ............................................................................................................... 15
Verwijderen van een kolom met select() ................................................................................................................. 16
Hernoemen van levels met fct_recode() ................................................................................................................. 17
Levels samenklappen met fct_recode() ................................................................................................................... 17
Numerische code omzeXen naar factors of logische variabelen ............................................................................. 18
Liever logical variable dan numerische codes voor ja-nee-variabelen .................................................................... 18
Kruistabel maken ..................................................................................................................................................... 19
Kruistabel visueel voorstellen .................................................................................................................................. 19
Verwijderen van meerdere kolommen met select () ............................................................................................... 20
Aanmaken van vectoren met c () ............................................................................................................................. 20
Een data frame als tsv-bestand opslaan .................................................................................................................. 20
Sorteren en filteren ................................................................................................................................................. 21
Met filter() een sub-dataframe maken die slechte bepaalde rijen bevat ................................................................ 23
grafieken .................................................................................................................................................... 24
Spreidingsdiagram van languages tegenover sta/s/cs ............................................................................................ 24
Staafdiagram voor math .......................................................................................................................................... 27
Staafdiagram voor sex ............................................................................................................................................. 27
3 – descrip5eve sta5s5ek ................................................................................................................. 28
centraliteit .................................................................................................................................................. 28
Maten van centraliteit ............................................................................................................................................. 28
1
, Modus ...................................................................................................................................................................... 28
Histogram ................................................................................................................................................................ 29
Het gemiddelde ....................................................................................................................................................... 30
De mediaan.............................................................................................................................................................. 32
Kwar/elen ................................................................................................................................................................ 32
Kwan/elen & percen/elen ...................................................................................................................................... 32
centrummaten berekenen in R.................................................................................................................... 33
Gemiddelde, mediaan, kwan/el, min en max ......................................................................................................... 33
Skim ( ) en descr ( ) .................................................................................................................................................. 33
Alterna/eve nota/e met pipe-symbol ..................................................................................................................... 33
Filteren in het resultaat van descrip/eve sta/s/eken ............................................................................................. 34
De Rfunc/e summarize ............................................................................................................................................ 34
Group_by ................................................................................................................................................................. 35
Gewogen gemiddelde in RStudio............................................................................................................................. 35
de modus berekenen in RStudio .............................................................................................................................. 36
De modus voor een numerische variabele met veel mogelijke waarden ................................................................ 37
spreidingsmaten ......................................................................................................................................... 38
Mate van spreiding (dispersion, spread) ................................................................................................................. 38
Bereik ....................................................................................................................................................................... 38
Varian/e................................................................................................................................................................... 38
Standaardafwijking / standaarddevia/e .................................................................................................................. 39
Standaardiseren van variabele ................................................................................................................................ 39
Varia/ecoëfficient .................................................................................................................................................... 40
Interkwar/elbereik .................................................................................................................................................. 40
spreidingsmaten berekenen in rstudio ........................................................................................................ 41
Skim ......................................................................................................................................................................... 41
Descr ........................................................................................................................................................................ 41
Summarize ............................................................................................................................................................... 41
vorm ........................................................................................................................................................... 42
Scheefeid / skewness ............................................................................................................................................. 42
Kurtosis .................................................................................................................................................................... 42
covarianBe en correlaBe ............................................................................................................................. 43
Covarian/e............................................................................................................................................................... 43
Correla/e ................................................................................................................................................................. 45
Berekenen van covarian/e en correla/e in RStudio ................................................................................................ 46
4 – datavisualisa5e .......................................................................................................................... 47
Staafdiagram (bar plot) ............................................................................................................................................ 47
Historgrammen en dichtheidsgrafieken................................................................................................................... 47
Count histograms maken in RStudio ........................................................................................................................ 48
Het toevoegen van een face<ng laag ..................................................................................................................... 48
Frequen/epolygoons ............................................................................................................................................... 49
Dichtheidsgrafieken maken in RStudio .................................................................................................................... 50
Een rug plot (tapijt) .................................................................................................................................................. 52
Een rijk dichtheidshistogram maken in RStudio....................................................................................................... 53
Cumula/eve frequen/egrafiek ................................................................................................................................ 54
2
, De cumula/eve frequen/egrafiek ........................................................................................................................... 55
Rela/eve frequen/e distribu/eplot maken in RStudio ............................................................................................ 56
Boxplot..................................................................................................................................................................... 57
Gladde lijnen toevoegen aan scaXer plots (spreidingsdiagrammen) ...................................................................... 60
5 – kansverdeling ............................................................................................................................. 61
stochasBsch experiment ............................................................................................................................. 61
Doen van een me/ng............................................................................................................................................... 61
Het begrip popula/e ................................................................................................................................................ 61
kans ............................................................................................................................................................ 62
Een gebeurtenis ....................................................................................................................................................... 62
De kans op een gebeurtenis .................................................................................................................................... 62
Conceptualiseren van kans op gebeurtenissen ....................................................................................................... 63
Wet van grote getallen ............................................................................................................................................ 63
KansweXen .............................................................................................................................................................. 64
Kansbomen .............................................................................................................................................................. 66
De regel van Bayes voor gestra/ficeerde data......................................................................................................... 67
kansverdeling ............................................................................................................................................. 68
Dichtheidsfunc/e ..................................................................................................................................................... 68
Verdelingsfunc/e ..................................................................................................................................................... 70
Kwan/elfunc/e ........................................................................................................................................................ 71
Popula/eparameters ............................................................................................................................................... 72
modellen .................................................................................................................................................... 75
Modellen voor discrete variabelen .............................................................................................................. 75
Binaire verdeling ...................................................................................................................................................... 75
Binomiale verdeling ................................................................................................................................................. 77
Poissonverdelingen .................................................................................................................................................. 81
Modellen voor conBnue variabelen ............................................................................................................ 84
Exponen/ële verdelingen ........................................................................................................................................ 84
Normaalverdeling .................................................................................................................................................... 86
Andere verdelingen ................................................................................................................................................. 88
centrale limietstelling ................................................................................................................................. 89
CLT voor een gestandaardiseerde gemiddelde Z ..................................................................................................... 91
CLT voor een gestandaardiseerd gemiddelde T ....................................................................................................... 91
6 – normaliteitstoetsen .................................................................................................................... 92
normaal kwanBeldiagram ........................................................................................................................... 92
QQ plots analyseren op normaliteit ........................................................................................................................ 96
shapiro-Wilk test ........................................................................................................................................ 99
de lilliefors test ......................................................................................................................................... 100
Werking van de Kolmogorov-Smirnov test ............................................................................................................ 100
Werking van de Lilliefors test ................................................................................................................................. 100
Het effect van outliers ........................................................................................................................................... 103
3