Samenvatting Statistiek
Inhoudsopgave
1 Inleiding tot de statistiek _______________________________________________________________________________ 4
1.1 Overzicht hoofdstukken____________________________________________________________________________ 4
1.2 Data verzamelen en verwerken _____________________________________________________________________ 4
1.3 Onderzoeksproces ________________________________________________________________________________ 4
1.3.1 Genereer een onderzoeksprobleem ______________________________________________________________ 4
1.3.2 Raadpleeg een theorie __________________________________________________________________________ 4
1.3.3 Genereer een hypothese ________________________________________________________________________ 4
1.3.4 Verzamel data om de hypothese te testen ________________________________________________________ 5
1.3.5 Analyseer de data ______________________________________________________________________________ 6
1.3.6 Veralgemeen de resultaten ______________________________________________________________________ 6
1.3.7 Verslaggeving __________________________________________________________________________________ 7
1.4 Vier types variabelen ______________________________________________________________________________ 7
1.5 Classificatie variabelen ____________________________________________________________________________ 7
1.6 Soorten meetschalen ______________________________________________________________________________ 8
1.6.1 Likert-schaal ___________________________________________________________________________________ 9
1.7 Hoe verzamel je gegevens?________________________________________________________________________ 10
2 Beschrijvende statistiek ______________________________________________________________________________ 11
2.1 Frequentieverdeling (distribution) __________________________________________________________________ 11
2.1.1 Eén variabele __________________________________________________________________________________ 11
2.1.2 Twee variabelen _______________________________________________________________________________ 13
2.1.3 Vorm van de gegevens analyseren _______________________________________________________________ 13
2.1.3.1 Normaalverdeling ________________________________________________________________________ 13
2.1.3.2 Afwijkingen van de normaalverdeling _______________________________________________________ 14
2.2 Centrummaten (central tendency) _________________________________________________________________ 14
2.2.1 Modus ________________________________________________________________________________________ 15
2.2.2 Mediaan ______________________________________________________________________________________ 15
2.2.3 Gemiddelde ___________________________________________________________________________________ 15
2.2.4 Vergelijking mediaan en gemiddelde ____________________________________________________________ 16
2.2.5 Welke centrummaat gebruiken? ________________________________________________________________ 16
2.3 Spreidingsmaten (variability) ______________________________________________________________________ 17
2.3.1 Spreidingsbreedte (the range)___________________________________________________________________ 17
2.3.2 Interkwartielafstand ___________________________________________________________________________ 17
2.3.3 De variantie (afwijking) _________________________________________________________________________ 18
2.3.4 Standaardafwijking ____________________________________________________________________________ 18
2.3.5 Welke spreidingsmaat gebruiken?_______________________________________________________________ 19
2.3.6 Box-plot ______________________________________________________________________________________ 19
3 De grondbeginselen van de inferentiële statistiek: Hypothesetoetsing __________________________________ 20
3.1 Principe inferentiële statistiek _____________________________________________________________________ 20
3.2 Kans ____________________________________________________________________________________________ 20
3.2.1 Wet van de grote getallen (law of large numbers) _________________________________________________ 20
3.2.2 Toevalsvariabele ______________________________________________________________________________ 20
3.2.3 Kansverdeling vs frequentieverdeling ____________________________________________________________ 21
3.2.4 Verschillende kansverdelingen__________________________________________________________________ 21
3.2.4.1 Discrete kansverdelingen _________________________________________________________________ 21
3.2.4.2 Continue kansverdelingen_________________________________________________________________ 22
3.3 Steekproevenverdeling en centrale limietstelling ____________________________________________________ 24
3.3.1 Geldigheid en betrouwbaarheid _________________________________________________________________ 24
, 3.3.2 Steekproevenverdeling _________________________________________________________________________ 25
3.3.2.1 Definitie _________________________________________________________________________________ 25
3.3.2.2 Centrale limietstelling ____________________________________________________________________ 25
3.3.2.3 Steekproef-, steekproeven- en populatieverdeling ___________________________________________ 25
3.3.2.4 Kenmerken steekproevenverdeling_________________________________________________________ 25
3.3.2.5 Samenvatting steekproevenverdeling ______________________________________________________ 26
3.4 Hypothesetoetsing _______________________________________________________________________________ 26
3.4.1 Stap 1: Stel de nulhypothese (H0) en de alternatieve hypothese (H1 of Ha) op _______________________ 26
3.4.2 Stap 2: Bepaal een significantieniveau/drempelwaarde ___________________________________________ 27
3.4.3 Stap 3: Trek een steekproef en kies de correcte statistische toets __________________________________ 28
3.4.4 Stap 4: Voer de statistische test uit en bepaal de p-waarde ________________________________________ 28
3.4.5 Stap 5: Interpreteer de resultaten en trek een conclusie ___________________________________________ 30
4 Verschil- en variantieanalyse: t-testen en one-way ANOVA _____________________________________________ 31
4.1 One-sample t-test ________________________________________________________________________________ 31
4.1.1 One-sample t-test _____________________________________________________________________________ 31
4.1.2 Andere waarden in one-sample t-test____________________________________________________________ 32
4.1.2.1 Mean difference __________________________________________________________________________ 32
4.1.2.2 Betrouwbaarheidsinterval (CI) _____________________________________________________________ 32
4.1.2.3 Effectgrootte _____________________________________________________________________________ 33
4.2 Two-samples t-test _______________________________________________________________________________ 33
4.2.1 Independent samples t-test ____________________________________________________________________ 34
4.2.2 Paired samples t-test __________________________________________________________________________ 36
4.2.3 One-way ANOVA ______________________________________________________________________________ 38
5 Correlatie ____________________________________________________________________________________________ 41
5.1 Pearson’s correlatiecoëfficiënt ____________________________________________________________________ 41
5.1.1 Richting_______________________________________________________________________________________ 41
5.1.2 Sterkte________________________________________________________________________________________ 42
5.1.3 Interpretatie r _________________________________________________________________________________ 43
6 Niet-parametrische toetsen___________________________________________________________________________ 44
6.1 Inleiding _________________________________________________________________________________________ 44
6.1.1 Uniform: alle waarden evenveel _________________________________________________________________ 44
6.1.2 Poisson verdeling: _____________________________________________________________________________ 44
6.1.3 Normaalverdeling: _____________________________________________________________________________ 44
6.1.3.1 Steekproevenverdeling____________________________________________________________________ 45
6.1.3.2 Centrale limietstelling ____________________________________________________________________ 45
6.1.4 Vergelijking parametrisch en nonparametrisch ___________________________________________________ 45
6.2 Soorten toetsen __________________________________________________________________________________ 45
6.2.1 Chikwadraat voor frequenties___________________________________________________________________ 46
6.2.2 Mann Whitney U test ___________________________________________________________________________ 46
6.2.3 Wilcoxon signed rank test ______________________________________________________________________ 48
6.2.4 Kruskal-Wallis test _____________________________________________________________________________ 48
6.2.5 Spearman’s Rho, Kendall’s Tau en Chikwadraat __________________________________________________ 50
7 Lineaire regressie ____________________________________________________________________________________ 53
7.1 Definitie _________________________________________________________________________________________ 53
7.1.1 Regressie _____________________________________________________________________________________ 53
7.1.2 Lineaire regressie ______________________________________________________________________________ 53
7.2 Lineaire regressie ________________________________________________________________________________ 53
7.2.1 Regressielijn __________________________________________________________________________________ 53
7.2.2 Enkelvoudige lineaire regressie: Case study ______________________________________________________ 55
7.2.3 Meervoudige lineaire regressie: Case study ______________________________________________________ 56
7.2.4 Assumpties ___________________________________________________________________________________ 57
7.2.4.1 Lineairiteit _______________________________________________________________________________ 57
7.2.4.2 Normaal-verdeelde fouten ________________________________________________________________ 58
2
, 7.2.4.3 Onafhankelijke fouten ____________________________________________________________________ 58
7.2.4.4 Homoscedasticiteit ______________________________________________________________________ 59
7.2.4.5 Multicollineariteit ________________________________________________________________________ 59
7.2.5 Kwalitatieve variabelen_________________________________________________________________________ 59
7.2.5.1 Eén of 2 variabelen _______________________________________________________________________ 59
7.2.5.2 Meer dan 2 variabelen ____________________________________________________________________ 60
7.2.6 Combinatie kwalitatieve en kwantitatieve variabelen______________________________________________ 62
8 Logistische regressie _________________________________________________________________________________ 64
8.1 Definitie _________________________________________________________________________________________ 64
8.2 Vergelijking met lineaire regressie _________________________________________________________________ 64
8.2.1 Regressievergelijking___________________________________________________________________________ 64
8.2.2 Schattingsmethode ____________________________________________________________________________ 65
8.2.3 Interpretatie regressiecoëfficiënt________________________________________________________________ 65
8.2.4 Assumpties ___________________________________________________________________________________ 66
8.2.4.1 Lineairiteit _______________________________________________________________________________ 66
8.3 Casestudy _______________________________________________________________________________________ 66
8.4 Output in SPSS ___________________________________________________________________________________ 67
9 Kies de juiste statistische test ________________________________________________________________________ 68
9.1 Parametrische toetsen ___________________________________________________________________________ 68
9.1.1 Case study ____________________________________________________________________________________ 68
9.2 Niet-parametrische toetsen _______________________________________________________________________ 69
9.3 Keuze statistische toets __________________________________________________________________________ 70
9.3.1 Case study ____________________________________________________________________________________ 70
3
, 1 Inleiding tot de statistiek
1.1 Overzicht hoofdstukken
1.2 Data verzamelen en verwerken
• Kwalitatieve onderzoeksmethoden
o Woorden & tekst
o Interviews en focusgroepen
• Kwantitatieve onderzoeksmethoden
o Cijfers
o Een set van tools en technieken die gebruikt wordt voor het beschrijven, organiseren en interpreteren van
informatie of gegevens.
Termen: variatie, standaardafwijking
1.3 Onderzoeksproces
1.3.1 Genereer een onderzoeksprobleem
ondubbelzinnig, welke doelgroep willen we informeren
--> Observeer de wereld of lees.
Vb: Ben is eigenaar van een lokale ijsketen met 5 locaties. Hij merkte op dat de verkoop op sommige locaties is gedaald en wil de
oorzaak daarvan vaststellen. Hij vermoedt dat sommigen van zijn winkelmanagers geen waarde hechten aan klanttevredenheid.
Uiteraard heeft hij meer dan een buikgevoel nodig om hen er van te overtuigen om hun manier van werken aan te passen. Daarom
besluit hij dit verder te onderzoeken en begint hij aan zijn onderzoeksproces met het genereren van de onderzoeksvraag.
"Verschilt de klanttevredenheid tussen de vijf locaties?"
1.3.2 Raadpleeg een theorie
Theorie = een uitleg of set van principes die een breed fenomeen verklaart en die goed onderbouwd is door herhaaldelijk te zijn
getest. Theorieën zijn heel algemeen van toepassing op alle entiteiten of situaties.
Populatie = een theoretische groep waarover je conclusies wilt trekken. (een hele set van entiteiten)
Ben wilt conclusies trekken over klanten in het algemeen. Waardoor 'klanten' de populatie is waar hij in geïnteresseerd is. Om de
onderzoeksvraag van Ben te beantwoorden, kunnen we beginnen met de theorieën over klanttevredenheid.
Een theorie zegt dat klanttevredenheid wordt beïnvloed door vele factoren waaronder een vriendelijke en behulpzame
winkelmanager.
1.3.3 Genereer een hypothese
Hypothese = een vooropgestelde verklaring voor een vrij beperkt fenomeen of reeks waarnemingen.
--> Verschil met theorie is dat een hypothese nog niet getest is en een hypothese verklaart een engere situatie.
4