Prof. Dr. L. Vanhaverbeke
Pauline Delphine Verhelst
VUB | 2020-2021
,Inhoudsopgave
Herhaling statistiek 1 ......................................................................................................................................5
Chapter 1: Data................................................................................................................................................... 5
Chapter 2: Categorische gegevens weergeven en beschrijven ........................................................................... 5
Chapter 3: Kwantitatieve gegevens weergeven en beschrijven .......................................................................... 6
Chapter 4: Relatie tussen twee kwantitatieve variabelen .................................................................................. 6
Chapter 5: Willekeurigheid en voorspelbaarheid ................................................................................................ 7
Chapter 6: Willekeurige variabelen en voorspellingsmodellen ........................................................................... 7
Chapter 7 : Enquêtes en steekproeven ................................................................................................................ 8
Chapter 8: De normale verdeling ........................................................................................................................ 8
Chapter 9: Steekproevenverdelingen en betrouwbaarheidsintervallen voor fracties ......................................9
1. Verdeling van steekproeffracties ............................................................................................................... 9
1.1. Inleiding ........................................................................................................................................... 9
1.2. Simulatie van 10 000 steekproeven ............................................................................................... 10
1.3. Steekproevenverdeling .................................................................................................................. 10
1.4. Steekproevenverdeling voor steeproeffracties ............................................................................. 10
1.5. Aannames en voorwaarden ........................................................................................................... 11
2. Betrouwbaarheidsinterval voor een fractie ............................................................................................. 11
2.1. Standaardfout ................................................................................................................................ 11
2.2. Normaalverdeling van de steekproeffracties ................................................................................ 11
2.3. 95% betekenis ................................................................................................................................ 12
2.4. Aannames en voorwaarden ........................................................................................................... 12
3. Foutenmarge: zekerheid versus precisie.................................................................................................. 12
3.1. Kritische waarden .......................................................................................................................... 12
3.2. Margin of error/ foutenmarge ....................................................................................................... 12
4. De steeproefgrootte kiezen ..................................................................................................................... 13
5. Samenvatting .......................................................................................................................................... 13
Chapter 10: hypothesetoetsen voor fracties .................................................................................................. 14
1. Hypotheses .............................................................................................................................................. 14
1.1. Nul- en alternatieve hypothese ..................................................................................................... 14
1.2. Hypotheses .................................................................................................................................... 14
2. P-waarden ............................................................................................................................................... 15
3. De redenering van hypothesetoetsen ...................................................................................................... 15
3.1. Hypotheses .................................................................................................................................... 15
3.2. Model............................................................................................................................................. 16
3.3. “Mechaniek” .................................................................................................................................. 16
3.4. Conclussies en beslissingen ........................................................................................................... 16
4. Alternatieve hypotheses .......................................................................................................................... 17
4.1. Tweezijdige versus eenzijdige hypotheses .................................................................................... 17
4.2. Alternatieve hypothese ................................................................................................................. 17
4.3. Toepassing ..................................................................................................................................... 17
5. P-waarden en beslissingen ...................................................................................................................... 18
5.1. Hypothesetoetsen ......................................................................................................................... 18
5.2. Aannames en voorwaarden ........................................................................................................... 18
1
, 6. Samenvatting .......................................................................................................................................... 19
Chapter 11: betrouwbaarheidsintervallen en hypothesetoetsen voor gemiddeldes ...................................... 20
1. De centrale limietstelling ......................................................................................................................... 20
1.1. Simuleren van een steekproevenverdeling van een gemiddelde .................................................. 20
1.2. De centrale limietstelling ............................................................................................................... 21
2. De steekproevenverdeling van het gemiddelde ...................................................................................... 21
2.1. Aannames en voorwaarden voor de steekproevenverdeling van het gemiddelde ....................... 22
3. Hoe steekproevenverdelingsmodellen werken ........................................................................................ 22
3.1. Standaardfout ................................................................................................................................ 22
3.2. Hoe steekproevenverdelingsmodellen werken ............................................................................. 23
4. Gosset en de de t-verdeling ..................................................................................................................... 24
4.1. Analogie met fracties ..................................................................................................................... 24
4.2. Standaardfout ................................................................................................................................ 24
4.3. Gosset’s t ....................................................................................................................................... 24
4.4. Voorbeeld ...................................................................................................................................... 25
4.5. Gosset en de t-verdeling ................................................................................................................ 25
5. Een betrouwbaarheidsinterval voor gemiddeldes ................................................................................... 25
5.1. Vrijheidsgraden: waarom n-1 ........................................................................................................ 25
5.2. t-waarden vinden........................................................................................................................... 25
5.3. Voorbeeld ...................................................................................................................................... 26
6. Aannames en voorwaarden .................................................................................................................... 26
6.1. Aanname van normaal-verdeelde populatie ................................................................................. 26
6.2. Voorbeeld: controleer aannames en voorwaarden ....................................................................... 27
6.3. Waarschuwingen over het interpreteren van betrouwbaarheidsintervallen ................................ 27
7. Testen van hypothesen over gemiddeldes – de One-Sample-t-test......................................................... 27
7.1. Voorbeeld: winkelpatronen ........................................................................................................... 28
7.2. Steekproefomvang......................................................................................................................... 28
7.3. Steekproefomvang: voorbeeld ...................................................................................................... 29
8. Samenvatting .......................................................................................................................................... 29
Chapter 12: Meer over toetsen en intervallen ............................................................................................... 30
1. Hoe om te gaan met P-waarden ............................................................................................................. 30
2. Alfa-niveau en significantie ..................................................................................................................... 30
3. Kritieke waarden ..................................................................................................................................... 31
4. Betrouwbaarheidsintervallen en hypothesetoetsen................................................................................ 32
4.1. Voorbeeld: winkelpatronen ........................................................................................................... 32
5. Twee soorten fouten ............................................................................................................................... 33
6. Onderscheidend vermogen van een toets ............................................................................................... 33
6.1. Onderscheidend vermogen ........................................................................................................... 33
6.2. Verminderen van zowel type-1 als type-2 fouten ......................................................................... 35
6.3. Voorbeeld: Alfa .............................................................................................................................. 35
6.4. Voorbeeld: Fouten ......................................................................................................................... 35
7. Samenvatting .......................................................................................................................................... 36
7.1. Begrijp P-waarden beter ................................................................................................................ 36
7.2. Twee soorten fouten ..................................................................................................................... 36
7.3. Onderscheidend vermogen ........................................................................................................... 36
Chapter 13: Twee gemiddelden vergelijken ................................................................................................... 37
2
, 1. Twee gemiddelden vergelijken ................................................................................................................ 37
2. Two sample t-test/ t-toets voor twee steekproeven ............................................................................... 38
3. Aannames en voorwaarden .................................................................................................................... 39
4. Een betrouwbaarheidsinterval voor het verschil tussen twee gemiddelden ........................................... 40
5. The pooled t-test ..................................................................................................................................... 41
6. Paired data .............................................................................................................................................. 42
6.1. Gepaarde data ............................................................................................................................... 42
6.2. Aannames ...................................................................................................................................... 43
7. Paired t-methods ..................................................................................................................................... 43
8. Samenvatting .......................................................................................................................................... 44
8.1. T-toets voor twee steekproeven.................................................................................................... 44
8.2. Betrouwbaarheidinterval ............................................................................................................... 44
8.3. Gepaarde steeproeven .................................................................................................................. 44
Chapter 14: Chi-kwadraat toetsen ................................................................................................................. 45
1. Goodness of Fit Test ................................................................................................................................ 45
1.1. Aannames en voorwaarden ........................................................................................................... 45
1.2. Chi-kwadraat model....................................................................................................................... 45
1.3. Berekeningen ................................................................................................................................. 46
1.4. Voorbeeld: stock market ‘up’ days ................................................................................................ 46
1.5. Voorbeeld: credit cards ................................................................................................................. 47
2. Chi-kwadraatwaarden interpreteren ...................................................................................................... 47
3. Onderzoek naar de residuen.................................................................................................................... 47
3.1. Chi-kwadraat verdeling .................................................................................................................. 47
3.2. Onderzoek naar de residuen ......................................................................................................... 48
4. De Chi-kwadraat homogeniteitstest........................................................................................................ 48
4.1. Test ................................................................................................................................................ 48
4.2. Aannames en voorwaarden ........................................................................................................... 49
4.3. Berekening ..................................................................................................................................... 49
4.4. Voorbeeld: meer credit cards ........................................................................................................ 49
5. Twee fracties vergelijken ......................................................................................................................... 50
5.1. Twee fracties vergelijken ............................................................................................................... 50
5.2. Betrouwbaarheidsinterval voor het verschil tussen twee fracties ................................................ 50
5.3. Twee fracties vergelijken ............................................................................................................... 50
6. De Chi-kwadraat-onafhankelijkheidstoets .............................................................................................. 51
7. Samenvatting .......................................................................................................................................... 53
7.1. De Chi-kwadraat-toets ................................................................................................................... 53
Chapter 4: Correlatie en lineaire regressie..................................................................................................... 53
1. Scatterplot ............................................................................................................................................... 54
1.1. Looking at scatterplots .................................................................................................................. 54
1.2. Assigning roles to variables in scatterplots .................................................................................... 54
2. Correlation............................................................................................................................................... 54
2.1. Understanding correlation............................................................................................................. 54
2.2. Lurking variables and causation ..................................................................................................... 55
3. Linear regression ..................................................................................................................................... 56
3.1. The linear model ............................................................................................................................ 56
3.2. Correlation and the line ................................................................................................................. 56
3.3. Regression to the mean ................................................................................................................. 57
3
, 3.4. Checking the model ....................................................................................................................... 57
3.5. Variation in the model and R2 ....................................................................................................... 58
3.6. Reality check: is the regression reasonable? ................................................................................. 58
4. Nonlinear relationships ........................................................................................................................... 59
4.1. Nonlinear relationships.................................................................................................................. 59
5. Summary ................................................................................................................................................. 60
Chapter 15: Inference for Regression ............................................................................................................ 61
1. Hypothesetoets en betrouwbaarheidsinterval voor de richtingscoëfficiënt ............................................ 61
2. Aannames en voorwaarden .................................................................................................................... 63
3. Standaardfouten voor voorspelde waarden ............................................................................................ 64
4. Betrouwbaarheidsintervallen en voorspellingsintervallen gebruiken ..................................................... 65
5. Samenvatting .......................................................................................................................................... 65
Chapter 16: Residu-analyse ........................................................................................................................... 66
1. Residu-analyse: groepen ......................................................................................................................... 66
2. Extrapolatie and Predictie ....................................................................................................................... 67
3. Ongewone en buitengewone observaties ............................................................................................... 68
4. Autocorrelatie.......................................................................................................................................... 70
4.1. Durbin-Watson statistiek ............................................................................................................... 70
4.2. Omgaan met autocorrelatie .......................................................................................................... 71
5. Gegevens transformeren ......................................................................................................................... 71
6. Ladder van Machten................................................................................................................................ 73
7. Samenvatting .......................................................................................................................................... 74
Chapter 22: Niet-parametrische methoden ................................................................................................... 75
1. Rangordes ............................................................................................................................................... 75
2. De Wilcoxon Rank-Sum/ Mann-whitney statistiek .................................................................................. 76
3. Kruskall-Wallis Test ................................................................................................................................. 77
4. Gepaarde gegevnes: de Wilcoxon Signed-Rank Test ............................................................................... 78
5. Kendall’s Tau: monotoniciteit meten....................................................................................................... 79
6. Spearman’s Rho....................................................................................................................................... 79
7. Wanneer moet u niet-parametrische methoden gebruiken? .................................................................. 80
8. Samenvatting .......................................................................................................................................... 80
Eventuele examenvragen .............................................................................................................................. 81
Herhaling ...................................................................................................................................................... 82
4
,Herhaling statistiek 1
Chapter 1: Data
- Definitie van data
o Informatie + context
o Wie, wat (en wat zijn de eenheden), wanneer, waar, hoe werd de data
gegenereerd en waarom
- Datatabellen
o Organiseren van data
o Rij = informatie van een eenheid, persoon, respondent (bij survey), records
(bij database), algemeen = cases
§ Niet altijd mensen, kunnen ook bv bedrijven zijn
§ = wie
o Kolom = informatie van een variabele = wat
§ Variabele = een specifiek element van de data gegenereerd bij alle
cases
- Categorische en kwantitatieve variabelen
o Categorisch = namen, maar kunnen ook cijfers zijn
§ Bv blauw, rood
§ Maar nummers bijvoorbeeld bij een categorie (bv categorie 1,2,3,4,5)
o Kwantitatieve data = cijfers (eenheden zijn hier heel belangrijk)
Chapter 2: Categorische gegevens weergeven en beschrijven
- Werken met categorische variabelen
o Aantal cases tellen in een category = frequentie nagaan
§ Kan weergegeven worden met een aantal of met een percentage (=
relatieve frequentie)
§ Frequentie en relatieve frequentie tabellen
o Staafdiagrammen en taartdiagrammen
§ Hiermee werken om de gegevens visueel te maken
§ Taartdiagrammen zijn visueel maar moeilijker te interpreteren dan
staafdiagrammen
- Kruistabellen
o Bij het werken met 2 verschillende variabelen
o Je kan hier ook gebruik maken van aantal (som) of percentages
- Marginale en conditionele verdelingen
o Uniforme verdeling als bv per categorie +- hetzelfde percentage
o Conditionele verdeling = voorwaardelijke verwachting
- Staafdiagrammen voor 2 variabelen
o ‘side-by-side bar chart/ stacked bar chart’
o Maakt het gemakkelijk om 2 variabelen met elkaar te vergelijken
- Onafhankelijke variabelen = als 2 conditionele verdelingen ongeveer hetzelfde zijn
- Afhankelijke variabelen = de variabelen zijn gelinkt/ beïnvloeden elkaar
5
,Chapter 3: Kwantitatieve gegevens weergeven en beschrijven
- Kwantitieve gegevens
o Vorm
o Midden
o Spreiding
- Kijken naar de vorm van een distributie: aan de hand van een histogram
o Kijken naar pieken, dallen
§ 1 piek = unimodaal
• Hier nagaan of de verdeling symmetrisch is of niet
• Niet symmetrisch: rechts- of linksscheef
§ Meerdere pieken = multimodaal
o We willen het liefst: unimodale en symmetrische verdelingen
- Kijken naar het midden van de distributie
o Gemiddelde
!"#
§ 𝑥̅ = $
o Mediaan
§ Beter bij scheve verdelingen
§ Letterlijk middelste getal
- Kijken naar de spreiding van de verdeling
o Standaard variatie
o Interkwartielafstand = verschil tussen 3e en 1e kwartiel van de data
- Standaardiseren van variabelen
%&%'
o Z= (
- Vergelijken van verdelingen
o Aan de hand van boxplots
Chapter 4: Relatie tussen twee kwantitatieve variabelen
- Correlatie = relatie tussen gestandaardiseerde variabelen
o Hiermee kunnen we de helling berekenen
((%)
o B1 = r*
((+)
o R2 = de fractie van de variabiliteit dat te wijten is aan het regressie model
- Lineair model om de relatie te beschrijven tussen beschrijven
- Regressielijn: 𝑦% : b0 + b1*x
o B0 = intercept
o B1 = helling
o Lijn zal nooit door alle datapunten gaan maar is een
zo dicht mogelijke benadering
§ Ruimte tussen lijn en datapunten = residuals
§ Residual = y - 𝑦%
• We willen de residuals zo laag mogelijk
o Least squares regression line
§ Least squares = minimum van gekwadrateerde residuals
- Voorwaarden
o Lineariteit conditie
o Uitschieters controleren
o Gelijke verdeling conditie
6
, Chapter 5: Willekeurigheid en voorspelbaarheid
- Willekeurige verschijnselen en waarschijnlijkheid
o Willekeurig = de uitkomst kan niet voorspeld worden
o Gebeurtenis = een combinatie van mogelijke uitkomsten
o Onafhankelijke gebeurtenissen = de uitkomst van 1 experiment/variabele
heeft geen invloed op de andere variabele
- De wet van de grote getallen
o Voor onafhankelijke gebeurtenissen komt de relatieve frequentie van een
gebeurtenis dichter en dichter bij één getal (de waarschijnlijkheid) naarmate
het aantal proeven toeneemt
o Zegt niets over korte termijn gegevens, enkel over lange termijn gegevens
- Waarschijnlijkheidsregels
o Probability assignment rule
§ Waarschijnlijkheid moet tussen 0 en 1 zijn
§ Som van alle waarschijnlijkheid is gelijk aan 1
o Complement rule: P(A) = 1 – P(B)
§ De kans dat iets niet gebeurt = 1 – de kans dat iets wel gebeurt
o Addition rule: P (A of B) = P(A) + P(B)
• Mutual exclusive events, hebben niets met elkaar te maken
§ P(A of B) = P(A) + P(B) – P(A en B)
• Niet mutual exclusive events
• Hier zullen A en B afhankelijk zijn van elkaar
o Mutiplication rule: P(A en B) = P(A) * P(B)
§ Indien dit waar is dan zijn de variabelen onafhankelijk
, (. /$ 0)
o P (A |B) = ,(0)
o Algemene vermenigvuldigingsregel: P (A en B) = P (A|B) * P(B)
Chapter 6: Willekeurige variabelen en voorspellingsmodellen
- Verwachte waarde
o Waarde van de variabele zal afhangen van andere gebeurtenissen
o E(X) = μ = mean
o Voorspellingmodel gebruiken om de verwachte waarde te weten
o E(X) = Σ x*P(X)
§ De verwachte waarde van x + een constante is gelijk aan de verwachte
waarde van x
- Standaard deviatie
o SD(X) = '𝑉𝑎𝑟 (𝑥)
o 𝜎 = 'Σ(𝑥 − µ)1 ∗ 𝑃(𝑋)
§ De variante van x + een constante is gelijk aan de variantie van x
- Herschalen van variabelen
o E(aX) = a*E(X)
o Var(aX) = a2 * Var(X)
- Werken met meerdere X warden
o E(X1 + X2) = E(X1) + E(X2)
o Var (X1+X2) = Var (X1) + Var(X2)
§ !! Bij onafhankelijke variabelen
§ !! NIET: SD(X1 + X2) = SD (X1) + SD (X2)
7