STATISTIEK
Universiteit Gent
2024 - 2025
Lies Poppe
,INHOUD
LEERPAD 1 ............................................................................................................................4
1. Beschrijvende analyse ...............................................................................................................4
2. Wetenschappelijk onderzoek obv empirische cyclus ...............................................................4
2.1. De empirische cyclus: grondschema................................................................................4
2.1.1. centrale begrippen ......................................................................................................4
2.2 Statistiek binnen de empirische cyclus .....................................................................................4
3. Onderzoek naar smartphonegebruik en mentaal welzijn...........................................................5
3.1. Waarom onderzoek .........................................................................................................5
3.2. Methode: hoe werd de studie uitgevoerd?.........................................................................5
3.2.1. proefpersonen en steekproeftrekking ...........................................................................5
3.2.2. metingen ....................................................................................................................6
3.2.3. Ethische beoordeling ..................................................................................................7
LEERPAD 2 ............................................................................................................................7
1. Univariate analyse van een variabele ..........................................................................................7
1.1. Resultaten: univariate analyses .......................................................................................7
1.1.1. Frequenties en odss....................................................................................................8
1.1.2. Staafdiagrammen .......................................................................................................8
1.1.3. Staafdiagram op maat .................................................................................................9
2.1.1. Centrum .........................................................................................................................9
2.2.2. Spreidingsmaten ...................................................................................................... 10
3. Histogram en boxplot .................................................................................................... 11
3.1. Histogram .................................................................................................................... 11
3.2. Boxplot ......................................................................................................................... 12
2. Resultaten: Bivariate analyses ................................................................................................. 12
2.1. Kruistabellen ........................................................................................................................ 12
3. Associatiematen voor kruistabellen .......................................................................................... 13
4. Spreidingsdiagram .................................................................................................................. 13
5. Correlatie/ causatie + steekproef/ populatie ............................................................................. 14
LEERPAD 3 .......................................................................................................................... 16
1. Spreidingsmaten ..................................................................................................................... 16
2. Boxplot, uitschieters en de vorm van een verdeling .................................................................... 17
3. Correlatie................................................................................................................................ 18
4. Regressie en uitschieters ......................................................................................................... 20
5. Correlatie en causatie ............................................................................................................. 23
LES 3 ................................................................................................................................... 24
1
,1. Notities tijdens les ................................................................................................................... 24
LEERPAD 4 .......................................................................................................................... 27
1. INtroductie binomiaaltoets ...................................................................................................... 27
2. Onderzoek naar morele intuïtie bij baby’s ................................................................................. 28
3. Het toevalsproces en hypothesetoets (informeel)...................................................................... 29
4. Hypothesetoets (formeel) ........................................................................................................ 30
5 eenzijdige en tweezijdige hypotheses – hypothesetoets algemeen – impact op de P-waarde .............. 33
6. Beslissingen op basis van een hypothesetoets .......................................................................... 36
LES 4 ................................................................................................................................... 41
1. Potentiële examenvragen .............................................................................................. 41
LEERPAD 5 .......................................................................................................................... 46
1. Het betrouwbaarheidsinterval .................................................................................................. 46
2. Het betrouwbaarheidsinterval via formules ............................................................................... 49
LES 5 ................................................................................................................................... 54
1. Extra uitleg hypothesetoets .................................................................................................. 54
2. P-waarde ............................................................................................................................. 55
3. Betrouwbaarheidsintervallen................................................................................................ 57
3. Vragen................................................................................................................................. 58
3.1. Vraag 1 ......................................................................................................................... 58
3.2. Vraag 2 ......................................................................................................................... 60
3.3. Vraag 3 ......................................................................................................................... 61
3.4. Vraag 4 ......................................................................................................................... 62
LEERPAD 6 .......................................................................................................................... 63
1. Samenhang tss 2 variabelen: onderzoek naar gender en raciale bias .......................................... 63
1.1. INtroductie ................................................................................................................... 63
1.2. Onderzoek naar gender en raciale bias bij medische behandelingen ................................ 64
1.3. Ontwerp en metingen .................................................................................................... 65
2. Proporties van twee onafhanelijke groepen vergelijken ........................................................... 66
2.1. Onderzoeksvraag .......................................................................................................... 66
2.2. Beschrijvende analyses ................................................................................................. 66
2.3. Inductieve analyse ........................................................................................................ 68
2.4. Nulverdeling ................................................................................................................. 69
2.4.1. Nulverdeling via binomiale verdeling .......................................................................... 69
2.4.1. 3 stappen om tot de nulverdeling van T te komen: ....................................................... 70
2.5. Betrouwbaarheidsinterval ............................................................................................. 73
2.6. Nulverdeling via permutaties ......................................................................................... 74
2.6.1. 3 stappen om nulverdeling te bekomen ...................................................................... 74
2
, 2.7. De tactiele variant ......................................................................................................... 75
2.8. Formules ...................................................................................................................... 75
2.9. Probleem toetsen vele hypotheses ................................................................................ 76
2.10. Het effect van het netwerk ............................................................................................. 77
3. Gemiddelden van Twee onafhankelijke groepen vergelijken .................................................... 77
3.1. Inductieve analyse ........................................................................................................ 78
3.2. De hypotheses, toetsingsgrootheid en nulverdeling ........................................................ 78
3.3. Formules ...................................................................................................................... 79
3.4. Centrale limietstelling ................................................................................................... 80
3.5. T-verdeling.................................................................................................................... 81
LES 6 ................................................................................................................................... 81
1. Vraag 1 ................................................................................................................................ 81
2. Vraag 2 ................................................................................................................................ 83
3. Vraag 3 ................................................................................................................................ 84
4. Vraag 4 ................................................................................................................................ 85
LES 7 ................................................................................................................................... 87
1. Het examen ......................................................................................................................... 87
2. Potentiële examenvraag ....................................................................................................... 88
3
, STATISTIEK
LEERPAD 1
1. BESCHRIJVENDE ANALYSE
2. WETENSCHAPPELIJK ONDERZOEK OBV EMPIRISCHE CYCLUS
2.1. DE EMPIRISCHE CYCLUS: GRONDSCHEMA
= een methode die ons in staat stelt om kennis te verwerven via systematische observatie.
→ Helpt ons om de wereld te zien zoals ze werkelijk is, in plaats van hoe we willen dat het zou zijn.
2.1.1. CENTRALE BEGRIPPEN
• Observatie: waarnemen en verzamelen van empirisch feitenmateriaal
• Inductie: formuleren van hypotheses obv observatie
• Deductie: opstellen van voorspellingen obv hypotheses
• Toetsing: aftoetsen van voorspellingen obv nieuw empirisch feitenmateriaal
• Evaluatie: resultaat van de toetsing kritisch beoordelen
Voorbeeld:
Observatie: ik zie mijn fiets niet staan tegen de boom.
Inductie: mijn fiets staat niet meer op haar plaats, ze is waarschijnlijk gestolen.
Deductie: als mijn fiets gestolen is, zal ze niet meer aan het stationsplein staan.
Toetsing: na wat zoeken vind ik mijn fiets terug in een fietsrek.
Evaluatie: mijn fiets is niet gestolen, maar iemand heeft ze verplaatst.
Goudlokje principe = een beperkte mate kan een positief gevolg hebben, terwijl een teveel gebruik een
negatief gevolg kan hebben bv. beperkt schermgebruik = beter mentaal welzijn, meer schermgebruik =
slechter mentaal welzijn → een beetje is goed, teveel is niet goed
2.2 STATISTIEK BINNEN DE EMPIRISCHE CYCLUS
Statistiek = de wetenschap van het leren uit data, met bijzondere aandacht voor het meten, controleren
en communiceren van onzekerheid
Statistische geletterdheid = statistiek begrijpen, het in staat zijn om te redeneren door middel van
statistiek en data
➔ Statistiek is verweven in de empirische cyclus en kan bij elke stap gebruikt worden
➔ Belangrijk binnen 4 fasen van onderzoek:
- Formuleren onderzoeksvraag die kan beantwoord w dmv data
- Ontwerpen van studie & verzamelen data
- Verkennen verzamelde data via beschrijvende analyeses
- Formuleren van conclusies die verder reiken dan de geobserveerde data via inductieve analyses
Variabiliteit → bv. mentaal welzijn is niet voor iedereen hetzelfde
Oplossing → statistische analyse: de 2 gemiddelden met elkaar vergelijken, groep van 0 uur scoort hoger
dan groep van 5uur
Standaardafwijking = geeft aan hoe sterk afwijkingen zijn van gemiddelde.
→ Hoe groter het getal, hoe meer verschillen, hoe kleiner getal, hoe meer het op elkaar lijkt.
4
,3. ONDERZOEK NAAR SMARTPHONEGEBRUIK EN MENTAAL WELZIJN
3.1. WAAROM ONDERZOEK
3.2. METHODE: HOE WERD DE STUDIE UITGEVOERD?
3.2.1. PROEFPERSONEN EN STEEKPROEFTREKKING
Populatie = de verzameling van subjecten (elementen/eenheden) die men wil bestuderen.
= een grote groep personen waarover men iets te weten wil komen
Obersvationele eenheden = de eenheden (personen) waarover men data zal verzamelen
Steekproef (sample) = kleinere deelverzameling van de populatie
→ grotere steekproef is beter, want dan meer data over de populatie
→ steekproefgrootte moet balans houden tss groot genoeg zijn om voldoende data te verzamelen en niet
onnodig kostelijk
Steekproefkader (sample frame) = lijst waarmee we uit de populatie een steekproef samen te stellen
→ hieruit moeten onderzoekers bv. scholieren selecteren om een representatieve steekproef te verkrijgen
Representatieve steekproef = een steekproef die een goede weerspiegeling is van de populatie en haar
karakteristieken die men wil onderzoeken
Enkelvoudig aselecte steekproeftrekking/ enkelvoudig lukrake steekproeftrekking, EAS, (simple
random sampling) = elke steekproef heeft dezelfde kans om gekozen te worden. Elk element in het
steekproefkader heeft dezelfde kans om tot de steekproef te behoren. Het is lukraak, willekeurig, aselect.
Gestratificeerde steekproeftrekking (stratified sample trekking) = populatie wordt eerst opgedeeld in
strata (bv. lokale besturen in een gemeente) en men voert enkelvoudige aselecte steekproef uit per
stratum.→ meervoudig aselecte steekproef, want men zal meerdere enkelvoudige steekproeftrekkingen
kunnen uitvoeren
Proportioneel gestratificeerde steekproeftrekking = de populatie w opgedeeld in een aantal strata en
binnen elke stratum w een enkelvoudige aselecte steekproeftrekking uitgevoerd. De proportie personen in
de steekproef is gelijk aan de populatie
Gemakshalve steekproeftrekking (convenience sampling) = trekkingen die makkelijk uit te voeren zijn
→ personen die makkelijk bereikbaar zijn, hebben een grotere kans om tot de steekproef te behoren
→ bv. werken met lokale scholen in je buurt, ipv allemaal random scholen in heel Vlaanderen
Selectiebias = vertekening waarbij sommige groepen in de populatie over- of ondervertegenwoordigt
kunnen zijn in de steekproef
→bv. gegevens lln lokale scholen zijn niet te veralgemenen naar lln uit andere buurten
➔ Gemakshalve steekproeftrekkingen zijn onderhevig aan selectiebias
➔ Enkelvoudige aselecte en proportioneel gestratificeerde steekproeftrekkingen niet
Steekproefgrootte (n) = het aantal elementen in de steekproef waarvoor data is verzameld
Non-responders = personen die, hoewel ze zijn uitgenodigd, niet deelnemen aan de studie
→ kan leiden tot vertekening = non-respons-bias
5
,Voorbeeld:
Bv. er zijn 1000 bollen kaas die moeten geïnspecteerd w of ze nog goed zijn, je neemt er 10 als steekproef
EAS → je kiest er 10 random uit
Gestratificeerd → er zijn 2 soorten kazen, Gouda en Leerdammer, je neemt er 5 random van elke soort
Gemakshalve → je neemt de eerste 10 die je ziet (kan goed zijn, maar ook niet goed want deze 10 kunnen
bv. net goede kazen zijn of geen goede)
3.2.2. METINGEN
Variabelen = karakteristieken van de observationele eenheden die men wenst te onderzoeken. Omdat ze
kunnen verschillen van eenheid tot eenheid, kunnen ze variëren.
Uitkomstvariabele= hoofduitkomst onderzoek, men wil inzicht krijgen in deze variabele, waarbij men
probeert te verklaren waarom deze variabele varieert
bv. mentaal welzijn via Warwick-Edinburgh Mental Well-Being Scale
Verklarende variabelen= variabelen die ons in staat stellen om te begrijpen waarom de uitkomstvariabele
varieert, voorspellende variabele/ predictor, variabiliteit van de ene variabele trachten te verklaren door
een andere variabele bv. gemiddelde aantal uur per dag (week/weekend), videospellen op de computer of
via een spelconsole…
Controlevariabelen = controleren voor mogelijke verschillen in uitkomstvariabelen die niet toe te schrijven
zijn aan een verklarende variabele bv. zorgen dat geslacht geen reden voor verschil kan zijn bv. meisjes
gebruiken meer dan jongens, meisjes met meisjes vergelijken en jongens met jongens
Geslacht
Etniciteit
Regio
Doel: variabiliteit in de uitkomstvariabele verklaren via de verklarende variabelen en eventuele
controlevariabelen in rekening brengen
Operationaliseren = het meetbaar maken van de eigenschappen die men wenst te bestuderen
Cross-sectionele studie = observaties op één moment in de tijd, maar één keer gemeten
Longitudinale studie = op verschillende momenten w een bevraging gedaan bv. elke maand, het is over
de tijd heen → je kan effecten over de tijd bestuderen, kan bij cross sectioneel niet, bij longtidunale
kunnen mensen sneller afhaken
Observationele studie = onderzoekers observeren zonder er een interventie uit te voeren
→ eenvoudiger om uit te voeren
Experimentele studie = onderzoekers doen een interventie om te onderzoeken
bv. ene helft groep mag elke dag gsm gebruiken, andere groep niet…
→ voordeel je kan een causaal besluit trekken, bij observationeel niet
Experimentele eenheden = de eenheden die men in een experimentele studie zal bestuderen en
waarvoor men data zal verzamelen
6
,3.2.3. ETHISCHE BEOORDELING
➔ Onderzoekers hebben hun onderzoeksplan en data-analyse moeten voorleggen aan een ethische
commissie en hebben goedkeuring gekregen
Protocol = document waarin onderzoekers schetsen wat het doel is van de studie, welke variabelen
gemeten zullen worden, welke hypotheses ze zullen onderzoeken, hoe ze de steekproef zullen
samenstellen en hoe ze de data zullen analyseren.
→ belangrijk voor de repliceerbaarheid van de studie
→HARKing (hypothesizing after the results are known) tegengaan
→ verplicht je om op voorhand goed na te denken over je studie
Replicatie = een herhaling van een studie volgens dezelfde methodes als de oorspronkelijke studie,
waarbij de conclusies in lijn liggen met die van de oorspronkelijke studie
HARKing= werkwijze waarbij men onderzoekshypotheses opstelt als basis van
bevindingen in data en vervolgens zelfde data gebruikt om deze hypothese te toetsen.
→ geen goede manier om onderzoek te doen, want in strijd met empirische cyclus die
stelt dat we nieuwe data moeten gebruiken om een hypothese te toetsen
Elementen van een protocol:
Het doel van de studie;
De variabelen die gemeten zullen worden;
De onderzoekshypotheses;
De wijze waarop de steekproef verkregen zal worden;
De wijze waarop de data statistisch geanalyseerd zullen worden om de onderzoekshypotheses te
valideren of falsificeren.
LEERPAD 2
1. UNIVARIATE ANALYSE VAN EEN VARIABELE
1.1. RESULTATEN: UNIVARIATE ANALYSES
Beschrijvende analyse = inzicht krijgen in de data van de steekproef, hoe ziet die eruit, wat kan ik eruit
leren → hierbij gebruik maken van tabellen, samenvattende maten of figuren
Verdeling van de variabele = geeft weer welke waarden de variabele kan aannemen en hoe vaak elke
waarde wordt aangenomen
→ welke waarden en hoe vaak? → Antwoord op deze vragen is de verdeling van de variabele
Univariate verdeling = de verdeling van één variabele
Univariate analyses = Inzicht krijgen in variabelen door ze één per één te bekijken
Bivariate anaylses = 2 variabelen tegelijk bestuderen
Inductieve analyse = aan de hand van de data proberen begrijpen wat de onderliggende processen zijn
die aanleiding hebben gegeven tot de data, stapje verder dan beschrijvende, iets complexer
7
,1.1.1. FREQUENTIES EN ODSS
Hulpmiddelen om inzicht te krijgen in variabelen → frequenties, odds en staafdiagrammen
Absolute frequentie = aantal keer dat een waarde van een variabele voorkomt in de steekproef
→ gewoon tellen hoeveel de steekproef is bv. x aantal jongens en x aantal meisjes
Relatieve frequentie = absolute frequentie gedeeld door de steekproefgrootte (x 100 voor percentage)
→relatief ten opzichte van de totale steekproef bv. totaal aantal scholieren
→ bv. 58 880 meisjes : 112 153 x 100 = 52.5
→ dus per 100 leerlingen, zijn er 52.5 meisjes → andere manier om percent te lezen
→ uitgedrukt als proportie (dus niet als percent), is altijd tussen 0 en 1
Odds = frequentieverhouding, aantal keer dat een waarde van een variabele w aangenomen gedeeld door
het aantal keer dat een andere waarde w aangenomen
→ andere manier om iets relatief uit te drukken
→ vertrekt vanuit absolute frequentie bv. 58 880 : aantal jongens 53 273 = 1.1
→ interpretatie waarde: kan > of < zijn dan 1, het is een afronding van de breuk tussen jongens en meisjes
→ 1.1 is niet zo makkelijk om uit te drukken, wil eigenlijk zeggen dat per 53 273 jongens, er 58 880 meisjes
zijn, omgezet is dat 11 op 10 of 22 op 20, per 10 jongens zijn er dus 11 meisjes
→ kan ook bekomen worden door de relatieve frequenties door elkaar te delen: 52.5/ 47.5
1.1.2. STAAFDIAGRAMMEN
Bij een staafdiagram is de hoogte = de relatieve of absolute frequentie
→ op de X- as staan de variabelen
Staafdiagram = visualisatie van de verdeling van een variabele, waarbij per waarde van de variabele een
staaf wordt getekend waarvan de hoogte = de absolutie/ relatieve frequentie van die waarde van de
steekproef. De breedtes van de staven zijn gelijk.
Kwalitatieve variabele (categorische)= heeft kenmerken of categorieën als waarde
→ wanneer het niet zinvol is om er een berekening op te doen bv. kleur van ogen
• Ordinaal = variabelen kunnen w geordend
• Nominaal = variabelen kunnen niet w geordend
Kwantitatieve variabele (numerieke) = heeft getallen als waarden, wanneer je er een berekening op kan
doen bv. score op 5 op een test, reactietijd op computer…. Je kan het gemiddelde hiervan berekenen
• Intervalvariabelen = wanneer er geen absoluut nulpunt is
• Ratiovariabelen= er is een absoluut nulpunt bv. lengte
• Discrete variabele = variabele kan beperkt aantal waarden aannemen
• Continue variabele =variabele kan vele waarden aannemen (afh v context)
Binaire variabelen = variabele die slechts 2 waarden kan aannemen, meest eenvoudige variabele
→bv. geslacht
→ variabele die maar één waarde aanneemt is geen variabele, want dit is constant
Gedepriveerde regio = wanneer criminaliteitscijfers te hoog zijn en tewerkstelling te laag
Niet gedrepriverde regio = omgekeerde
8
, Non-respons kan zorgen dat de finale steekproef niet representatief is → bv. bij de regio’s zien we dat net
iets minder dan de helft in een gedepriveerde regio zou wonen, wat niet zo logisch is. Het kan zijn dat meer
leerlingen uit deze buurt hebben deelgenomen aan het onderzoek, waardoor ze oververtegenwoordigd zijn.
1.1.3. STAAFDIAGRAM OP MAAT
VRAAG
Figuur 2.2. is niet ideaal voor visualiseren smartphonegebruik → staafdiagram is eerder voor
categorische variabelen, kwalitatieve. Voor numerieke variabelen worden eerder andere methoden
gebruikt.
1. Figuur is niet ideaal want hetgeen wat we zien is niet hetzelfde als de info die verwerkt is. In de
staafdiagrammen gaat het in sprongen van een halfuur opeens naar een uur, visueel zijn de sprongen
evengroot, maar dit klopt dus niet.
2. De waarde 7 is eigenlijk 7 of meer uren per dag, maar staat als 7 aangegeven, het is dus niet duidelijk
dat dit eigenlijk een veel grotere groep aangeeft.→ niet raar dat deze groep veel groter is, want geeft
meer uren aan. Het gaat over 7u, 8u, 9u…. de andere groepen vertegenwoordigen 1 variabele.
2. 1. CENTRUM EN SPREIDINGSMATEN
2.1.1. CENTRUM
Hoe rijker een variabele is, hoe meer waarden ze kan aannemen, hoe meer je ermee kan doen.
Steekproefgemiddelde = alle waarden optellen en delen door het aantal deelnemers in de steekproef.
→ X met streep
→ waarom kleine letter en geen hoofdletter? Omdat dit een constante is, je komt één getal uit, het
varieert niet.
𝑛
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 1
𝑥̅ = = ∑ 𝑥𝑖
𝑛 𝑛
𝑖=1
Steekproefmediaan (mdx of md) = de waarde in het midden als alle waarden geordend worden van klein
naar groot, de waarde waarvoor geldt dat 50% van de observaties niet groter is en 50% niet kleiner is.
→ houdt geen rekening met de afstand
Modus = de waarde die het vaakst voorkomt in de steekproef
Modi = als er meerdere van dergelijke waarden zijn
→ vooral bij nominale waarden
→ mediaan en gemiddelde zijn nuttiger
Centrum = de som van de pijlen links moet gelijk zijn aan de som van de pijlen rechts, het midden van de
verdeling
Centrummaten = wat is het centrum van de verdeling van een variabele, er zijn er verschillende van maar
mediaan en gemiddelde zijn de belangrijkste
VRAGEN
9
Universiteit Gent
2024 - 2025
Lies Poppe
,INHOUD
LEERPAD 1 ............................................................................................................................4
1. Beschrijvende analyse ...............................................................................................................4
2. Wetenschappelijk onderzoek obv empirische cyclus ...............................................................4
2.1. De empirische cyclus: grondschema................................................................................4
2.1.1. centrale begrippen ......................................................................................................4
2.2 Statistiek binnen de empirische cyclus .....................................................................................4
3. Onderzoek naar smartphonegebruik en mentaal welzijn...........................................................5
3.1. Waarom onderzoek .........................................................................................................5
3.2. Methode: hoe werd de studie uitgevoerd?.........................................................................5
3.2.1. proefpersonen en steekproeftrekking ...........................................................................5
3.2.2. metingen ....................................................................................................................6
3.2.3. Ethische beoordeling ..................................................................................................7
LEERPAD 2 ............................................................................................................................7
1. Univariate analyse van een variabele ..........................................................................................7
1.1. Resultaten: univariate analyses .......................................................................................7
1.1.1. Frequenties en odss....................................................................................................8
1.1.2. Staafdiagrammen .......................................................................................................8
1.1.3. Staafdiagram op maat .................................................................................................9
2.1.1. Centrum .........................................................................................................................9
2.2.2. Spreidingsmaten ...................................................................................................... 10
3. Histogram en boxplot .................................................................................................... 11
3.1. Histogram .................................................................................................................... 11
3.2. Boxplot ......................................................................................................................... 12
2. Resultaten: Bivariate analyses ................................................................................................. 12
2.1. Kruistabellen ........................................................................................................................ 12
3. Associatiematen voor kruistabellen .......................................................................................... 13
4. Spreidingsdiagram .................................................................................................................. 13
5. Correlatie/ causatie + steekproef/ populatie ............................................................................. 14
LEERPAD 3 .......................................................................................................................... 16
1. Spreidingsmaten ..................................................................................................................... 16
2. Boxplot, uitschieters en de vorm van een verdeling .................................................................... 17
3. Correlatie................................................................................................................................ 18
4. Regressie en uitschieters ......................................................................................................... 20
5. Correlatie en causatie ............................................................................................................. 23
LES 3 ................................................................................................................................... 24
1
,1. Notities tijdens les ................................................................................................................... 24
LEERPAD 4 .......................................................................................................................... 27
1. INtroductie binomiaaltoets ...................................................................................................... 27
2. Onderzoek naar morele intuïtie bij baby’s ................................................................................. 28
3. Het toevalsproces en hypothesetoets (informeel)...................................................................... 29
4. Hypothesetoets (formeel) ........................................................................................................ 30
5 eenzijdige en tweezijdige hypotheses – hypothesetoets algemeen – impact op de P-waarde .............. 33
6. Beslissingen op basis van een hypothesetoets .......................................................................... 36
LES 4 ................................................................................................................................... 41
1. Potentiële examenvragen .............................................................................................. 41
LEERPAD 5 .......................................................................................................................... 46
1. Het betrouwbaarheidsinterval .................................................................................................. 46
2. Het betrouwbaarheidsinterval via formules ............................................................................... 49
LES 5 ................................................................................................................................... 54
1. Extra uitleg hypothesetoets .................................................................................................. 54
2. P-waarde ............................................................................................................................. 55
3. Betrouwbaarheidsintervallen................................................................................................ 57
3. Vragen................................................................................................................................. 58
3.1. Vraag 1 ......................................................................................................................... 58
3.2. Vraag 2 ......................................................................................................................... 60
3.3. Vraag 3 ......................................................................................................................... 61
3.4. Vraag 4 ......................................................................................................................... 62
LEERPAD 6 .......................................................................................................................... 63
1. Samenhang tss 2 variabelen: onderzoek naar gender en raciale bias .......................................... 63
1.1. INtroductie ................................................................................................................... 63
1.2. Onderzoek naar gender en raciale bias bij medische behandelingen ................................ 64
1.3. Ontwerp en metingen .................................................................................................... 65
2. Proporties van twee onafhanelijke groepen vergelijken ........................................................... 66
2.1. Onderzoeksvraag .......................................................................................................... 66
2.2. Beschrijvende analyses ................................................................................................. 66
2.3. Inductieve analyse ........................................................................................................ 68
2.4. Nulverdeling ................................................................................................................. 69
2.4.1. Nulverdeling via binomiale verdeling .......................................................................... 69
2.4.1. 3 stappen om tot de nulverdeling van T te komen: ....................................................... 70
2.5. Betrouwbaarheidsinterval ............................................................................................. 73
2.6. Nulverdeling via permutaties ......................................................................................... 74
2.6.1. 3 stappen om nulverdeling te bekomen ...................................................................... 74
2
, 2.7. De tactiele variant ......................................................................................................... 75
2.8. Formules ...................................................................................................................... 75
2.9. Probleem toetsen vele hypotheses ................................................................................ 76
2.10. Het effect van het netwerk ............................................................................................. 77
3. Gemiddelden van Twee onafhankelijke groepen vergelijken .................................................... 77
3.1. Inductieve analyse ........................................................................................................ 78
3.2. De hypotheses, toetsingsgrootheid en nulverdeling ........................................................ 78
3.3. Formules ...................................................................................................................... 79
3.4. Centrale limietstelling ................................................................................................... 80
3.5. T-verdeling.................................................................................................................... 81
LES 6 ................................................................................................................................... 81
1. Vraag 1 ................................................................................................................................ 81
2. Vraag 2 ................................................................................................................................ 83
3. Vraag 3 ................................................................................................................................ 84
4. Vraag 4 ................................................................................................................................ 85
LES 7 ................................................................................................................................... 87
1. Het examen ......................................................................................................................... 87
2. Potentiële examenvraag ....................................................................................................... 88
3
, STATISTIEK
LEERPAD 1
1. BESCHRIJVENDE ANALYSE
2. WETENSCHAPPELIJK ONDERZOEK OBV EMPIRISCHE CYCLUS
2.1. DE EMPIRISCHE CYCLUS: GRONDSCHEMA
= een methode die ons in staat stelt om kennis te verwerven via systematische observatie.
→ Helpt ons om de wereld te zien zoals ze werkelijk is, in plaats van hoe we willen dat het zou zijn.
2.1.1. CENTRALE BEGRIPPEN
• Observatie: waarnemen en verzamelen van empirisch feitenmateriaal
• Inductie: formuleren van hypotheses obv observatie
• Deductie: opstellen van voorspellingen obv hypotheses
• Toetsing: aftoetsen van voorspellingen obv nieuw empirisch feitenmateriaal
• Evaluatie: resultaat van de toetsing kritisch beoordelen
Voorbeeld:
Observatie: ik zie mijn fiets niet staan tegen de boom.
Inductie: mijn fiets staat niet meer op haar plaats, ze is waarschijnlijk gestolen.
Deductie: als mijn fiets gestolen is, zal ze niet meer aan het stationsplein staan.
Toetsing: na wat zoeken vind ik mijn fiets terug in een fietsrek.
Evaluatie: mijn fiets is niet gestolen, maar iemand heeft ze verplaatst.
Goudlokje principe = een beperkte mate kan een positief gevolg hebben, terwijl een teveel gebruik een
negatief gevolg kan hebben bv. beperkt schermgebruik = beter mentaal welzijn, meer schermgebruik =
slechter mentaal welzijn → een beetje is goed, teveel is niet goed
2.2 STATISTIEK BINNEN DE EMPIRISCHE CYCLUS
Statistiek = de wetenschap van het leren uit data, met bijzondere aandacht voor het meten, controleren
en communiceren van onzekerheid
Statistische geletterdheid = statistiek begrijpen, het in staat zijn om te redeneren door middel van
statistiek en data
➔ Statistiek is verweven in de empirische cyclus en kan bij elke stap gebruikt worden
➔ Belangrijk binnen 4 fasen van onderzoek:
- Formuleren onderzoeksvraag die kan beantwoord w dmv data
- Ontwerpen van studie & verzamelen data
- Verkennen verzamelde data via beschrijvende analyeses
- Formuleren van conclusies die verder reiken dan de geobserveerde data via inductieve analyses
Variabiliteit → bv. mentaal welzijn is niet voor iedereen hetzelfde
Oplossing → statistische analyse: de 2 gemiddelden met elkaar vergelijken, groep van 0 uur scoort hoger
dan groep van 5uur
Standaardafwijking = geeft aan hoe sterk afwijkingen zijn van gemiddelde.
→ Hoe groter het getal, hoe meer verschillen, hoe kleiner getal, hoe meer het op elkaar lijkt.
4
,3. ONDERZOEK NAAR SMARTPHONEGEBRUIK EN MENTAAL WELZIJN
3.1. WAAROM ONDERZOEK
3.2. METHODE: HOE WERD DE STUDIE UITGEVOERD?
3.2.1. PROEFPERSONEN EN STEEKPROEFTREKKING
Populatie = de verzameling van subjecten (elementen/eenheden) die men wil bestuderen.
= een grote groep personen waarover men iets te weten wil komen
Obersvationele eenheden = de eenheden (personen) waarover men data zal verzamelen
Steekproef (sample) = kleinere deelverzameling van de populatie
→ grotere steekproef is beter, want dan meer data over de populatie
→ steekproefgrootte moet balans houden tss groot genoeg zijn om voldoende data te verzamelen en niet
onnodig kostelijk
Steekproefkader (sample frame) = lijst waarmee we uit de populatie een steekproef samen te stellen
→ hieruit moeten onderzoekers bv. scholieren selecteren om een representatieve steekproef te verkrijgen
Representatieve steekproef = een steekproef die een goede weerspiegeling is van de populatie en haar
karakteristieken die men wil onderzoeken
Enkelvoudig aselecte steekproeftrekking/ enkelvoudig lukrake steekproeftrekking, EAS, (simple
random sampling) = elke steekproef heeft dezelfde kans om gekozen te worden. Elk element in het
steekproefkader heeft dezelfde kans om tot de steekproef te behoren. Het is lukraak, willekeurig, aselect.
Gestratificeerde steekproeftrekking (stratified sample trekking) = populatie wordt eerst opgedeeld in
strata (bv. lokale besturen in een gemeente) en men voert enkelvoudige aselecte steekproef uit per
stratum.→ meervoudig aselecte steekproef, want men zal meerdere enkelvoudige steekproeftrekkingen
kunnen uitvoeren
Proportioneel gestratificeerde steekproeftrekking = de populatie w opgedeeld in een aantal strata en
binnen elke stratum w een enkelvoudige aselecte steekproeftrekking uitgevoerd. De proportie personen in
de steekproef is gelijk aan de populatie
Gemakshalve steekproeftrekking (convenience sampling) = trekkingen die makkelijk uit te voeren zijn
→ personen die makkelijk bereikbaar zijn, hebben een grotere kans om tot de steekproef te behoren
→ bv. werken met lokale scholen in je buurt, ipv allemaal random scholen in heel Vlaanderen
Selectiebias = vertekening waarbij sommige groepen in de populatie over- of ondervertegenwoordigt
kunnen zijn in de steekproef
→bv. gegevens lln lokale scholen zijn niet te veralgemenen naar lln uit andere buurten
➔ Gemakshalve steekproeftrekkingen zijn onderhevig aan selectiebias
➔ Enkelvoudige aselecte en proportioneel gestratificeerde steekproeftrekkingen niet
Steekproefgrootte (n) = het aantal elementen in de steekproef waarvoor data is verzameld
Non-responders = personen die, hoewel ze zijn uitgenodigd, niet deelnemen aan de studie
→ kan leiden tot vertekening = non-respons-bias
5
,Voorbeeld:
Bv. er zijn 1000 bollen kaas die moeten geïnspecteerd w of ze nog goed zijn, je neemt er 10 als steekproef
EAS → je kiest er 10 random uit
Gestratificeerd → er zijn 2 soorten kazen, Gouda en Leerdammer, je neemt er 5 random van elke soort
Gemakshalve → je neemt de eerste 10 die je ziet (kan goed zijn, maar ook niet goed want deze 10 kunnen
bv. net goede kazen zijn of geen goede)
3.2.2. METINGEN
Variabelen = karakteristieken van de observationele eenheden die men wenst te onderzoeken. Omdat ze
kunnen verschillen van eenheid tot eenheid, kunnen ze variëren.
Uitkomstvariabele= hoofduitkomst onderzoek, men wil inzicht krijgen in deze variabele, waarbij men
probeert te verklaren waarom deze variabele varieert
bv. mentaal welzijn via Warwick-Edinburgh Mental Well-Being Scale
Verklarende variabelen= variabelen die ons in staat stellen om te begrijpen waarom de uitkomstvariabele
varieert, voorspellende variabele/ predictor, variabiliteit van de ene variabele trachten te verklaren door
een andere variabele bv. gemiddelde aantal uur per dag (week/weekend), videospellen op de computer of
via een spelconsole…
Controlevariabelen = controleren voor mogelijke verschillen in uitkomstvariabelen die niet toe te schrijven
zijn aan een verklarende variabele bv. zorgen dat geslacht geen reden voor verschil kan zijn bv. meisjes
gebruiken meer dan jongens, meisjes met meisjes vergelijken en jongens met jongens
Geslacht
Etniciteit
Regio
Doel: variabiliteit in de uitkomstvariabele verklaren via de verklarende variabelen en eventuele
controlevariabelen in rekening brengen
Operationaliseren = het meetbaar maken van de eigenschappen die men wenst te bestuderen
Cross-sectionele studie = observaties op één moment in de tijd, maar één keer gemeten
Longitudinale studie = op verschillende momenten w een bevraging gedaan bv. elke maand, het is over
de tijd heen → je kan effecten over de tijd bestuderen, kan bij cross sectioneel niet, bij longtidunale
kunnen mensen sneller afhaken
Observationele studie = onderzoekers observeren zonder er een interventie uit te voeren
→ eenvoudiger om uit te voeren
Experimentele studie = onderzoekers doen een interventie om te onderzoeken
bv. ene helft groep mag elke dag gsm gebruiken, andere groep niet…
→ voordeel je kan een causaal besluit trekken, bij observationeel niet
Experimentele eenheden = de eenheden die men in een experimentele studie zal bestuderen en
waarvoor men data zal verzamelen
6
,3.2.3. ETHISCHE BEOORDELING
➔ Onderzoekers hebben hun onderzoeksplan en data-analyse moeten voorleggen aan een ethische
commissie en hebben goedkeuring gekregen
Protocol = document waarin onderzoekers schetsen wat het doel is van de studie, welke variabelen
gemeten zullen worden, welke hypotheses ze zullen onderzoeken, hoe ze de steekproef zullen
samenstellen en hoe ze de data zullen analyseren.
→ belangrijk voor de repliceerbaarheid van de studie
→HARKing (hypothesizing after the results are known) tegengaan
→ verplicht je om op voorhand goed na te denken over je studie
Replicatie = een herhaling van een studie volgens dezelfde methodes als de oorspronkelijke studie,
waarbij de conclusies in lijn liggen met die van de oorspronkelijke studie
HARKing= werkwijze waarbij men onderzoekshypotheses opstelt als basis van
bevindingen in data en vervolgens zelfde data gebruikt om deze hypothese te toetsen.
→ geen goede manier om onderzoek te doen, want in strijd met empirische cyclus die
stelt dat we nieuwe data moeten gebruiken om een hypothese te toetsen
Elementen van een protocol:
Het doel van de studie;
De variabelen die gemeten zullen worden;
De onderzoekshypotheses;
De wijze waarop de steekproef verkregen zal worden;
De wijze waarop de data statistisch geanalyseerd zullen worden om de onderzoekshypotheses te
valideren of falsificeren.
LEERPAD 2
1. UNIVARIATE ANALYSE VAN EEN VARIABELE
1.1. RESULTATEN: UNIVARIATE ANALYSES
Beschrijvende analyse = inzicht krijgen in de data van de steekproef, hoe ziet die eruit, wat kan ik eruit
leren → hierbij gebruik maken van tabellen, samenvattende maten of figuren
Verdeling van de variabele = geeft weer welke waarden de variabele kan aannemen en hoe vaak elke
waarde wordt aangenomen
→ welke waarden en hoe vaak? → Antwoord op deze vragen is de verdeling van de variabele
Univariate verdeling = de verdeling van één variabele
Univariate analyses = Inzicht krijgen in variabelen door ze één per één te bekijken
Bivariate anaylses = 2 variabelen tegelijk bestuderen
Inductieve analyse = aan de hand van de data proberen begrijpen wat de onderliggende processen zijn
die aanleiding hebben gegeven tot de data, stapje verder dan beschrijvende, iets complexer
7
,1.1.1. FREQUENTIES EN ODSS
Hulpmiddelen om inzicht te krijgen in variabelen → frequenties, odds en staafdiagrammen
Absolute frequentie = aantal keer dat een waarde van een variabele voorkomt in de steekproef
→ gewoon tellen hoeveel de steekproef is bv. x aantal jongens en x aantal meisjes
Relatieve frequentie = absolute frequentie gedeeld door de steekproefgrootte (x 100 voor percentage)
→relatief ten opzichte van de totale steekproef bv. totaal aantal scholieren
→ bv. 58 880 meisjes : 112 153 x 100 = 52.5
→ dus per 100 leerlingen, zijn er 52.5 meisjes → andere manier om percent te lezen
→ uitgedrukt als proportie (dus niet als percent), is altijd tussen 0 en 1
Odds = frequentieverhouding, aantal keer dat een waarde van een variabele w aangenomen gedeeld door
het aantal keer dat een andere waarde w aangenomen
→ andere manier om iets relatief uit te drukken
→ vertrekt vanuit absolute frequentie bv. 58 880 : aantal jongens 53 273 = 1.1
→ interpretatie waarde: kan > of < zijn dan 1, het is een afronding van de breuk tussen jongens en meisjes
→ 1.1 is niet zo makkelijk om uit te drukken, wil eigenlijk zeggen dat per 53 273 jongens, er 58 880 meisjes
zijn, omgezet is dat 11 op 10 of 22 op 20, per 10 jongens zijn er dus 11 meisjes
→ kan ook bekomen worden door de relatieve frequenties door elkaar te delen: 52.5/ 47.5
1.1.2. STAAFDIAGRAMMEN
Bij een staafdiagram is de hoogte = de relatieve of absolute frequentie
→ op de X- as staan de variabelen
Staafdiagram = visualisatie van de verdeling van een variabele, waarbij per waarde van de variabele een
staaf wordt getekend waarvan de hoogte = de absolutie/ relatieve frequentie van die waarde van de
steekproef. De breedtes van de staven zijn gelijk.
Kwalitatieve variabele (categorische)= heeft kenmerken of categorieën als waarde
→ wanneer het niet zinvol is om er een berekening op te doen bv. kleur van ogen
• Ordinaal = variabelen kunnen w geordend
• Nominaal = variabelen kunnen niet w geordend
Kwantitatieve variabele (numerieke) = heeft getallen als waarden, wanneer je er een berekening op kan
doen bv. score op 5 op een test, reactietijd op computer…. Je kan het gemiddelde hiervan berekenen
• Intervalvariabelen = wanneer er geen absoluut nulpunt is
• Ratiovariabelen= er is een absoluut nulpunt bv. lengte
• Discrete variabele = variabele kan beperkt aantal waarden aannemen
• Continue variabele =variabele kan vele waarden aannemen (afh v context)
Binaire variabelen = variabele die slechts 2 waarden kan aannemen, meest eenvoudige variabele
→bv. geslacht
→ variabele die maar één waarde aanneemt is geen variabele, want dit is constant
Gedepriveerde regio = wanneer criminaliteitscijfers te hoog zijn en tewerkstelling te laag
Niet gedrepriverde regio = omgekeerde
8
, Non-respons kan zorgen dat de finale steekproef niet representatief is → bv. bij de regio’s zien we dat net
iets minder dan de helft in een gedepriveerde regio zou wonen, wat niet zo logisch is. Het kan zijn dat meer
leerlingen uit deze buurt hebben deelgenomen aan het onderzoek, waardoor ze oververtegenwoordigd zijn.
1.1.3. STAAFDIAGRAM OP MAAT
VRAAG
Figuur 2.2. is niet ideaal voor visualiseren smartphonegebruik → staafdiagram is eerder voor
categorische variabelen, kwalitatieve. Voor numerieke variabelen worden eerder andere methoden
gebruikt.
1. Figuur is niet ideaal want hetgeen wat we zien is niet hetzelfde als de info die verwerkt is. In de
staafdiagrammen gaat het in sprongen van een halfuur opeens naar een uur, visueel zijn de sprongen
evengroot, maar dit klopt dus niet.
2. De waarde 7 is eigenlijk 7 of meer uren per dag, maar staat als 7 aangegeven, het is dus niet duidelijk
dat dit eigenlijk een veel grotere groep aangeeft.→ niet raar dat deze groep veel groter is, want geeft
meer uren aan. Het gaat over 7u, 8u, 9u…. de andere groepen vertegenwoordigen 1 variabele.
2. 1. CENTRUM EN SPREIDINGSMATEN
2.1.1. CENTRUM
Hoe rijker een variabele is, hoe meer waarden ze kan aannemen, hoe meer je ermee kan doen.
Steekproefgemiddelde = alle waarden optellen en delen door het aantal deelnemers in de steekproef.
→ X met streep
→ waarom kleine letter en geen hoofdletter? Omdat dit een constante is, je komt één getal uit, het
varieert niet.
𝑛
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 1
𝑥̅ = = ∑ 𝑥𝑖
𝑛 𝑛
𝑖=1
Steekproefmediaan (mdx of md) = de waarde in het midden als alle waarden geordend worden van klein
naar groot, de waarde waarvoor geldt dat 50% van de observaties niet groter is en 50% niet kleiner is.
→ houdt geen rekening met de afstand
Modus = de waarde die het vaakst voorkomt in de steekproef
Modi = als er meerdere van dergelijke waarden zijn
→ vooral bij nominale waarden
→ mediaan en gemiddelde zijn nuttiger
Centrum = de som van de pijlen links moet gelijk zijn aan de som van de pijlen rechts, het midden van de
verdeling
Centrummaten = wat is het centrum van de verdeling van een variabele, er zijn er verschillende van maar
mediaan en gemiddelde zijn de belangrijkste
VRAGEN
9