Doelen van het vak............................................................................................. 4
Complete samenvatting statistiek 1 ........................................................................ 5
Lecture 1: statistics and R................................................................................... 5
Why use statistics? ......................................................................................... 5
Introduction to RStudio and R .......................................................................... 6
R as calculator ............................................................................................... 6
Variables ....................................................................................................... 7
Functions and help ......................................................................................... 8
Overzicht functies .......................................................................................... 9
Importing data in R ....................................................................................... 10
Viewing data ................................................................................................ 10
Modifying data ............................................................................................. 11
Visualization in R .......................................................................................... 13
Statistics in R ............................................................................................... 14
Overzicht functies week 1.............................................................................. 16
Overzicht symbolen week 1 ........................................................................... 16
Lecture 2: descriptive statistics ......................................................................... 18
Descriptive statistics vs. inferential statistics................................................... 18
Sample vs. Population .................................................................................. 18
Four variable types ....................................................................................... 19
Measures of central tendency and spread ....................................................... 20
Standardized scores (z-scores) ...................................................................... 24
Distribution of a variable: normal distribution .................................................. 26
Overzicht functies week 2.............................................................................. 28
Lecture 3: Sampling ......................................................................................... 29
Sample vs. Population .................................................................................. 29
Relation between population (mean) and sample (mean) .................................. 29
Standard deviation vs standard error .............................................................. 30
Definition of p-value (probability of data given hypothesis / probability of type-I
error) .......................................................................................................... 30
1
, Reasoning about population: confidence interval............................................. 31
Testing a hypothesis about the population using a sample................................. 32
Statistical significance (p-value vs. alpha -value) ............................................. 33
Comparing sample to population using standardized test: z-test ....................... 33
Reasoning about population: hypothesis tests ( H0 vs. Ha ) ............................... 35
Critical values .............................................................................................. 36
One-sided vs. two-sided hypothesis ............................................................... 37
Effect size.................................................................................................... 38
Error types ................................................................................................... 39
Overzicht symbolen week 3 ........................................................................... 40
Overzicht functies week 3.............................................................................. 40
Lecture 4: introduction to linear regression ......................................................... 41
Correlation as descriptive statistic ................................................................. 41
Simple linear regression with a single numerical predictor ................................ 42
Dependent (DV) vs. independent variable (IV) .................................................. 43
Fitted values vs. residuals ............................................................................. 43
Assumptions: independent observations, residuals normally distributed and
homoscedastic, linear relationship between IV and DV ..................................... 44
Interpreting and visualizing output .................................................................. 45
Effect size.................................................................................................... 49
Reporting results .......................................................................................... 50
Overzicht symbolen week 4 ........................................................................... 51
Overzicht functies week 4.............................................................................. 51
Lecture 5: (multiple) linear regression ................................................................ 52
Simple linear regression with a single nominal predictor ................................... 52
Multiple linear regression .............................................................................. 55
Adding multiple independent variables ........................................................... 55
Additional assumption: no collinearity between IVs .......................................... 57
Model comparison ....................................................................................... 57
Determining importance of independent variables ........................................... 58
Interaction between two variables (introduction).............................................. 59
Overzicht functies week 5.............................................................................. 63
2
,Lecture 6: Multiple linear regression and Crohnbach’s alpha................................. 64
Interactions in multiple regression:................................................................. 64
Interaction between a nominal and a numerical independent variable ................ 64
Interaction between two nominal independent variables .................................. 67
Interaction between two numerical independent variables ................................ 69
Cronbach’s alpha for assessing the reliability of a series of questions ................. 73
Overzicht van belangrijke formules .................................................................... 75
3
,Doelen van het vak
• Begrijpen wat descriptieve en inferentiële statistiek zijn
▪ Nadruk op statistisch redeneren
▪ Praktische aanpak, maar met wat wiskunde om de concepten te
verduidelijken. Statistische analyses begrijpen en toepassen
• Verslagen maken op basis van statistische analyses
• Andermans verslagen begrijpen waarin statistische analyses zitten (begrijpen wat
p-waarden in artikelen betekenen)
• In R statistische analyses toepassen
4
,Complete samenvatting statistiek 1
Vak code LIX001X05
Rijksuniversiteit Groningen
Collegejaar 2025-2026 semester 2
Docent: Martijn Wieling
Geschreven door: Dyan de Vries
Lecture 1: statistics and R
Why use statistics?
- Voorbeeld communicatie en informatiewetenschappen of taalwetenschappen →
Wat is het effect van het gebruik van een stripverhaal versus normale tekst op het
begrip van een tekst?
- Voorbeeld informatiekunde → Wat is de invloed van een algoritme op de kwaliteit
van een automatisch gegenereerde samenvatting?
- Wat is de invloed van geslacht op het leren van een tweede taal?
De output van bovenstaande vragen komt in de vorm van data. Hier kun je statistische
analyses mee doen. Pas wel op met het doen van deze analyses. Wanneer je maar vaak
genoeg analyses doet vind je uiteindelijk vast wel een verband waarvan de kans groot is
dat het op toeval berust.
Statistiek zorgt ervoor dat we kunnen onderscheiden wanneer iets op toeval berust
en wanneer niet. Of wanneer de kans groot is dat het niet op toeval berust.
Om iets van de verzamelde data te kunnen maken gebruiken we statistiek. Dit kan op
twee manieren:
- Beschrijvende statistiek: Dit gebruik je om data samen te vatten.
o Dit is bijvoorbeeld het uitrekenen van centraliteit en spreiding. Hieronder
vallen het gemiddelde, mediaan, modus, variatie, bereik, de
standaardafwijkingen of het maken van tabellen.
o Bij beschrijvende statistiek beschrijven we de data zonder dat we daar
conclusies aan verbinden.
o Visualisatie in (beschrijvende) statistiek is belangrijk. In beschrijvende
statistiek is dit bijvoorbeeld het visualiseren aantal proefpersonen per
opleiding door middel van een staafdiagram.
- Inferentiële statistiek: Dit gebruik je om relaties in data te analyseren.
Vervolgens kijk je hoe deze relaties die je in de betreffende steekproef vindt, kunt
linken aan de gewenste populatie (de groep waarover je een uitspraak wilt doen).
5
, Dit is bijvoorbeeld: ‘welke oorzaak ervoor zorgt dat iemands Engelse
taalvaardigheid verbetert?’
o Voorbeelden van inferentiële statistiek zijn:
o Het vergelijken van twee groepen (Is de uitspraak van
vrouwen beter dan de uitspraak van mannen?)
o Het bepalen van de relatie tussen twee numerieke
variabelen (Is de Engelse taalvaardigheid afhankelijk van
leeftijd?)
o Het bepalen van de interne consistentie van vragen in een
vragenlijst (Zijn er vragen die samen één bepaald aspect
meten? Zoals hoe leuk iemand statistiek vindt, dan stel je
meerdere vragen over hetzelfde onderwerp, welke als geheel
een antwoord vormen op de vraag ‘Wat is iemands mening
over het vak statistiek’)
o Hiervoor gebruik je statistische toetsen zoals bijvoorbeeld de t-
toets of regressie.
Conclusies zijn eigenlijk altijd met betrekking tot de hele populatie. We willen data
verzamelen om uiteindelijk iets te kunnen zeggen over een populatie (een grotere groep).
Dit kan bijvoorbeeld gaan om: alle mensen op de wereld, alle mensen in Nederland, alle
mensen die in Nederland studeren of alle mensen die in Groningen studeren. Wat de
populatie is, hangt af van wat de onderzoeksvraag is.
Twee belangrijke punten om te onthouden:
- Een belangrijke voorwaarde is dat er variatie zit in de data. Als je bijvoorbeeld
geïnteresseerd bent in de invloed van geslacht en je hebt een dataset met alleen
maar vrouwen, kun je niet bepalen wat de invloed is van geslacht want er zit geen
variatie in de ‘variabele’ geslacht.
- Statistiek is geen pure wiskunde, maar een vorm van data-analyse.
Introduction to RStudio and R
Je kunt R commando’s geven welke je moet typen. De output begint altijd met [1] voor
het antwoord. Dit betekent dat dit het eerste antwoord is uit de lijst.
Wanneer je een commentaar wilt toevoegen gebruik je het symbool ‘#’. Hierachter kun je
alles typen wat je wilt, zo ook een commando, zonder dat dit uitgevoerd wordt. Alles
achter de hashtag ziet R als commentaar. Het toevoegen van commentaar is handig, zo
kun je altijd op een later moment teruglezen welk commando wat doet.
R as calculator
R kan functioneren als een rekenmachine. Het kan optellen, aftrekken,
vermenigvuldigen (*) en delen (/). Dit is toepasbaar wanneer je bijvoorbeeld een kolom
lengte en een kolom gewicht hebt en je hiervan het BMI wilt uitrekenen.
6