Hoorcolleges Statistiek voor GPM
Hoorcollege 1 – Basisbeginselen statistiek, beschrijvende statistiek – 29-01-2025
Inleiding:
Doelstellingen:
- Basiselementen en procedures uit de beschrijvende en verklarende statistiek adequaat
kunnen toepassen, met behulp van SPSS (of R).
- Resultaten van statische procedures adequaat kunnen interpreteren
- Keuzes bij het uitvoeren van statische procedures en de interpretatie van de resultaten
kunnen onderbouwen
Conceptuele achtergronden
- Data zijn altijd cijfers. Maar de cijfers spreken nooit voor zich
- Initiële observatie à theorie à hypothese à dataverzameling à analyse à
uitspraak (inference)
Wat zijn de stappen als we statistiek gebruiken?
1. Identificeren van de afhankelijke variabelen
2. Bepalen van de mate van spreiding (variantie)
3. Op zoek naar factoren die deze spreiding mogelijk kunnen verklaren à de kern van
wat we gaan doen met statistiek; kunnen we verklaren waar die spreiding vandaan
komt?
4. Modellen opstellen die deze spreiding kunnen wegnemen.
Beschrijvende statistiek: Het beschrijven van variabelen die je in je data hebt zitten of je
beschrijft populatie gegevens. DUS VB: wat is onze populatie? Je kan als populatie alle
Nederlanders nemen of alle studenten van de universiteit. Maar je kan nooit iedereen vragen,
dus daarom gebruiken we maar een deel à de steekproef.
Verklarende statistiek (inferential statistics): Het schatten van parameters in de populatie op
basis van: steekproeven. Steekproef à je doet een uitspraak over de hee populatie via een
deel van de populatie die je hebt geselecteerd.
Datamatrix à er worden cijfers gegeven aan bepaalde categorieën: bijv. geslacht (1 of 2)
Meetniveaus van variabelen
Kwalitatieve gegevens (categorisch)
- Nominaal meetniveau (geslacht, nationaliteit)
Weergave van variabele: vaak via staafdiagram (staven staan los van elkaar)
- Ordinaal meetniveau (opleidingsniveau)
Weergave van variabele: vaak via cirkeldiagram
Kwantitatieve gegevens (continue)
- Interval meetniveau (IQ, temperatuur)
- Ratio meetniveau (inkomen; leeftijd)
Weergave variabele: via punten diagram, stam en blad diagram, histogram, bpx plot
,Hoe zien mijn data eruit? à Eigenschappen (kwantitatieve) data:
• Centrale tendentie à waar zitten mijn data, waar zitten de meeste data? Gemiddelde,
mediaan, modus
- Gemiddelde (µ) = de score als uitkomst, nadat je alle scores hebt opgeteld en hebt
gedeeld door het aantal scores dat je hebt.
µ = alle waardes opgeteld/ totaal aantal waardes
- Modus (Mode) = de score die het meest voorkomt
- Mediaan (M) = de middelste score, als de data van laag naar hoog zijn geordend
Voorbeelden Centrale Tendentie:
• Bent u voor de komst van migranten naar Nederland?
- (Ja, nee) à meetniveau = nominaal, dus modus
• Stelling: De komst van migranten is goed voor Nederland.
- (Zeer mee oneens, mee oneens, noch eens noch oneens, mee eens, zeer mee eens) à
meetniveau = ordinaal, dus mediaan (mag modus)
• Immigranten maken het land slechter of beter om te wonen? (ESS).
- (0 = slechter, tot en met 10 = beter) à meetniveau = interval, dus gemiddelde of
mediaan (verschil normale en scheve variabele)
, • Onderzoek naar gebruik van sociale media
gebruik onder politici
- Steekproef (n) van 200 politici:
- Aantal Tweets (per week)
- Aantal volgers
- Aantal Re-tweets (per tweet)
à Meetniveau = ratio, dus gemiddelde of
mediaan (verschil normale en scheve variabele)
Hoe bereken je de modus, mediaan en gemiddelde in SPSS?
Analyze à Descriptive Statistics à Frequenties à selecteer de variabele à klik op statistics
en vink Mean (gemiddelde), Median (Mediaan) en Mode (modus) aan à druk op OK.
• Spreiding à hoe is de data verdeeld? Wat is het bereik? Range, Kwartielafstand,
variantie, standaarddeviatie
- Range = de hoogste min de laagste score (vaak niet handig)
- Variantie (σ²) = Meet de spreiding van de waarden in een dataset ten opzichte van het
gemiddelde (zie VB voor handmatige berekening)
- Inter Kwartiel Range (IQR) = de range waarin de middelste 50% van de scores ligt:
het is de afstand tussen het eerste kwartiel (Q1) en het derde kwartiel (Q3):
Q3 – Q1 à gebruik je om de spreiding van de middelste 50% te meten à robuust
tegen uitschieters
- Standaarddeviatie (σ) = het gemiddelde verschil (afstand) tussen de scores en het
gemiddelde
Een standaarddeviatie à kan handmatig berekend worden:
VOORBEELD: dataset: 2, 4, 6
Stap 1: bereken het gemiddelde à (2+4+6)/3 = 4
Stap 2: bereken de verschillen met het gemiddelde (dus data minus gemiddelde) en
kwadrateer à (-2)², (0)², (2)² = 4, 0, 4
Stap 3: bereken dan het gemiddelde van deze kwadraten à (4+0+4)/3 = 2,67 (dit is de
variatie)
Stap 4: bereken de wortel van de variatie √2,67 ≈ 1,63
, Voorbeelden Spreiding:
• Bent u voor de komst van migranten naar NL?
- (ja, nee) à meetniveau = nominaal, dus kan geen spreiding berekenen
• Stelling: De komst van migranten is goed voor Nederland.
- (Zeer mee oneens, mee oneens, noch eens noch oneens, mee eens, zeer mee eens) à
meetniveau = ordinaal, dus IQR (mag ook range)
• Immigranten maken het land slechter of beter om te wonen? (ESS)
- (0 = slechter, tot en met 10 = beter) à meetniveau = interval, dus gebruik je de
standaarddeviatie of IQR (zie verschil symmetrische en scheve variabele)
• Onderzoek naar gebruik van sociale media gebruik onder politici
- Steekproef (n) van 200 politici:
- Aantal volgers
à Meetniveau = Ratio, dus Standaarddeviatie of IQR (verschil bij standaard en
scheve verdeling)
Bij dat onderzoek à Variabele volgers à μ = 1932, σ = 807.
Assumptie à variabele heeft een normale verdeling à dus gebruik je de
empirische regel:
De empirische regel à een vuistegel die wordt gebruikt bij normaal verdeelde gegevens. Het
beschrijft hoe de waarden in een dataset zich ONGEVEER (!) spreiden rond het gemiddelde
als de verdeling normaal is. Zie de afbeelding voor de empirische regel en formules:
Conclusies:
1. ongeveer 68% van de politici tussen
1125 en 2739 volgers heeft
2. ongeveer 95% van de politici tussen
de 318 en 3546 volgers heeft
3. waarden onder de 318 en boven de
3546 vrij uitzonderlijk zijn...
Hoe bereken je de standaarddeviatie, variatie, range en IQR in SPSS?
Analyze à Descriptive Statistics à Frequenties à selecteer de variabele à klik op statistics
en vink M Std. Deviation, Variance, Range, en Interquartile Range (IQR) aan à druk op ok
Percentielen à drempelwaarden waardonder een bepaald percentage van de waarnemingen
valt à VB: 25e percentiel voor aantal tweets per week is 10,79, wat betekent dat 25% van de
politici minder dan dat aantal tweets per week verstuurt.
Hoe bereken je percentielen in SPSS?
Analyze à Descriptive Statistics à frequencies à selecteer de variabele à klik op statistics
à vink percentiles aan à vul gewenste percentielen in à druk op ok
Hoorcollege 1 – Basisbeginselen statistiek, beschrijvende statistiek – 29-01-2025
Inleiding:
Doelstellingen:
- Basiselementen en procedures uit de beschrijvende en verklarende statistiek adequaat
kunnen toepassen, met behulp van SPSS (of R).
- Resultaten van statische procedures adequaat kunnen interpreteren
- Keuzes bij het uitvoeren van statische procedures en de interpretatie van de resultaten
kunnen onderbouwen
Conceptuele achtergronden
- Data zijn altijd cijfers. Maar de cijfers spreken nooit voor zich
- Initiële observatie à theorie à hypothese à dataverzameling à analyse à
uitspraak (inference)
Wat zijn de stappen als we statistiek gebruiken?
1. Identificeren van de afhankelijke variabelen
2. Bepalen van de mate van spreiding (variantie)
3. Op zoek naar factoren die deze spreiding mogelijk kunnen verklaren à de kern van
wat we gaan doen met statistiek; kunnen we verklaren waar die spreiding vandaan
komt?
4. Modellen opstellen die deze spreiding kunnen wegnemen.
Beschrijvende statistiek: Het beschrijven van variabelen die je in je data hebt zitten of je
beschrijft populatie gegevens. DUS VB: wat is onze populatie? Je kan als populatie alle
Nederlanders nemen of alle studenten van de universiteit. Maar je kan nooit iedereen vragen,
dus daarom gebruiken we maar een deel à de steekproef.
Verklarende statistiek (inferential statistics): Het schatten van parameters in de populatie op
basis van: steekproeven. Steekproef à je doet een uitspraak over de hee populatie via een
deel van de populatie die je hebt geselecteerd.
Datamatrix à er worden cijfers gegeven aan bepaalde categorieën: bijv. geslacht (1 of 2)
Meetniveaus van variabelen
Kwalitatieve gegevens (categorisch)
- Nominaal meetniveau (geslacht, nationaliteit)
Weergave van variabele: vaak via staafdiagram (staven staan los van elkaar)
- Ordinaal meetniveau (opleidingsniveau)
Weergave van variabele: vaak via cirkeldiagram
Kwantitatieve gegevens (continue)
- Interval meetniveau (IQ, temperatuur)
- Ratio meetniveau (inkomen; leeftijd)
Weergave variabele: via punten diagram, stam en blad diagram, histogram, bpx plot
,Hoe zien mijn data eruit? à Eigenschappen (kwantitatieve) data:
• Centrale tendentie à waar zitten mijn data, waar zitten de meeste data? Gemiddelde,
mediaan, modus
- Gemiddelde (µ) = de score als uitkomst, nadat je alle scores hebt opgeteld en hebt
gedeeld door het aantal scores dat je hebt.
µ = alle waardes opgeteld/ totaal aantal waardes
- Modus (Mode) = de score die het meest voorkomt
- Mediaan (M) = de middelste score, als de data van laag naar hoog zijn geordend
Voorbeelden Centrale Tendentie:
• Bent u voor de komst van migranten naar Nederland?
- (Ja, nee) à meetniveau = nominaal, dus modus
• Stelling: De komst van migranten is goed voor Nederland.
- (Zeer mee oneens, mee oneens, noch eens noch oneens, mee eens, zeer mee eens) à
meetniveau = ordinaal, dus mediaan (mag modus)
• Immigranten maken het land slechter of beter om te wonen? (ESS).
- (0 = slechter, tot en met 10 = beter) à meetniveau = interval, dus gemiddelde of
mediaan (verschil normale en scheve variabele)
, • Onderzoek naar gebruik van sociale media
gebruik onder politici
- Steekproef (n) van 200 politici:
- Aantal Tweets (per week)
- Aantal volgers
- Aantal Re-tweets (per tweet)
à Meetniveau = ratio, dus gemiddelde of
mediaan (verschil normale en scheve variabele)
Hoe bereken je de modus, mediaan en gemiddelde in SPSS?
Analyze à Descriptive Statistics à Frequenties à selecteer de variabele à klik op statistics
en vink Mean (gemiddelde), Median (Mediaan) en Mode (modus) aan à druk op OK.
• Spreiding à hoe is de data verdeeld? Wat is het bereik? Range, Kwartielafstand,
variantie, standaarddeviatie
- Range = de hoogste min de laagste score (vaak niet handig)
- Variantie (σ²) = Meet de spreiding van de waarden in een dataset ten opzichte van het
gemiddelde (zie VB voor handmatige berekening)
- Inter Kwartiel Range (IQR) = de range waarin de middelste 50% van de scores ligt:
het is de afstand tussen het eerste kwartiel (Q1) en het derde kwartiel (Q3):
Q3 – Q1 à gebruik je om de spreiding van de middelste 50% te meten à robuust
tegen uitschieters
- Standaarddeviatie (σ) = het gemiddelde verschil (afstand) tussen de scores en het
gemiddelde
Een standaarddeviatie à kan handmatig berekend worden:
VOORBEELD: dataset: 2, 4, 6
Stap 1: bereken het gemiddelde à (2+4+6)/3 = 4
Stap 2: bereken de verschillen met het gemiddelde (dus data minus gemiddelde) en
kwadrateer à (-2)², (0)², (2)² = 4, 0, 4
Stap 3: bereken dan het gemiddelde van deze kwadraten à (4+0+4)/3 = 2,67 (dit is de
variatie)
Stap 4: bereken de wortel van de variatie √2,67 ≈ 1,63
, Voorbeelden Spreiding:
• Bent u voor de komst van migranten naar NL?
- (ja, nee) à meetniveau = nominaal, dus kan geen spreiding berekenen
• Stelling: De komst van migranten is goed voor Nederland.
- (Zeer mee oneens, mee oneens, noch eens noch oneens, mee eens, zeer mee eens) à
meetniveau = ordinaal, dus IQR (mag ook range)
• Immigranten maken het land slechter of beter om te wonen? (ESS)
- (0 = slechter, tot en met 10 = beter) à meetniveau = interval, dus gebruik je de
standaarddeviatie of IQR (zie verschil symmetrische en scheve variabele)
• Onderzoek naar gebruik van sociale media gebruik onder politici
- Steekproef (n) van 200 politici:
- Aantal volgers
à Meetniveau = Ratio, dus Standaarddeviatie of IQR (verschil bij standaard en
scheve verdeling)
Bij dat onderzoek à Variabele volgers à μ = 1932, σ = 807.
Assumptie à variabele heeft een normale verdeling à dus gebruik je de
empirische regel:
De empirische regel à een vuistegel die wordt gebruikt bij normaal verdeelde gegevens. Het
beschrijft hoe de waarden in een dataset zich ONGEVEER (!) spreiden rond het gemiddelde
als de verdeling normaal is. Zie de afbeelding voor de empirische regel en formules:
Conclusies:
1. ongeveer 68% van de politici tussen
1125 en 2739 volgers heeft
2. ongeveer 95% van de politici tussen
de 318 en 3546 volgers heeft
3. waarden onder de 318 en boven de
3546 vrij uitzonderlijk zijn...
Hoe bereken je de standaarddeviatie, variatie, range en IQR in SPSS?
Analyze à Descriptive Statistics à Frequenties à selecteer de variabele à klik op statistics
en vink M Std. Deviation, Variance, Range, en Interquartile Range (IQR) aan à druk op ok
Percentielen à drempelwaarden waardonder een bepaald percentage van de waarnemingen
valt à VB: 25e percentiel voor aantal tweets per week is 10,79, wat betekent dat 25% van de
politici minder dan dat aantal tweets per week verstuurt.
Hoe bereken je percentielen in SPSS?
Analyze à Descriptive Statistics à frequencies à selecteer de variabele à klik op statistics
à vink percentiles aan à vul gewenste percentielen in à druk op ok