Samenvatting statistiek 1:
Examen met 3 open en 12 meerkeuze vragen, meerkeuze is met cesuur 63%. Meer oefeningen dan theorie.
Leerstof: H1-7 behalve 5.2.3, formule g1 en g2, 7.4.3.2 tot 7.5 en alle delen over ‘werken met excel’
Volgorde van bewerkingen:
1. Haakjes
2. Machten
3. Wortels
4. Vermenigvuldigen en delené
5. Optellen en aftrekken
Machten:
Les 1: inleiding (HC)
Statistiek is de wetenschap van het verzamelen, organiseren, presenteren, analyseren en interpreteren van
gegevens of data volgens numerieke logica.
Statisticum (Latijn) = van de staat; Statista (Italiaans) = staatsman
Vandaag de dag zijn we veel meer bezig met gegevens analyseren en verwerken/interpreteren i.p.v.
verzamelen. Vroeger ging het vooral over het verzamelen.
Vroeger dus: beschrijvende statistiek. Nu: inferentiële statistiek
Nut voor een sociale wetenschapper?
1. Eigen onderzoek voeren
2. Bestaand onderzoek begrijpen/beoordelen
a. Meten we wat we beweren te meten?
b. Hoe zijn de cijfers verzameld?
c. Hoe zijn de cijfers geanalyseerd?
d. Hoe zijn de cijfers gepresenteerd?
Belang van statistiek
1. Levens redden
a. Bv Florence Nightingale David: Krim War 1853-56 en WW2: maakte statistieken waar soldaten
meeste stierven en voorspelde zo waar bommen gingen vallen
b. Bv aantonen dat roken/blootstelling aan radon longkanker veroorzaakt
2. Maatschappelijke problemen vaststellen
a. Bv genderkloof, betaalbaarheid woningmarkt…
3. Machthebbers controleren
a. Corruptie in kaart brengen, effecten Brexit…
4. World Data Forum (belang van goede statistiekbureaus zoals Statbel)
Waarom statistiek?
1. Om bestaand onderzoek te begrijpen en te bekritiseren en om je eigen onderzoek te kunnen uitvoeren
1
, 2. Statistiek is overal!
Problemen bij dataverzameling
1. Alfred Kinsey, 1948: het seksleven van de Amerikaanse man (50% ging vreemd, 10% homo, 8% dieren)
Selectiebias: vertekening in wie hij benaderde (convenience sample)
Non-responsbias: vertekening in wie uiteindelijk deelnam (delicaat onderwerp)
Responsbias: vertekening in de antwoorden van deelnemers (sociale wenselijkheid? Suggestieve vragen?)
2. Sensationele krantenkoppen
3. … maar veel kritiek
Populatie vs steekproef
1. Populatie N: de groep waarover het onderzoek een uitspraak wil doen (bv de Amerikaanse mannen)
2. Steekproef n (sample): een selectie uit de totale populatie, waarop je het onderzoek uitvoert
3. Populatie-onderzoek (bv volkstelling, census) is duur en dikwijls vertekend (biased)
Les 2: basisbegrippen statistiek (H2)
2 soorten statistiek
1. Beschrijvende statistiek: het beschrijven van gegevens van een steekproef of populatie met behulp van
tabellen, grafieken en kengetallen
2. Inferentiële statistiek: op basis van steekproefgegevens uitspraken doen over de populatie.
In datamatrix staan de onderzoekselementen/cases altijd op de rijen!
Cases: datgene waar we iets over willen zeggen
In datamatrix staan de variabelen op de kolommen!
Variabelen: kenmerken die variëren, kenmerken van de onderzoekselementen
In matrix: meetwaarden/observaties:
Meetwaarden: waarde van een onderzoekselement op een variabele
Onderzoekselementen
1. Steekproef (sample) n: deel vh aantal elementen dat je kon betrekken (vb. 1000 Vlaamse burgers)
Literary Digest-schandaal (1936): voorspelden verkiezingsuitslagen. 2,4 miljoen straw polls
voorspelden dat de republikein (Landon) ging winnen. Gallup daarentegen deed een enkelvoudig
aselecte steekproef; quotasteekproef; random sample, en voorspelde dat de democraat zou winnen.
Gallup had gelijk: het is niet omdat je heel veel mensen bevraagd dat je het juist hebt. Er was
vertekening, the sample was biased (selectiebias): ze ondervroegen altijd middenklasse, en die
stemmen algemeen meer republikeins. Er was een undercoverage van bepaalde soort mensen,
mensen die zich er niet in interesseren antwoorden niet: non-responsbias.
Randomness/aselectie (representativiteit) is belangrijker dan steekproefgrootte; elk element
populatie heeft bepaalde, niet persé gelijke, kans om getrokken te worden.
2. Populatie N: alle mogelijke onderzoekselementen (vb. alle Vlaamse burgers)
Volkstelling/census: heel lastig want mensen bewegen, willen niet altijd gezien worden. Vooral
moeilijk bij arme bevolking. Mensen zijn als zand: je legt ze in je hand, knijpt erin en er ontsnapt al
een heel deel.
2
, Idee dat je iedereen gaat tellen creëert automatisch selectiebias; steekproef is goedkoper, vereist
minder tijd en is wel haalbaar.
3. Populatie of steekproef?
a. Tijd en geld
b. Risico op selectiebias: je gaat bepaalde soort mensen overmatig/ondermaten
selecteren/vertegenwoordigen. Bepaalde groepen worden onvoldoende bereikt.
c. Steeds meer gebruik van steekproeven, zeker bij grote populaties.
Discussie winter/zomertijd: mensen die tegen zijn zullen meer reageren, bepaalde landen zijn
onder/oververtegenwoordigd: responsbias.
Sampling: EAS: Heel belangrijk! Stappen:
In elke mogelijke stap is er bias!
Soorten bias
1. Undercoverage: sommige mensen worden niet bereikt, niet opgenomen in populatie. Bv kansarmen.
2. Selectiebias: vertekening in wie hij benaderde: bepaald type wordt over-/ondervertegenwoordigd. Bv:
mensen ondervragen op de trein (convenience sample), op universiteiten, homobars…
3. Non-responsbias: extremen reageren sneller, zij die het niet zo belangrijk vinden niet (vert in wie deelnam)
4. Responsbias: vertekening id antwoorden van de deelnemers (soc wenselijkheid? Suggestieve vraagstelling?)
Sampling: the good, the bad and the ugly: soorten steekproeven
1. The good
a. Enkelvoudige aselecte steekproef (EAS)
- Model van de onschuldige kinderhand
- Alle namen in pot, random uithalen (men moet dus beschiken over lijst van elementen id
populatie)
- Elke case heeft evenveel kans om getrokken te worden.
- Wordt bijna nooit gebruikt: heel duur, zoveel mensen… daarom meer clustersteekproef
gekozen
Clustersteekproef (genest – tweetrapssteekproef): variant EAS
- Je trekt random, maar op verschillende aggregatieniveaus
- Je kiest aselect enkele landen van EU (1), dan in die landen kies je aselect enkele gemeenten
(2), uit die geselecteerde gemeenten ga je aselect individuen kiezen. (3) = voorbeeld
drietrapssteekproef!
Gestratificeerde steekproef : variant EAS: je houdt rekening met bepaalde type voorkennis – bv pres.
Verkiezingen VS
- Je weet dat er gewerkt wordt met kiesmannen, je houdt rekening met die weging van
kiesmannen per staat.
2. The bad
a. Convenience steekproef
- Steekproef die je toevallig hebt, maar er is niet doelmatig over nagedacht (selectiebias!)
3. The ugly
a. Quotasteekproef
- We weten bv dat x% van de populatie vrouwelijk is, en tussen de 60 en 70 jaar. Je gaat
proberen in je sample ook zoveel % te hebben. Men laat aan interviewer over wie ze kiezen:
die neigen sneller naar bepaalde mensen (bv familie die aan quota voldoen). Selectiebias,
mensen worden niet toevallig geselecteerd.
- Lijkt erg wetenschappelijk maar is heel gevaarlijk
3
, - Baseert zich op beschikbare info populatieverdeling voor socio-demografische variabelen;
hoeveel individuen per subcategorie?
Onderzoekselementen
Aggregatieniveaus (hier kan je sociale fenomen bestuderen)
1. Micro: persoon is case. Vb: burgers, studenten, krantenartikelen…
2. Meso: welke buurten veel ingebroken en waarom is case. Vb: beroepsgroepen, verenigingen, organisaties,
scholen…
3. Macro: welke landen veel ZM en waarom is case. Vb: gemeenten, landen
Op dit niveau vaak grotere correlaties, bv tussen armoede & opleidingsniveau.
Hoe lager het niveau, hoe lager de correlaties. Als je individuen bekijkt zal de correlatie dus lager zijn. Op
individueel niveau zijn er altijd wel uitzonderingen: sommige gingen amper naar school maar hebben het wel
gemaakt. Als je gaat aggregeren, gaat optellen, ga je die uitzonderingen eruit zuiveren. Op landniveau heb je
dus heel sterke correlaties. Dus als je op lager niveau werkt, heb je nog veel meer oog voor de individuele
verschillen, op landniveau gooi je al die individuen samen adhv onderwijsscores, je balt ze samen tot 1
geaggregeerde waarde.
‘Ecological fallacy’: ecologische meetfout, obv gegevens op macro- of meso-niveau uitspraken doen over het
micro-niveau, op hoog aggregatieniveau ga je verschillen niet onderkennen.
Ecologische meetfout – Simpson paradox
Ziekenhuiscijfers die aantonen dat er proportioneel meer slachtoffers overlijden in ziekenhuis A dan B. Toch
zou hij zich altijd laten behandelen in ziekenhuis B, want als men rekening houdt met de ernst van de klacht
blijkt ziekenhuis B proportioneel beter te scoren.
In beide scenario’s (banale vs ernstige klachten) ben je beter af in ziekenhuis B terwijl eerste matrix indruk
geeft dat A beter is.
Ecologische meetfout – Robinson paradox
Onderzoek toonde negatief verband graad van ongeletterdheid en proportie inwoners geboren buiten VS.
Immigranten settelden zich vooral in staten waar bevolking meer geletterd is, dus fout.
Variabelen
1. Meten van variabelen
Altijd jezelf afvragen, hoe is dit gemeten en is dit betrouwbaar?
a. Wat wil je meten? – conceptualisering
Steeds b. Hoe het theoretisch concept empirisch meten? – indicering (welke indicator gebruik je? Is die valide? Bv.
specifie Likert schaal)
ker - Validiteit: meet je wat je wil meten?
c. Hoe ga je registreren? – operationalisering (welke categorieën gebruiken we?/ hoe is die indicator
gebruikt? Hoe gaan we om met de indicator? Belang van antwoordschalen)
- Betrouwbaarheid meten: interpersoon (meerdere indicatoren, mensen die op elkaar lijken
zouden zelfde uitslag moeten geven/interpersonal reliability) of intertemporeel/test-retest
(controleren door te meten over tijd heen, verschillende meetmomenten)
- Betrouwbaarheid: versch metingen, zelfde resultaat?
- Omgaan met sociale wenselijkheid, onwetendheid…
Problematiek: meten ‘abstracte’ attitudes of latende constructen. (Is heel vaak zo in sociale wetenschappen,
zo’n termen zijn heel abstract; hebben vaak een subjectieve invulling. Vb: armoede, individualisering…).
2. Meetniveau variabele
4
Examen met 3 open en 12 meerkeuze vragen, meerkeuze is met cesuur 63%. Meer oefeningen dan theorie.
Leerstof: H1-7 behalve 5.2.3, formule g1 en g2, 7.4.3.2 tot 7.5 en alle delen over ‘werken met excel’
Volgorde van bewerkingen:
1. Haakjes
2. Machten
3. Wortels
4. Vermenigvuldigen en delené
5. Optellen en aftrekken
Machten:
Les 1: inleiding (HC)
Statistiek is de wetenschap van het verzamelen, organiseren, presenteren, analyseren en interpreteren van
gegevens of data volgens numerieke logica.
Statisticum (Latijn) = van de staat; Statista (Italiaans) = staatsman
Vandaag de dag zijn we veel meer bezig met gegevens analyseren en verwerken/interpreteren i.p.v.
verzamelen. Vroeger ging het vooral over het verzamelen.
Vroeger dus: beschrijvende statistiek. Nu: inferentiële statistiek
Nut voor een sociale wetenschapper?
1. Eigen onderzoek voeren
2. Bestaand onderzoek begrijpen/beoordelen
a. Meten we wat we beweren te meten?
b. Hoe zijn de cijfers verzameld?
c. Hoe zijn de cijfers geanalyseerd?
d. Hoe zijn de cijfers gepresenteerd?
Belang van statistiek
1. Levens redden
a. Bv Florence Nightingale David: Krim War 1853-56 en WW2: maakte statistieken waar soldaten
meeste stierven en voorspelde zo waar bommen gingen vallen
b. Bv aantonen dat roken/blootstelling aan radon longkanker veroorzaakt
2. Maatschappelijke problemen vaststellen
a. Bv genderkloof, betaalbaarheid woningmarkt…
3. Machthebbers controleren
a. Corruptie in kaart brengen, effecten Brexit…
4. World Data Forum (belang van goede statistiekbureaus zoals Statbel)
Waarom statistiek?
1. Om bestaand onderzoek te begrijpen en te bekritiseren en om je eigen onderzoek te kunnen uitvoeren
1
, 2. Statistiek is overal!
Problemen bij dataverzameling
1. Alfred Kinsey, 1948: het seksleven van de Amerikaanse man (50% ging vreemd, 10% homo, 8% dieren)
Selectiebias: vertekening in wie hij benaderde (convenience sample)
Non-responsbias: vertekening in wie uiteindelijk deelnam (delicaat onderwerp)
Responsbias: vertekening in de antwoorden van deelnemers (sociale wenselijkheid? Suggestieve vragen?)
2. Sensationele krantenkoppen
3. … maar veel kritiek
Populatie vs steekproef
1. Populatie N: de groep waarover het onderzoek een uitspraak wil doen (bv de Amerikaanse mannen)
2. Steekproef n (sample): een selectie uit de totale populatie, waarop je het onderzoek uitvoert
3. Populatie-onderzoek (bv volkstelling, census) is duur en dikwijls vertekend (biased)
Les 2: basisbegrippen statistiek (H2)
2 soorten statistiek
1. Beschrijvende statistiek: het beschrijven van gegevens van een steekproef of populatie met behulp van
tabellen, grafieken en kengetallen
2. Inferentiële statistiek: op basis van steekproefgegevens uitspraken doen over de populatie.
In datamatrix staan de onderzoekselementen/cases altijd op de rijen!
Cases: datgene waar we iets over willen zeggen
In datamatrix staan de variabelen op de kolommen!
Variabelen: kenmerken die variëren, kenmerken van de onderzoekselementen
In matrix: meetwaarden/observaties:
Meetwaarden: waarde van een onderzoekselement op een variabele
Onderzoekselementen
1. Steekproef (sample) n: deel vh aantal elementen dat je kon betrekken (vb. 1000 Vlaamse burgers)
Literary Digest-schandaal (1936): voorspelden verkiezingsuitslagen. 2,4 miljoen straw polls
voorspelden dat de republikein (Landon) ging winnen. Gallup daarentegen deed een enkelvoudig
aselecte steekproef; quotasteekproef; random sample, en voorspelde dat de democraat zou winnen.
Gallup had gelijk: het is niet omdat je heel veel mensen bevraagd dat je het juist hebt. Er was
vertekening, the sample was biased (selectiebias): ze ondervroegen altijd middenklasse, en die
stemmen algemeen meer republikeins. Er was een undercoverage van bepaalde soort mensen,
mensen die zich er niet in interesseren antwoorden niet: non-responsbias.
Randomness/aselectie (representativiteit) is belangrijker dan steekproefgrootte; elk element
populatie heeft bepaalde, niet persé gelijke, kans om getrokken te worden.
2. Populatie N: alle mogelijke onderzoekselementen (vb. alle Vlaamse burgers)
Volkstelling/census: heel lastig want mensen bewegen, willen niet altijd gezien worden. Vooral
moeilijk bij arme bevolking. Mensen zijn als zand: je legt ze in je hand, knijpt erin en er ontsnapt al
een heel deel.
2
, Idee dat je iedereen gaat tellen creëert automatisch selectiebias; steekproef is goedkoper, vereist
minder tijd en is wel haalbaar.
3. Populatie of steekproef?
a. Tijd en geld
b. Risico op selectiebias: je gaat bepaalde soort mensen overmatig/ondermaten
selecteren/vertegenwoordigen. Bepaalde groepen worden onvoldoende bereikt.
c. Steeds meer gebruik van steekproeven, zeker bij grote populaties.
Discussie winter/zomertijd: mensen die tegen zijn zullen meer reageren, bepaalde landen zijn
onder/oververtegenwoordigd: responsbias.
Sampling: EAS: Heel belangrijk! Stappen:
In elke mogelijke stap is er bias!
Soorten bias
1. Undercoverage: sommige mensen worden niet bereikt, niet opgenomen in populatie. Bv kansarmen.
2. Selectiebias: vertekening in wie hij benaderde: bepaald type wordt over-/ondervertegenwoordigd. Bv:
mensen ondervragen op de trein (convenience sample), op universiteiten, homobars…
3. Non-responsbias: extremen reageren sneller, zij die het niet zo belangrijk vinden niet (vert in wie deelnam)
4. Responsbias: vertekening id antwoorden van de deelnemers (soc wenselijkheid? Suggestieve vraagstelling?)
Sampling: the good, the bad and the ugly: soorten steekproeven
1. The good
a. Enkelvoudige aselecte steekproef (EAS)
- Model van de onschuldige kinderhand
- Alle namen in pot, random uithalen (men moet dus beschiken over lijst van elementen id
populatie)
- Elke case heeft evenveel kans om getrokken te worden.
- Wordt bijna nooit gebruikt: heel duur, zoveel mensen… daarom meer clustersteekproef
gekozen
Clustersteekproef (genest – tweetrapssteekproef): variant EAS
- Je trekt random, maar op verschillende aggregatieniveaus
- Je kiest aselect enkele landen van EU (1), dan in die landen kies je aselect enkele gemeenten
(2), uit die geselecteerde gemeenten ga je aselect individuen kiezen. (3) = voorbeeld
drietrapssteekproef!
Gestratificeerde steekproef : variant EAS: je houdt rekening met bepaalde type voorkennis – bv pres.
Verkiezingen VS
- Je weet dat er gewerkt wordt met kiesmannen, je houdt rekening met die weging van
kiesmannen per staat.
2. The bad
a. Convenience steekproef
- Steekproef die je toevallig hebt, maar er is niet doelmatig over nagedacht (selectiebias!)
3. The ugly
a. Quotasteekproef
- We weten bv dat x% van de populatie vrouwelijk is, en tussen de 60 en 70 jaar. Je gaat
proberen in je sample ook zoveel % te hebben. Men laat aan interviewer over wie ze kiezen:
die neigen sneller naar bepaalde mensen (bv familie die aan quota voldoen). Selectiebias,
mensen worden niet toevallig geselecteerd.
- Lijkt erg wetenschappelijk maar is heel gevaarlijk
3
, - Baseert zich op beschikbare info populatieverdeling voor socio-demografische variabelen;
hoeveel individuen per subcategorie?
Onderzoekselementen
Aggregatieniveaus (hier kan je sociale fenomen bestuderen)
1. Micro: persoon is case. Vb: burgers, studenten, krantenartikelen…
2. Meso: welke buurten veel ingebroken en waarom is case. Vb: beroepsgroepen, verenigingen, organisaties,
scholen…
3. Macro: welke landen veel ZM en waarom is case. Vb: gemeenten, landen
Op dit niveau vaak grotere correlaties, bv tussen armoede & opleidingsniveau.
Hoe lager het niveau, hoe lager de correlaties. Als je individuen bekijkt zal de correlatie dus lager zijn. Op
individueel niveau zijn er altijd wel uitzonderingen: sommige gingen amper naar school maar hebben het wel
gemaakt. Als je gaat aggregeren, gaat optellen, ga je die uitzonderingen eruit zuiveren. Op landniveau heb je
dus heel sterke correlaties. Dus als je op lager niveau werkt, heb je nog veel meer oog voor de individuele
verschillen, op landniveau gooi je al die individuen samen adhv onderwijsscores, je balt ze samen tot 1
geaggregeerde waarde.
‘Ecological fallacy’: ecologische meetfout, obv gegevens op macro- of meso-niveau uitspraken doen over het
micro-niveau, op hoog aggregatieniveau ga je verschillen niet onderkennen.
Ecologische meetfout – Simpson paradox
Ziekenhuiscijfers die aantonen dat er proportioneel meer slachtoffers overlijden in ziekenhuis A dan B. Toch
zou hij zich altijd laten behandelen in ziekenhuis B, want als men rekening houdt met de ernst van de klacht
blijkt ziekenhuis B proportioneel beter te scoren.
In beide scenario’s (banale vs ernstige klachten) ben je beter af in ziekenhuis B terwijl eerste matrix indruk
geeft dat A beter is.
Ecologische meetfout – Robinson paradox
Onderzoek toonde negatief verband graad van ongeletterdheid en proportie inwoners geboren buiten VS.
Immigranten settelden zich vooral in staten waar bevolking meer geletterd is, dus fout.
Variabelen
1. Meten van variabelen
Altijd jezelf afvragen, hoe is dit gemeten en is dit betrouwbaar?
a. Wat wil je meten? – conceptualisering
Steeds b. Hoe het theoretisch concept empirisch meten? – indicering (welke indicator gebruik je? Is die valide? Bv.
specifie Likert schaal)
ker - Validiteit: meet je wat je wil meten?
c. Hoe ga je registreren? – operationalisering (welke categorieën gebruiken we?/ hoe is die indicator
gebruikt? Hoe gaan we om met de indicator? Belang van antwoordschalen)
- Betrouwbaarheid meten: interpersoon (meerdere indicatoren, mensen die op elkaar lijken
zouden zelfde uitslag moeten geven/interpersonal reliability) of intertemporeel/test-retest
(controleren door te meten over tijd heen, verschillende meetmomenten)
- Betrouwbaarheid: versch metingen, zelfde resultaat?
- Omgaan met sociale wenselijkheid, onwetendheid…
Problematiek: meten ‘abstracte’ attitudes of latende constructen. (Is heel vaak zo in sociale wetenschappen,
zo’n termen zijn heel abstract; hebben vaak een subjectieve invulling. Vb: armoede, individualisering…).
2. Meetniveau variabele
4