STATISTIEK VOOR DE SOCIALE
WETENSCHAPPEN
1. DATA-ANALYSE
1.1 DOEL VAN DE STATISTIEK
1.1.1 INLEIDING
Dataficatie = trend waarbij dagdagelijkse acties & interacties worden omgezet in data die kunnen worden
opgevolgd, geanalyseerd & geoptimaliseerd
Kwantitatief onderzoek = data wordt omgezet in nummers zodat deze kunnen worden geanalyseerd dmv.
statistische methoden, domineert binnen sociale wetenschappen
Social data science = combinatie tussen domein specifieke kennis, computerkennis & datawetenschappen
• Taak van de sociale wetenschapper: bruggen bouwen tussen deze disciplines & toepassing binnen
samenleving
1.1.2 DOEL VAN DATA-ANALYSE
Data-analyse = kunst & wetenschap van het verzamelen, meten, organiseren, presenteren, analyseren &
interpreteren van data met als doel inzicht verwerven obv. deze data
• Inzicht: onderzoeksvragen beantwoorden obv. data
• Wetenschap: objectief, onafhankelijk van de beoefenaar
• Kunst: creatief, interpretatief, afhankelijk van de beoefenaar
o Beslissingen v/d onderzoeker
o Meten van bepaalde kenmerken & vraagformulering ervan
o Analyseren & interpreteren van data
• Data: veel verschillende soorten data uit verschillende soorten bronnen: hebben
verschillende vormen (bv. numeriek, tekst, audio…)
1.2 VAN PROBLEEMSTELLING NAAR DATA -ANALYSE
1.2.1 PROBLEEMSTELLING
• Bij wie of wat verzamelen we welke gegevens? → afhankelijk van onderzoeksvraag → onderzoeksvraag
start altijd vanuit probleemstelling
1
,1.2.2 DATA VERZAMELEN
Onderzoekseenheden = eenheden of objecten waarop het onderzoek betrekking heeft & waarbij kenmerken
gemeten worden (niet altijd mensen)
Populatie = verzameling van alle onderzoekseenheden die gekenmerkt worden door een afbakening in tijd &
ruimte
Steekproef = deelverzameling van onderzoekseenheden uit de populatie
• Willekeurig: elke onderzoekseenheid heeft een even grote kans om geselecteerd te worden
• Representatief: op een kenmerk als het in gelijke mate voorkomt in de steekproef als populatie
• Omvang / grootte steekproef notatie: 𝑛
Data
= informatie & kenmerken gemeten bij onderzoekseenheden
Kunnen uit verschillende bronnen komen
• Survey: respondenten krijgen enkele gesloten / open vragen die demografische kenmerken, attitudes &
gedrag proberen te meten
• Experimenten: oorzaak-gevolg verband in kaart brengen
o Manipulatie = Onderzoekseenheden willekeurig over verschillende groepen te verdelen & ze aan
verschillende omstandigheden / interventies
→ verschillen betekent oorzakelijk verband
Big Data (3 V’s)
• Volume: data is heel groot
• Veranderlijkheid: data wordt aan een sneltempo geproduceerd
• Verscheidenheid: data heeft verschillende soorten & vormen
• bv. social media data, geodata, data uit medische dossiers…
1.2.3 METEN VAN GEGEVENS
Classificatie van gegevens
• Na selectie steekproef uit populatie → kenmerken meten bij onderzoekseenheden
• Deze kenmerken zijn variabelen notatie: 𝑋, 𝑌, 𝑍 …
Uitkomstenverzameling = verzameling van alle mogelijke uitkomsten voor een variabele
• Notatie: 𝜙 𝑜𝑓 𝜑
Geobserveerde waarnemingen = uitkomsten die daadwerkelijk geobserveerd zijn in de steekproef / populatie
• bv. uitkomstenverzameling kan 𝜑 = {𝑚𝑎𝑛, 𝑣𝑟𝑜𝑢𝑤, 𝑎𝑛𝑑𝑒𝑟𝑒} zijn maar in de steekproef zitten uiteindelijk
enkel vrouwen
statistische techniek
1. aard: onderliggende meetniveau
2. omvang: discreet / continu
2
,meetniveau
kwalitatief: categorieën
Nominaal Ordinaal
Meetprocedure Classificeren in categorieën, benoemen Elementen v/d uitkomstenverzameling
- niet te interpreteren in meer & kunnen geordend worden
minder - kunnen geïnterpreteerd worden als
- verschil in waarden representeert meer & minder, hoger & lager
geen verschil in kwantiteit: enkel - geen vaste meeteenheid
kwalitatief verschil - verschillen niet in vastgelegde
- geen wiskundige bewerkingen hoeveelheden
mogelijk - geen wiskundige bewerkingen mogelijk
- codes: kunnen eender welk symbool tenzij ordening van meetschaal (bv.
aannemen: letters, cijfers & woorden mediaan)
Meetschaal Eindig, exhaustief & exclusief Eindig, exhaustief & exclusief
- elke observatie hoort maar thuis in 1 - likertschaal = veelgebruikte meetschaal
categorie & alle mogelijke in socio-wetenschappelijk onderzoek
categorieën zijn gegeven in de om houdingen, attitudes &
meetschaal overtuigingen te meten
- dichotome meetschaal = wanneer de - meestal: 5, 7, 11
nominale meetschaal slechts 2 antwoordcategorieën
waarden kan aannemen (& - intrinsiek ordinaal:
observaties dus slechts in 2 antwoordcategorieën hebben
categorieën kunnen worden een kwalitatieve betekenis &
opgedeeld) zijn geordend maar hebben,
geen meeteenheid (praktijk
vaak als kwantitatief gezien)
Voorbeeld 𝜑 = {𝐵𝑒𝑙𝑔, 𝑁𝑒𝑑𝑒𝑟𝑙𝑎𝑛𝑑𝑒𝑟, 𝐵𝑟𝑖𝑡, 𝐴𝑛𝑑𝑒𝑟𝑒}, politieke interesse met 𝜑 = {𝑁𝑖𝑒𝑡
OF 𝑔𝑒ï𝑛𝑡𝑒𝑟𝑒𝑠𝑠𝑒𝑒𝑟𝑑, 𝑒𝑒𝑛 𝑏𝑒𝑒𝑡𝑗𝑒
𝜑 = {𝐵𝐸, 𝑁𝐿,𝑈𝐾, 𝐴} 𝑔𝑒ï𝑛𝑡𝑒𝑟𝑒𝑠𝑠𝑒𝑒𝑟𝑑, 𝑔𝑒ï𝑛𝑡𝑒𝑟𝑒𝑠𝑠𝑒𝑒𝑟𝑑, ℎ𝑒𝑒𝑙
OF 𝑔𝑒ï𝑛𝑡𝑒𝑟𝑒𝑠𝑠𝑒𝑒𝑟𝑑}
𝜑 = {1, 2, 3, 8} met 1 = Belg, 2 = NL, 3 =
Brit, 8 = Andere
Kwantitatief: numeriek
• geobserveerde gegevens sluiten dicht aan bij wat letterlijk ‘gemeten’ wordt
• vaste, kwantificeerbare meeteenheid
• verschil tussen geobserveerde waarden wordt uitgedrukt in hoeveelheden
• codes: getallen met een numerieke betekenis
• kunnen zowel een discrete als continue uitkomstenverzameling hebben
3
, Interval Ratio
Meetprocedure Vaste kwantificeerbare meeteenheid Kwantificeerbare meeteenheid
- verschil kan uitgedrukt worden in - verschil kan uitgedrukt worden in
hoeveelheden maar nulpunt is hoeveelheden & verhoudingen tussen
arbitrair → verhoudingen tussen waarden zijn wél zinvol: absoluut
waarden zijn betekenisloos nulpunt
- wiskundige bewerkingen zijn mogelijk - alle wiskundige bewerkingen zijn
- optellen & aftrekken mogelijk
toegestaan
- vermenigvuldigen & delen
onmogelijk want arbitrair
nulpunt
Codes Getallen met numerieke betekenis, Getallen met numerieke betekenis,
meetresultaten meetresultaten
Voorbeeld Temperatuur, IQ #kinderen
Groeperen van kwantitatieve gegevens
• vaak worden kwantitatieve variabelen gegroepeerd tot nominale of ordinale meetschalen
o typisch voorbeeld: leeftijd dat initieel ratio meetschaal heeft maar gegroepeerd wordt in
leeftijdscategorieën & zo een ordinale meetschaal kent
o bv. 𝜑 = {[0, 20], [21, 40], [41, 60], [61, 80], [> 80]}
opdelen in klassen
Voordelen Nadelen
- data kunnen op snelle & overzichtelijke manier - gedetailleerde informatie wordt vereenvoudigd
worden weergegeven tot klassen → er gaat info verloren
- bewaakt privacy van respondenten
Quasi-metrische variabelen = schalen die intrinsiek ordinaal zijn want geen meeteenheid bezitten maar door
de omvang van de uitkomstenverzameling toch als een kwantitatieve variabele gebruikt worden
• bv. iemands houding op links-rechts as: meestal gemeten op een 11-punt schaal die gaat van 0-10, waarde
0 staat voor links en 10 voor rechts. Respondenten kunnen eigen houding positioneren
• de meetschaal heeft geen vaste meeteenheid maar door de breedte van de schaal (11 categorieën)
kunnen berekeningen zoals het gemiddelde wél zinvol zijn.
Uitspraken zoals “Walen zijn gemiddeld gezien linkser dan Vlamingen”
Hiërarchie van de meetniveau’s
• Meetniveau van een variabele is bepalend voor de keuze van de analysetechniek: bepaald door het aantal
bewerkingen die er mogelijk zijn op de betrokken variabele
• Bewerkingen & analysetechnieken die zijn toegelaten voor variabele van een laag niveau mogen ook
toegepast worden op een hoger niveau maar niet omgekeerd
4
WETENSCHAPPEN
1. DATA-ANALYSE
1.1 DOEL VAN DE STATISTIEK
1.1.1 INLEIDING
Dataficatie = trend waarbij dagdagelijkse acties & interacties worden omgezet in data die kunnen worden
opgevolgd, geanalyseerd & geoptimaliseerd
Kwantitatief onderzoek = data wordt omgezet in nummers zodat deze kunnen worden geanalyseerd dmv.
statistische methoden, domineert binnen sociale wetenschappen
Social data science = combinatie tussen domein specifieke kennis, computerkennis & datawetenschappen
• Taak van de sociale wetenschapper: bruggen bouwen tussen deze disciplines & toepassing binnen
samenleving
1.1.2 DOEL VAN DATA-ANALYSE
Data-analyse = kunst & wetenschap van het verzamelen, meten, organiseren, presenteren, analyseren &
interpreteren van data met als doel inzicht verwerven obv. deze data
• Inzicht: onderzoeksvragen beantwoorden obv. data
• Wetenschap: objectief, onafhankelijk van de beoefenaar
• Kunst: creatief, interpretatief, afhankelijk van de beoefenaar
o Beslissingen v/d onderzoeker
o Meten van bepaalde kenmerken & vraagformulering ervan
o Analyseren & interpreteren van data
• Data: veel verschillende soorten data uit verschillende soorten bronnen: hebben
verschillende vormen (bv. numeriek, tekst, audio…)
1.2 VAN PROBLEEMSTELLING NAAR DATA -ANALYSE
1.2.1 PROBLEEMSTELLING
• Bij wie of wat verzamelen we welke gegevens? → afhankelijk van onderzoeksvraag → onderzoeksvraag
start altijd vanuit probleemstelling
1
,1.2.2 DATA VERZAMELEN
Onderzoekseenheden = eenheden of objecten waarop het onderzoek betrekking heeft & waarbij kenmerken
gemeten worden (niet altijd mensen)
Populatie = verzameling van alle onderzoekseenheden die gekenmerkt worden door een afbakening in tijd &
ruimte
Steekproef = deelverzameling van onderzoekseenheden uit de populatie
• Willekeurig: elke onderzoekseenheid heeft een even grote kans om geselecteerd te worden
• Representatief: op een kenmerk als het in gelijke mate voorkomt in de steekproef als populatie
• Omvang / grootte steekproef notatie: 𝑛
Data
= informatie & kenmerken gemeten bij onderzoekseenheden
Kunnen uit verschillende bronnen komen
• Survey: respondenten krijgen enkele gesloten / open vragen die demografische kenmerken, attitudes &
gedrag proberen te meten
• Experimenten: oorzaak-gevolg verband in kaart brengen
o Manipulatie = Onderzoekseenheden willekeurig over verschillende groepen te verdelen & ze aan
verschillende omstandigheden / interventies
→ verschillen betekent oorzakelijk verband
Big Data (3 V’s)
• Volume: data is heel groot
• Veranderlijkheid: data wordt aan een sneltempo geproduceerd
• Verscheidenheid: data heeft verschillende soorten & vormen
• bv. social media data, geodata, data uit medische dossiers…
1.2.3 METEN VAN GEGEVENS
Classificatie van gegevens
• Na selectie steekproef uit populatie → kenmerken meten bij onderzoekseenheden
• Deze kenmerken zijn variabelen notatie: 𝑋, 𝑌, 𝑍 …
Uitkomstenverzameling = verzameling van alle mogelijke uitkomsten voor een variabele
• Notatie: 𝜙 𝑜𝑓 𝜑
Geobserveerde waarnemingen = uitkomsten die daadwerkelijk geobserveerd zijn in de steekproef / populatie
• bv. uitkomstenverzameling kan 𝜑 = {𝑚𝑎𝑛, 𝑣𝑟𝑜𝑢𝑤, 𝑎𝑛𝑑𝑒𝑟𝑒} zijn maar in de steekproef zitten uiteindelijk
enkel vrouwen
statistische techniek
1. aard: onderliggende meetniveau
2. omvang: discreet / continu
2
,meetniveau
kwalitatief: categorieën
Nominaal Ordinaal
Meetprocedure Classificeren in categorieën, benoemen Elementen v/d uitkomstenverzameling
- niet te interpreteren in meer & kunnen geordend worden
minder - kunnen geïnterpreteerd worden als
- verschil in waarden representeert meer & minder, hoger & lager
geen verschil in kwantiteit: enkel - geen vaste meeteenheid
kwalitatief verschil - verschillen niet in vastgelegde
- geen wiskundige bewerkingen hoeveelheden
mogelijk - geen wiskundige bewerkingen mogelijk
- codes: kunnen eender welk symbool tenzij ordening van meetschaal (bv.
aannemen: letters, cijfers & woorden mediaan)
Meetschaal Eindig, exhaustief & exclusief Eindig, exhaustief & exclusief
- elke observatie hoort maar thuis in 1 - likertschaal = veelgebruikte meetschaal
categorie & alle mogelijke in socio-wetenschappelijk onderzoek
categorieën zijn gegeven in de om houdingen, attitudes &
meetschaal overtuigingen te meten
- dichotome meetschaal = wanneer de - meestal: 5, 7, 11
nominale meetschaal slechts 2 antwoordcategorieën
waarden kan aannemen (& - intrinsiek ordinaal:
observaties dus slechts in 2 antwoordcategorieën hebben
categorieën kunnen worden een kwalitatieve betekenis &
opgedeeld) zijn geordend maar hebben,
geen meeteenheid (praktijk
vaak als kwantitatief gezien)
Voorbeeld 𝜑 = {𝐵𝑒𝑙𝑔, 𝑁𝑒𝑑𝑒𝑟𝑙𝑎𝑛𝑑𝑒𝑟, 𝐵𝑟𝑖𝑡, 𝐴𝑛𝑑𝑒𝑟𝑒}, politieke interesse met 𝜑 = {𝑁𝑖𝑒𝑡
OF 𝑔𝑒ï𝑛𝑡𝑒𝑟𝑒𝑠𝑠𝑒𝑒𝑟𝑑, 𝑒𝑒𝑛 𝑏𝑒𝑒𝑡𝑗𝑒
𝜑 = {𝐵𝐸, 𝑁𝐿,𝑈𝐾, 𝐴} 𝑔𝑒ï𝑛𝑡𝑒𝑟𝑒𝑠𝑠𝑒𝑒𝑟𝑑, 𝑔𝑒ï𝑛𝑡𝑒𝑟𝑒𝑠𝑠𝑒𝑒𝑟𝑑, ℎ𝑒𝑒𝑙
OF 𝑔𝑒ï𝑛𝑡𝑒𝑟𝑒𝑠𝑠𝑒𝑒𝑟𝑑}
𝜑 = {1, 2, 3, 8} met 1 = Belg, 2 = NL, 3 =
Brit, 8 = Andere
Kwantitatief: numeriek
• geobserveerde gegevens sluiten dicht aan bij wat letterlijk ‘gemeten’ wordt
• vaste, kwantificeerbare meeteenheid
• verschil tussen geobserveerde waarden wordt uitgedrukt in hoeveelheden
• codes: getallen met een numerieke betekenis
• kunnen zowel een discrete als continue uitkomstenverzameling hebben
3
, Interval Ratio
Meetprocedure Vaste kwantificeerbare meeteenheid Kwantificeerbare meeteenheid
- verschil kan uitgedrukt worden in - verschil kan uitgedrukt worden in
hoeveelheden maar nulpunt is hoeveelheden & verhoudingen tussen
arbitrair → verhoudingen tussen waarden zijn wél zinvol: absoluut
waarden zijn betekenisloos nulpunt
- wiskundige bewerkingen zijn mogelijk - alle wiskundige bewerkingen zijn
- optellen & aftrekken mogelijk
toegestaan
- vermenigvuldigen & delen
onmogelijk want arbitrair
nulpunt
Codes Getallen met numerieke betekenis, Getallen met numerieke betekenis,
meetresultaten meetresultaten
Voorbeeld Temperatuur, IQ #kinderen
Groeperen van kwantitatieve gegevens
• vaak worden kwantitatieve variabelen gegroepeerd tot nominale of ordinale meetschalen
o typisch voorbeeld: leeftijd dat initieel ratio meetschaal heeft maar gegroepeerd wordt in
leeftijdscategorieën & zo een ordinale meetschaal kent
o bv. 𝜑 = {[0, 20], [21, 40], [41, 60], [61, 80], [> 80]}
opdelen in klassen
Voordelen Nadelen
- data kunnen op snelle & overzichtelijke manier - gedetailleerde informatie wordt vereenvoudigd
worden weergegeven tot klassen → er gaat info verloren
- bewaakt privacy van respondenten
Quasi-metrische variabelen = schalen die intrinsiek ordinaal zijn want geen meeteenheid bezitten maar door
de omvang van de uitkomstenverzameling toch als een kwantitatieve variabele gebruikt worden
• bv. iemands houding op links-rechts as: meestal gemeten op een 11-punt schaal die gaat van 0-10, waarde
0 staat voor links en 10 voor rechts. Respondenten kunnen eigen houding positioneren
• de meetschaal heeft geen vaste meeteenheid maar door de breedte van de schaal (11 categorieën)
kunnen berekeningen zoals het gemiddelde wél zinvol zijn.
Uitspraken zoals “Walen zijn gemiddeld gezien linkser dan Vlamingen”
Hiërarchie van de meetniveau’s
• Meetniveau van een variabele is bepalend voor de keuze van de analysetechniek: bepaald door het aantal
bewerkingen die er mogelijk zijn op de betrokken variabele
• Bewerkingen & analysetechnieken die zijn toegelaten voor variabele van een laag niveau mogen ook
toegepast worden op een hoger niveau maar niet omgekeerd
4