Inge Pasteels
Deel 1: ‘Van beschrijving naar inzicht’
Handboek hoofdstuk 1 tot en met (5) 7
Inhoudsopgave
Inleiding ........................................................................................................................................................... 2
Basiswoordenschat, meetniveaus, aggregatieniveaus, variabelen, frequentieverdeling ................................... 3
Sommatietekens, merkwaardige producten, afronden ..................................................................................... 5
Gegevens, stam-blad diagram, relatieve- en cumulatieve absolute frequenties ............................................. 10
Centrummaten en spreidingmaten ................................................................................................................. 11
Vorm, uitschieters, box-plot en scheefheid ..................................................................................................... 19
Gemiddelden, lineair getransformeerde uitkomsten, Pi-notatie, logaritme .................................................... 24
Geclassificeerde data ..................................................................................................................................... 29
1
,Inleiding
Statistiek = de wetenschap van het verzamelen, organiseren, presenteren, analyseren en
interpreteren van gegevens of data volgens een numerieke logica.
Beschrijvende statistiek = het beschrijven van steekproef/populatiegegevens met behulp van
tabellen, grafieken en kengetallen (deel 1).
Inferentiële statistiek = op basis van steekproefgegevens uitspraken doen over de populatie (deel 2).
Belang van statistiek:
- Levens redden → data inventariseren om slachtoffers vast te stellen (Florence Nightingale David).
- Maatschappelijke problemen vaststellen → genderkloof, betaalbaarheid woningmarkt.
- Machthebbers controleren → corruptie in kaart brengen, effecten Brexit.
- Word Data Forum → belang van goede statistiekbureaus.
Nut voor een sociale wetenschapper = eigen onderzoek voeren en bestaand onderzoek begrijpen of
beoordelen met de volgende vragen: meten we wat we beweren te meten? Hoe zijn de cijfers
verzameld? Hoe zijn de cijfers geanalyseerd? Hoe zijn de cijfers gepresenteerd?
Populatie N = de groep waarover het onderzoek een uitspraak wil doen.
Steekproef n (sample) = een selectie uit de totale populatie waarop je het onderzoek uitvoert.
Soorten steekproeven:
- Enkelvoudige aselecte steekproef (EAS) (the good) = elk lid van de populatie heeft even veel
kans om in de steekproef terecht te komen. Varianten:
> Clustersteekproef (tweetrapssteekproef) = aselect werken op verschillende niveaus.
Eerst de gemeentes, vervolgens een aantal toevalliggeselecteerde gemeentes en tot slot een
aantal toevalliggeselecteerde respondenten uit die gemeentes.
> Gestratificeerde steekproef (voorkennis gebruiken) = je weet al hoe een bepaalde
doelgroep (bijv. mannen en vrouwen) ergens tegenaan kijkt. Binnen die groep ga je wel
aselect werken.
- Convenience steekproef (the bad) = uitsluitend de respondenten die beschikbaar zijn
benaderen.
- Quotasteekproef (the ugly) = op voorhand de hoeveelheid respondenten bepalen. Moeilijk te
generaliseren omdat de interviewer de steekproef selecteert.
De manier waarop een steekproef wordt getrokken, is belangrijker dan de grootte. Maar als de
steekproef random is, dan is een grote N beter dan een kleine n.
Een websurvey met vrijwillige respondenten is niet representatief.
Niet alle steekproeven hebben evenveel waarde. Dit in verband met de volgende knelpunten:
Selectiebias = vertekening in wie hij benaderde. Selecteren op
bijvoorbeeld homobars, universiteiten, gevangenissen.
Non-responsbias = vertekening in wie uiteindelijk deelnam omdat het
onderzoek over een gevoelig onderwerp gaat.
Responsbias = vertekening in de antwoorden van deelnemers door
bijvoorbeeld een suggestieve vraagstelling of respondenten die geen
zin hebben.
2
,Basiswoordenschat, meetniveaus, aggregatieniveaus, variabelen, frequentieverdeling
Rijen = onderzoekelementen - oftewel respondenten, landen, partijen, steekproef. Rangnummers. 4
personen = 4 onderzoekelementen.
Kolommen = variabelen – oftewel meetwaarden, onderzoeksvragen of kenmerken. Kenmerk van
onderzoekelement, waarbij de uitkomsten kunnen variëren. Bijvoorbeeld geslacht, leeftijd, gelopen
KM.
Xij = de meetwaarde die in de datamatrix op rij i en in kolom j staat.
Aggregatieniveaus van onderzoekelementen:
Micro → onderzoekelementen zijn individuen.
Meso → onderzoekelementen zijn functioneel gegroepeerd.
Macro → onderzoekelementen zijn opgeteld per land.
Ecologische meetfout = bij uitspraak die niet is gedaan op het aggregatieniveau van de
onderzoekelementen. Uitspraken van een landniveau bijvoorbeeld toepassen op individuen terwijl de
samenstelling van de groepen mogelijk is veranderd. Alleen uitspraken doen over het
aggregatieniveau dat is aangegeven.
Multilevel-analyse = onderzoekelementen samennemen. Bijvoorbeeld burgers in landen.
Het meten van sociale wetenschappen kan soms lastig zijn. Abstracte attitudes, oftewel latent
constructs bijvoorbeeld ‘welzijn’ kunnen worden gemeten door middel van:
- Conceptualisering (wat wil je meten?)
- Indicering (hoe ga je het meten? Welke empirische representanten?)
- Operationalisering (hoe ga je het registreren)
Zelfwaarde, depressieve gevoelens. Items gebruiken die het welzijn meten.
Kwantitatieve meetniveaus = numerieke meetwaarden, rekenkundige bewerkingen.
➢ Ratio meetniveau (cijfers) (vergelijken, lager of hoger, optellen aftrekken en delen en
vermenigvuldigen) (bijvoorbeeld afstand in KM):
< Gelijke verschillen hebben gelijke betekenis. Het verschil tussen 1km en 4km is hetzelfde
verschil tussen 12km en 15km.
< Natuurlijk nulpunt. Negatieve afstand is bijvoorbeeld niet mogelijk.
➢ Interval meetniveau (tempratuur of IQ BIJNA NIETS IS INTERVAL) (vergelijken, lager of hoger,
optellen of aftrekken) (bijvoorbeeld tempratuur):
< Gelijke verschillen hebben gelijke betekenis.
< Geen natuurlijk nulpunt. Bijvoorbeeld -5 is mogelijk.
CONTINU EN KWANTITATIEF = zijn er gelijke verhoudingen, is er een natuurlijk nulpunt? GETALLEN
3
, Kwalitatieve meetniveaus = alfanumerieke meetwaarden.
➢ Ordinaal meetniveau (ORDE, VOLGORDE) (opleidingsniveau) (vergelijken en lager of hoger)
(bijvoorbeeld eens, oneens, opleidingsniveau, loonschaal):
< Disjuncte, exhaustieve, met rangorde.
➢ Nominaal meetniveau (NO ORDE, NO VOLGORDE) (geslacht, geen volgorde) (vergelijken)
(bijvoorbeeld geslacht, huidskleur, politieke voorkeur, ja/nee vraag):
< Disjuncte en exhaustieve categorieën, zonder rangorde.
DISCREET EN KWALITATIEF = is er een volgorde in de waarden? GEEN AUTOMATISCHE GETALLEN
Politieke voorkeur = nominaal Seizoen = nominaal
Aantal sterren van een hotel = ratio Inwonersaantal = ratio
Aantal correct beantwoorde vragen op een Windrichting = nominaal
examen = ratio Salaris in euro per maand = ratio
Postnummer van een gemeente = nominaal Gewicht = ratio
Inhoud van een flesje cola = ratio Mening over een station = ordinaal
Soorten = nominaal Nationaliteit = nominaal
Rangen in het leger = ordinaal Totaalaantal behandelde patiënten = ratio
Aantal uren per week werken = ratio Hoogst genoten opleiding = ordinaal
Soorten variabelen:
➢ Afhankelijke of onafhankelijke variabalen →
➢ Discrete of continuvariabelen. Discrete kunnen niet veranderen, continu wel.
➢ Dichotome variabelen = slechts 2 nominale waarden. Vrouw = 0; man = 1. Ja of nee vragen.
Altijd nominaal. Als je de ja/nee in codes in 0 en 1 zet, dan is het een dummy. Altijd 0 en 1
gebruiken (dummy) om dichotome variabelen aan te geven.
➢ Kwalitatieve variabele met k categorieën omzetten in k-1 dummy-variabelen = bijvoorbeeld
met 10 provincies. Antwerpen = dummy 1; Oost-Vlaanderen = dummy 2.
Likertschaal = volledig akkoord, min of meer akkoord, neutraal, min of meer niet akkoord, totaal niet
akkoord. Je geeft scores. ALTIJD ORDINAAL EN 1 VARIABELE. Alleen meer variabelen als je meerdere
antwoorden kan aanduiden.
Meetwaarden = afkorten op basis van plaats in de tabel. RIJ + KOLOM. X32 = rij 3 en kolom 2.
Frequentieverdeling = alle verschillende meetwaarden. Het aantal keren/percentage dat iets
voorkomt (de frequentie). Dit kan worden verdeeld in:
- Absolute frequenties (getallen)
- Relatieve frequentie (procenten)
4