Samenvatting statistiek 1
HOC 1: INLEIDING
1 op de 10 Belgen is laaggeletterd: is niet hetzelfde als een analfabeet, maar het betekent dat
mensen moeite hebben met lezen en schrijven om niet goed genoeg te kunnen functioneren
in de maatschappij. Meer en meer wordt er van de mensen verwacht, op universitair niveau,
dat ze een zekere datageletterdheid hebben. Het gaat dus niet enkel om een verwachting op
vlak van lezen en schrijven, maar er is ook een zekere verwachting dat we in staat moeten
zijn om data te kunnen lezen en interpreteren.
(voorbeelden van datageletterdheid)
Gemiddeld worden er 310 baby’s per dag geboren in 2020: wat betekent dit? Zijn er
uitschieters? Zijn er dagen waarop er toch meer baby’s geboren worden dan op andere
dagen? …
Cijfers zijn overal bv. op je ID (rijksregisternummer)
Bv. Groeicurves bij baby’s: percentielen → hier wordt er verwacht dat de baby op een
bepaalde curve moet zitten.
Bv. Strava…
Bij datageletterdheid wordt er verwacht dat men gegevens kan analyseren, correct
samenvatten en kan visualiseren.
Datageletterdheid als kritisch denker: bv. Als je een debat tussen Trump en Biden volgt en er
bepaalde claims worden gedaan, dan wordt er van jou verwacht hier kritisch over na te
denken en je af te vragen of die claims wel kloppen.
HOOFDSTUK 1: INLEIDING
1.1. Wat is statistiek?
De oorsprong van statistiek stond oorspronkelijk voor een heel beperkt begrip. Het werd
gezien als de studie/boekhouding van de staat, waarbij men staatsgegevens gaat bestuderen.
Naarmate onze samenleving complexer werd, werd het begrip ook ruimer naar het
verzamelen van gegevens, analyseren en interpreteren.
“statistics is the art and science of learning from data”
Statistiek gaat om het vertalen van gegevens in kennis en inzichten. Die gegevens worden
later ook gepresenteerd (gevisualiseerd).
Dit jaar gaan we vooral variabelen gaan verdelen. Voorbeelden van variabelen zijn: haarkleur,
aantal bewoners in een stad… maar die variabelen zien er totaal anders uit. De kern is
voornamelijk om te achterhalen hoe we die gegevens kunnen samenvatten in zo weinig
mogelijk getallen. Het kan uitgedrukt worden in getallen of grafisch voorgesteld worden.
,1.2. Waarom statistiek?
Statistiek is nodig om beweringen te staven. Beweringen op zich zijn niet voldoende. Er is
nood aan data en gegevens om die beweringen te kunnen begrijpen/staven.
Voorbeeld slide 58: waar vind ik de data om na te gaan of de claims die gemaakt worden in
dit debat wel kloppen? Wanneer je Trump zijn claims in verband met de taxen op belastingen
ging nagaan, kwam je er al snel genoeg achter dat die claims niet helemaal waar waren.
Dus om beweringen te staven ga je op zoek naar statistiek. Als we dus een empirisch
onderzoek willen doen om een antwoord te bieden op een vraagstelling, dan dienen we data
te verzamelen en te analyseren.
(onderzoek cyclus van Swanborn):
1) Je moet in staat zijn om een probleemanalyse te kunnen stellen. Wat zijn de
probleempunten? Het vergt substantiële kennis van het vakgebied.
2) Afhankelijk van het probleem, ga je dit op bepaalde manieren kunnen onderzoeken
en beantwoorden. Sommige vragen leunen eerder naar een interview terwijl andere
vragen eerder leunen naar een survey. Welke onderzoeksmethoden gaan we
gebruiken in functie van probleem- en vraagstelling? Er zijn sterkte en zwakte van
verschillende manieren van data verzamelen (secundaire data, kwantitatieve data,
kwalitatieve data…).
, 3) Dataverzameling kan bijvoorbeeld aan de hand van enquêtes en interviews, maar je
kan ook perfect bestaande data gaan analyseren.
4) Data-analyse: verlopen de drie voorgaande stappen slordig, dan kan de data-analyse
dat nooit meer goed maken. De voorgaande stappen zijn dus cruciaal voor een goede
analyse, anders bekom je een foute analyse. (beschrijvende statistiek, inductieve
statistiek, verklarende statistiek)
5) Rapportage waarna een nieuwe probleemanalyse volgt. Literatuur opzoeken,
refereren, wetenschappelijk taalgebruik waarna de terugkoppeling volgt.
1.3. Soorten statistiek
1) beschrijvende statistiek:
- de wereld in cijfers beschrijven
- we denken spontaan vaak kwantitatief (veel, weinig, meer…)
- cijfers geven de hoeveelheden precies weer
° basis: frequentievragen
° samenvatten in “kengetallen”
° gebruik van grafische technieken
Bij de beschrijvende statistiek gaan we (een grote hoeveelheid) gegevens gaan ordenen en
synthetiseren (bv. 12000 enquêtes,…) en we gaan dit herleiden tot samenvattende maten
(bv. Percentages, mediaan, kwantielen, gemiddelde, standaardafwijkingen,
correlatiecoëfficiënt,…) en grafieken. (zie voorbeeld slide 66)
2) inferentiële/inductieve statistiek:
Het is een middel om met een beperkt aantal gegevens uitspraken te doen over een breder
geheel, over een volledige populatie.
, Extrapolatie = uitspraken over de volledige bevolking op basis van een toevalssteekproef uit
die bevolking (bv. Veiligheidsmonitor, verkiezingsonderzoek, gezondheidsenquêtes, …)
Er is een veralgemeenheid van steekproefresultaten en voorspellingen worden gedaan op
basis van een steekproef.
➔ Je hebt een bepaalde populatie voor ogen en we nemen daar een steekproef uit. Op
basis van die steekproef kan je op basis van beschrijvende statistiek specifieke
uitspraken doen. Waarna je via inductie of inferentie algemene uitspraken kan doen
over de bevolking. Die uitspraken omtrent de populatie gaan steeds gepaard met een
zekere mate van onzekerheid.
3) verklarende statistiek:
Dit is de echte statistische analyse gericht op de verklaring van verschillen en samenhang.
Er wordt gebruik gemaakt van regressietechnieken (bivariate regressie, multivariate
regressie, logistische regressie, survival analyse,…)
Voorbeelden van samenhang -en verschilvragen:
- Wat is de relatie tussen opleidingsniveau en inkomen?
- Wat is de relatie tussen opleidingsniveau, inkomen en onveiligheidsgevoelens?
- Wat is de relatie tussen opleiding en gezondheid?
- Wat is de samenhang tussen leeftijd en consumptie van digitale media?
1.4. Boring?
1.5. Misleidende statistiek?
Er wordt vaak gezegd dat statistiek misleidend is: “there are three kind of lies: Lies, damn lies
and statistics.”
HOC 1: INLEIDING
1 op de 10 Belgen is laaggeletterd: is niet hetzelfde als een analfabeet, maar het betekent dat
mensen moeite hebben met lezen en schrijven om niet goed genoeg te kunnen functioneren
in de maatschappij. Meer en meer wordt er van de mensen verwacht, op universitair niveau,
dat ze een zekere datageletterdheid hebben. Het gaat dus niet enkel om een verwachting op
vlak van lezen en schrijven, maar er is ook een zekere verwachting dat we in staat moeten
zijn om data te kunnen lezen en interpreteren.
(voorbeelden van datageletterdheid)
Gemiddeld worden er 310 baby’s per dag geboren in 2020: wat betekent dit? Zijn er
uitschieters? Zijn er dagen waarop er toch meer baby’s geboren worden dan op andere
dagen? …
Cijfers zijn overal bv. op je ID (rijksregisternummer)
Bv. Groeicurves bij baby’s: percentielen → hier wordt er verwacht dat de baby op een
bepaalde curve moet zitten.
Bv. Strava…
Bij datageletterdheid wordt er verwacht dat men gegevens kan analyseren, correct
samenvatten en kan visualiseren.
Datageletterdheid als kritisch denker: bv. Als je een debat tussen Trump en Biden volgt en er
bepaalde claims worden gedaan, dan wordt er van jou verwacht hier kritisch over na te
denken en je af te vragen of die claims wel kloppen.
HOOFDSTUK 1: INLEIDING
1.1. Wat is statistiek?
De oorsprong van statistiek stond oorspronkelijk voor een heel beperkt begrip. Het werd
gezien als de studie/boekhouding van de staat, waarbij men staatsgegevens gaat bestuderen.
Naarmate onze samenleving complexer werd, werd het begrip ook ruimer naar het
verzamelen van gegevens, analyseren en interpreteren.
“statistics is the art and science of learning from data”
Statistiek gaat om het vertalen van gegevens in kennis en inzichten. Die gegevens worden
later ook gepresenteerd (gevisualiseerd).
Dit jaar gaan we vooral variabelen gaan verdelen. Voorbeelden van variabelen zijn: haarkleur,
aantal bewoners in een stad… maar die variabelen zien er totaal anders uit. De kern is
voornamelijk om te achterhalen hoe we die gegevens kunnen samenvatten in zo weinig
mogelijk getallen. Het kan uitgedrukt worden in getallen of grafisch voorgesteld worden.
,1.2. Waarom statistiek?
Statistiek is nodig om beweringen te staven. Beweringen op zich zijn niet voldoende. Er is
nood aan data en gegevens om die beweringen te kunnen begrijpen/staven.
Voorbeeld slide 58: waar vind ik de data om na te gaan of de claims die gemaakt worden in
dit debat wel kloppen? Wanneer je Trump zijn claims in verband met de taxen op belastingen
ging nagaan, kwam je er al snel genoeg achter dat die claims niet helemaal waar waren.
Dus om beweringen te staven ga je op zoek naar statistiek. Als we dus een empirisch
onderzoek willen doen om een antwoord te bieden op een vraagstelling, dan dienen we data
te verzamelen en te analyseren.
(onderzoek cyclus van Swanborn):
1) Je moet in staat zijn om een probleemanalyse te kunnen stellen. Wat zijn de
probleempunten? Het vergt substantiële kennis van het vakgebied.
2) Afhankelijk van het probleem, ga je dit op bepaalde manieren kunnen onderzoeken
en beantwoorden. Sommige vragen leunen eerder naar een interview terwijl andere
vragen eerder leunen naar een survey. Welke onderzoeksmethoden gaan we
gebruiken in functie van probleem- en vraagstelling? Er zijn sterkte en zwakte van
verschillende manieren van data verzamelen (secundaire data, kwantitatieve data,
kwalitatieve data…).
, 3) Dataverzameling kan bijvoorbeeld aan de hand van enquêtes en interviews, maar je
kan ook perfect bestaande data gaan analyseren.
4) Data-analyse: verlopen de drie voorgaande stappen slordig, dan kan de data-analyse
dat nooit meer goed maken. De voorgaande stappen zijn dus cruciaal voor een goede
analyse, anders bekom je een foute analyse. (beschrijvende statistiek, inductieve
statistiek, verklarende statistiek)
5) Rapportage waarna een nieuwe probleemanalyse volgt. Literatuur opzoeken,
refereren, wetenschappelijk taalgebruik waarna de terugkoppeling volgt.
1.3. Soorten statistiek
1) beschrijvende statistiek:
- de wereld in cijfers beschrijven
- we denken spontaan vaak kwantitatief (veel, weinig, meer…)
- cijfers geven de hoeveelheden precies weer
° basis: frequentievragen
° samenvatten in “kengetallen”
° gebruik van grafische technieken
Bij de beschrijvende statistiek gaan we (een grote hoeveelheid) gegevens gaan ordenen en
synthetiseren (bv. 12000 enquêtes,…) en we gaan dit herleiden tot samenvattende maten
(bv. Percentages, mediaan, kwantielen, gemiddelde, standaardafwijkingen,
correlatiecoëfficiënt,…) en grafieken. (zie voorbeeld slide 66)
2) inferentiële/inductieve statistiek:
Het is een middel om met een beperkt aantal gegevens uitspraken te doen over een breder
geheel, over een volledige populatie.
, Extrapolatie = uitspraken over de volledige bevolking op basis van een toevalssteekproef uit
die bevolking (bv. Veiligheidsmonitor, verkiezingsonderzoek, gezondheidsenquêtes, …)
Er is een veralgemeenheid van steekproefresultaten en voorspellingen worden gedaan op
basis van een steekproef.
➔ Je hebt een bepaalde populatie voor ogen en we nemen daar een steekproef uit. Op
basis van die steekproef kan je op basis van beschrijvende statistiek specifieke
uitspraken doen. Waarna je via inductie of inferentie algemene uitspraken kan doen
over de bevolking. Die uitspraken omtrent de populatie gaan steeds gepaard met een
zekere mate van onzekerheid.
3) verklarende statistiek:
Dit is de echte statistische analyse gericht op de verklaring van verschillen en samenhang.
Er wordt gebruik gemaakt van regressietechnieken (bivariate regressie, multivariate
regressie, logistische regressie, survival analyse,…)
Voorbeelden van samenhang -en verschilvragen:
- Wat is de relatie tussen opleidingsniveau en inkomen?
- Wat is de relatie tussen opleidingsniveau, inkomen en onveiligheidsgevoelens?
- Wat is de relatie tussen opleiding en gezondheid?
- Wat is de samenhang tussen leeftijd en consumptie van digitale media?
1.4. Boring?
1.5. Misleidende statistiek?
Er wordt vaak gezegd dat statistiek misleidend is: “there are three kind of lies: Lies, damn lies
and statistics.”