Hoorcollege 1
Wat houdt statistiek in?
Statistische geletterdheid is het kunnen begrijpen, interpreteren en het
correct gebruikmaken van statistische informatie. Hierbij is niet alleen
basiskennis van belang, maar ook het kritisch kunnen beoordelen van de
betrouwbaarheid van gegevens en de rechtvaardiging van conclusies, wat
kan helpen bij het maken van beslissingen. Op het moment dat er een
gebrek is aan statistische geletterdheid, zou dit kunnen leiden tot
wantrouwen, misverstanden, misvattingen en twijfels aan de waarde van
statistiek.
Vanaf het einde van de twintigste eeuw is er sprake van een sterke
toename in het gebruik van statistiek. Deze vooruitgang gaat gepaard met
een toename van statistische drogredenen en misbruik, bijvoorbeeld in de
media doordat data verkeerd gevisualiseerd worden.
Het verschil tussen statistiek en kansrekening
Kansrekening gaat om het bestuderen van kansen of
waarschijnlijkheden. Dit is voornamelijk gebaseerd op deductie -> alle
details van een bepaalde populatie zijn bekend en vanuit daar wordt de
waarschijnlijkheid van een bepaalde (steekproef) uitkomst berekend (van
algemeen naar specifiek). Bij kansrekening wordt dus het model gegeven
en wordt de data voorspelt.
Statistiek gaat om het verzamelen, interpreteren en organiseren van
numerieke feiten die ook wel gegevens of data genoemd worden. Dit is
voornamelijk gebaseerd op inductie -> een bepaalde (steekproef) uitkomst
is bekend en dan is het de vraag wat en met welke zekerheid er iets
gezegd kan worden over de gehele populatie (van specifiek naar
algemeen). Bij statistiek wordt dus de data gegeven en wordt het model
voorspelt.
Overeenkomsten tussen statistiek en kansrekening
Statistiek en kansrekening gebruiken dezelfde technieken voor zowel de
steekproef als de populatie, ze houden beide rekening met toeval en de
statistiek maakt aannames over de populatie (bijv. nulhypothese) om deze
op basis van een steekproef te kunnen weerleggen.
Soorten statistiek
Beschrijvende statistiek heeft als doel een samenvatting geven van de
steekproef- of populatiegegevens door middel van getallen, grafieken en
tabellen. Inferentiële statistiek is bedoeld om voorspellingen te maken
,met behulp van de steekproefdata over de populatieparameters -> de
waardes met betrekking tot de gehele populatie. Deze zijn meestal
onbekend omdat niet alle gegevens van de gehele populatie bekend zijn,
dus wordt er geprobeerd om er een schatting van te maken. Wanneer je
hele populatie in je steekproef zit, gebruik je alleen beschrijvende
statistiek.
Specifiek bevat de statistische wetenschap methoden voor:
- Design (bijv. steekproefmethoden)
- Beschrijving
- Inferentie (conclusies trekken over de populatie)
Het verschil tussen statistiek en methodologie
Methodologie geeft weer hoe (empirisch) onderzoek op een systematische
manier uitgevoerd zou moeten worden. Statistiek staat voor de middelen
die nodig zijn om het onderzoek uit te voeren. Methodologie en statistiek
zijn dus wel degelijk verschillend maar kunnen in goed empirisch
onderzoek niet zonder elkaar.
Een onderzoeksvraag beantwoorden
De populatie is de groep waarover onderzoekers uitspraken willen doen ->
populatiegrootheid (parameter). De steekproef is een deel van de
populatie waarover data verzameld is -> steekproefgrootheid (statistiek).
Om de onderzoeksvraag te beantwoorden is goede data essentieel. Het is
daarbij belangrijk dat de data betrouwbaar en valide is.
Valide = het gemiddelde van
de blauwe puntjes is het rode puntje. Betrouwbaarheid = de punten liggen
dicht bij elkaar.
Variabelen, meetniveaus en waardenbereik
Er zijn verschillende soorten variabelen:
- Stimulusvariabele: verwijst naar alles wat van buitenaf op een
organisme inwerkt -> een prikkel uit de omgeving die een reactie
kan uitlokken (bijv. een hard geluid of een afbeelding van eten).
- Subjectvariabele: eigenschappen van het individu zelf die de
onderzoeker niet kan manipuleren.
, - Fysiologische variabele: beschrijft lichamelijke (biologische)
reacties die kunnen optreden als gevolg van een stimulus of situatie
(bijv. hartslag of activiteit van hersengolven).
- Gedragsvariabele: observeerbaar gedrag of reacties als gevolg
van een stimulus (bijv. reactietijd of lachen).
Er zijn daarnaast verschillende meetniveaus: categorisch/kwalitatief en
kwantitatief/numeriek. Onder categorisch/kwalitatief vallen nominale- en
ordinale variabele. Onder kwantitatief/numeriek vallen interval- en ratio
variabelen. Over interval- en ratio variabelen kun je berekeningen doen
(bijv. gemiddelde en standaarddeviatie). De variabele kunnen in twee
verschillende soorten waardebereik vallen: discreet en continu. Bij een
discreet waardebereik is de meeteenheid eindig deelbaar. Een continu
waardebereik heeft een oneindige deelbare meeteenheid -> een getal kan
elke tussenwaarde aannemen.
Inferentiële statistiek
= op basis van de steekproef uitspraken doen over de gehele
(doel-)populatie.
Om op basis van de steekproef een betrouwbare en valide uitspraak te
kunnen doen over de populatie, moeten de steekproefgrootheid
(statistiek) en de populatiegrootheid (parameter) niet verschillen. Dit is
helaas niet altijd het geval. Het verschil tussen de gemeten
steekproefgrootheid en de populatiegrootheid kan veroorzaakt worden
door natuurlijke variatie of problemen binnen de steekproef. Dit zijn
systematische vertekeningen en deze wil je uitsluiten. Hiervoor is het van
belang om een goede steekproef te trekken.
Problemen binnen de steekproef kunnen zijn:
- Meetfouten (respons bias): onnauwkeurigheden in het
observeren of meten van gegevens (bijv. sociale wenselijkheid,
neutraal antwoord of onduidelijke vraagstelling). ‘incorrect antwoord’
- Selectieve respons (non-response bias): bepaalde groepen
mensen zijn meer of minder geneigd mee te doen aan een
onderzoek. ‘selectieve deelname’.
- Steekproeffouten (sampling error): er zijn toevallige verschillen
gevonden die in de populatie niet bestaan (bijv. kleine steekproef uit
grote populatie). Dit is je foutenmarge en is dus afhankelijk van de
omvang van je steekproef. De foutenmarge en dus de steekproeffout
kun je dus berekenen. Dit is dus het gevolg van het feit dat je niet de
hele populatie in je steekproef kan zetten. ‘toevallige
steekproefverschillen’. Dit is geen systematische fout. Van de
, systematische fouten kun je vaak niet berekenen hoe groot de fout
is.
- Steekproefvertekening (sampling bias): de steekproef is niet
representatief voor de populatie en niet iedereen heeft een gelijke
kans om geselecteerd te worden. Grote steekproeven lossen dit
probleem niet op. ‘selectieve werving’.
Deze mogelijke problemen leiden tot vertekende resultaten en mogelijk tot
onjuiste conclusies over de populatie.
De oplossing is een aselecte (of andere probabilistische) steekproef van
voldoende omvang die informatie (data) oplevert over iedereen die
benaderd is, met correcte responses voor alle subjecten op alle items.
Hoorcollege 2
Het trekken van een steekproef
Welke manier om een aselecte streekproef te trekken gebruikt wordt hangt
af van de onderzoeksvraag, de samenstelling van de doelpopulatie en de
haalbaarheid van de te vormen steekproef. De verschillende
steekproefmethoden zijn:
1. Een enkelvoudige aselecte steekproef (simple random
sampling): hierbij wordt eerst een steekproefkader vastgesteld, dit
is een lijst van mensen waaruit de steekproef getrokken kan gaan
worden. Dit hoeft niet de gehele populatie te zijn, maar het moet wel
representatief zijn voor de gehele populatie. Uit deze groep wordt
dan willekeurig de steekproef getrokken. Een voordeel is dat het
eenvoudig uit te voeren is en dat elke combinatie van deelnemers
evenveel kans heeft om de steekproef te vormen. Nadelen van een
eenvoudige aselecte steekproef zijn dat het alleen haalbaar is als
alle participanten uit de doelpopulatie benaderbaar zijn en dat er
veel willekeurige nummers nodig zijn om de steekproef te kunnen
vormen.
2. Een gestratificeerde steekproef: hierbij wordt eerst een
steekproefkader vastgesteld. Vervolgens wordt deze populatie
verdeeld in strata, dit zijn subgroepen binnen de populatie
gebaseerd op bepaalde gedeelde kenmerken of eigenschappen (bijv.
jongens en meiden). Vervolgens wordt er uit elk stratum willekeurig
een bepaald aantal deelnemers getrokken. Dit kan zowel
proportioneel als disproportioneel gedaan worden. Proportioneel
houdt in dat de verhoudingen van de steekproef hetzelfde zijn als de
verhoudingen in de doelpopulatie en disproportioneel houdt in dat
de verhoudingen anders zijn. Bij een probabilistische steekproef
Wat houdt statistiek in?
Statistische geletterdheid is het kunnen begrijpen, interpreteren en het
correct gebruikmaken van statistische informatie. Hierbij is niet alleen
basiskennis van belang, maar ook het kritisch kunnen beoordelen van de
betrouwbaarheid van gegevens en de rechtvaardiging van conclusies, wat
kan helpen bij het maken van beslissingen. Op het moment dat er een
gebrek is aan statistische geletterdheid, zou dit kunnen leiden tot
wantrouwen, misverstanden, misvattingen en twijfels aan de waarde van
statistiek.
Vanaf het einde van de twintigste eeuw is er sprake van een sterke
toename in het gebruik van statistiek. Deze vooruitgang gaat gepaard met
een toename van statistische drogredenen en misbruik, bijvoorbeeld in de
media doordat data verkeerd gevisualiseerd worden.
Het verschil tussen statistiek en kansrekening
Kansrekening gaat om het bestuderen van kansen of
waarschijnlijkheden. Dit is voornamelijk gebaseerd op deductie -> alle
details van een bepaalde populatie zijn bekend en vanuit daar wordt de
waarschijnlijkheid van een bepaalde (steekproef) uitkomst berekend (van
algemeen naar specifiek). Bij kansrekening wordt dus het model gegeven
en wordt de data voorspelt.
Statistiek gaat om het verzamelen, interpreteren en organiseren van
numerieke feiten die ook wel gegevens of data genoemd worden. Dit is
voornamelijk gebaseerd op inductie -> een bepaalde (steekproef) uitkomst
is bekend en dan is het de vraag wat en met welke zekerheid er iets
gezegd kan worden over de gehele populatie (van specifiek naar
algemeen). Bij statistiek wordt dus de data gegeven en wordt het model
voorspelt.
Overeenkomsten tussen statistiek en kansrekening
Statistiek en kansrekening gebruiken dezelfde technieken voor zowel de
steekproef als de populatie, ze houden beide rekening met toeval en de
statistiek maakt aannames over de populatie (bijv. nulhypothese) om deze
op basis van een steekproef te kunnen weerleggen.
Soorten statistiek
Beschrijvende statistiek heeft als doel een samenvatting geven van de
steekproef- of populatiegegevens door middel van getallen, grafieken en
tabellen. Inferentiële statistiek is bedoeld om voorspellingen te maken
,met behulp van de steekproefdata over de populatieparameters -> de
waardes met betrekking tot de gehele populatie. Deze zijn meestal
onbekend omdat niet alle gegevens van de gehele populatie bekend zijn,
dus wordt er geprobeerd om er een schatting van te maken. Wanneer je
hele populatie in je steekproef zit, gebruik je alleen beschrijvende
statistiek.
Specifiek bevat de statistische wetenschap methoden voor:
- Design (bijv. steekproefmethoden)
- Beschrijving
- Inferentie (conclusies trekken over de populatie)
Het verschil tussen statistiek en methodologie
Methodologie geeft weer hoe (empirisch) onderzoek op een systematische
manier uitgevoerd zou moeten worden. Statistiek staat voor de middelen
die nodig zijn om het onderzoek uit te voeren. Methodologie en statistiek
zijn dus wel degelijk verschillend maar kunnen in goed empirisch
onderzoek niet zonder elkaar.
Een onderzoeksvraag beantwoorden
De populatie is de groep waarover onderzoekers uitspraken willen doen ->
populatiegrootheid (parameter). De steekproef is een deel van de
populatie waarover data verzameld is -> steekproefgrootheid (statistiek).
Om de onderzoeksvraag te beantwoorden is goede data essentieel. Het is
daarbij belangrijk dat de data betrouwbaar en valide is.
Valide = het gemiddelde van
de blauwe puntjes is het rode puntje. Betrouwbaarheid = de punten liggen
dicht bij elkaar.
Variabelen, meetniveaus en waardenbereik
Er zijn verschillende soorten variabelen:
- Stimulusvariabele: verwijst naar alles wat van buitenaf op een
organisme inwerkt -> een prikkel uit de omgeving die een reactie
kan uitlokken (bijv. een hard geluid of een afbeelding van eten).
- Subjectvariabele: eigenschappen van het individu zelf die de
onderzoeker niet kan manipuleren.
, - Fysiologische variabele: beschrijft lichamelijke (biologische)
reacties die kunnen optreden als gevolg van een stimulus of situatie
(bijv. hartslag of activiteit van hersengolven).
- Gedragsvariabele: observeerbaar gedrag of reacties als gevolg
van een stimulus (bijv. reactietijd of lachen).
Er zijn daarnaast verschillende meetniveaus: categorisch/kwalitatief en
kwantitatief/numeriek. Onder categorisch/kwalitatief vallen nominale- en
ordinale variabele. Onder kwantitatief/numeriek vallen interval- en ratio
variabelen. Over interval- en ratio variabelen kun je berekeningen doen
(bijv. gemiddelde en standaarddeviatie). De variabele kunnen in twee
verschillende soorten waardebereik vallen: discreet en continu. Bij een
discreet waardebereik is de meeteenheid eindig deelbaar. Een continu
waardebereik heeft een oneindige deelbare meeteenheid -> een getal kan
elke tussenwaarde aannemen.
Inferentiële statistiek
= op basis van de steekproef uitspraken doen over de gehele
(doel-)populatie.
Om op basis van de steekproef een betrouwbare en valide uitspraak te
kunnen doen over de populatie, moeten de steekproefgrootheid
(statistiek) en de populatiegrootheid (parameter) niet verschillen. Dit is
helaas niet altijd het geval. Het verschil tussen de gemeten
steekproefgrootheid en de populatiegrootheid kan veroorzaakt worden
door natuurlijke variatie of problemen binnen de steekproef. Dit zijn
systematische vertekeningen en deze wil je uitsluiten. Hiervoor is het van
belang om een goede steekproef te trekken.
Problemen binnen de steekproef kunnen zijn:
- Meetfouten (respons bias): onnauwkeurigheden in het
observeren of meten van gegevens (bijv. sociale wenselijkheid,
neutraal antwoord of onduidelijke vraagstelling). ‘incorrect antwoord’
- Selectieve respons (non-response bias): bepaalde groepen
mensen zijn meer of minder geneigd mee te doen aan een
onderzoek. ‘selectieve deelname’.
- Steekproeffouten (sampling error): er zijn toevallige verschillen
gevonden die in de populatie niet bestaan (bijv. kleine steekproef uit
grote populatie). Dit is je foutenmarge en is dus afhankelijk van de
omvang van je steekproef. De foutenmarge en dus de steekproeffout
kun je dus berekenen. Dit is dus het gevolg van het feit dat je niet de
hele populatie in je steekproef kan zetten. ‘toevallige
steekproefverschillen’. Dit is geen systematische fout. Van de
, systematische fouten kun je vaak niet berekenen hoe groot de fout
is.
- Steekproefvertekening (sampling bias): de steekproef is niet
representatief voor de populatie en niet iedereen heeft een gelijke
kans om geselecteerd te worden. Grote steekproeven lossen dit
probleem niet op. ‘selectieve werving’.
Deze mogelijke problemen leiden tot vertekende resultaten en mogelijk tot
onjuiste conclusies over de populatie.
De oplossing is een aselecte (of andere probabilistische) steekproef van
voldoende omvang die informatie (data) oplevert over iedereen die
benaderd is, met correcte responses voor alle subjecten op alle items.
Hoorcollege 2
Het trekken van een steekproef
Welke manier om een aselecte streekproef te trekken gebruikt wordt hangt
af van de onderzoeksvraag, de samenstelling van de doelpopulatie en de
haalbaarheid van de te vormen steekproef. De verschillende
steekproefmethoden zijn:
1. Een enkelvoudige aselecte steekproef (simple random
sampling): hierbij wordt eerst een steekproefkader vastgesteld, dit
is een lijst van mensen waaruit de steekproef getrokken kan gaan
worden. Dit hoeft niet de gehele populatie te zijn, maar het moet wel
representatief zijn voor de gehele populatie. Uit deze groep wordt
dan willekeurig de steekproef getrokken. Een voordeel is dat het
eenvoudig uit te voeren is en dat elke combinatie van deelnemers
evenveel kans heeft om de steekproef te vormen. Nadelen van een
eenvoudige aselecte steekproef zijn dat het alleen haalbaar is als
alle participanten uit de doelpopulatie benaderbaar zijn en dat er
veel willekeurige nummers nodig zijn om de steekproef te kunnen
vormen.
2. Een gestratificeerde steekproef: hierbij wordt eerst een
steekproefkader vastgesteld. Vervolgens wordt deze populatie
verdeeld in strata, dit zijn subgroepen binnen de populatie
gebaseerd op bepaalde gedeelde kenmerken of eigenschappen (bijv.
jongens en meiden). Vervolgens wordt er uit elk stratum willekeurig
een bepaald aantal deelnemers getrokken. Dit kan zowel
proportioneel als disproportioneel gedaan worden. Proportioneel
houdt in dat de verhoudingen van de steekproef hetzelfde zijn als de
verhoudingen in de doelpopulatie en disproportioneel houdt in dat
de verhoudingen anders zijn. Bij een probabilistische steekproef