Toepassing van Onderzoeksmethoden en
Statistiek
Hoorcollege 1: Correlationeel Onderzoek – Surveys
Kwantitatieve data kan bv worden gebruikt om de klanttevredenheid,
politieke peilingen en
overheidsstatistieken te meten.
Data kan zowel toevallig (organisch) als
doelgericht (ontworpen/designed)
worden gegenereerd. Een manier van
doelgericht data verzamelen is het
afnemen van een vragenlijst. In de
komende HC’s gaat het over deze
vragenlijsten.
Inferentiële doelen zijn beschrijven,
causaliteit en voorspellen.
Het is belangrijk om te weten wat de doelgroep is voor het kiezen van de
soort van de vragenlijst.
Soorten vragenlijsten
Face-to-face (CAPI) – vaak bij
kinderen of ouderen.
Post
Telefoon (CATI)
Internet
Mixed-mode: er worden
verschillende medio gebruikt.
Verschillen tussen de soorten
vragenlijsten zijn:
1. De mate van betrokkenheid van de interviewer.
2. De mate van interactie met de respondent.
3. De mate van privacy.
4. Communicatiemogelijkheden (visueel, auditief).
Panel/longitudinaal onderzoek is een Herhaald cross-sectioneel onderzoek is een
onderzoek over een langere periode. In elk onderzoek over langere periode. In elk meetmoment
meetmoment wordt dezelfde groep wordt een andere groep respondenten ondervraagd.
respondenten ondervraagd. De inhoud van De inhoud van de vragenlijsten is meestal hetzelfde.
de vragenlijsten is meestal hetzelfde. Vragen kunnen toegevoegd of aangepast worden
Vragen kunnen toegevoegd of aangepast aan actuele gebeurtenissen, nieuwe inzichten, etc.
worden aan actuele gebeurtenissen, nieuwe + We kunnen leeftijds-, periode- en cohort effecten
inzichten, etc. beschrijven.
+ Leeftijds-, periode- en cohort effecten + Goedkoper, minder uitval
beschrijven + Geen leereffecten
+ Binnen-persoon veranderingen meten. - Binnen-persoons veranderingen kunnen niet
- Uitval. gemeten worden.
- Panel conditionering/leereffecten: je
,Bij het operationaliseren is een vragenlijst de operationele definitie. Dan is
vervolgens het doel om een variabele te maken. Dit kan op verschillende
manieren:
Alle itemscores bij elkaar optellen en hierbij wordt een schaal
gevormd. Het nadeel is dat als iemand niet de hele vragenlijst invult
je op hele rare waardes uitkomt.
Het berekenen van het gemiddelde van alle itemscores. Het
voordeel is dat dit ook berekend kan worden met een paar missende
waarden.
Nemen van een gewogen gemiddelde van itemscores.
In veel vragenlijsten vinden we ook omgekeerd geformuleerde items.
Hierbij geeft een hoge score juist een laag resultaat aan. Dan moet je deze
data ook omgekeerd coderen (ompolen/hercoderen), zodat een lage score
juist hoog meetelt (bv 4 → 1). In een dataset staan personen in de rijen en
de gegevens in de kolommen.
Het is heel belangrijk om goed naar de documentatie van de vragenlijst te
maken, zodat niet hoge items en lage items door de ompoling elkaar gaan
opheffen. Dan kan met de omgepoolde items ook een schaalscore worden
berekend.
De variabele kunnen we nu gebruiken voor wat je wil uitrekenen.
Correlationeel
Experimenteel
Kwalitatief
,Hoorcollege 2: Betrouwbaarheid & Regressie
Cronbach’s alfa meet de interne consistentie: in welke mate zijn de
items in een vragenlijst
Over het algemeen geldt:
gecorreleerd? Om
α < 0,7: lage interne betrouwbaarheid.
betrouwbaarheidsanalyses te
α 0,7-0,8: middelmatige interne
gebruiken, moeten alle items in
betrouwbaarheid
dezelfde richting zijn gecodeerd.
α > 0,8: hoge interne
betrouwbaarheid.
Dit is wel afhankelijk van de consequenties
van het gebruik van de enquête.
Betrouwbaarheidsanalyse: de schaal verbeteren
- Controleer de correlaties tussen de individuele items en de schaal
zonder dat item. Dit is ook wel de item-rest correlatie (Rit).
o Rit < ± 0,2 → item kan mogelijk worden verwijderd.
- Controleer wat er gebeurt met Cronbach’s alfa als de schaal zou
worden gemaakt zonder dat item. Dit is ook wel de if item
dropped.
o Vuistregel: het item waarbij alfa het meest toeneemt moet als
eerste worden verwijderd.
Als een onderzoeker de vraag heel belangrijk vindt, kan hij altijd nog
kiezen om de vraag er toch wel in te houden.
Variabele maken
1. Ompolen items.
2. Betrouwbaarheidsanalyse.
3. Schaalscore berekenen.
Dan kunnen vervolgens schaalscores kunnen worden gebruikt als andere
variabele (bv grafieken, t-toets, beschrijvende statistieken).
Regressie wordt gebruik om de lineaire relatie te beschrijven met een
vergelijking en voorspellingen te doen met behulp van deze vergelijking.
Regressie kan je gebruiken om een continue afhankelijke variabele te
voorspellen vanuit één (enkelvoudige regressie) of meerdere
(meervoudige regressie) onafhankelijke variabelen.
We gebruiken de techniek least squares
regression voor het maken van een
regressielijn.
Het residu is het verschil tussen wat een
persoon echt scoort min de waarde op de lijn.
De verschillen worden gekwadrateerd (omdat
sommige negatief zijn en sommige positief). De
vergelijking met de kleinste som van
gekwadrateerde residuen wordt gebruikt.
, Als er weinig spreiding is rond de regressielijn zijn de meeste residuen
klein en zullen de voorspellingen met de regressievergelijking zeer
nauwkeurig zijn. Als er meer spreiding is rond de regressielijn zijn de
residuen over het algemeen groter en zullen de voorspellingen met de
regressievergelijking minder nauwkeurig zijn.
Standaardschattingfout (RMSE): een maat voor de nauwkeurigheid
van de voorspelling. Het is de standaardafwijking van de residuen.
Grofweg: de gemiddelde grootte van de fouten die we maken als we de
regressievergelijking gebruiken om voorspellingen te doen. Als die klein is,
is deze nauwkeurig en als die groot is zijn de voorspellingen minder
nauwkeurig.
- Let op: dit geldt niet per se voor 1 individu, maar is het gemiddelde
van alle residuen. Om te weten wat het residu is voor 1 geval, kijk je
naar het verschil tussen de geobserveerde waarde en de voorspelde
waarde: y – ŷ.
De regressievergelijking wordt bepaald door wiskundig de kleinste som
van gekwadrateerde residuen (SSR) te bepalen. Het kan worden gebruikt
om voorspellingen mee te doen en wordt beschreven als: ŷ = b0 + b1x.
Hierbij is b0 het snijpunt met de y-as (x = 0) en b1 de richtingscoëfficiënt.
Het dakje op de y betekend dat het over een voorspelling gaat.
Voor het voorspellen van een y-waarde gebruiken we de lineaire functie
met de waarde van x op de juiste plaats.
Statistiek
Hoorcollege 1: Correlationeel Onderzoek – Surveys
Kwantitatieve data kan bv worden gebruikt om de klanttevredenheid,
politieke peilingen en
overheidsstatistieken te meten.
Data kan zowel toevallig (organisch) als
doelgericht (ontworpen/designed)
worden gegenereerd. Een manier van
doelgericht data verzamelen is het
afnemen van een vragenlijst. In de
komende HC’s gaat het over deze
vragenlijsten.
Inferentiële doelen zijn beschrijven,
causaliteit en voorspellen.
Het is belangrijk om te weten wat de doelgroep is voor het kiezen van de
soort van de vragenlijst.
Soorten vragenlijsten
Face-to-face (CAPI) – vaak bij
kinderen of ouderen.
Post
Telefoon (CATI)
Internet
Mixed-mode: er worden
verschillende medio gebruikt.
Verschillen tussen de soorten
vragenlijsten zijn:
1. De mate van betrokkenheid van de interviewer.
2. De mate van interactie met de respondent.
3. De mate van privacy.
4. Communicatiemogelijkheden (visueel, auditief).
Panel/longitudinaal onderzoek is een Herhaald cross-sectioneel onderzoek is een
onderzoek over een langere periode. In elk onderzoek over langere periode. In elk meetmoment
meetmoment wordt dezelfde groep wordt een andere groep respondenten ondervraagd.
respondenten ondervraagd. De inhoud van De inhoud van de vragenlijsten is meestal hetzelfde.
de vragenlijsten is meestal hetzelfde. Vragen kunnen toegevoegd of aangepast worden
Vragen kunnen toegevoegd of aangepast aan actuele gebeurtenissen, nieuwe inzichten, etc.
worden aan actuele gebeurtenissen, nieuwe + We kunnen leeftijds-, periode- en cohort effecten
inzichten, etc. beschrijven.
+ Leeftijds-, periode- en cohort effecten + Goedkoper, minder uitval
beschrijven + Geen leereffecten
+ Binnen-persoon veranderingen meten. - Binnen-persoons veranderingen kunnen niet
- Uitval. gemeten worden.
- Panel conditionering/leereffecten: je
,Bij het operationaliseren is een vragenlijst de operationele definitie. Dan is
vervolgens het doel om een variabele te maken. Dit kan op verschillende
manieren:
Alle itemscores bij elkaar optellen en hierbij wordt een schaal
gevormd. Het nadeel is dat als iemand niet de hele vragenlijst invult
je op hele rare waardes uitkomt.
Het berekenen van het gemiddelde van alle itemscores. Het
voordeel is dat dit ook berekend kan worden met een paar missende
waarden.
Nemen van een gewogen gemiddelde van itemscores.
In veel vragenlijsten vinden we ook omgekeerd geformuleerde items.
Hierbij geeft een hoge score juist een laag resultaat aan. Dan moet je deze
data ook omgekeerd coderen (ompolen/hercoderen), zodat een lage score
juist hoog meetelt (bv 4 → 1). In een dataset staan personen in de rijen en
de gegevens in de kolommen.
Het is heel belangrijk om goed naar de documentatie van de vragenlijst te
maken, zodat niet hoge items en lage items door de ompoling elkaar gaan
opheffen. Dan kan met de omgepoolde items ook een schaalscore worden
berekend.
De variabele kunnen we nu gebruiken voor wat je wil uitrekenen.
Correlationeel
Experimenteel
Kwalitatief
,Hoorcollege 2: Betrouwbaarheid & Regressie
Cronbach’s alfa meet de interne consistentie: in welke mate zijn de
items in een vragenlijst
Over het algemeen geldt:
gecorreleerd? Om
α < 0,7: lage interne betrouwbaarheid.
betrouwbaarheidsanalyses te
α 0,7-0,8: middelmatige interne
gebruiken, moeten alle items in
betrouwbaarheid
dezelfde richting zijn gecodeerd.
α > 0,8: hoge interne
betrouwbaarheid.
Dit is wel afhankelijk van de consequenties
van het gebruik van de enquête.
Betrouwbaarheidsanalyse: de schaal verbeteren
- Controleer de correlaties tussen de individuele items en de schaal
zonder dat item. Dit is ook wel de item-rest correlatie (Rit).
o Rit < ± 0,2 → item kan mogelijk worden verwijderd.
- Controleer wat er gebeurt met Cronbach’s alfa als de schaal zou
worden gemaakt zonder dat item. Dit is ook wel de if item
dropped.
o Vuistregel: het item waarbij alfa het meest toeneemt moet als
eerste worden verwijderd.
Als een onderzoeker de vraag heel belangrijk vindt, kan hij altijd nog
kiezen om de vraag er toch wel in te houden.
Variabele maken
1. Ompolen items.
2. Betrouwbaarheidsanalyse.
3. Schaalscore berekenen.
Dan kunnen vervolgens schaalscores kunnen worden gebruikt als andere
variabele (bv grafieken, t-toets, beschrijvende statistieken).
Regressie wordt gebruik om de lineaire relatie te beschrijven met een
vergelijking en voorspellingen te doen met behulp van deze vergelijking.
Regressie kan je gebruiken om een continue afhankelijke variabele te
voorspellen vanuit één (enkelvoudige regressie) of meerdere
(meervoudige regressie) onafhankelijke variabelen.
We gebruiken de techniek least squares
regression voor het maken van een
regressielijn.
Het residu is het verschil tussen wat een
persoon echt scoort min de waarde op de lijn.
De verschillen worden gekwadrateerd (omdat
sommige negatief zijn en sommige positief). De
vergelijking met de kleinste som van
gekwadrateerde residuen wordt gebruikt.
, Als er weinig spreiding is rond de regressielijn zijn de meeste residuen
klein en zullen de voorspellingen met de regressievergelijking zeer
nauwkeurig zijn. Als er meer spreiding is rond de regressielijn zijn de
residuen over het algemeen groter en zullen de voorspellingen met de
regressievergelijking minder nauwkeurig zijn.
Standaardschattingfout (RMSE): een maat voor de nauwkeurigheid
van de voorspelling. Het is de standaardafwijking van de residuen.
Grofweg: de gemiddelde grootte van de fouten die we maken als we de
regressievergelijking gebruiken om voorspellingen te doen. Als die klein is,
is deze nauwkeurig en als die groot is zijn de voorspellingen minder
nauwkeurig.
- Let op: dit geldt niet per se voor 1 individu, maar is het gemiddelde
van alle residuen. Om te weten wat het residu is voor 1 geval, kijk je
naar het verschil tussen de geobserveerde waarde en de voorspelde
waarde: y – ŷ.
De regressievergelijking wordt bepaald door wiskundig de kleinste som
van gekwadrateerde residuen (SSR) te bepalen. Het kan worden gebruikt
om voorspellingen mee te doen en wordt beschreven als: ŷ = b0 + b1x.
Hierbij is b0 het snijpunt met de y-as (x = 0) en b1 de richtingscoëfficiënt.
Het dakje op de y betekend dat het over een voorspelling gaat.
Voor het voorspellen van een y-waarde gebruiken we de lineaire functie
met de waarde van x op de juiste plaats.