Toegepaste statistiek: from zero to statistical hero
DEEL 1: INLEIDING TOT DE STATISTIEK
Hoofdstuk 1 Het traject van zero naar statistical hero
1.1. Elk onderzoek start met verwondering
1.2. Doelstelling van dit handboek
1.3. Alle wegen leiden naar de flowchart
De flowchart is een visuele weergave v/e opeenvolging van stappen en beslissingen die nodig zijn om te
komen tot de juiste toets
- Elke stap wordt genoteerd in een dragramvorm en stappen zijn met elkaar verbonden adhv
richtingspijlen
Onderscheid tussen onafhankelijke en afhankelijke variabelen
- De onafhankelijke heeft een invloed op de afhankelijke
- De flowchart start altijd met de afhankelijke variabele
- De eerste vraag in de flowchart is of er in je onderzoeksvraag 1 of meerdere afhankelijke variabelen
heeft.
- De tweede vraag is wat het meetniveau v/d afhankelijke variabele is
- De derde vraag gaat over het aantal onafhankelijke variabelen
Wnr je een techniek hebt gekozen voor je onderzoek gebruik je best een zes-stappen procedure
- Kiezen v/d juiste analysemethode
- Datacontrole
- Hypothesen formuleren
- Significantieniveau bepalen
- Toetsingsgrootheid en p-waarden berekenen
- Resultaten interpreteren en rapporteren.
1.4. Voorbeelden en oefeningen op basis van echte data
Zie pg 21-23 voor uitleg over de studie
1.5. Er mag al eens gelachen worden
Hoofdstuk 2 Het ABC van de statistiek
2.1. Inleiding
Variabelen: gegevens of kenmerken v/e persoon v/d onderzoekspopulatie die variëren.
Er zijn 3 bepalende factoren om de juiste analysetechniek te bepalen:
1) Aantal variabelen in de onderzoeksvraag
2) Meetniveau van elke variabele
o Er zijn categorische variabelen waarbij de verschillende waarden v/d variabele telkens een
, bepaalde categorie voorstellen
Afhankelijk van hoe de categorieën zich verhouden tov elkaar kunnen we categorische
variabelen verder indelen in nominale en ordinale variabelen
o Er zijn metrische variabelen = continue variabelen. Deze worden gemeten op intervalniveau en
op rationiveau
3) Wat is de rol van elke variabele in de onderzoeksvraag
o Bv onafhankelijke en afhankelijke variabele
Analysetechnieken worden in 2 groepen ingedeeld:
- Descriptieve statistiek
o WRM? Je wilt kwantitatieve gegevens v/e steekproef louter beschrijven
- Inferentiële statistiek
o WRM? Je wilt resultaten uit een steekproef veralgemenen of uitspraken doen over de hele
populatie
2.2. Meetniveau van variabelen
Variabelen = (variërende) kenmerken van onderzoekseenheden, kenmerken v/d populatie waarin je als
onderzoeker geïnteresseerd bent en die telkens kunnen variëren wnr ze gemeten worden bij verschillende
onderzoekseenheden van die populatie of op verschillende tijdstippen en plaatsen.
- Per waarneming neemt een variabele altijd een bepaalde numerieke waarde aan.
- De populatie waarvan we variabelen onderzoek zijn niet beperkt tot personen. Het kan gaan om
andere onderzoekseenheden zoals; producten, diensten, tijdsperiodes, ruimtes
Operationaliseren van variabelen = bepalen hoe elk kenmerken v/e onderzoekseenheid gemeten zal worden
en met welke waarde die metingen gerepresenteerd zullen worden. (hoe elk kenmerk omzetten tot een
concreet meetbare variabele).
- Bv leeftijd -> meten door vragen naar geboortejaar, leeftijd, leeftijdscategorie…
- Die relatie tss wat gemeten wordt en de waarden die de metingen representeren heet het meetniveau
van variabelen
2.2.1. Categorische variabelen
Categorische variabelen = kwalitatieve variabelen
- BET? Indien de waarde v/e variabele een bepaalde klasse of categorie vertegenwoordigt
- Zijn te verdelen in nominale en ordinale variabelen
o Nominale variabelen: wnr men voor een variabele individuen of objecten indelen in
gelijkwaardige klassen of categorieën en ze dus enkel benoemen met een bepaalde waarde
Deze kunnen ene getal hebben maar bevatten geen echte getalwaarde. De toekenning v/d
waarden gebeurt willekeurig en dient enkel om de categorieën uit elkaar te kunnen houden
en ze een naam geven
Zo zijn er in onderzoek vaak binaire variabelen: nominale variabelen met maar 2 categorieën
De getalwaarde is louter als benoeming en is arbitrair
Klassen zijn dicreet: er komen geen tussenliggende waarden voor
o Ordinale variabelen: wnr er in de categorieën v/e categorische variabele een ordening zit
Bv wat is het hoogste diploma dat je hebt?
Maar ze laten niet toe om een uitspraak te doen over (hvl meer of beter’
- Zijn discrete variabelen. Dit betekent dat tussenliggende waarden (die tussen de vooraf bepaalde
, waarden van categorische variabelen vallen) niet mogelijk zijn => enkel gehele getallen. Dus je kan
niet waarde 2.3 hebben = betekenisloos. De mogelijke waarden = beperkt en liggen vooraf vast
o Het omgekeerde zijn continue variabelen, waarbij de tussenliggende waarden wel betekenisvol
zijn
2.2.2. Metrische variabelen
Metrische variabelen
- BET: De verschillende waarden v/e variabele vertegenwoordigen geen categorieën, maar een
specifieke numerieke score
- Er is dus een logische volgorde (zoals ordinale), maar hier is er extra informatie want je hebt de vaste
meeteenheid en je kan dus het exacte verschil berekenen tussen de waarden v/d respondenten
- Zijn continue variabelen, omdat een onderzoekseenheid een score kan krijgen op een continuüm aan
mogelijkheden. Tussenliggende waarden zijn dus mogelijk & betekenisvol (itt tot ordinale)
- Er bestaan 2 soorten metrische variabelen
- Interval variabelen
o Verschil tss waarden is hier wel betekenisvol
o Oneindig veel mogelijke tussenliggende waarden
o Hebben geen absoluut nulpunt: het kenmerk nul heeft niet de betekenis van niet-zijn of niet
bestaan. De nul bestaat enkel bij conventie.
o Verhouding tss de waarden ve intervalvariabelen = niet zinvol
o Bv: jaartal & temperatuur & lezen van een klok: 15°C is niet 3x zo warm als 5°C; in het jaar 1000
was de aarde niet de helft zo oud als in het jaar 2000; 18.00 uur is niet 2x zo laat als 9.00 uur. Wel
kan je zeggen (i.t.t. ordinale variabelen) dat er evenveel graden verschil zitten tss 13°C en 15°C als
tss 3°C en 5°C en dat er in principe oneindig veel mogelijke waarden tss 13°C en 15°C (bv 13.44°C,
14.85°C…) liggen. Hetzelfde geldt voor jaartallen en het lezen vd klok.
- Variabelen op rationiveau
o Oneindig veel mogelijke tussenliggende waarden
o Verschil tss waarden = betekenisvol
Bv: % alcohol in bloed; hier kan je dus wel zeggen dat een volwassene die 180 cm meet
dubbel zo groot is als een kind van 90 cm.
o Wel absoluut nulpunt: verschil tss zijn en niet-zijn.
Bv: gewicht, salaris: een doos die 0 gram weegt, bestaat niet; iemand die 0 euro inkomen
heeft, heeft geen inkomen.
- In praktijk is het onderscheid tss interval en ratio amper relevant (ook niet in SPPS!)
2 soorten vragen:
- Enkelvoudige vragen -> meten concepten
o Bv werktevredenheid
o Nadelen:
, Het concept = vaak te heterogeen om slecht door 1 vraag te dekken
Toevalinvloeden spelen een rol: 1 vraag valt niet altijd op tss de resem vragen in een
enquête: afgeleid zijn, slecht begrip, emotionele stemming…
- Meervoudige vragen (meetschaal)
o Laten toe om respondenten achteraf beter te onderscheiden. Meetschaal = tool om die abstracte
kenmerken meer concreet te maken en om ze te kunnen meten (net zoals je lengte zou meten
met een meetlat). Vaak gaat het over zelf-gepercipieerde opinies, gedragingen of subjectieve
omstandigheden.
o Likertschaal = meest populaire schaaltechniek.
Wordt gebruikt voor wnr je variabelen wilt meten die erg abstract zijn
Hierbij worden concrete en weloverwogen stellingen naar voren geschoven (= schaalitems)
die elk over een abstract kenmerk gaan en deze goed zouden moeten vertegenwoordigen.
Respondenten moeten aanduiden in hoeverre ze akkoord of niet akkoord gaan met elke
stelling door een antwoordoptie te kiezen uit een geordende reeks antwoordopties (=
puntenschaal).
De keuze die de respondenten moeten maken meet de intensiteit van hun gevoelens
bij de stelling en in welke richting die uitgaat
Elke stelling die je geeft aan een respondent vormt 1 schaalitem, waarvan de antwoorden
later in de dataset opgenomen worden als 1 ordinale variabele.
Goede Likertschaal bevat minstens 3 concrete ordinale schaalitems voor 1 abstract
concept, die eenzelfde abstract kenmerk zo goed mogelijk vertegenwoordigen
Nadat je aparte schaalitems gemeten hebt, moet je ze nog samennemen om 1
schaalvariabele te krijgen in je dataset waarmee je verdere analyses kan uitvoeren
De waarden vd schaal zijn niet meer discreet, maar metrisch!!!
2.2.3. Hiërarchie van meetniveaus en het belang van de juiste vraagstelling
Er is een hiërarchie tussen de meetniveaus
- Dit is belangrijk voor de statistische bewerkingen
- Hoe hoger gerangschikt, hoe meer bewerkingen of analyses een bep meetniveau toelaat
o Metrisch > ordinaal > nominaal
- Zegt niets over hoe waardevol de verschillende variabelen zijn
- Metrisch niveau achteraf categorisch maken = altijd mogelijk! Maar omgekeerd niet!
- Vraagstelling in survey: hoger meetniveau = meer informatie
- Doelstelling: zo hoog mogelijk meetniveau => meer informatie
- Vaak worden meerdere ordinale variabelen die tot 1 schaal behoren, omgevormd tot een metrische
schaal:
o Likertschaal over angst, met 3 items op een 7-puntenschaal (helemaal oneens; oneens; eerder
oneens; nog eens; noch oneens; eerder eens; eens; helemaal eens). Dit resulteert in 3 ordinale
variabelen. Deze zijn samenvoegbaar tot 1 schaalvariabelen (gemiddelde of som van alle
antwoorden). Discrete antwoordcategorieën veranderen in een score voor het abstracte concept
(bv een respondent antwoord 5, 6 en 5 op 3 items = een gemiddelde score van 5.33 voor angst of
een somscore van 16 voor angst). Deze gecombineerde scores liggen op een breder continuüm
dan voorheen: de schaalvariabele w als metrisch beschouwd.
Rekenkundig gemiddelde
- = alle items w even belangrijk geacht
- = gevoelig voor uitschieters
- Het gemiddelde bereken ve schaal zegt niets over de waarde ve schaal
DEEL 1: INLEIDING TOT DE STATISTIEK
Hoofdstuk 1 Het traject van zero naar statistical hero
1.1. Elk onderzoek start met verwondering
1.2. Doelstelling van dit handboek
1.3. Alle wegen leiden naar de flowchart
De flowchart is een visuele weergave v/e opeenvolging van stappen en beslissingen die nodig zijn om te
komen tot de juiste toets
- Elke stap wordt genoteerd in een dragramvorm en stappen zijn met elkaar verbonden adhv
richtingspijlen
Onderscheid tussen onafhankelijke en afhankelijke variabelen
- De onafhankelijke heeft een invloed op de afhankelijke
- De flowchart start altijd met de afhankelijke variabele
- De eerste vraag in de flowchart is of er in je onderzoeksvraag 1 of meerdere afhankelijke variabelen
heeft.
- De tweede vraag is wat het meetniveau v/d afhankelijke variabele is
- De derde vraag gaat over het aantal onafhankelijke variabelen
Wnr je een techniek hebt gekozen voor je onderzoek gebruik je best een zes-stappen procedure
- Kiezen v/d juiste analysemethode
- Datacontrole
- Hypothesen formuleren
- Significantieniveau bepalen
- Toetsingsgrootheid en p-waarden berekenen
- Resultaten interpreteren en rapporteren.
1.4. Voorbeelden en oefeningen op basis van echte data
Zie pg 21-23 voor uitleg over de studie
1.5. Er mag al eens gelachen worden
Hoofdstuk 2 Het ABC van de statistiek
2.1. Inleiding
Variabelen: gegevens of kenmerken v/e persoon v/d onderzoekspopulatie die variëren.
Er zijn 3 bepalende factoren om de juiste analysetechniek te bepalen:
1) Aantal variabelen in de onderzoeksvraag
2) Meetniveau van elke variabele
o Er zijn categorische variabelen waarbij de verschillende waarden v/d variabele telkens een
, bepaalde categorie voorstellen
Afhankelijk van hoe de categorieën zich verhouden tov elkaar kunnen we categorische
variabelen verder indelen in nominale en ordinale variabelen
o Er zijn metrische variabelen = continue variabelen. Deze worden gemeten op intervalniveau en
op rationiveau
3) Wat is de rol van elke variabele in de onderzoeksvraag
o Bv onafhankelijke en afhankelijke variabele
Analysetechnieken worden in 2 groepen ingedeeld:
- Descriptieve statistiek
o WRM? Je wilt kwantitatieve gegevens v/e steekproef louter beschrijven
- Inferentiële statistiek
o WRM? Je wilt resultaten uit een steekproef veralgemenen of uitspraken doen over de hele
populatie
2.2. Meetniveau van variabelen
Variabelen = (variërende) kenmerken van onderzoekseenheden, kenmerken v/d populatie waarin je als
onderzoeker geïnteresseerd bent en die telkens kunnen variëren wnr ze gemeten worden bij verschillende
onderzoekseenheden van die populatie of op verschillende tijdstippen en plaatsen.
- Per waarneming neemt een variabele altijd een bepaalde numerieke waarde aan.
- De populatie waarvan we variabelen onderzoek zijn niet beperkt tot personen. Het kan gaan om
andere onderzoekseenheden zoals; producten, diensten, tijdsperiodes, ruimtes
Operationaliseren van variabelen = bepalen hoe elk kenmerken v/e onderzoekseenheid gemeten zal worden
en met welke waarde die metingen gerepresenteerd zullen worden. (hoe elk kenmerk omzetten tot een
concreet meetbare variabele).
- Bv leeftijd -> meten door vragen naar geboortejaar, leeftijd, leeftijdscategorie…
- Die relatie tss wat gemeten wordt en de waarden die de metingen representeren heet het meetniveau
van variabelen
2.2.1. Categorische variabelen
Categorische variabelen = kwalitatieve variabelen
- BET? Indien de waarde v/e variabele een bepaalde klasse of categorie vertegenwoordigt
- Zijn te verdelen in nominale en ordinale variabelen
o Nominale variabelen: wnr men voor een variabele individuen of objecten indelen in
gelijkwaardige klassen of categorieën en ze dus enkel benoemen met een bepaalde waarde
Deze kunnen ene getal hebben maar bevatten geen echte getalwaarde. De toekenning v/d
waarden gebeurt willekeurig en dient enkel om de categorieën uit elkaar te kunnen houden
en ze een naam geven
Zo zijn er in onderzoek vaak binaire variabelen: nominale variabelen met maar 2 categorieën
De getalwaarde is louter als benoeming en is arbitrair
Klassen zijn dicreet: er komen geen tussenliggende waarden voor
o Ordinale variabelen: wnr er in de categorieën v/e categorische variabele een ordening zit
Bv wat is het hoogste diploma dat je hebt?
Maar ze laten niet toe om een uitspraak te doen over (hvl meer of beter’
- Zijn discrete variabelen. Dit betekent dat tussenliggende waarden (die tussen de vooraf bepaalde
, waarden van categorische variabelen vallen) niet mogelijk zijn => enkel gehele getallen. Dus je kan
niet waarde 2.3 hebben = betekenisloos. De mogelijke waarden = beperkt en liggen vooraf vast
o Het omgekeerde zijn continue variabelen, waarbij de tussenliggende waarden wel betekenisvol
zijn
2.2.2. Metrische variabelen
Metrische variabelen
- BET: De verschillende waarden v/e variabele vertegenwoordigen geen categorieën, maar een
specifieke numerieke score
- Er is dus een logische volgorde (zoals ordinale), maar hier is er extra informatie want je hebt de vaste
meeteenheid en je kan dus het exacte verschil berekenen tussen de waarden v/d respondenten
- Zijn continue variabelen, omdat een onderzoekseenheid een score kan krijgen op een continuüm aan
mogelijkheden. Tussenliggende waarden zijn dus mogelijk & betekenisvol (itt tot ordinale)
- Er bestaan 2 soorten metrische variabelen
- Interval variabelen
o Verschil tss waarden is hier wel betekenisvol
o Oneindig veel mogelijke tussenliggende waarden
o Hebben geen absoluut nulpunt: het kenmerk nul heeft niet de betekenis van niet-zijn of niet
bestaan. De nul bestaat enkel bij conventie.
o Verhouding tss de waarden ve intervalvariabelen = niet zinvol
o Bv: jaartal & temperatuur & lezen van een klok: 15°C is niet 3x zo warm als 5°C; in het jaar 1000
was de aarde niet de helft zo oud als in het jaar 2000; 18.00 uur is niet 2x zo laat als 9.00 uur. Wel
kan je zeggen (i.t.t. ordinale variabelen) dat er evenveel graden verschil zitten tss 13°C en 15°C als
tss 3°C en 5°C en dat er in principe oneindig veel mogelijke waarden tss 13°C en 15°C (bv 13.44°C,
14.85°C…) liggen. Hetzelfde geldt voor jaartallen en het lezen vd klok.
- Variabelen op rationiveau
o Oneindig veel mogelijke tussenliggende waarden
o Verschil tss waarden = betekenisvol
Bv: % alcohol in bloed; hier kan je dus wel zeggen dat een volwassene die 180 cm meet
dubbel zo groot is als een kind van 90 cm.
o Wel absoluut nulpunt: verschil tss zijn en niet-zijn.
Bv: gewicht, salaris: een doos die 0 gram weegt, bestaat niet; iemand die 0 euro inkomen
heeft, heeft geen inkomen.
- In praktijk is het onderscheid tss interval en ratio amper relevant (ook niet in SPPS!)
2 soorten vragen:
- Enkelvoudige vragen -> meten concepten
o Bv werktevredenheid
o Nadelen:
, Het concept = vaak te heterogeen om slecht door 1 vraag te dekken
Toevalinvloeden spelen een rol: 1 vraag valt niet altijd op tss de resem vragen in een
enquête: afgeleid zijn, slecht begrip, emotionele stemming…
- Meervoudige vragen (meetschaal)
o Laten toe om respondenten achteraf beter te onderscheiden. Meetschaal = tool om die abstracte
kenmerken meer concreet te maken en om ze te kunnen meten (net zoals je lengte zou meten
met een meetlat). Vaak gaat het over zelf-gepercipieerde opinies, gedragingen of subjectieve
omstandigheden.
o Likertschaal = meest populaire schaaltechniek.
Wordt gebruikt voor wnr je variabelen wilt meten die erg abstract zijn
Hierbij worden concrete en weloverwogen stellingen naar voren geschoven (= schaalitems)
die elk over een abstract kenmerk gaan en deze goed zouden moeten vertegenwoordigen.
Respondenten moeten aanduiden in hoeverre ze akkoord of niet akkoord gaan met elke
stelling door een antwoordoptie te kiezen uit een geordende reeks antwoordopties (=
puntenschaal).
De keuze die de respondenten moeten maken meet de intensiteit van hun gevoelens
bij de stelling en in welke richting die uitgaat
Elke stelling die je geeft aan een respondent vormt 1 schaalitem, waarvan de antwoorden
later in de dataset opgenomen worden als 1 ordinale variabele.
Goede Likertschaal bevat minstens 3 concrete ordinale schaalitems voor 1 abstract
concept, die eenzelfde abstract kenmerk zo goed mogelijk vertegenwoordigen
Nadat je aparte schaalitems gemeten hebt, moet je ze nog samennemen om 1
schaalvariabele te krijgen in je dataset waarmee je verdere analyses kan uitvoeren
De waarden vd schaal zijn niet meer discreet, maar metrisch!!!
2.2.3. Hiërarchie van meetniveaus en het belang van de juiste vraagstelling
Er is een hiërarchie tussen de meetniveaus
- Dit is belangrijk voor de statistische bewerkingen
- Hoe hoger gerangschikt, hoe meer bewerkingen of analyses een bep meetniveau toelaat
o Metrisch > ordinaal > nominaal
- Zegt niets over hoe waardevol de verschillende variabelen zijn
- Metrisch niveau achteraf categorisch maken = altijd mogelijk! Maar omgekeerd niet!
- Vraagstelling in survey: hoger meetniveau = meer informatie
- Doelstelling: zo hoog mogelijk meetniveau => meer informatie
- Vaak worden meerdere ordinale variabelen die tot 1 schaal behoren, omgevormd tot een metrische
schaal:
o Likertschaal over angst, met 3 items op een 7-puntenschaal (helemaal oneens; oneens; eerder
oneens; nog eens; noch oneens; eerder eens; eens; helemaal eens). Dit resulteert in 3 ordinale
variabelen. Deze zijn samenvoegbaar tot 1 schaalvariabelen (gemiddelde of som van alle
antwoorden). Discrete antwoordcategorieën veranderen in een score voor het abstracte concept
(bv een respondent antwoord 5, 6 en 5 op 3 items = een gemiddelde score van 5.33 voor angst of
een somscore van 16 voor angst). Deze gecombineerde scores liggen op een breder continuüm
dan voorheen: de schaalvariabele w als metrisch beschouwd.
Rekenkundig gemiddelde
- = alle items w even belangrijk geacht
- = gevoelig voor uitschieters
- Het gemiddelde bereken ve schaal zegt niets over de waarde ve schaal