Experimentele onderzoeksmethoden – Hoorcollege 1
Beschrijvende statistiek
Beschrijvende statistiek = samenvatten van data
Data = numerieke gegevens van populatie of steekproef
Populatie Steekproef
Alle leden van gedefinieerde groep Deelverzameling van leden van gedefinieerde
groep
Parameters zijn maten voor eigenschappen van Steekproefgrootheden (“statistics”) zijn maten
de scores in de populatie voor eigenschappen van de scores in de
steekproef
Griekse letters geven parameters weer Latijnse letters geven steekproefgrootheden
μ = gemiddelde in de populatie weer
σ = standaarddeviatie in de populatie X = steekproefgemiddelde
s = standaarddeviatie in de steekproef
Het doel is uiteindelijk om de resultaten van de steekproef te kunnen generaliseren naar de populatie.
Dit gebeurt met behulp van hypothesetoetsen.
Gegevens uit een steekproef (de cijfers uit dit voorbeeld worden vaker gebruikt in dit college):
114432312134433443144443442313444242331143413
Beschrijvende statistiek helpt om de data samen te vatten lijst is onoverzichtelijk
Twee manieren om dit te doen (SPSS):
1. Het maken van een verdeling van scores
2. Steekproefgrootheden
Deze twee manieren worden hieronder verder uitgelegd:
1. Het maken van een verdeling van scores
Data samenvatten door groeperen van data met dezelfde score
Verdeling van de scores betekent dus eigenlijk dat je de data gaat groeperen aan de hand van
de scores.
Dit kan onder andere door middel van een frequentieverdeling of histogram (er zijn meerdere
mogelijkheden om zo’n verdeling te maken)
Frequentieverdeling histogram
,Frequentieverdeling:
Je ziet dat je te maken hebt met 4 verschillende scores (= valid)
De frequentie van de scores, dus hoe vaak komt een bepaalde score voor (= Frequency)
Het percentage van de scores, dus het percentage hoe vaak een score voorkomt (= percent)
Het percentage van de scores exclusief de missende data. De missende data worden daarbij
buiten beschouwing gelaten (= valid percent)
En het percentage van de scores dat een score gelijk heeft aan of lager heeft dan de
bijbehorende score links (= cumulative percent). Om aan deze percentages te komen tel je
de getallen in kolom ‘percent’ bij elkaar op. Dus bijvoorbeeld om het cumulatieve percentage
van score 3 te achterhalen (= 60) tel je de percentages van score 1, 2 en 3 bij elkaar op (= 20 +
10 + 30 = 60)
Histogram:
Bij een histogram maken we geen tabel, maar een plaatje van de scores.
Op de Y-as (verticaal) zie je de frequentie, dus hoe vaak een bepaalde score voorkomt.
Op de X-as (horizontaal) zie je de in dit geval 4 verschillende scores
SPSS-syntax om frequentieverdeling en histogram te genereren (syntax is belangrijk in deze cursus!):
2. Steekproefgrootheden
Data samenvatten door kenmerkende eigenschappen van de verdeling van de data
Bij steekproefgrootheden gaan we dus zoeken naar kenmerkende eigenschappen van de
verdeling van de data.
Kenmerkende eigenschappen (hebben vaak betrekking op 2 verschillende onderdelen):
1. Meest kenmerkende score van de verdeling = centrale tendentie
2. Hoeveel wijken scores af van de meest kenmerkende score = spreiding
Centrale tendentie:
Maten voor centrale tendentie zijn gemiddelde, mediaan en modus (we zijn het meeste
geïnteresseerd in het gemiddelde omdat we de gemiddelde scores tussen de controlegroep en de
experimentele groep willen vergelijken)
Gemiddelde ( X ) van data is de som van alle scores gedeeld door het totaal aantal scores:
Met de hand: Met SPSS:
,Spreiding:
Maten voor spreiding zijn range (verschil minimale en maximale score), variantie en standaarddeviatie
(we zijn het meeste geïnteresseerd in de variantie en de standaarddeviatie)
Variantie ( S2) van data is de som van alle gekwadrateerde deviatiescores gedeeld door aantal scores
min één:
Deviatiescore is het verschil tussen de score en het gemiddelde: X i - X (score – het gemiddelde)
De som van alle gekwadrateerde deviatiescores wordt ook wel de sum of Squares (SS) genoemd
(komt later in de cursus nog terug)
Met de hand: Met SPSS:
SPSS geeft niet direct de variantie in de output. SPSS rapporteert de standaarddeviatie. Als we de
wortel nemen van 1.136 kom je uit op 1.147, hetzelfde getal als in de output.
Standaarddeviatie is de wortel van de variantie: s = √ s 2 = 1.147
In de formules wordt N gebruikt als we het hebben over de populatie. N – 1 gebruiken we als we het
hebben over de steekproef.
Inferentiële statistiek
Beschrijvende statistiek volstaat alleen als we data hebben van de gehele populatie. Als we niet de
data hebben van de hele populatie en we willen toch iets zeggen over de populatie. Dus we willen
onze resultaten generaliseren van de steekproef naar de populatie, dan moeten we hypotheses gaan
toetsen dus inferentiële statistiek gebruiken.
Bijna altijd hebben we alleen data van een steekproef en niet van de hele populatie, omdat
1. Te duur
2. Kost veel tijd om te verzamelen
3. Soms onmogelijk
Met behulp van inferentiële statistiek kunnen we op basis van een steekproef een uitspraak
proberen te doen over de populatie
Er zijn drie “procedures” in de inferentiële statistiek:
1. Hypothese toetsen
2. Puntschatten
3. Intervalschatten betrouwbaarheidsinterval
Hypothese toetsen
Bij hypothese toetsen gaan we vragen beantwoorden als: Wat is het gemiddelde van de populatie
waaruit die steekproef van 50 cases is getrokken?
, Bij hypothese toetsen ga je na of het gemiddelde in de populatie gelijk is aan een bepaalde waarde of
niet hypothesen zijn uitsluitend en uitputtend (dus bij het opstellen van hypotheses moet je erop
letten dat dit het geval is)
Uitsluitend betekend dat maar een van de hypotheses waar kan zijn
Uitputtend betekend dat alle mogelijke opties opgenomen zijn in de hypothese
Voorbeeld: H 0 : μ = 2.5 en H 1 : μ ≠ 2.5
We spreken hier van een tweezijdige toets ( H 1 staat ≠), later bespreken we ook éénzijdige toets ( H 1
staat > of <)
Je toetst of je H 0 kunt verwerpen of niet. Als je H 0 verwerpt concludeer je H 1, d.w.z., μ is niet gelijk
aan 2.5
Vuistregels opstellen hypothesen:
1. H 0 Bevat altijd “=”
2. H 1 Bevat bijna altijd verwachtingen van de onderzoeker
Stappen bij hypothese toetsen
Stap 1: formuleren van hypothesen: H 0 : μ = 2.5 en H 1 : μ ≠ 2.5
Stap 2: beslissingsregel bepalen wanneer een resultaat statistisch significant is, dus bepalen wanneer
we de 0 hypothese moeten verwerpen en wanneer niet p ≤ α (is je p-waarde kleiner of gelijk aan
de alfa)
P-waarde kleiner dan alfa H0 verwerpen
p-waarde groter dan alfa H0 aanhouden
Stap 3: p- waarde bepalen uit output van SPSS
Stap 4: beslissing over significantie en inhoudelijke conclusie
Toepassen op ons voorbeeld:
Syntax output
De syntax is voor een one sample t-test (een t toets voor 1 steekproef). Bij testvalue zien we 2.5 staan
wat aangeeft dat we dus gaan toetsen of μ gelijk is aan 2.5. En waar we dan in geïnteresseerd zijn is
de p-waarde die zie je in de output staan onder “Sig. (2-tailed)”, in dit geval dus 0.017. Die p-waarde
wordt vergeleken met het alfa niveau (meestal 0.05). Hier concludeer je dan dat de p-waarde kleiner
is dan de alfa. Wat betekent dat we de 0 hypothese moeten verwerpen. Dus we concluderen hier dat
het populatiegemiddelde niet gelijk zal zijn aan 2.5.
Beschrijvende statistiek
Beschrijvende statistiek = samenvatten van data
Data = numerieke gegevens van populatie of steekproef
Populatie Steekproef
Alle leden van gedefinieerde groep Deelverzameling van leden van gedefinieerde
groep
Parameters zijn maten voor eigenschappen van Steekproefgrootheden (“statistics”) zijn maten
de scores in de populatie voor eigenschappen van de scores in de
steekproef
Griekse letters geven parameters weer Latijnse letters geven steekproefgrootheden
μ = gemiddelde in de populatie weer
σ = standaarddeviatie in de populatie X = steekproefgemiddelde
s = standaarddeviatie in de steekproef
Het doel is uiteindelijk om de resultaten van de steekproef te kunnen generaliseren naar de populatie.
Dit gebeurt met behulp van hypothesetoetsen.
Gegevens uit een steekproef (de cijfers uit dit voorbeeld worden vaker gebruikt in dit college):
114432312134433443144443442313444242331143413
Beschrijvende statistiek helpt om de data samen te vatten lijst is onoverzichtelijk
Twee manieren om dit te doen (SPSS):
1. Het maken van een verdeling van scores
2. Steekproefgrootheden
Deze twee manieren worden hieronder verder uitgelegd:
1. Het maken van een verdeling van scores
Data samenvatten door groeperen van data met dezelfde score
Verdeling van de scores betekent dus eigenlijk dat je de data gaat groeperen aan de hand van
de scores.
Dit kan onder andere door middel van een frequentieverdeling of histogram (er zijn meerdere
mogelijkheden om zo’n verdeling te maken)
Frequentieverdeling histogram
,Frequentieverdeling:
Je ziet dat je te maken hebt met 4 verschillende scores (= valid)
De frequentie van de scores, dus hoe vaak komt een bepaalde score voor (= Frequency)
Het percentage van de scores, dus het percentage hoe vaak een score voorkomt (= percent)
Het percentage van de scores exclusief de missende data. De missende data worden daarbij
buiten beschouwing gelaten (= valid percent)
En het percentage van de scores dat een score gelijk heeft aan of lager heeft dan de
bijbehorende score links (= cumulative percent). Om aan deze percentages te komen tel je
de getallen in kolom ‘percent’ bij elkaar op. Dus bijvoorbeeld om het cumulatieve percentage
van score 3 te achterhalen (= 60) tel je de percentages van score 1, 2 en 3 bij elkaar op (= 20 +
10 + 30 = 60)
Histogram:
Bij een histogram maken we geen tabel, maar een plaatje van de scores.
Op de Y-as (verticaal) zie je de frequentie, dus hoe vaak een bepaalde score voorkomt.
Op de X-as (horizontaal) zie je de in dit geval 4 verschillende scores
SPSS-syntax om frequentieverdeling en histogram te genereren (syntax is belangrijk in deze cursus!):
2. Steekproefgrootheden
Data samenvatten door kenmerkende eigenschappen van de verdeling van de data
Bij steekproefgrootheden gaan we dus zoeken naar kenmerkende eigenschappen van de
verdeling van de data.
Kenmerkende eigenschappen (hebben vaak betrekking op 2 verschillende onderdelen):
1. Meest kenmerkende score van de verdeling = centrale tendentie
2. Hoeveel wijken scores af van de meest kenmerkende score = spreiding
Centrale tendentie:
Maten voor centrale tendentie zijn gemiddelde, mediaan en modus (we zijn het meeste
geïnteresseerd in het gemiddelde omdat we de gemiddelde scores tussen de controlegroep en de
experimentele groep willen vergelijken)
Gemiddelde ( X ) van data is de som van alle scores gedeeld door het totaal aantal scores:
Met de hand: Met SPSS:
,Spreiding:
Maten voor spreiding zijn range (verschil minimale en maximale score), variantie en standaarddeviatie
(we zijn het meeste geïnteresseerd in de variantie en de standaarddeviatie)
Variantie ( S2) van data is de som van alle gekwadrateerde deviatiescores gedeeld door aantal scores
min één:
Deviatiescore is het verschil tussen de score en het gemiddelde: X i - X (score – het gemiddelde)
De som van alle gekwadrateerde deviatiescores wordt ook wel de sum of Squares (SS) genoemd
(komt later in de cursus nog terug)
Met de hand: Met SPSS:
SPSS geeft niet direct de variantie in de output. SPSS rapporteert de standaarddeviatie. Als we de
wortel nemen van 1.136 kom je uit op 1.147, hetzelfde getal als in de output.
Standaarddeviatie is de wortel van de variantie: s = √ s 2 = 1.147
In de formules wordt N gebruikt als we het hebben over de populatie. N – 1 gebruiken we als we het
hebben over de steekproef.
Inferentiële statistiek
Beschrijvende statistiek volstaat alleen als we data hebben van de gehele populatie. Als we niet de
data hebben van de hele populatie en we willen toch iets zeggen over de populatie. Dus we willen
onze resultaten generaliseren van de steekproef naar de populatie, dan moeten we hypotheses gaan
toetsen dus inferentiële statistiek gebruiken.
Bijna altijd hebben we alleen data van een steekproef en niet van de hele populatie, omdat
1. Te duur
2. Kost veel tijd om te verzamelen
3. Soms onmogelijk
Met behulp van inferentiële statistiek kunnen we op basis van een steekproef een uitspraak
proberen te doen over de populatie
Er zijn drie “procedures” in de inferentiële statistiek:
1. Hypothese toetsen
2. Puntschatten
3. Intervalschatten betrouwbaarheidsinterval
Hypothese toetsen
Bij hypothese toetsen gaan we vragen beantwoorden als: Wat is het gemiddelde van de populatie
waaruit die steekproef van 50 cases is getrokken?
, Bij hypothese toetsen ga je na of het gemiddelde in de populatie gelijk is aan een bepaalde waarde of
niet hypothesen zijn uitsluitend en uitputtend (dus bij het opstellen van hypotheses moet je erop
letten dat dit het geval is)
Uitsluitend betekend dat maar een van de hypotheses waar kan zijn
Uitputtend betekend dat alle mogelijke opties opgenomen zijn in de hypothese
Voorbeeld: H 0 : μ = 2.5 en H 1 : μ ≠ 2.5
We spreken hier van een tweezijdige toets ( H 1 staat ≠), later bespreken we ook éénzijdige toets ( H 1
staat > of <)
Je toetst of je H 0 kunt verwerpen of niet. Als je H 0 verwerpt concludeer je H 1, d.w.z., μ is niet gelijk
aan 2.5
Vuistregels opstellen hypothesen:
1. H 0 Bevat altijd “=”
2. H 1 Bevat bijna altijd verwachtingen van de onderzoeker
Stappen bij hypothese toetsen
Stap 1: formuleren van hypothesen: H 0 : μ = 2.5 en H 1 : μ ≠ 2.5
Stap 2: beslissingsregel bepalen wanneer een resultaat statistisch significant is, dus bepalen wanneer
we de 0 hypothese moeten verwerpen en wanneer niet p ≤ α (is je p-waarde kleiner of gelijk aan
de alfa)
P-waarde kleiner dan alfa H0 verwerpen
p-waarde groter dan alfa H0 aanhouden
Stap 3: p- waarde bepalen uit output van SPSS
Stap 4: beslissing over significantie en inhoudelijke conclusie
Toepassen op ons voorbeeld:
Syntax output
De syntax is voor een one sample t-test (een t toets voor 1 steekproef). Bij testvalue zien we 2.5 staan
wat aangeeft dat we dus gaan toetsen of μ gelijk is aan 2.5. En waar we dan in geïnteresseerd zijn is
de p-waarde die zie je in de output staan onder “Sig. (2-tailed)”, in dit geval dus 0.017. Die p-waarde
wordt vergeleken met het alfa niveau (meestal 0.05). Hier concludeer je dan dat de p-waarde kleiner
is dan de alfa. Wat betekent dat we de 0 hypothese moeten verwerpen. Dus we concluderen hier dat
het populatiegemiddelde niet gelijk zal zijn aan 2.5.