Hoorcollege 1 Chi2 en t-toets (herhaling)
Refresher statistiek
Voorkennis
Doelen? Eerste 2 het belangrijkst want verklaren erg moeilijk en gaat vaak fout
- Beschrijvend: fenomeen of verbanden beschrijven op basis van data
- Inferentieel (Het begrip inferentie duidt in de statistiek op het generaliseren van waarnemingen,
kenmerken, eigenschappen uit steekproeven naar de gehele populatie): op basis van een steekproef
iets over de populatie en verbanden in de populatie zeggen (populatiegemiddelde,
populatiecorrelatie, populatieregressiecoëfficient) → inferentiële statistiek heeft te maken met
significantie
- Verklarend: obv steekproefdata iets over oorzaken van fenomenen zeggen (causaliteit). Let op:
extreem moeilijk buitenom experimentele setting! Andere oorzaken uitsluiten vrijwel onmogelijk, laat
staan met geaggregeerde (Geaggregeerd betekent samengevoegd of gemiddeld, vaak om gegevens
op groepsniveau weer te geven in plaats van op individueel niveau) gegevens (gemiddeldes) iets over
een individu zeggen.
Hoe?
- Met behulp van variatie (de mate van verschil of spreiding in data). Statistiek in analyse van variatie,
meer specifiek de geaggregeerde/samenvattende maat van variatie in de data: variantie (een maat
voor hoe sterk data rondom het gemiddelde verspreid is. Een hogere variantie betekent dat de data
verder van het gemiddelde af ligt, terwijl een lagere variantie betekent dat de data dichter bij het
gemiddelde ligt)
Variantie
Het gemiddelde: alle waarnemingen bij elkaar opgeteld gedeeld door aantal waarnemingen
Variantie: het gemiddelde van de gekwadrateerde afstand van waarnemingen tot het gemiddelde
➔ Zegt dus iets over de spreiding van data rond het gemiddelde
➔ Variantie is een statistische maat die aangeeft hoe verspreid de waarden van een dataset zijn
rondom het gemiddelde. Een hoge variantie betekent dat de waarden sterk verschillen van
het gemiddelde, terwijl een lage variantie aangeeft dat de waarden dicht bij het gemiddelde
liggen.
Variabelen en meetniveaus
We meten dus dingen die variëren → daarom: variabele
Categorisch (nominaal of ordinaal) (onderscheid in categorieën) of continue/lineaire (interval of ratio)
(numeriek, afstand tussen waardes is gelijk, rangorde)
Er zijn 4 typen variabelen:
1. Nominaal heeft geen rangschikking, alleen onderscheid (bijvoorbeeld: etniciteit)
2. Ordinaal heeft wel een rangschikking, zonder vaste afstanden (bijvoorbeeld: opleidingsniveau)
3. Interval heeft een rangschikking en gelijke intervallen, geen absoluut nulpunt (bijvoorbeeld:
temperatuur) (schalen zijn interval)
4. Ratio heeft een rangschikking, gelijke intervallen en een absoluut nulpunt (bijvoorbeeld: prijs,
leeftijd, gewicht, percentages)
,VB: gender, muziekstijlen, leeftijdscategorieën, opleidingsniveaus, samengestelde schalen (Een schaal
is een meetinstrument dat meerdere gerelateerde items (stellingen, vragen) combineert om één
concept of eigenschap te meten, zoals bijvoorbeeld een veiligheidsschaal die de perceptie van
veiligheid in een buurt meet aan de hand van verschillende vragen) waarin meerdere stellingen
samen een maat voor concept vormen zoals in de practica schaal veiligheid in de buurt, leeftijd,
aantal festivals dat je pakt, aantal kilo dat je bencht
Elke combinatie van meetniveaus leidt tot andere toetsen
Wanneer betrouwbaarheidsanalyse? Als je meerdere items wilt samenvoegen tot 1 schaal
**
nominaal → taartdiagram (verhouding), staafdiagram
ordinaal →straafdiagram, lijndiagram (ontwikkeling/relatie), doosdiagram (spreiding)
interval/ratio → doosdiagram, histogram (gegevens compacter dan staafdiagram), lijndiagram
Steekproefverdelingen
- Als we aan inferentiële statistiek doen, maken we gebruik van het principe van
steekproefverdelingen (de verdeling van alle mogelijke
steekproevengemiddeldes van dezelfde populatie)
- Principe: in een denkbeeldig universum waarin we het
onderzoek talloze keren zouden herhalen, zou elk onderzoek
een ander toetsresultaat opleveren
- Samen hebben alle resultaten een bepaalde verdeling, bijv.
de t-verdeling. Die verdeling is een beschrijving van de kans
op een bepaald resultaat (t-waarde) of extremer (resultaten
die verder van het gemiddelde liggen)
- Probleem: we kennen de ware verdeling niet, we hebben enkel ons toetsresultaat
- Oplossing: we stellen een nulhypothese op (geen verschil/geen verband/geen correlatie (betekent
simpelweg dat twee dingen vaak samen veranderen, samenhang)…) en kijken, gegeven die
hypothese, wat de kans op ons resultaat of nog extremer zou zijn.
- Stel: je vindt een t van -2, dan weet je: als de nulhypothese klopt (en alle assumpties voor mijn
toets), dan is de kans op mijn resultaat of extremer 2,5%
- Een indicatie dat onze data niet compatibel is met de nulhypothese, veel meer weten we niet.
Conclusie nooit definitief.
Significantie (alpha) en p-waarden (overschrijdingskans) (De overschrijdingskans, ook wel de p-waarde (of
sig vaak in SPSS genoemd) genoemd, is een kernbegrip in statistiek en hypothesetoetsing. Het geeft de
waarschijnlijkheid weer dat de waargenomen data (of iets extremer) optreedt, aangenomen dat de
nulhypothese waar is. De kans op het verkrijgen van resultaten die minstens zo extreem zijn als de
waargenomen resultaten, onder de aanname dat de nulhypothese waar is.)
P-waarde: de kans op een toetsresultaat dat hetzelfde of extremer is dan dat van jou, gegeven dat/als
de nulhypothese waar zou zijn en alle assumpties van je model/toets kloppen
2
, P-waarde=de kans op resultaat dat hetzelfde of extremer is dan dat van jou gegeven de
nulhypothese (geen samenhang/verschil) en alle toetsassumpties waar zouden zijn.
Significant is niet hetzelfde als belangwekkend! Grote misvatting. Daarom ingaan op het
effect en verschillen in de steekproef.
Heel veel wetenschappelijke discussie over de zin/onzin van begrip significantie. Significant betekent
NIET: waar, betekenisvol of belangwekkend
Heeft tot crisis in de wetenschap geleid omdat mensen er alles aan deden om p< 0.05 te krijgen en
alleen dat gepubliceerd werd
Significantie is WEL: een arbitraire (Willekeurig gekozen, zonder objectieve reden of vaste regel) grens
die je vooraf bepaalt (bijv. alpha=5%) op basis waarvan je de nulhypothese verwerpt of niet kan
verwerpen
Significantie betekent in statistiek: de mate waarin een resultaat waarschijnlijk niet door toeval is
ontstaan.
Als een resultaat significant is (bijvoorbeeld p < 0,05), betekent dit dat de kans klein is (minder dan
5%) dat het resultaat puur door toeval is verkregen, aangenomen dat de nulhypothese waar is.
Significantieniveau (α): De vooraf vastgestelde grens (zoals 0,05 of 5%) die bepaalt hoe groot de kans
op een foutieve verwerping van de nulhypothese mag zijn.
➔ H₀ verwerpen (links): Kans kleiner dan 5% → resultaat is significant.
➔ H₀ niet verwerpen (rechts): Kans groter dan 5% → resultaat is niet significant.
3
, ***
90% → t=1,65
95% → t=1,96
99% → t=2,58
De t-waarde is een maat voor hoe ver jouw steekproefresultaat (bijvoorbeeld een gemiddeld verschil)
afwijkt van wat je zou verwachten onder de nulhypothese, uitgedrukt in standaardfouten (gem
afstand van willekeurig steekproefgem tov algemeen gemiddelde, oftewel standaardafwijking (gem
afstand individuele observatie tov gemiddelde) (=standaarddeviatie) van de steekproevenverdeling)
Stappen dit vak
1 meetniveaus variabelen bepalen
2 juiste analysetechniek + toets kiezen:
→ Chi2, t-toets voor groep, correlatie + t-toets, ANOVA + F-toets, lineaire & logistische regressie + t-
/Wald-toets
3 Toetswaarde/grootheid en significantie bepalen. Nieuw: een effectmaat (Een effectmaat is een getal
dat aangeeft hoe sterk een effect is in een onderzoek. Het meet de grootte van een verschil of relatie,
onafhankelijk van de steekproefgrootte. Effectmaten worden gebruikt om de praktische relevantie
van resultaten te beoordelen) berekenen omdat significantie alleen niks zegt
4 Resultaat correct interpreteren: significantie, sterkte, richting
SPSS-vaardigheden
- Frequenties, gem, standaarddeviatie etc opvragen
- Hercoderen
- Betrouwbaarheidinterval maken
- Labels geven aan variabelen en antwoordcategorieën benoemen
Chi2toets (nieuw) en t-toets (herhaling)
Bivariate analyses (Bivariate betekent dat er twee variabelen tegelijk worden geanalyseerd om hun
relatie te onderzoeken)
Twee categorische variabelen (nominaal/ordinaal):
- techniek: kruistabel met frequenties analyseren
- toets: chi2-toets
- effectmaat: Cramer’s V
- nulhypothese: geen afhankelijkheid
Interval/ratio + dichotome (2 categorieën), categorische variabele (nominaal/ordinaal):
- techniek: vergelijken 2 groepsgemiddelden
- toets: t-toets voor twee groepen (3 soorten)
- effectmaat: Cohen’s d
- nulhypothese: geen verschil
4