MAAK EEN OVERZICHT MET ELKE MODEL EN DE ASSUMPTIES
Contents
Blok 1: t-toetsen & ANOVA..................................................................................... 1
Blok 2: Correlatie en lineaire regressie..................................................................5
Correlatie in SPSS............................................................................................. 10
Vid 2, SPSS lineaire regressie........................................................................... 10
Scatterplot maken:........................................................................................ 10
lineaire regressie uitvoeren:..........................................................................10
Met Kwadratische term de lineariteit checken:..............................................13
Homoscedasiticiteit van de varianties zien:..................................................13
Vid 3; SPSS dummy’s........................................................................................ 14
Blok 3: Chi-kwadraat en logistische regressive....................................................16
SPSS: Logistische regressie uitvoeren:.............................................................22
Blok 4: Multiple regressie analyse........................................................................27
Blok 5: Survivalanalyse........................................................................................ 40
Interpetatielijst:................................................................................................... 54
Oefenvragen........................................................................................................ 55
Blok 1: t-toetsen & ANOVA
In de praktijk hebben we echter vrijwel nooit bekende populatieparameters tot
onze beschikking en zijn we genoodzaakt ze te schatten met behulp van
steekproeven. Bij die schatting komt natuurlijk de nodige onzekerheid kijken,
waarmee we rekening moeten houden. Dat doen we door middel van het gebruik
van de T-verdeling. A.d.h.v. de T-verdeling kunnen we de T-toets uitvoeren, waar
3 'smaken' van zijn:
Eén steekproef T-toets (one-sample t-test)
Gepaarde T-toets (paired samples t-test)
T-toets voor twee onafhankelijke steekproeven (independent samples t-
test)
T-verdeling
De t-verdeling wordt gebruikt zodra gegevens over de populatie onbekend
zijn. De standaarddeviatie van het gemiddelde in de populatie wordt geschat op
basis van onze steekproefgegevens; dit noemen we de 'geschatte
standaardfout'. In een werkelijke onderzoeksopzet is dat veel vaker het geval
,dan dat je de standaarddeviatie in de populatie kent, want: we gebruiken een
steekproef om uitspraken te doen over de populatie.
De t-verdeling wijkt af van een normale verdeling, maar, hoe groter de
steekproef is, hoe meer de t-verdeling de normale verdeling volgt. Afwijking van
een normale verdeling is er dus vooral bij kleine steekproeven (bij weinig
vrijheidsgraden):
Net zoals bij een z-verdeling (normale verdeling) kunnen we bij een t-verdeling
proporties/ kansen in een tabel opzoeken. Nu moeten we hier echter ook nog het
aantal vrijheidsgraden voor weten, want de kritieke waarde is afhankelijk
van het aantal vrijheidsgraden.
T-toetsen
One-sample t-test
De one-sample t-test beantwoordt de vraag: Is het verschil tussen het
gemiddelde in de steekproef en het verwachte gemiddelde (in de populatie)
groter dan we op basis van kans zouden verwachten?
Hieruit volgt de volgende berekening van de t-waarde:
Toetsingsgrootheid (t): de maat waarmee we meten hoeveel onze bevindingen
afwijken van de verwachting onder de H 0
Interpetatie: kans is 0.071 omdat het 1,96sd’s afwijkt van de verwachting h0.
Het is groter dan 5% en daabij met 95% betrouwbaarheid kon er niet aangetoond
worden dat (bijv.) sporters een hogere lichaamstempratuur hebben dan niet
sporters.
T-toets voor onafhankelijke steekproeven / Two-sample t-test /
Independent samples t-test
De t-toets voor onafhankelijke steekproeven beantwoordt de vraag: Is het
gevonden verschil tussen de gemiddelden van twee groepen in onze steekproef
toe te schrijven aan kans, of bestaat dit verschil waarschijnlijk ook in de
populatie? Wat we eigenlijk willen weten, anders uitgedrukt: Verschilt het
gemiddelde in de ene steekproef significant en substantieel van het gemiddelde
in de andere steekproef?
Twee belangrijke punten zijn: de twee groepen zijn onafhankelijk (komen voort uit
twee samples), bijvoorbeeld mannen en vrouwen. Daarnaast wordt er
verondersteld dat de varianties in de twee steekproeven ongeveer even
groot zijn (en dat is vaak niet zo, daarom voert SPSS standaard de Levene's
test for equality of variances uit, en maakt gebruik van de 'Aanpassing van
Welch'.
,De berekening van de t-toets voor onafhankelijke steekproeven is als volgt:
, waarbij de standaardfout (noemer) berekend wordt m.b.v.
de 'pooled variance'.
Levene's test for equality of variances
SPSS voert altijd de Levene's test uit om de assumptie te checken of de
varianties in de twee steekproeven ongeveer even groot zijn. De nulhypothese
van de Levene's test is: De varianties van de twee steekproeven zijn in
de populatie gelijk. In SPSS vind je de uitspraak over deze hypothese dit in de
rij 'equal variances assumed'.
Als de uitkomst van de Levene's test een p-waarde geeft van groter dan
0.05, dan wordt de nulhypothese niet afgewezen en we mogen ervan
uitgaan dat de twee varianties ook in de populatie ongeveer gelijk zijn.
Voor de uitkomst van de t-toets houden we dan de rij in de output aan
getiteld 'equal variances assumed'.
Als de uitkomst van de Levene's test een p-waarde geeft van kleiner dan
0.05, dan wordt de nulhypothese wel afgewezen en gaan we ervan uit dat
de twee varianties in de populatie niet gelijk zijn. Voor de uitkomst van de
t-toets houden we dan de rij in de output aan getiteld 'equal variances not
assumed'.
In 'Aanpassing van Welch'. Kun je zien dat de vrijheidsgraden iets lager zijn dan
het aantal vrijheidsgraden dat we hanteren als de varianties wel gelijk zijn.
Gepaarde t-toets / Paired (dependent) sample t-toets
De gepaarde t-toets wordt gebruikt als je steekproeven niet
onafhankelijk zijn, bijvoorbeeld omdat je dezelfde persoon twee keer meet
(voor- en nameting, twee koffiemerken laat beoordelen).
De vraag die we willen beantwoorden is: is de gevonden gemiddelde
verandering/ het gevonden gemiddelde verschil tussen de twee meetpunten in
onze steekproef toe te schrijven aan kans, of bestaat de verandering/ dit verschil
waarschijnlijk ook in de populatie?
Het verschil tussen de twee meetpunten wordt berekend, vaak aangetoond met
een 'difference score', bijvoorbeeld . We kunnen de gepaarde t-toets op twee
manieren uitvoeren:
1. We berekenen een 'difference score' en toetsen of het verschil
gelijk/ongelijk aan nul is, gebruikmakend van een one-sample t-toets
2. We gebruiken de paired samples t test (in SPSS) om de twee gemiddelden
met elkaar te vergelijken.
ANOVA
De ANOVA gebruiken we in de basis om de verwachtingswaarden van meer dan
twee populaties met elkaar te vergelijken.
In theorie zouden we in een dergelijke exercitie ook meerdere T-toetsen kunnen
, gebruiken om steeds paarsgewijs verschillende contrasten te toetsen. Daar
kleven echter een aantal nadelen aan:
1. We maken niet optimaal gebruik van de totale steekproefomvang maar
gebruiken we steeds per toets de steekproefomvang van de twee te
vergelijken groepen.
2. Er is spraken van 'alfa-inflatie' wat inhoudt dat we per toets steeds kans
hebben op het maken van een type-1 fout en hoe meer toetsen we doen,
hoe groter de kans wordt dat we ten minste een zo'n fout maken als de
nulhypothese in werkelijkheid waar is.
We maken bij de variantieanalyse gebruik van variantie om uitspraken te doen
over verwachtingswaarden van verschillende populaties. Het idee is als volgt: als
de spreiding binnen drie populaties hetzelfde zijn en hun verwachtingswaarden
verschillen niet, dan zal de spreiding binnen de populaties gelijk zijn aan de
spreiding van de populaties samen. Op het moment dat de verwachtingswaarden
van de populaties verschillen, dan zal de totale spreiding van de populaties
samen groter worden dan de spreiding binnen de populaties. Het verschil
tussen de spreiding van de populaties samen (factoriële spreiding,
tussengroepsvariantie of between-groups variantie) en de spreiding
binnen de populaties (residuele spreiding, binnengroepsvariantie of
within-groups variantie) is wat de ANOVA kwantificeert met behulp van de F-
ratio: als dat contrast groter is dan wat we op grond van toeval zouden
verwachten, dan kunnen we concluderen dat de verwachtingswaarden van
elkaar verschillen.
De F-ratio kan statistisch worden getoetst en volgt een zogeheten F-verdeling.
De vorm van de F-verdeling is net als de T-verdeling afhankelijk van een aantal
vrijheidsgraden. Een F-verdeling heeft twee hoeveelheden
vrijheidsgraden, een voor de binnengroepsvariantie en een voor de
tussengroepsvariantie. Bij de tussengroepsvariantie raken per te vergelijken
groep één vrijheidgraad kwijt van de totale steekproefomvang. Als we dus 4
groepen vergelijken met een totale steekproefomvang van 120 dan houden we
voor de binnengroepsvariantie 116 vrijheidsgraden over. Voor de
tussengroepsvariantie raken we één vrijheidsgraad kwijt van het aantal te