Chi-kwadraat: relaties tussen categorische variabelen
Dit hoofdstuk over twee continue variabelen (quantitatieve variabele)
Hoofdstuk 2 – Kijken naar Data-Relaties
Definitie Relaties in statistiek = twee variabelen zijn gerelateerd als de waarde van 1 variabele
informatie geeft over de waarde van variabele 2.
In de onderzoeksvraag komt 1 variabele (verklarende variabele/onafhankelijk) duidelijk naar voren
dan variabele 2 (uitkomst variabele/afhankelijk).
- Explanatory variable: de variabele die wat uitlegt, verklaart en dus onafhankelijk is.
- Respons variable: de uitkomst variabele die wordt verklaart door x en dus afhankelijk is.
Flowchart voor relatie continue
➢ Correlatie → of er een relatie is
➢ Regressie → of er een relatie is en er hierdoor iets voorspelt kan worden (je wilt iets doen
met de informatie)
➔ Welke twee die je gebruikt hangt af van je doel van het onderzoek(svraag).
2.2 Scatterplots
Voordat je analyse doet. Eerst je data bekijken!
- Kruistabel met twee categorische variabelen
- Scatterplot met twee continue variabelen (anders per score een kolom) = relatie tussen
kwantitatieve variabelen gemeten bij dezelfde personen. Ieder individu één puntje (voor combinatie
van scores).
1. Bepaal variabele x-as (verklarende/onafhankelijke) en y-as (uitkomst/afhankelijk)
Zo neerzetten is traditie maar niet verplicht.
2. Label en schaal je assen
3. Plot de individuele punten
Voorbeeld: Er is een redelijk sterk; positief, lineair verband tussen x en y. Hoe hoger op de
x-as en hoe hoger y-as. Er is mogelijk 1 outlier.
Scatterplot interpreteren
Je kijkt naar het overall patroon en opvallende afwijkingen.
- Richting: positief geassocieerd of negatief geassocieerd.
X hoger, Y hoger (positief verband). X hoger, Y lager (negatief verband).
- Vorm: lineair of niet.
Bij lineair hoeft geen relatie of richting in te zitten (geen idee).
Zie ik overduidelijk iets niet lineair? Een duidelijk kwadratisch patroon, zoals eerst toenemen
en dan dalen (kromlijn).
Voorbeeld b en d: lineair (rondje met stippen), relatie is alleen zwak.
- Sterkte: hoe sterk is relatie tussen twee variabelen.
Hoe verder de puntjes van de lijn liggen, hoe zwakker de relatie (range van mogelijke scores
1
, is groter).
Hoe meer op een lijn, hoe sterker het verband (range van mogelijke scores is klein).
- Mogelijke problemen → Outliers: afwijking in een patroon. Rare combinatie van scores die
afligt van andere waarden.
Outlier in y richting hebben grote residuen
Outlier in x richting zijn vaak invloedrijk voor kleinste kwadraten regressie lijn (verwijdering
outlier verandert de regressielijn).
Toevoegen Categorische Variabele
Je kan de categorische variabele meenemen in de scatterplot.
Voorbeeld manier 1: scatterplot continue en categorische variabelen. twee categorieën en dan liggen
de puntjes op één lijn.
Voorbeeld manier 2: een categorische variabele toe voegen door gebruik kleur of symbool voor
iedere categorie.
2.3 Correlatie
Werken met een steekproef en data generaliseren naar populatie (hypothese,
betrouwbaarheidsinterval).
Je kan de scatterplot niet generaliseren naar de populatie → Samenvatting (correlatie & regressie)
dan kan het wel.
De correlatie coefficient r
Alle drie de elementen (vorm, sterkte, richting) omzetten in 1 getal als relatie 2 variabelen.
Correlatie coefficient = meet de sterkte van de lineaire relaties tussen twee kwantitatieve
variabelen.
Formule >
Uitleg; scoort iemand bovengemiddeld op x en dan ook op y? Of andersom. Positieve r is positief
verband en negatieve r is negatief verband.
Richting en Sterkte bekijken en Vorm (formule kan alleen bij lineair)
Positief verband; hoge r (x en y doen hetzelfde) + +
Negatief verband; lage r (x en y doen het tegenovergestelde) + -
→ Sommige + en – waarden kunnen tegen elkaar wegvallen
Eigenschappen van r
- R is altijd een getal tussen -1 en 1
- R> 0 geeft positieve associatie (positief verband)
- R< 0 geeft negatieve associatie (negatief verband)
- Getallen in de buurt van 0 geven zeer zwak lineair verband of geen lineair verband aan.
X zegt niks over Y (wegvallen)
- Sterkte neemt van 0 naar -1 en +1 toe
- 1 of -1 is bij een perfecte lineaire relatie
- Op basis van steekproef iets over de populatie zeggen met r
Geen verband = r 0
Correlatie zwak = r -0,,3
Correlatie middelmatig = r -0,5/0,5
Correlatie sterk = r -0,8/0,8
2