Hoorcollege 5 gaat door op hoorcollege 4.
Toetsen met correlatie en regressie.
Hoofdstuk 2 + 10 + 11
Relaties tussen twee kwantitatieve/continue variabele
- Correlatie: is er een relatie tussen de twee variabele?
- Regressie: als er een relatie is, kan ik deze informatie gebruiken om door de informatie op 1
variabele de score op een andere variabele te voorspellen?
Hypothese toetsen op twee manieren
Betrouwbaarheidsinterval op twee manieren
Stappen = Kijk data, teststatistiek bepalen, toets uitvoeren.
Correlatie
➢ Scatterplot: combinatie van scores van x en y en daar een punt neerzetten.
Waar kijk je naar in een scatterplot?
- Richting (positief of negatief)
- Sterkte (hoe ver op 1 lijn)
- Vorm (lineair of niet)
- Outliers → rare combinatie van scores van x en y.
Outliers zorgen dat de correlatiecoëfficiënt en schatting van b0 en b1 bij regressie heel erg
vertekend kunnen worden.
Reden: Regressielijn (= beste samenvatting van scatterplot). De lijn wil zo dicht mogelijk bij
alle andere punten. Door de outlier kan de lijn naar beneden getrokken worden.
➢ Correlatie scatterplot samenvatting in 1 getal
Formule >
➢ Richting: variabele samen omhoog, omlaag of tegengesteld
Positief: de variabele doen hetzelfde
Negatief: de variabele doen precies het omgekeerde
➢ Sterkte: range zie je terug. Wat gebeurt er met variabele 2 als variabele 1 verandert? Hoe
precies weet je dat?
➢ Vorm: zie je niet terug en kan alleen bij lineair verband.
Hoe verder weg van nul, hoe sterker de relatie tussen de variabele. R = 0 is geen relatie.
Voorbeeld: bij een positief verband hoeft niet iedereen met grotere x score een grotere y score te
hebben. Dit is algemeen. Dit is vaak alleen bij heel sterk verband.
Wanneer is iets NIET lineair?
Als iets snel gaat stijgen of dalen. Zo lang het random of lineair was is het goed. Je moet geen
duidelijk kromme lijn zien in de data (non-lineair verband).
Regressie
De relatie tussen 2 of meer kwantitatieve variabele waarbij samenhang wordt beschreven met een
(rechte) lijn. Een voorspelling van een nieuwe groep.
1
, - De relatie bekijken en die vat het samen niet in 1 getal maar in 1 rechte lijn bij regressie
Formule >
B0 = constante of intercept: voorspelde y waarde van score x op 0
B1 = richtingscoëfficiënt: bij iedere verandering bij x neemt y met een getal toe
➢ Correlatiecoëfficiënt =
- de schaal wordt beïnvloed door -1 en 1.
- B1 geeft alleen de relatie en het verschil aan.
- Bij correlatie worden beide variabelen ‘’gelijk behandeld’’; verandering van x veroorzaakt y
en andersom.
➢ Regressie =
- omzetten naar schaal van de variabele die we hebben.
- B1 geeft het verschil aan (hier heb je alleen wat aan als je B0 ook weet).
- b0 om precieze scores te voorspellen moet je weten waar je begint met tellen.
- Maakt onderscheid tussen de variabele op basis waarvan we aan het voorspellen zijn en
variabele die we gaan voorspellen.
Onafhankelijke variabele → predictor variabele/verklarende variabele op de x-as
Afhankelijke variabele → uitkomst variabele/criterium variabele op de y-as
Al deze waarden zijn kwantitatief
Regressie analyse
Je wilt de regressie lijn die het beste voorspelt.
Je kijkt naar:
Wat iemand gescoord heeft en wat die gescoord moet hebben volgens de voorspelling (regressie lijn)
moet zo klein mogelijk zijn → least square regressie/kleinste kwadraten som (= de lijn tot de
puntenwolk moet de minste afstand hebben tot de scores).
- Dus de som van e i is 0 (error van de data).
- e i zijn de verticale afstandjes van de geobserveerde puntjes van kleinste kwadranten lijn.
De regressielijn zal beïnvloed worden door een outliers.
De best passende lijn kun je berekenen door b0 en b1 te berekenen op basis van
steekproef.
• B1: correlatiecoëfficiënt x de standaarddeviatie van y (afhankelijk) : standaarddeviatie
van x (onafhankelijk)
Formule >
B1 en R zijn dus hetzelfde. B1 is herschaalde variant van R.
B1 (relatie tussen x en y die nu met behulp van SD y en SD x op dezelfde schaal wordt
gezet als de x en de y-as).
• B0: het punt gaat altijd door gemiddelde x-score en gemiddelde y-score.
Formule >
Bij regressie gaat de lijn dus altijd door het punt (x gem, y gem). Notatie >
Als je gemiddelde x invoert krijg je de estimate of the mean van y.
2