Wat en waarom?
- Spreidingsdiagram (scatterplot) → grafische weergave samenhang
- Correlatiecoëfficiënt en -analyse → maat voor sterkte van de samenhang
- Regressieanalyse → methode om de samenhang tussen 2 (of meer) variabelen te
beschrijven/bepalen m.b.v. een functionele relatie. Het schat/tekent een lijn die gegevens in het
spreidingsdiagram zo goed mogelijk beschrijft.
Correlatiecoëfficiënt: een maat voor lineaire samenhang tussen 2 variabelen.
Kenmerken:
- Onderzoekt geen oorzakelijk verband
- Variabelen tenminste gemeten op intervalniveau
- Index zonder dimensie
- Tussen -1 en +1
- Ordinaal
Interpretatie:
- r = 1 of -1 → respectievelijk een perfecte positieve of negatieve lineaire samenhang
- r = 0 → geen lineaire samenhang
- 0 < r < 1 of -1 < r < 0 → respectievelijk positieve of negatieve lineaire samenhang.
Correlatiecoëfficiënt = aantal standaardafwijking veranderingen in y voor een standaardafwijking
verandering in x.
Regressieanalyse
- Methode om de samenhang tussen 2 of meer variabelen te beschrijven m.b.v. een functionele
relatie (= regressievergelijking).
- Techniek levert de ‘best passende’ lijn die de puntenwolk (zie spreidingsdiagram) zo goed
mogelijk beschrijft om o.a. een voorspelling te doen en/of om een theorie te vormen/toetsen.
Onderdelen regressieanalyse:
- Enkelvoudig, meervoudig, logistische regressie
- Keuze (regressiemodel) hangt af van meetniveau van de afhankelijke variabele
(Enkelvoudige) lineaire regressie
Notatie: 𝑦 = 𝛽0 + 𝛽1 ∗ 𝑥 + 𝑒 waarbij
- Y (op y-as): afhankelijke variabele (of: outcome)
o Meetniveau altijd interval of ratio.
- X (op x-as): onafhankelijke variabele (of: exposure)
o Meetniveau interval of ratio, indien anders: herdefiniëren als 0 – 1 variabele.
- 𝛽0 en 𝛽1 = regressiecoëfficiënten waarbij:
o 𝛽0 = snijpunt met y-as (intercept)
o 𝛽1 = richtingscoëfficiënt (slope)
- e = residu (error/voorspellingsfout)
Wat is de ‘best passende lijn’? → Ideaal: 𝑦 = 𝛽0 + 𝛽1 ∗ 𝑥
- Beschikbaar: meetpunten (xi, yi), waarbij i = 1 of 2
- En: regressievergelijking: 𝑦 ′ = 𝛽0 + 𝛽1 ∗ 𝑥
1
, Fout in voorspelling: residuen (afstand meetpunten tot voorspelde regressielijn)
Gezocht: de lijn waarbij het kwadraat van de afstanden van alle punten
tot de lijn zo goed mogelijk is (kwadratencriterium).
Uitgaande van het kleinste kwadratencriterium kan wiskundig de
vergelijking voor de beste lijn worden afgeleid, we gebruiken daarvoor
𝑥̅ en 𝑦̅.
Stappenplan enkelvoudige lineaire regressie
1. Bepaal de toets
a. Meetniveau variabelen:
i. Meetniveau afhankelijke variabele (y): ratio
ii. Meetniveau onafhankelijke variabele (x): ratio
iii. Lineaire regressievergelijking → toets op 𝛽1
2. Hypothese
a. H0: 𝛽1 = 0
b. Ha: 𝛽1 ≠ 0
3. Toetsingsgrootheid
𝛽1
a. Toetsingsgrootheid = t = schatter voor 𝑆.𝐸.
4. Neem beslissing
a. P-waarde = 0.008 (tweezijdig)
b. P-waarde = < 0.05 (= alfa)
➔ H0 verwerpen
5. Conclusie verwoorden
2