ONDERZOEKSMETHODOLOGIE
EN STATISTIEK 3
3BA SEMESTER 2
,
, STATISTIEK
Lineaire regressie
Herhaling en voorkennis
Correlatie
⟶ Nagaan of er een verband bestaat tussen 2 variabelen (bv cholesterol en leeftijd)
Verschil covariatie en correlatie: covariatie geeft richting van verband tussen X en Y, correlatie is een maat voor de richting
en sterkte van een verband onafhankelijk van de gebruikte maateenheden.
SPSS
Analyze ⟶ correlate ⟶ bivariate ⟶ Pearson/spearman ⟶ two-tailed (2-zijdig) ⟶ flag significant correlations
Resultaat: significantie (p-waarde) en pearson/spearman correlation (r)
Nulhypothese: correlatiecoëJiciënt r = 0 (er is geen correlatie/lineair verband tussen beide variabelen)
Interpretatie:
• P-waarde onder 0,05: waarde van r kan geïnterpreteerd worden mbv tabel
• P-waarde boven 0,05: r = 0 dus geen correlatie
Correlatie ≠ causaliteit!
Parametrisch versus niet-parametrisch testen
Niet-parametrisch testen Parametrisch testen
• Nominale of ordinale variabele • Scale variabele met steekproeven vanaf 30
• Scale variabele met steekproef groter of gelijk aan • Scale variabele met steekproeven vanaf 10 tot 30
10 en kleiner dan 30 + niet-normaal verdeelde die normaal verdeeld zijn
variabelen (kolmogorov-smirnov test)
• Scale variabele met steekproef onder 10
Scale variabelen = ratio of interval
• Interval: gelijke verschillen tussen waarden, maar geen absoluut nulpunt
• Ratio: absoluut nulpunt waardoor verhoudingen zinvol zijn
Spreidingsdiagram
Bij een lineair verband kan een lineaire regressie gebruikt worden. Je kan dit voorstellen door middel van een
spreidingsdiagram.
SPSS
Graphs ⟶ chart builder ⟶ scatter plot
• X-as: onafhankelijke variabele (bv leeftijd)
• Y-as: afhankelijke variabele (bv cholesterol)
Determinatiecoë?iciënt: 𝑅! = geeft aan hoeveel van de variantie in een afhankelijke variabele verklaard word door een of
meer onafhankelijke variabelen in een regressiemodel
Interpretatie:
• 𝑅! = 0 ⟶ model verklaart niets van de variantie
• 𝑅! = 1 ⟶ model verklaart alle variantie perfect
• Voorbeeld: 0,75 ⟶ 75% van de variatie in de afhankelijke variabele wordt verklaard door het model
Variantie (𝝈𝟐 ) = berekent hoe ver de waarden in een dataset gemiddeld van het gemiddelde af liggen, deze worden in het
kwadraat genomen om ervoor te zorgen dat negatieve en positieve afwijkingen niet tegen elkaar wegvallen en zal hierdoor
grotere afwijkingen benadrukken.
, Regressie
Verschil correlatie en regressie:
• Correlatie: gaat een samenhang na, maar kan niet voorspellen (bv studie-uren van student en punten) ⟶ hebben
studenten die meer studeren betere punten dan studenten die minder studeren
• Regressie: geeft een voorspellingsformule waarmee je kan schatten wat het eJect is van bv studie-uren op punten ⟶
hoe veel punten zal een student hebben als hij 2u studeert
Kleinste kwadratenmethode: techniek om de best passende lijn te vinden voor een dataset. Het doel is om de som van de
gekwadrateerde verschillen (fouten) tussen de werkelijke gegevens en de voorspelde waarden te minimaliseren (= methode)
Regressielijn: lijn die de relatie tussen de onafhankelijke en afhankelijke variabele beschrijft, het is zo gepositioneerd dat de
fouten (verschillen tussen de werkelijke en voorspelde waarden) minimaal zijn (= uitkomst)
⟶ Formule om voorspellingen te doen = functievoorschrift van de regressielijn ⟶ y = ax + b
Residuen
Residuen kunnen positief of negatief zijn ⟶
datapunt onder of boven de regressielijn?
Voorwaarden voor regressie
1. De residuen zijn normaal verdeeld ⟶ bij een histogram moeten de residuen dicht bij de voorspelde waarde liggen
2. Het regressiemodel is homoscedastisch ⟶ de fouten moeten gelijkmatig verspreid zijn, ongeacht de waarde van
de onafhankelijke variabele (de spreiding van de fouten mag niet toenemen of afnemen als de waarde van de
onafhankelijke variabele verandert)
3. Het regressiemodel is lineair ⟶ er moet een rechte lijn dor de puntenwolk getrokken kunnen worden
⟶ Als dit aanwezig is kan je GEEN regressieanalyse
uitvoeren!
EN STATISTIEK 3
3BA SEMESTER 2
,
, STATISTIEK
Lineaire regressie
Herhaling en voorkennis
Correlatie
⟶ Nagaan of er een verband bestaat tussen 2 variabelen (bv cholesterol en leeftijd)
Verschil covariatie en correlatie: covariatie geeft richting van verband tussen X en Y, correlatie is een maat voor de richting
en sterkte van een verband onafhankelijk van de gebruikte maateenheden.
SPSS
Analyze ⟶ correlate ⟶ bivariate ⟶ Pearson/spearman ⟶ two-tailed (2-zijdig) ⟶ flag significant correlations
Resultaat: significantie (p-waarde) en pearson/spearman correlation (r)
Nulhypothese: correlatiecoëJiciënt r = 0 (er is geen correlatie/lineair verband tussen beide variabelen)
Interpretatie:
• P-waarde onder 0,05: waarde van r kan geïnterpreteerd worden mbv tabel
• P-waarde boven 0,05: r = 0 dus geen correlatie
Correlatie ≠ causaliteit!
Parametrisch versus niet-parametrisch testen
Niet-parametrisch testen Parametrisch testen
• Nominale of ordinale variabele • Scale variabele met steekproeven vanaf 30
• Scale variabele met steekproef groter of gelijk aan • Scale variabele met steekproeven vanaf 10 tot 30
10 en kleiner dan 30 + niet-normaal verdeelde die normaal verdeeld zijn
variabelen (kolmogorov-smirnov test)
• Scale variabele met steekproef onder 10
Scale variabelen = ratio of interval
• Interval: gelijke verschillen tussen waarden, maar geen absoluut nulpunt
• Ratio: absoluut nulpunt waardoor verhoudingen zinvol zijn
Spreidingsdiagram
Bij een lineair verband kan een lineaire regressie gebruikt worden. Je kan dit voorstellen door middel van een
spreidingsdiagram.
SPSS
Graphs ⟶ chart builder ⟶ scatter plot
• X-as: onafhankelijke variabele (bv leeftijd)
• Y-as: afhankelijke variabele (bv cholesterol)
Determinatiecoë?iciënt: 𝑅! = geeft aan hoeveel van de variantie in een afhankelijke variabele verklaard word door een of
meer onafhankelijke variabelen in een regressiemodel
Interpretatie:
• 𝑅! = 0 ⟶ model verklaart niets van de variantie
• 𝑅! = 1 ⟶ model verklaart alle variantie perfect
• Voorbeeld: 0,75 ⟶ 75% van de variatie in de afhankelijke variabele wordt verklaard door het model
Variantie (𝝈𝟐 ) = berekent hoe ver de waarden in een dataset gemiddeld van het gemiddelde af liggen, deze worden in het
kwadraat genomen om ervoor te zorgen dat negatieve en positieve afwijkingen niet tegen elkaar wegvallen en zal hierdoor
grotere afwijkingen benadrukken.
, Regressie
Verschil correlatie en regressie:
• Correlatie: gaat een samenhang na, maar kan niet voorspellen (bv studie-uren van student en punten) ⟶ hebben
studenten die meer studeren betere punten dan studenten die minder studeren
• Regressie: geeft een voorspellingsformule waarmee je kan schatten wat het eJect is van bv studie-uren op punten ⟶
hoe veel punten zal een student hebben als hij 2u studeert
Kleinste kwadratenmethode: techniek om de best passende lijn te vinden voor een dataset. Het doel is om de som van de
gekwadrateerde verschillen (fouten) tussen de werkelijke gegevens en de voorspelde waarden te minimaliseren (= methode)
Regressielijn: lijn die de relatie tussen de onafhankelijke en afhankelijke variabele beschrijft, het is zo gepositioneerd dat de
fouten (verschillen tussen de werkelijke en voorspelde waarden) minimaal zijn (= uitkomst)
⟶ Formule om voorspellingen te doen = functievoorschrift van de regressielijn ⟶ y = ax + b
Residuen
Residuen kunnen positief of negatief zijn ⟶
datapunt onder of boven de regressielijn?
Voorwaarden voor regressie
1. De residuen zijn normaal verdeeld ⟶ bij een histogram moeten de residuen dicht bij de voorspelde waarde liggen
2. Het regressiemodel is homoscedastisch ⟶ de fouten moeten gelijkmatig verspreid zijn, ongeacht de waarde van
de onafhankelijke variabele (de spreiding van de fouten mag niet toenemen of afnemen als de waarde van de
onafhankelijke variabele verandert)
3. Het regressiemodel is lineair ⟶ er moet een rechte lijn dor de puntenwolk getrokken kunnen worden
⟶ Als dit aanwezig is kan je GEEN regressieanalyse
uitvoeren!