Inleiding in de Data Analyse
Samenvatting Thema 5
Mirjam Haasnoot
Regressie:
Als er een verband is ontdekt dan zijn we er nog niet, de volgende stap is de mogelijkheid
om de waarde op de ene variabele te voorspellen uit de waarde op de andere variabele.
Bv: een cijfer voorspellen wat iemand haalt bij experimenteel onderzoek uit het cijfer wat
iemand haalde bij de inleiding op de dataanalyse.
Dit noemen we: Regressieanalyse:
5.1 Lineaire regressieanalyse:
Berekenen van een lijn in een scatterplot. De lijn representeert de beste voorspelling van de
ene variabele ( afhankelijke) uit de andere variabele ( onafhankelijke)
De lijnen zijn te verkrijgen door middel van een regressieanalyse. Bij deze analyse gaat het
om twee vragen:
1. Hoe vinden we de beste lijn in een willekeurige puntenwolk?
2. Hoe goed paste de lijn bij die data?
Met behulp van die lijnen kunnen we voorspellingen doen.
Voorspellingen zijn niet altijd accuraat, geen enkel gevonden punt ligt precies op de
regressie lijn, en zal elk punt een afwijking hebben. De afwijkingen wil je minimaliseren, de
afwijking tussen de geobserveerde Y-score en de daarbij horende voorspelling wil je zo klein
mogelijk houden. Ook dit doet de regressieanalyse.
Regressiecoëfficiënten:
De uitkomsten van de regressieanalyse geven twee getallen: de Beta’s (B)
1. Bo/ intercept: voorspelling van iemand die 0 scoort op de x-as, te vinden met de
regressielijn. Zie rode lijn in figuur.
2. B1: helling van de lijn: stijging/daling in de variabele op de Y-as als de variabele op de
x-as met 1 eenheid toeneemt.
Samenvatting Thema 5
Mirjam Haasnoot
Regressie:
Als er een verband is ontdekt dan zijn we er nog niet, de volgende stap is de mogelijkheid
om de waarde op de ene variabele te voorspellen uit de waarde op de andere variabele.
Bv: een cijfer voorspellen wat iemand haalt bij experimenteel onderzoek uit het cijfer wat
iemand haalde bij de inleiding op de dataanalyse.
Dit noemen we: Regressieanalyse:
5.1 Lineaire regressieanalyse:
Berekenen van een lijn in een scatterplot. De lijn representeert de beste voorspelling van de
ene variabele ( afhankelijke) uit de andere variabele ( onafhankelijke)
De lijnen zijn te verkrijgen door middel van een regressieanalyse. Bij deze analyse gaat het
om twee vragen:
1. Hoe vinden we de beste lijn in een willekeurige puntenwolk?
2. Hoe goed paste de lijn bij die data?
Met behulp van die lijnen kunnen we voorspellingen doen.
Voorspellingen zijn niet altijd accuraat, geen enkel gevonden punt ligt precies op de
regressie lijn, en zal elk punt een afwijking hebben. De afwijkingen wil je minimaliseren, de
afwijking tussen de geobserveerde Y-score en de daarbij horende voorspelling wil je zo klein
mogelijk houden. Ook dit doet de regressieanalyse.
Regressiecoëfficiënten:
De uitkomsten van de regressieanalyse geven twee getallen: de Beta’s (B)
1. Bo/ intercept: voorspelling van iemand die 0 scoort op de x-as, te vinden met de
regressielijn. Zie rode lijn in figuur.
2. B1: helling van de lijn: stijging/daling in de variabele op de Y-as als de variabele op de
x-as met 1 eenheid toeneemt.