Statistiek 2 samenvatting hoorcolleges.
Modellen schatten via least squares property.
Enkelvoudige regressie = Samenhang tussen 2 variabelen.
→ onderscheid maken tussen soorten variabelen.
2 continue variabele = correlatie.
Continue en categorische = T-toets v 2 gemiddelden (filmpje checken, H7)
2 categorische variabelen = - Kruistabel en X 2-toets. H8
- Odds en odds-ratio. H8
- Z-toets voor 2 proporties.
Continue = tussen iedere score ligt altijd nog 1 andere mogelijke score. Achter , kan.
Categorisch = getallen → wiskundige bewering zinvol.
Correlatie coëfficiënt → samenhang 2 continue variabelen.
Tussen 2 continue variabelen:
Correlatie = sterkte en richting van het verband.
Regressie = modelleren van het verband.
Lineaire regressie analyse = analyse van de samenhang tussen 2 variabelen waarvan de ene
afhankelijk en de andere onafhankelijk is. Samenhang modelleren we met behulp vh lineaire model.
Afhankelijke, Y, te verklaren variabele, respons variabele of uitkomst variabele:
Afhankelijk van de andere variabele, namelijk de X.
- Gaan y voorspellen met behulp van X.
Gaan ervan uit dat de variabele continu zijn → minimaal intervalniveau. De afhankelijke moet
van een minimaal interval niveau zijn.
• Onafhankelijke, X, verklarende variabele, predictor.
Afhankelijk van niks.
X mag een dummyvariabele zijn, dus de waarde 0 en 1 of 1 en 2.
Of gewoon intervalniveau.
Puntenwolk in enkelvoudige regressie wil je modelleren. → trekt rechte lijn door puntenwolk →
gegeven waarde van X met behulp van de lijn een voorspelling kunnen maken van Y.
→ = lineair verband.
• Formule: Y = α + βx
- β = helling / slobe. → richtingscoëfficiënt = stijging Y als x met 1 punt stijgt.
- α = intercept / constante. → snijpunt met de Y-as.
Trekt rechte lijn door puntenwolk.
→ voorspel waarde Y met een lineair-model.
Bedoeling van de regressieanalyse:
Willen lijn door puntenwolk trekken.
Lijn = vereenvoudiging van de werkelijkheid.
Doel = α en β vinden → dan kun je voorspelling van Y maken dmv X.
SPSS: Coëfficiënten tabel.
- Constant = geschatte waarde van de uitkomst variabele Y, gegeven dat X nul is.
- X-variabele = waarde onder B pakken. = helling en dus de stijging in Y, wanneer X 1 eenheid stijgt.
• Kun je het model invullen en daarbij voor elke waarde van X invullen.
,Residu = voorspelfouten
• Y – Y^. → gemiddelde – antw model.
= Verschil tussen geobserveerde en verwachte waarde.
= Afstand punt tot regressielijn.
Wanneer je X niet weet en toch een voorspelling van Y wilt.
• Beste voorspelling = gemiddelde van Y.
→ marginale gemiddelde = onconditioneel = niet afhankelijk van X. → horizontale lijn.
→ afstand elk punt tot de lijn (het gemiddelde) = voorspelfout.
Met een schuine lijn zullen deze voorspelfouten kleiner zijn.
Least squares principe = beste lijn, waarbij de residuen het kleinste zijn.
Fouten: e = y – y^. → deze wil je minimaliseren.
Minimaliseren : min Σ(y-y^)2
→ som van alle residuen in het kwadraat.
Beste regressielijn schatten via methode van kleinste kwadraten (ols) door fouten te minimaliseren:
- Maak fouten zo klein mogelijk.
- Minimaliseer sum of squared errors (SSE) - Σ(y-y^) 2
Probabilistisch model
Hebben het lineaire regressiemodel:
• Rechte lijn. Y = α + βx.
Deterministische model = voor elke waarde van X is er één Y-waarde.
→ = Onrealistisch. Niet iedereen met dezelfde X heeft dezelfde Y.
• Voor elke X-groep is er en verdeling van Y-scores. = waar het om draait.
→ gegeven een bepaalde score van X zit je in een bepaalde groep. En voor elke X-groep is er een
verdeling van Y-scores.
Probabilistisch model = conditionele verdeling van Y, gegeven waarden van X.
→ geeft voor welke X-groep de Y-scores.
• Beschrijft hoe scores op Y kunnen variëren voor elke waarde van X.
• Het deterministische deel geeft het gemiddelde of verwachte waarde E(Y), van Y gegeven X:
→ E(y) = α + βx.
= lineaire (enkelvoudige) regressievergelijking, geeft verband tussen X en het gem van Y.
Lineaire model:
- Conditionele verdeling van Y gegeven X.
- Het conditionele gemiddelde wordt gegeven door de regressielijn. E(y) = α + βx
• De conditionele SD is σ en moet ook geschat worden.
→ geeft de spreiding vd Y-waarde rond hun conditionele gemiddelde.
σ = spreiding van de Y-waarde rond de regressielijn.
• Er wordt aangenomen dat de conditionele verdeling van Y de normale verdeling is.
Conditionele standaard deviatie:
→ Moet niet uitmaken welke x je neemt.
Bij bepaalde x horen bijbehorende Y-scores.
Aanname = σ is constant → gelijk voor welke waarde van X.
- X-waarde → hebben de scores van Y een verdeling met gemiddelde E(y) en constante SD σ.
, Aanname die wordt gemaakt:
• De scores bij een bepaalde X, hebben een normale verdeling.
→ Voor elke X, de spreiding van scores rond de regressielijn gegeven door een normale verdeling.
Gegeven een X-waarde is:
- De conditionele verdeling van Y is de normale verdeling.
- Met conditioneel gem E(y) → gegeven door regressielijn.
- En constante conditionele SD σ.
Schatten van de conditionele SD:
- Residu = afstand van elk punt tot de regressielijn & dus tot het cond-gem van Y.
- SSE = kwadratensom rond de conditionele gem.
→ Σ(y-y^)2 = Σe2.
SSE
- Variantie: S2 = = MSE
n−2
- Geschatte SD: S =
√SSE
n−2
• Weten hoe je van variantie naar geschatte SD gaat op het tentamen.
→ In SPSS std error. In model summary.
Samenvattend:
- Regressielijn geeft een voorspelling vh gem E(y) van Y gegeven X: het conditionele gem van Y.
- Spreiding vd scores rond dit gem wordt gegeven door de spreiding vd residuen: σ de cond-SD van Y.
- Er wordt aangenomen dat de verdeling vd residuen de normale verdeling is.
- Het lineaire regressiemodel is dus een normale verdeling met gem E(y) = α + βx en SD σ.
- Dit is de conditionele verdeling van Y gegeven X en kun je schrijven als N(α+βx, σ).
Toetsen in een lineair-enkelvoudig regressiemodel.
Of een fout groot is hang af van de schaal waarop iets kan. 3,7 op schaal 1-5 is groot.
Betekenis van de helling:
Helling = 0,86. Als je 1 stap op x maakt ga je 0,86 op de y-as omhoog.
→ geeft de relatie X en Y aan. & wat het effect van x op y is. Er is dus een behoorlijk effect van X op Y.
en de relatie is dus behoorlijk sterk.
Correlatie:
= Samenhang tussen 2 continue variabelen.
Sx Sy
•r= b of b = r
Sy Sx
Positief verband tussen 0 en 1. Negatief verband tussen 0 en -1. y
Modellen schatten via least squares property.
Enkelvoudige regressie = Samenhang tussen 2 variabelen.
→ onderscheid maken tussen soorten variabelen.
2 continue variabele = correlatie.
Continue en categorische = T-toets v 2 gemiddelden (filmpje checken, H7)
2 categorische variabelen = - Kruistabel en X 2-toets. H8
- Odds en odds-ratio. H8
- Z-toets voor 2 proporties.
Continue = tussen iedere score ligt altijd nog 1 andere mogelijke score. Achter , kan.
Categorisch = getallen → wiskundige bewering zinvol.
Correlatie coëfficiënt → samenhang 2 continue variabelen.
Tussen 2 continue variabelen:
Correlatie = sterkte en richting van het verband.
Regressie = modelleren van het verband.
Lineaire regressie analyse = analyse van de samenhang tussen 2 variabelen waarvan de ene
afhankelijk en de andere onafhankelijk is. Samenhang modelleren we met behulp vh lineaire model.
Afhankelijke, Y, te verklaren variabele, respons variabele of uitkomst variabele:
Afhankelijk van de andere variabele, namelijk de X.
- Gaan y voorspellen met behulp van X.
Gaan ervan uit dat de variabele continu zijn → minimaal intervalniveau. De afhankelijke moet
van een minimaal interval niveau zijn.
• Onafhankelijke, X, verklarende variabele, predictor.
Afhankelijk van niks.
X mag een dummyvariabele zijn, dus de waarde 0 en 1 of 1 en 2.
Of gewoon intervalniveau.
Puntenwolk in enkelvoudige regressie wil je modelleren. → trekt rechte lijn door puntenwolk →
gegeven waarde van X met behulp van de lijn een voorspelling kunnen maken van Y.
→ = lineair verband.
• Formule: Y = α + βx
- β = helling / slobe. → richtingscoëfficiënt = stijging Y als x met 1 punt stijgt.
- α = intercept / constante. → snijpunt met de Y-as.
Trekt rechte lijn door puntenwolk.
→ voorspel waarde Y met een lineair-model.
Bedoeling van de regressieanalyse:
Willen lijn door puntenwolk trekken.
Lijn = vereenvoudiging van de werkelijkheid.
Doel = α en β vinden → dan kun je voorspelling van Y maken dmv X.
SPSS: Coëfficiënten tabel.
- Constant = geschatte waarde van de uitkomst variabele Y, gegeven dat X nul is.
- X-variabele = waarde onder B pakken. = helling en dus de stijging in Y, wanneer X 1 eenheid stijgt.
• Kun je het model invullen en daarbij voor elke waarde van X invullen.
,Residu = voorspelfouten
• Y – Y^. → gemiddelde – antw model.
= Verschil tussen geobserveerde en verwachte waarde.
= Afstand punt tot regressielijn.
Wanneer je X niet weet en toch een voorspelling van Y wilt.
• Beste voorspelling = gemiddelde van Y.
→ marginale gemiddelde = onconditioneel = niet afhankelijk van X. → horizontale lijn.
→ afstand elk punt tot de lijn (het gemiddelde) = voorspelfout.
Met een schuine lijn zullen deze voorspelfouten kleiner zijn.
Least squares principe = beste lijn, waarbij de residuen het kleinste zijn.
Fouten: e = y – y^. → deze wil je minimaliseren.
Minimaliseren : min Σ(y-y^)2
→ som van alle residuen in het kwadraat.
Beste regressielijn schatten via methode van kleinste kwadraten (ols) door fouten te minimaliseren:
- Maak fouten zo klein mogelijk.
- Minimaliseer sum of squared errors (SSE) - Σ(y-y^) 2
Probabilistisch model
Hebben het lineaire regressiemodel:
• Rechte lijn. Y = α + βx.
Deterministische model = voor elke waarde van X is er één Y-waarde.
→ = Onrealistisch. Niet iedereen met dezelfde X heeft dezelfde Y.
• Voor elke X-groep is er en verdeling van Y-scores. = waar het om draait.
→ gegeven een bepaalde score van X zit je in een bepaalde groep. En voor elke X-groep is er een
verdeling van Y-scores.
Probabilistisch model = conditionele verdeling van Y, gegeven waarden van X.
→ geeft voor welke X-groep de Y-scores.
• Beschrijft hoe scores op Y kunnen variëren voor elke waarde van X.
• Het deterministische deel geeft het gemiddelde of verwachte waarde E(Y), van Y gegeven X:
→ E(y) = α + βx.
= lineaire (enkelvoudige) regressievergelijking, geeft verband tussen X en het gem van Y.
Lineaire model:
- Conditionele verdeling van Y gegeven X.
- Het conditionele gemiddelde wordt gegeven door de regressielijn. E(y) = α + βx
• De conditionele SD is σ en moet ook geschat worden.
→ geeft de spreiding vd Y-waarde rond hun conditionele gemiddelde.
σ = spreiding van de Y-waarde rond de regressielijn.
• Er wordt aangenomen dat de conditionele verdeling van Y de normale verdeling is.
Conditionele standaard deviatie:
→ Moet niet uitmaken welke x je neemt.
Bij bepaalde x horen bijbehorende Y-scores.
Aanname = σ is constant → gelijk voor welke waarde van X.
- X-waarde → hebben de scores van Y een verdeling met gemiddelde E(y) en constante SD σ.
, Aanname die wordt gemaakt:
• De scores bij een bepaalde X, hebben een normale verdeling.
→ Voor elke X, de spreiding van scores rond de regressielijn gegeven door een normale verdeling.
Gegeven een X-waarde is:
- De conditionele verdeling van Y is de normale verdeling.
- Met conditioneel gem E(y) → gegeven door regressielijn.
- En constante conditionele SD σ.
Schatten van de conditionele SD:
- Residu = afstand van elk punt tot de regressielijn & dus tot het cond-gem van Y.
- SSE = kwadratensom rond de conditionele gem.
→ Σ(y-y^)2 = Σe2.
SSE
- Variantie: S2 = = MSE
n−2
- Geschatte SD: S =
√SSE
n−2
• Weten hoe je van variantie naar geschatte SD gaat op het tentamen.
→ In SPSS std error. In model summary.
Samenvattend:
- Regressielijn geeft een voorspelling vh gem E(y) van Y gegeven X: het conditionele gem van Y.
- Spreiding vd scores rond dit gem wordt gegeven door de spreiding vd residuen: σ de cond-SD van Y.
- Er wordt aangenomen dat de verdeling vd residuen de normale verdeling is.
- Het lineaire regressiemodel is dus een normale verdeling met gem E(y) = α + βx en SD σ.
- Dit is de conditionele verdeling van Y gegeven X en kun je schrijven als N(α+βx, σ).
Toetsen in een lineair-enkelvoudig regressiemodel.
Of een fout groot is hang af van de schaal waarop iets kan. 3,7 op schaal 1-5 is groot.
Betekenis van de helling:
Helling = 0,86. Als je 1 stap op x maakt ga je 0,86 op de y-as omhoog.
→ geeft de relatie X en Y aan. & wat het effect van x op y is. Er is dus een behoorlijk effect van X op Y.
en de relatie is dus behoorlijk sterk.
Correlatie:
= Samenhang tussen 2 continue variabelen.
Sx Sy
•r= b of b = r
Sy Sx
Positief verband tussen 0 en 1. Negatief verband tussen 0 en -1. y