100% tevredenheidsgarantie Direct beschikbaar na je betaling Lees online óf als PDF Geen vaste maandelijkse kosten 4.2 TrustPilot
logo-home
Samenvatting

Samenvatting Hoofdstuk 9 - Discovering statistics - Andy Field

Beoordeling
-
Verkocht
-
Pagina's
12
Geüpload op
15-01-2023
Geschreven in
2022/2023

Nederlandse samenvatting van Hoofdstuk 9 uit Discovering Statistics van Andy Field.










Oeps! We kunnen je document nu niet laden. Probeer het nog eens of neem contact op met support.

Documentinformatie

Heel boek samengevat?
Nee
Wat is er van het boek samengevat?
Hoofdstuk 9
Geüpload op
15 januari 2023
Aantal pagina's
12
Geschreven in
2022/2023
Type
Samenvatting

Voorbeeld van de inhoud

CHAPTER 9: THE LINEAR MODEL (REGRESSION)


9.2 An introduction to the linear model (regression)
Als we willen kijken naar de relatie tussen twee variabelen dan kunnen we de vergelijking gebruiken
die eerder is beschreven (2.3). Maar, als we werken met ruwe data dan moeten we informatie
toevoegen over hoe de uitkomst variabele gecentreerd is. We voegen daarom een constante toe, b0,
ook wel het intercept van het model genoemd. Dit representeert de waarde van de uitkomst wanneer
de voorspeller afwezig is (dus 0 is). Dit geeft ons een nieuwe
vergelijking. Het basis idee is nog steeds dat de uitkomst van een
persoon voorspelt kan worden door het model (dat tussen haakjes) en
wat error εi. Dit model verschilt van de het correlatie model, omdat we hier niet gestandaardiseerde
metingen gebruiken van de relatie b1 en daarom voegen we een parameter toe, b0, die ons verteld wat
de waarde is van uitkomst wanneer de voorspeller 0 is.

Al deze vergelijkingen gaan over hetzelfde: een lineair
model, oftewel, een rechte lijn. Elke rechte lijn kan
geïdentificeerd worden door twee dingen:
- De slope (helling) van de lijn, meestal aangegeven als
b1.
- Het intercept, het punt waar de lijn de verticale as van
de grafiek kruist, meestal b0.
- Deze parameters, b0 en b1 staan bekend als de
regressie coëfficiënten.
- Een lijn met een positieve b1 geeft een positieve relatie weer en een lijn met een negatieve b1 geeft
een negatieve relatie weer.
- We kunnen dus een lineair model gebruiken om de relatie tussen twee variabelen samen te vatten:
de helling (b1) vertelt ons hoe het model eruit ziet, de vorm en de intercept (b0) verteld ons de
locatie van het model in de geometrische ruimte.

Het mooie aan dit model is dat je er zoveel voorspellers aan kan
toevoegen als je wilt. Er komt dan gewoon een extra b bij. Als je
bijvoorbeeld twee voorspeller hebt, krijg je een visueel model zoals
hiernaast (regression plane).
- De verticale afstand tussen de plane en de data punten zijn de
residuen van het model.

Samenvattend is regressieanalyse een term voor het aanpassen van een lineair model aan gegevens en
het gebruiken om waarden van een uitkomstvariabele (ook wel afhankelijke variabele) te voorspellen
op basis van een of meer voorspellende variabelen (ook wel onafhankelijke variabelen genoemd). Met
één voorspellende variabele wordt de techniek soms eenvoudige regressie genoemd, maar met
meerdere voorspellende variabelen wordt het meervoudige regressie genoemd. Beide zijn slechts
termen voor het lineaire model.

, 9.2.3 Estimating the model
Voor het schatten van de parameters gebruiken we hier dezelfde methode als eerder omschreven,
namelijk de method of least squares.
- Bij het lineaire model worden de verschillen tussen wat het model voorspelt en de waargenomen
gegevens meestal residuen genoemd (ze zijn hetzelfde als deviaties wanneer we naar het
gemiddelde keken).
- Om de error in een lineair model te bepalen, net als eerder met het vergelijken van gemiddelden,
gebruiken we de sum of squared errors. Omdat de error hier residual heet, krijgt het totaal hiervan
de naam: residual sum of squares (SSR). Dit geeft een indicatie van hoe goed het lineaire model
past bij de data.
- We gebruiken de method of least squares om de parameters (b) te schatten die het regressiemodel
definiëren waarvoor de som van de gekwadrateerde fouten het minimum is dat het kan zijn
(gegeven de gegevens). Deze methode staat bekend als ordinary least squares (OLS) regressie.

9.2.4 Assessing the goodness of fit, sums of squares, R and R2
Zodra we het model met de beste fit hebben gevonden, moeten we een baseline model gebruiken om
het mee te vergelijken. Dus, we fitten een baseline model, passen het toe op de data. Als het beste
model wat ervoor eruit gekomen is een beetje goed is, dan zou het op z’n minst significant minder
error moeten hebben dan het baseline model.
- Het gemiddelde van de uitkomst variabele is een model van ‘geen relatie’ tussen de variabelen.
Het gemiddelde (mean) is dus een goede baseline voor ‘geen relatie’ en die kunnen we gebruiken
als baseline model. We berekenen dan het verschil tussen de geobserveerde waarden en de
waarden die voorspelt worden door het gemiddelde. Hieruit komt weer een sum of squared
differences en deze staat bekend als de total sum of squares (SST) en dit representeert hoe goed
het gemiddelde is als model voor de geobserveerde uitkomst scores.
- Vervolgens kunnen we de waarden van SSR en SST gebruiken om uit te rekenen hoeveel beter het
lineaire model is dan het baseline model van ‘geen relatie’. De verbetering in voorspelling
wanneer je het lineaire model gebruikt i.p.v. het gemiddelde wordt berekend als het verschil
tussen SST en SSR. Deze verbetering/vermindering van onnauwkeurigheid is de model sum of
squares (SSM).
o Als de waarde van SSM heel groot is, dan is het lineaire model heel verschillend ten
opzichte van het gemiddelde, in het voorspellen van de uitkomst variabele. Dit
impliceert dat het lineaire model een grote verbetering heeft m.b.t. het voorspellen van
de uitkomst variabele.
- Een andere handige meting is de proportie verbetering vanwege het model R2 , als je
dit als percentage wilt weergeven x100.
o Dit vertegenwoordigt de hoeveelheid variantie in de uitkomst verklaard door het
model (SSM) ten opzichte van hoeveel variatie er in de eerste plaats te verklaren was
(SST); het is dezelfde als de R2 die we in paragraaf 8.4.2 hebben gezien en het wordt
op dezelfde manier geïnterpreteerd: het vertegenwoordigt het deel van de variatie in
de uitkomst dat kan worden voorspeld vanuit het model.
o We kunnen de vierkantswortel van deze waarde nemen om de correlatiecoëfficiënt
van Pearson te krijgen voor de relatie tussen de waarden van de uitkomst voorspeld
door het model en de waargenomen waarden van de uitkomst. Dus de
correlatiecoëfficiënt geeft ons een goede schatting van de algehele fit van het
regressiemodel

Maak kennis met de verkoper

Seller avatar
De reputatie van een verkoper is gebaseerd op het aantal documenten dat iemand tegen betaling verkocht heeft en de beoordelingen die voor die items ontvangen zijn. Er zijn drie niveau’s te onderscheiden: brons, zilver en goud. Hoe beter de reputatie, hoe meer de kwaliteit van zijn of haar werk te vertrouwen is.
rvw999 Erasmus Universiteit Rotterdam
Bekijk profiel
Volgen Je moet ingelogd zijn om studenten of vakken te kunnen volgen
Verkocht
33
Lid sinds
4 jaar
Aantal volgers
19
Documenten
12
Laatst verkocht
7 maanden geleden
PsycholoogInSpe

5,0

1 beoordelingen

5
1
4
0
3
0
2
0
1
0

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

Student with book image

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Veelgestelde vragen