- a. ANOVA? -> zie mail Tess en boek
- C? -> zie hierboven
- I? -> p 89
WC1 – Lineaire modellen I: Correlatie en Regressie
Voorbereiding
- Bekijk de videoclips ‘WC 1 – Lineaire modellen I’ en ‘WC1 – R script’. -> gedaan, zie
hieronder
- Petrie & Watson (3rd ed): 10.1 - 10.4.3(b), 10.4.6 -> niet gedaan, vgm dubbelop met
de rest
We kijken in WC1 naar simpele (univariabele) lineaire regressie vgm
- Syllabus Hfst 4.1 + 4.2
- Bestudeer het bestand ‘Toetsoverzicht stroomschema_EE_2024’ (zie BlackBoard).
In dit bestand leer je welke toets je nodig hebt voor welk type onderzoeksvraag. ->
gedaan, is handig zie op Bb.
Videoclips ‘WC 1 – Lineaire modellen I
(Als iets niet normaal verdeeld is, zou je log transformatie kunnen doen zodat het wel
normaal verdeeld is)
Alle ss hieronder hh
,De populatie waar de 66 schapen uit komen
Een model = beschrijving van de populatie die jouw waarnemingen in je onderzoek
gegenereerd heeft
Zo beter begrijpen hoe data in de steekproef in elkaar zit. Hier is beschrijving van populatie:
,Op y-as afh variabele, en op x as onafhankelijke!
Kijken naar alle schapen die een borstomvang hebben van 65, en van al deze schapen ga ik
het gewicht bepalen, dat zijn al die zwarte stippen. De rode stip is het gemiddelde van al
deze gewichten, en de rode stip zit op een rechte lijn
De formule van de rechte zijn is y = alfa + beta*x, en hier is x de borstomvang. Alfa is het
intercept dus snijpunt met y-as. Bèta is de richtingscoëfficiënt, dus geeft aan hoe lijn
verandert als borstomvang met 1 verandert, dus geeft aan hoe steil/plat de lijn loopt.
Omdat de rode punt en punt op de lijn is, mag je hem ook aangeven als alfa + beta * 65, dus
hiermee kan je het gemiddelde uitrekenen!
Je kan ook van al de zwarte punten bij borstomvang 65 de standaarddeviatie uitrekenen,
dan vind je sigma. Standaarddeviatie = sigma = je kijkt hiervoor naar de afstanden tussen
de punten/waarnemingen en het gemiddelde. Deze afstanden kwadrateer je en middel je,
en dan krijg je soort gemiddelde
Des te groter de standaarddeviatie, des te meer variabel je dataset is.
, !! x-x is verschil tussen observatie en
gemiddelde, en dat teken ervoor betekent dat je dit doet voor alle waarnemingen en dan
optellen. En dat delen door n-1
Standaarddevatiatie = gemiddelde afstand tussen je waarnemingen en het gemiddelde
Het gemiddelde is hier dat ene punt op de lijn dus de sigma geeft hier aan wat de gem
afstand is van een zwarte stip tot de lijn.
Als je van al deze punten en histogram maakt, dan vind je een normale verdeling
Dit alles kan je ook doen bij andere borstomvang, bv 75 of 85 of elke andere waarde.
Telkens vind je een gemiddelde die een punt is op de lijn, een normaalverdeling en sigma is
telkens de spreiding