Collegeaantekeningen
Voorkennis meetniveau’s
Meten en meetniveaus
Meten = op consistente wijze getallen toekennen aan objecten/personen; zoals vragenlijsten,
interviews en observaties
Vier meetniveaus: nominaal, ordinaal, interval, ratio
Nominaal = classificatie/lidmaatschap (waarde van getallen zijn arbitrair, hebben geen betekenis)
De onderzoeker bepaalt de categorieën (van bv. geslacht of haarkleur) (0 of 1 geven)
→ Je kan hierbij geen gemiddelden geven
Ordinaal = sortering/rangordening (afstand tussen getallen is arbitrair) (Likert-schaal)
Interval = betekenisvolle verschillen (bv. temperatuur in Graden Celcius) zonder absoluut 0-punt (kan
wel met een afgesproken nul-punt)
Ratio = betekenisvolle verhoudingen (bv. lengte in meter of feet)
Voorkennis verdelingen
Beschrijven van verdelingen
Steekproef → Populatie
- Beschrijven van verdelingen
- Beschrijven van samenhang
Steekproef om een schatting te maken (parameters) van de verdeling in de populatie.
Uitzonderingen: - steekproef = populatie
- testscore (om uitspraken te doen over het individu)
Verdelingen:
- Gewicht, geslacht en lengte (N=20)
- Aanduiding van score vaak met een letter (X) en een persoon met een index (i)
Je kan data sorteren, een verdeling plotten en centrum- en spreidingsmaten berekenen.
Sorteren kan o.a. met een stem-en-leafplot of met een histogram.
Normaalverdeling:
- Hoe groter de steekproef, hoe meer deze de verdeling van de populatie volgt
→ X is normaal verdeeld, met populatiegemiddelde mu en variantie in sigma kwadraat.
,Centrummaten:
- Beschrijven het midden van de verdeling
- Gemiddelde (mu of x met een streepje erboven) →
- Mediaan (de middelste observatie)
- Modus (meest voorkomend)
- Deze drie liggen bij een perfecte normale verdeling erg dichtbij elkaar.
Spreiding: variantie:
- Beschrijft de spreiding rondom het centrum
→ Gemiddelde gekwadrateerde afwijking van het gemiddelde
De variantie is altijd een positief getal (groter dan of gelijk aan nul)
→ De gemiddelde gekwadrateerde afwijkingen zijn lastig te interpreteren, daarom nemen we de
wortel van de variantie, ook wel de standaarddeviatie → → deze is ook groter dan of
gelijk aan nul.
Lineaire transformatie:
X’ = bX + a
- De afwijkingsscore is een bekende lineaire transformatie
→ hoeveel wijkt Xi af van het gemiddelde van X
→
→
Standaardisatie:
- Z-score: Hoeveel standaarddeviaties wijkt iemand af van het steekproefgemiddelde
- Alle variabelen komen op dezelfde schaal te liggen
Standaardnormaalverdeling → je kan bepalen hoeveel procent van de populatie hoger of lager
scoort dan i.
,Voorkennis samenhangsmaten
- Samenhang van testscore met eigenschappen van de participant (bv. leeftijd)
- Samenhang van testitems onderling
→ Door correlatie of covariantie
Covariantie:
- Maat van gedeelde variantie
- In hoeverre gaat een relatief hoge score op variabele X samen met een relatief hoge score op
variabele Y
Covariantie:
-
- Teken geeft de richting van relatie aan (bij + stijgt y als x stijgt, bij - daalt y juist)
- Covariantie is symmetrisch
Correlatie:
- Interpretatie grootte covariantie niet makkelijk (zegt alleen richting)
- Gestandaardiseerde covariantie: correlatie (altijd tussen -1 en 1)
- Cohen (.1 = zwak; .3 is matig; .5 is sterk (maar is afhankelijk van context))
- Ook correlatie is symmetrisch
Non-lineaire relaties
- Correlatie en covariantie goede beschrijving lineaire relatie
- Kan tot rare conclusies leiden als de werkelijkheid teveel afwijkt
- Je moet naar de data kijken voordat je de correlatie interpreteert
- Correlatie zegt niets over de steilheid van de lijn
Variantie-covariantiematrix:
- De variantie van de som van twee variabelen:
- De variantie van de som van drie variabelen, berekenen we d.m.v. de variantie-covariantiematrix
→ De som van de variantie is gelijk aan de som van de gehele matrix
, Voorkennis lineaire regressie
Lineair verband:
- Relatie tussen twee variabelen
- Y (afhankelijke variabele) als lineaire transformatie van X (onafhankelijke variabele)
- y = a + bX
- Ingewikkelder model → betere beschrijving → waarom dan toch rechte lijn?:
- Simpel model → betere voorspelling van afhankelijke variabele op basis van onafhankelijke variabel
- Afweging → spaarzaam model = zo simpel mogelijk en een zo goed mogelijke beschrijving
Lineaire regressie:
- Lineair verband: y = a + bx: gewicht = a + b* lengte
- b: hoeveel stijgt Y bij één eenheid van x?
- a: wat is de waarde van Y als x=0 (intercept)
- a & b zijn parameters
- continue (interval, ratio) afhankelijke variabele (op y-as)
- één of meer onafhankelijke variabelen (op x-as)
- hoe bepaal je de beste lijn? → lijn met de kleinste som van gekwadrateerde verschillen
→ kwadrateer de residuen en tel deze bij elkaar op → OLS (ordinary least squares)
→ je kijkt dus naar het verschil tussen de geobserveerde en de geschatte waarde
- orthogonale regressie = de afstanden van Y en X zo klein mogelijk maken (2e grafiek)
- een regressie is niet symmetrisch (in tegenstelling tot samenhang in correlatie)
Statistisch model:
Voorkennis meetniveau’s
Meten en meetniveaus
Meten = op consistente wijze getallen toekennen aan objecten/personen; zoals vragenlijsten,
interviews en observaties
Vier meetniveaus: nominaal, ordinaal, interval, ratio
Nominaal = classificatie/lidmaatschap (waarde van getallen zijn arbitrair, hebben geen betekenis)
De onderzoeker bepaalt de categorieën (van bv. geslacht of haarkleur) (0 of 1 geven)
→ Je kan hierbij geen gemiddelden geven
Ordinaal = sortering/rangordening (afstand tussen getallen is arbitrair) (Likert-schaal)
Interval = betekenisvolle verschillen (bv. temperatuur in Graden Celcius) zonder absoluut 0-punt (kan
wel met een afgesproken nul-punt)
Ratio = betekenisvolle verhoudingen (bv. lengte in meter of feet)
Voorkennis verdelingen
Beschrijven van verdelingen
Steekproef → Populatie
- Beschrijven van verdelingen
- Beschrijven van samenhang
Steekproef om een schatting te maken (parameters) van de verdeling in de populatie.
Uitzonderingen: - steekproef = populatie
- testscore (om uitspraken te doen over het individu)
Verdelingen:
- Gewicht, geslacht en lengte (N=20)
- Aanduiding van score vaak met een letter (X) en een persoon met een index (i)
Je kan data sorteren, een verdeling plotten en centrum- en spreidingsmaten berekenen.
Sorteren kan o.a. met een stem-en-leafplot of met een histogram.
Normaalverdeling:
- Hoe groter de steekproef, hoe meer deze de verdeling van de populatie volgt
→ X is normaal verdeeld, met populatiegemiddelde mu en variantie in sigma kwadraat.
,Centrummaten:
- Beschrijven het midden van de verdeling
- Gemiddelde (mu of x met een streepje erboven) →
- Mediaan (de middelste observatie)
- Modus (meest voorkomend)
- Deze drie liggen bij een perfecte normale verdeling erg dichtbij elkaar.
Spreiding: variantie:
- Beschrijft de spreiding rondom het centrum
→ Gemiddelde gekwadrateerde afwijking van het gemiddelde
De variantie is altijd een positief getal (groter dan of gelijk aan nul)
→ De gemiddelde gekwadrateerde afwijkingen zijn lastig te interpreteren, daarom nemen we de
wortel van de variantie, ook wel de standaarddeviatie → → deze is ook groter dan of
gelijk aan nul.
Lineaire transformatie:
X’ = bX + a
- De afwijkingsscore is een bekende lineaire transformatie
→ hoeveel wijkt Xi af van het gemiddelde van X
→
→
Standaardisatie:
- Z-score: Hoeveel standaarddeviaties wijkt iemand af van het steekproefgemiddelde
- Alle variabelen komen op dezelfde schaal te liggen
Standaardnormaalverdeling → je kan bepalen hoeveel procent van de populatie hoger of lager
scoort dan i.
,Voorkennis samenhangsmaten
- Samenhang van testscore met eigenschappen van de participant (bv. leeftijd)
- Samenhang van testitems onderling
→ Door correlatie of covariantie
Covariantie:
- Maat van gedeelde variantie
- In hoeverre gaat een relatief hoge score op variabele X samen met een relatief hoge score op
variabele Y
Covariantie:
-
- Teken geeft de richting van relatie aan (bij + stijgt y als x stijgt, bij - daalt y juist)
- Covariantie is symmetrisch
Correlatie:
- Interpretatie grootte covariantie niet makkelijk (zegt alleen richting)
- Gestandaardiseerde covariantie: correlatie (altijd tussen -1 en 1)
- Cohen (.1 = zwak; .3 is matig; .5 is sterk (maar is afhankelijk van context))
- Ook correlatie is symmetrisch
Non-lineaire relaties
- Correlatie en covariantie goede beschrijving lineaire relatie
- Kan tot rare conclusies leiden als de werkelijkheid teveel afwijkt
- Je moet naar de data kijken voordat je de correlatie interpreteert
- Correlatie zegt niets over de steilheid van de lijn
Variantie-covariantiematrix:
- De variantie van de som van twee variabelen:
- De variantie van de som van drie variabelen, berekenen we d.m.v. de variantie-covariantiematrix
→ De som van de variantie is gelijk aan de som van de gehele matrix
, Voorkennis lineaire regressie
Lineair verband:
- Relatie tussen twee variabelen
- Y (afhankelijke variabele) als lineaire transformatie van X (onafhankelijke variabele)
- y = a + bX
- Ingewikkelder model → betere beschrijving → waarom dan toch rechte lijn?:
- Simpel model → betere voorspelling van afhankelijke variabele op basis van onafhankelijke variabel
- Afweging → spaarzaam model = zo simpel mogelijk en een zo goed mogelijke beschrijving
Lineaire regressie:
- Lineair verband: y = a + bx: gewicht = a + b* lengte
- b: hoeveel stijgt Y bij één eenheid van x?
- a: wat is de waarde van Y als x=0 (intercept)
- a & b zijn parameters
- continue (interval, ratio) afhankelijke variabele (op y-as)
- één of meer onafhankelijke variabelen (op x-as)
- hoe bepaal je de beste lijn? → lijn met de kleinste som van gekwadrateerde verschillen
→ kwadrateer de residuen en tel deze bij elkaar op → OLS (ordinary least squares)
→ je kijkt dus naar het verschil tussen de geobserveerde en de geschatte waarde
- orthogonale regressie = de afstanden van Y en X zo klein mogelijk maken (2e grafiek)
- een regressie is niet symmetrisch (in tegenstelling tot samenhang in correlatie)
Statistisch model: