Hoofdstuk 1
1.8: Analysing data
Frequentieverdeling/histogram:
- Een grafiek die laat zien hoe vaak elke score voorkomt
- Een grafiek die de waarden van een observatie plot op de horizontale as
- Een bar/staaf laat zien hoe vaak elke waarde in de data set voorkwam
Normale verdeling:
- Klokvormige curve
- Ziet er aan beide zijden hetzelfde uit
- De meeste scores liggen in het midden van de verdeling
- De waarden van scheefheid en kurtosis zijn 0
Redenen waarom een verdeling kan afwijken van normaal:
- Gebrek aan symmetrie (skew/scheef):
o De meeste waarden liggen aan de zijkanten van de verdeling
o Positief scheef = de waarden liggen aan de linkerkant van de verdeling
o Negatief scheef = de waarden liggen aan de rechterkant van de verdeling
- Puntigheid (kurtosis):
o De mate waarin scores zich aan de staarten van de verdeling clusteren
o Positieve kurtosis/leptokurtic = de verdeling is puntig en heeft de meeste
waarden in het midden
o Negatieve kurtosis/platykurtic = de verdeling is platter en de waarden zijn meer
verdeeld over de as
Bepalen van het midden van een frequentieverdeling (central tendency):
- Mode/modus:
o De hoogste staaf van de verdeling
o De score die het meest voorkomt
o Bimodal = als er twee hoogste scores zijn
o Multimodal = als er meer dan twee hoogste scores zijn
- Median/mediaan:
o Kijken naar de middelste score als het gaat om ranking op basis van omvang
o (N + 1)/2 = (aantal scores + 1)/2 het nummer van de score die de mediaan is
o Kan gebruikt worden bij ordinale, interval en ratio data
o Wordt amper beïnvloedt door extreme scores
- Mean/gemiddelde:
o Alle scores bij elkaar optellen en vervolgens door het aantal scores delen
o Kan beïnvloed worden door extreme scores
o Kan gebruikt worden bij interval en ratio data
o Voordelen = het gebruikt elke score en is stabiel in verschillende voorbeelden
Dispersion/verspreiding van scores:
- De grootste score van de laagste score aftrekken
- De range/het bereik van de scores
- Heel erg beïnvloed door extreme scores
- Interquartile range:
o Alleen kijken naar de middelste 50% van de scores
o De bovenste en onderste 25% elimineren
o Kwartielen = de drie waarden die de data in vier delen verdelen
, o Verschil tussen de upper en lower quartile
- Kwartielen:
o Second quartile = mediaan die de waarden door tweeën splitst
o Lower quartile = mediaan van de kleinste groep die door de mediaan is gesplitst
o Upper quartile = mediaan van de grootste groep die door de mediaan is gesplitst
- Kwantielen:
o Waarden die een data set in gelijke porties verdeeld
o Kwartielen zijn kwantielen die data in vier porties verdelen
o Percentielen = punten die data in 100 gelijke porties verdelen
o Noniles = punten die data in 9 gelijke porties verdelen
Deviance/afwijking:
- Verschil tussen elke score en het gemiddelde
- Positief = scores groter dan het gemiddelde
- Negatief = scores kleiner dan het gemiddelde
- Alle scores bij elkaar optellen = 0
- Sum of squares:
o Sum of squared errors (SS)
o De som is altijd groter dan nul, tenzij alle scores hetzelfde zijn
Variantie:
- Niet werken met de totale spreiding van scores, maar alleen met de gemiddelde
spreiding
- Gemiddelde error tussen het gemiddelde en de observatie die wordt gemaakt
- Variantie = sum of squares/het aantal observaties (N)
- Probleem = het kwadrateren van de afwijkingen geeft een meting in kwadraten
- Standaarddeviatie:
o Worteltrekken van de variantie
o Kleine deviatie = de punten liggen dicht bij het gemiddelde
Probability/waarschijnlijkheid:
- Hoe waarschijnlijk is de kans dat deze score voorkomt?
- Voorbeeld van trends en de Ice Bucket Challenge
- Een frequentieverdeling gebruiken om de waarschijnlijkheid ervan te meten
- Probability density functions (PDF):
o Formule waarmee de waarschijnlijkheid van een frequentieverdeling berekent
kan worden
o Waarschijnlijkheidsverdeling = de curve die hieruit voortkomt
o Normale verdeling = is wederom klokvormig
o Vaak wordt er een normale verdeling met een gemiddelde van 0 en een
standaarddeviatie van 1 gebruikt
- Z-scores:
o Wat overblijft wanneer elke score van het gemiddelde van alle scores wordt
afgetrokken
o Vervolgens wordt dit getal gedeeld door de standaarddeviatie
Hoofdstuk 2
2.7: S is for standard error
SPINE:
- S = standaard error (SE)
, - P = parameters
- I = (confidence) interval
- N = nulhypothese significatie testing (NHST)
- E = estimation
Standaard error:
- Populatie gemiddelde = de parameter die geschat wordt
- Sample gemiddelde = de gemiddelde beoordeling
- Sampling variatie = samples verschillen omdat ze verschillende leden van de populatie
bevatten
- Sampling verdeling:
o Totaal van verschillende samples
o Frequentieverdeling van sample gemiddelden van dezelfde populatie
- Standaard error (van het gemiddelde) (SE):
o Standaarddeviatie van het sample gemiddelde
o Berekenen:
Neem het verschil tussen elk sample gemiddelde en het totale
gemiddelde
Kwadrateer ze
Tel ze op en deel ze door het aantal samples
Vervolgens worteltrekken
o Central limit theorem = wanneer samples groot worden (meer dan 30) heeft de
sample verdeling een normale verdeling met een gemiddelde die gelijk is aan het
populatie gemiddelde
2.9: N is for null hypothese significance testing
Nulhypothese significantie testing (NHST):
- Benadering voor het testen van onderzoeksvragen met statistische modellen
- Ontstaan uit twee verschillende ideeën:
o Ronald Fisher’s idee om waarschijnlijkheden samen te nemen om bewijs te
evalueren
o Jerzy Neyman en Egon Pearson idee van concurrerende hypotheses
- Systeem dat aangeeft hoe waarschijnlijk de alternatieve hypothese waar is
- Verwerpen H0 = als p kleiner of gelijk is aan alpha (.05)
- Aannemen H0 = als p groter is dan .05 verwerpen H1
Fisher’s p-waarde:
- 5% is een drempel voor zekerheid
- Wanneer het effect binnen deze range valt weten we dat het effect oprecht is
Neyman en Pearson:
- Wetenschappelijke uitspraken moeten opgedeeld worden in testbare hypotheses
- Alternatieve/experimentele hypotheses (H1) = er is een effect aanwezig
- Nulhypothese (H0) = er is geen effect aanwezig
- Niet praten over het wel of niet verwerpen van een hypothese, maar over de kansen om
het resultaat te behalen, ervan uitgaand dat de nulhypothese waar is
- Hypotheses:
o Directioneel = er is een effect en de richting van dat effect is aangegeven
o Non-directioneel = er is een effect, maar de richting is niet aangegeven
Alpha:
- Hoe vaak ben je voorbereid om verkeerd te zitten?
1.8: Analysing data
Frequentieverdeling/histogram:
- Een grafiek die laat zien hoe vaak elke score voorkomt
- Een grafiek die de waarden van een observatie plot op de horizontale as
- Een bar/staaf laat zien hoe vaak elke waarde in de data set voorkwam
Normale verdeling:
- Klokvormige curve
- Ziet er aan beide zijden hetzelfde uit
- De meeste scores liggen in het midden van de verdeling
- De waarden van scheefheid en kurtosis zijn 0
Redenen waarom een verdeling kan afwijken van normaal:
- Gebrek aan symmetrie (skew/scheef):
o De meeste waarden liggen aan de zijkanten van de verdeling
o Positief scheef = de waarden liggen aan de linkerkant van de verdeling
o Negatief scheef = de waarden liggen aan de rechterkant van de verdeling
- Puntigheid (kurtosis):
o De mate waarin scores zich aan de staarten van de verdeling clusteren
o Positieve kurtosis/leptokurtic = de verdeling is puntig en heeft de meeste
waarden in het midden
o Negatieve kurtosis/platykurtic = de verdeling is platter en de waarden zijn meer
verdeeld over de as
Bepalen van het midden van een frequentieverdeling (central tendency):
- Mode/modus:
o De hoogste staaf van de verdeling
o De score die het meest voorkomt
o Bimodal = als er twee hoogste scores zijn
o Multimodal = als er meer dan twee hoogste scores zijn
- Median/mediaan:
o Kijken naar de middelste score als het gaat om ranking op basis van omvang
o (N + 1)/2 = (aantal scores + 1)/2 het nummer van de score die de mediaan is
o Kan gebruikt worden bij ordinale, interval en ratio data
o Wordt amper beïnvloedt door extreme scores
- Mean/gemiddelde:
o Alle scores bij elkaar optellen en vervolgens door het aantal scores delen
o Kan beïnvloed worden door extreme scores
o Kan gebruikt worden bij interval en ratio data
o Voordelen = het gebruikt elke score en is stabiel in verschillende voorbeelden
Dispersion/verspreiding van scores:
- De grootste score van de laagste score aftrekken
- De range/het bereik van de scores
- Heel erg beïnvloed door extreme scores
- Interquartile range:
o Alleen kijken naar de middelste 50% van de scores
o De bovenste en onderste 25% elimineren
o Kwartielen = de drie waarden die de data in vier delen verdelen
, o Verschil tussen de upper en lower quartile
- Kwartielen:
o Second quartile = mediaan die de waarden door tweeën splitst
o Lower quartile = mediaan van de kleinste groep die door de mediaan is gesplitst
o Upper quartile = mediaan van de grootste groep die door de mediaan is gesplitst
- Kwantielen:
o Waarden die een data set in gelijke porties verdeeld
o Kwartielen zijn kwantielen die data in vier porties verdelen
o Percentielen = punten die data in 100 gelijke porties verdelen
o Noniles = punten die data in 9 gelijke porties verdelen
Deviance/afwijking:
- Verschil tussen elke score en het gemiddelde
- Positief = scores groter dan het gemiddelde
- Negatief = scores kleiner dan het gemiddelde
- Alle scores bij elkaar optellen = 0
- Sum of squares:
o Sum of squared errors (SS)
o De som is altijd groter dan nul, tenzij alle scores hetzelfde zijn
Variantie:
- Niet werken met de totale spreiding van scores, maar alleen met de gemiddelde
spreiding
- Gemiddelde error tussen het gemiddelde en de observatie die wordt gemaakt
- Variantie = sum of squares/het aantal observaties (N)
- Probleem = het kwadrateren van de afwijkingen geeft een meting in kwadraten
- Standaarddeviatie:
o Worteltrekken van de variantie
o Kleine deviatie = de punten liggen dicht bij het gemiddelde
Probability/waarschijnlijkheid:
- Hoe waarschijnlijk is de kans dat deze score voorkomt?
- Voorbeeld van trends en de Ice Bucket Challenge
- Een frequentieverdeling gebruiken om de waarschijnlijkheid ervan te meten
- Probability density functions (PDF):
o Formule waarmee de waarschijnlijkheid van een frequentieverdeling berekent
kan worden
o Waarschijnlijkheidsverdeling = de curve die hieruit voortkomt
o Normale verdeling = is wederom klokvormig
o Vaak wordt er een normale verdeling met een gemiddelde van 0 en een
standaarddeviatie van 1 gebruikt
- Z-scores:
o Wat overblijft wanneer elke score van het gemiddelde van alle scores wordt
afgetrokken
o Vervolgens wordt dit getal gedeeld door de standaarddeviatie
Hoofdstuk 2
2.7: S is for standard error
SPINE:
- S = standaard error (SE)
, - P = parameters
- I = (confidence) interval
- N = nulhypothese significatie testing (NHST)
- E = estimation
Standaard error:
- Populatie gemiddelde = de parameter die geschat wordt
- Sample gemiddelde = de gemiddelde beoordeling
- Sampling variatie = samples verschillen omdat ze verschillende leden van de populatie
bevatten
- Sampling verdeling:
o Totaal van verschillende samples
o Frequentieverdeling van sample gemiddelden van dezelfde populatie
- Standaard error (van het gemiddelde) (SE):
o Standaarddeviatie van het sample gemiddelde
o Berekenen:
Neem het verschil tussen elk sample gemiddelde en het totale
gemiddelde
Kwadrateer ze
Tel ze op en deel ze door het aantal samples
Vervolgens worteltrekken
o Central limit theorem = wanneer samples groot worden (meer dan 30) heeft de
sample verdeling een normale verdeling met een gemiddelde die gelijk is aan het
populatie gemiddelde
2.9: N is for null hypothese significance testing
Nulhypothese significantie testing (NHST):
- Benadering voor het testen van onderzoeksvragen met statistische modellen
- Ontstaan uit twee verschillende ideeën:
o Ronald Fisher’s idee om waarschijnlijkheden samen te nemen om bewijs te
evalueren
o Jerzy Neyman en Egon Pearson idee van concurrerende hypotheses
- Systeem dat aangeeft hoe waarschijnlijk de alternatieve hypothese waar is
- Verwerpen H0 = als p kleiner of gelijk is aan alpha (.05)
- Aannemen H0 = als p groter is dan .05 verwerpen H1
Fisher’s p-waarde:
- 5% is een drempel voor zekerheid
- Wanneer het effect binnen deze range valt weten we dat het effect oprecht is
Neyman en Pearson:
- Wetenschappelijke uitspraken moeten opgedeeld worden in testbare hypotheses
- Alternatieve/experimentele hypotheses (H1) = er is een effect aanwezig
- Nulhypothese (H0) = er is geen effect aanwezig
- Niet praten over het wel of niet verwerpen van een hypothese, maar over de kansen om
het resultaat te behalen, ervan uitgaand dat de nulhypothese waar is
- Hypotheses:
o Directioneel = er is een effect en de richting van dat effect is aangegeven
o Non-directioneel = er is een effect, maar de richting is niet aangegeven
Alpha:
- Hoe vaak ben je voorbereid om verkeerd te zitten?