Week 1: #Data
What is data? Vb numbers, name, colour of eyes etc.
- Data heeft een fixed structure
● Variables (kolomkoppen)
● Units (rijen)
Levels of measurement. Hoe accuraat?
- Categorical
● Binary variable (two outcomes), e.g. dead or alive
● Nominal variable (enkeling), e.g. omnivore, vegetarian or vegan
● Ordinal variable (volgorde), e.g. bad, intermediate, good
- Numerical
● Discrete data (counts, hele getallen) e.g. number of people geen halve mogelijk
● Continuous (getal achter de komma), e.g. temperature of body length
Numerical data contain more information
Dus, grotere steekproef bij data met weinig info
Data collection
- Is the sample representative
● What is the population? (obv research question) → de juiste doelgroep
● Random sampling → goede hoeveelheid populatie
● Good overview van de gehele populatie → wel bevoegde personen
- Is the data valid (geldig)? Laat de data zien wat het moet laten zien?
● Check op errors + mistakes face validity check
● Were there other problems? Change!
● Geeft de data antwoord op de vraag?
● Weet iedereen de meetprocedure [e.g. wanneer vertraging bij NS (na 0 of 5 min)]
Niet zomaar observations verwijderen!
- Measurement error (verschil tussen werkelijk en gemeten)
● Systematic. Iedereen last van. Everybody same.
● Random. Soms laag soms hoog. Verschillend.
, #Data analyse
Describing data. Giving de highlights (summary)
- Location
● Median = middle score niet gevoelig voor uitschieters
● Mean of average = Sum/amount
● Mode = meest voorkomende
Example: je wilt gaan onderhandelen over salaris
- Dispersion, ook wel spread
● Range, hoogste - laagste waarde gevoelig voor uitschieters
→Dus, interquartile spread (robuuster) = range of middle 50% Q3-Q1
● Variance, average squared distance between each point and mean
Example: average distance between each point + mean
gem = 180
Liever SD dan variance, want dezelfde meeteenheid!
● Different degrees of dispersion →
What is data? Vb numbers, name, colour of eyes etc.
- Data heeft een fixed structure
● Variables (kolomkoppen)
● Units (rijen)
Levels of measurement. Hoe accuraat?
- Categorical
● Binary variable (two outcomes), e.g. dead or alive
● Nominal variable (enkeling), e.g. omnivore, vegetarian or vegan
● Ordinal variable (volgorde), e.g. bad, intermediate, good
- Numerical
● Discrete data (counts, hele getallen) e.g. number of people geen halve mogelijk
● Continuous (getal achter de komma), e.g. temperature of body length
Numerical data contain more information
Dus, grotere steekproef bij data met weinig info
Data collection
- Is the sample representative
● What is the population? (obv research question) → de juiste doelgroep
● Random sampling → goede hoeveelheid populatie
● Good overview van de gehele populatie → wel bevoegde personen
- Is the data valid (geldig)? Laat de data zien wat het moet laten zien?
● Check op errors + mistakes face validity check
● Were there other problems? Change!
● Geeft de data antwoord op de vraag?
● Weet iedereen de meetprocedure [e.g. wanneer vertraging bij NS (na 0 of 5 min)]
Niet zomaar observations verwijderen!
- Measurement error (verschil tussen werkelijk en gemeten)
● Systematic. Iedereen last van. Everybody same.
● Random. Soms laag soms hoog. Verschillend.
, #Data analyse
Describing data. Giving de highlights (summary)
- Location
● Median = middle score niet gevoelig voor uitschieters
● Mean of average = Sum/amount
● Mode = meest voorkomende
Example: je wilt gaan onderhandelen over salaris
- Dispersion, ook wel spread
● Range, hoogste - laagste waarde gevoelig voor uitschieters
→Dus, interquartile spread (robuuster) = range of middle 50% Q3-Q1
● Variance, average squared distance between each point and mean
Example: average distance between each point + mean
gem = 180
Liever SD dan variance, want dezelfde meeteenheid!
● Different degrees of dispersion →