● frequentie plot/tabel
: absolute gegevens van categorische data
: hoe vaak een bepaald categorisch gegeven voorkomt
wanneer?
- 1 categorische variabele (vb. geslacht, studierichting)
- discrete variabele (vb. aantal klanten, aantal fouten)
- doel = aantallen of percentages tonen, kansschatting
R-studio: table(data$variabele), prop.table(table(data$variabele),
barplot(table(data$variabele)
app: frequency table & histogram
app: model building - descriptive - histogram/frequency
conclusie
→ grootste frequentie = dominante categorie
→ proporties interpreteren (bv. % mannen)
● histogram/ kernel density plot/ stem-and-leaf plot
: geg. klein → groot in klassen met frequenties, klassebreedte = breedte balkje
: vloeiende vorm van een histogram
: histogram met getallen idpv balkjes
,wanneer?
- vorm van verdeling bekijken van een continue variabele
R-studio: hist(x), plot(density(x)), stem(x)
app: frequency table & histogram
app: model building - descriptive - histogram/frequency of kernel density plot of
stem-and-leaf plot
conclusie
→ symmetrische verdeling? scheve verdeling? Outliers?
● quantiles
: verdelen data in gelijke delen
Q1 = 25%
mediaan = 50%
Q3 = 75%
wanneer?
- spreiding beschrijven
- basis boxplot
R-studio: quantile(data$variabele)
app: model building - descriptive - quantiles
conclusie
→ mediaan ≠ gemiddelde = scheefheid
→ grote verschil tussen Q1 - Q3 = grote spreiding
● central tendency/mean plot
: meet centrum van de data
rekenkundig gemiddelde
gewogen gemiddelde: aan elke meting hangt een bepaald gewicht
… (zie examendocument)
wanneer?
- gemiddelde, mediaan, modus
- beschrijvende analyse
R-studio: mean(x), median(x)
app: central tendency, mean plot
, conclusie
→ waarde vergelijken met benchmark
→ gemiddelde gevoelig voor outliers?
● variability/ standard deviation-mean plot
: hoe hard verschillen waarden van elkaar
: verband tussen gemiddelde en variantie (sd) vergelijken
wanneer?
- spreiding meten (variantie, standaardafwijking, range, IQR)
- heteroskedasticiteit (=als gemiddelde toeneemt, dan neemt variantie ook toe)
R-studio: sd(x), var(x), IQR(x)
app: variability, standard deviation-mean plot
conclusie:
→ hoge sd = veel variantie, spreiding
→ kleine sd = data ligt dicht bij gemiddelde
→ als gemiddelde met 1 stijgt, stijgt/daalt sd met intercept “pr”
→ p-waarde moet zeer klein zijn
● (notched) boxplot
: grafiek gebaseerd op kwartielen
⇒ notched: testen of medianen van gegevens gelijk zijn aan elkaar
wanneer?
- vergelijken van groepen
- uitschieters detecteren
R-studio: boxplot(x), boxplot(data$variabele~data$groep, notch = TRUE)
app: mean plot - notched boxplot
app: handbook - box plot
conclusie
→ mediaan = lijn, box = IQR, punten = uitschieters
→ notched: inkepingen overlappen = verschillende medianen
● violin plot
: combinatie van boxplot en density plot
wanneer?
- vorm + spreiding vergelijken
R-studio: library (ggplot2)