statistiek= wetenschap van methoden/technieken die helpen om verantwoorde conclusies te trekken uit onzekere gegevens
Hypothese= veronderstelling die door onderzoek ontkracht of bevestigd kan worden
Meetgegevens/data: Hoe betrouwbaar zijn mijn resultaten?
--> niet exact & afhankelijk van interpretatie Hoe precies zijn mijn schattingen?
Welke conclusies mag ik trekken?
--> afwijkingen & meetfouten
Hoe moet ik mijn steekproef opzetten voor betrouwbaar antwoord?
--> niet altijd representatief & gevolg van toeval
Kansberekeningen altijd gebaseerd op statistisch model! --> modelkeuze belangrijk bij aannames
Probability= kans & chance= toeval/mogelijkheid
H20 ~VARIABELEN & VERDELING~
Beschrijvende statistiek= methoden/technieken voor creëren overzicht in gegevens
1. Kengetallen (variatie, proporties/percentages --> karakteriseren aspect van reeks gegevens)
2. Tabellen (frequentie-/kruistabel --> samenvatting van gegevens)
3. Visualiseren (grafieken/diagrammen)
▪ Populatie: verzameling van eenheden (units)
▪ Variabele: eigenschap van eenheden in populatie
- Numeriek (kwantitatief): meetbare getallen/hoeveelheden
Discreet [bepaalde waarde]
continu [elke waarde]
- Categorisch (kwalitatief): verschillende ‘niveaus’ niet meetbaar kenmerk/categorie
Nominaal [labels/namen] -->kleur
Ordinaal [structuur/volgorde aanwezig] -->stadium of slecht-matig-goed
▪ Verdeling: verschillende waarde van variabele per eenheid in populatie
- Staafdiagram: variabele categorisch
- Histogram: variabele numeriek --> hoogte staafjes geeft frequentie van categorie weer
➔ Populatieparameters= kenmerken van verdeling [kengetallen als gemiddelde/standaardafwijking]
VERSCHILLENDE HISTOGRAAM/VERDELING VORMEN
• Links-scheef (staart links)
• Symmetrisch (spiegel symmetrisch)
• Rechts-scheef (staart rechts)
- Uniform (elke uitkomst zelfde frequentie)
- Klokvormig
o Unimodaal= 1 piek
o Bimodaal= 2 pieken
Cumulatieve verdeling: welke fractie van waarden kleiner of gelijk is aan bepaalde waarde
- y-as cumulatieve proportie
Staart: extreme waarden/afwijkingen
Uitbijter (outlier): waarneming die ver buiten de rest van reeks ligt
Residu (residual): verschil van waarde tot gemiddelde (𝑥 − 𝑥̅ )
, LIGGING & SPREIDING
• ligging= de plek op de x-as waar het histogram zich bevindt
• spreiding= mate waarin verschillende waarden van elkaar verschillen
--> zelfde spreiding, verschillende ligging
--> zelfde ligging, andere spreiding
SPECIFIEKE MATEN VAN LIGGING
Centrummaten: typische waarde voor ligging verdeling
[ongevoelig voor staart] 1. Modus: waarde die meest voorkomt Interval [x,y)
- numeriek bij histogram interval
[ongevoelig voor staart] 2. Mediaan (𝒙
̃): getal waarvoor helft van waarde kleiner en andere helft groter is
= middelste getal na sorteren op grootte (cumulatieve proportie= 0.5)
- Oneven getallen: middelste getal 1 5 7 8 9
1 5 6 7 8 9 = (6+7)/2
- Even getallen: 2 middelste optellen en delen door 2
∑𝑛𝑖=1 𝑥𝑖
[gevoelig voor staart] 3. Gemiddelde (𝒙
̅): som van getallen gedeeld door aantal getallen (zwaartepunt) 𝑥̅ =
𝑛
- n= aantal waarnemingen
- i= index (nummer voor elke waarneming)
SPECIFIEKE MATEN VAN SPREIDING
1. bereik: interval van kleinste tot grootste getal […,…]
[ongevoelig voor staart] 2. Interkwartielafstand: breedte van interval dat de middelste 50% van de gegevens bevat IKA=Q3-Q1
- Verdeel gegevens in 4 gelijke delen
- Q1, Q2, Q3 grenzen tussen delen
- Q2= mediaan`
Kwartiel Percentiel Kwantiel
Q1 P25 0,25
Q2 P50 0,50
Q3 P75 0,75
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )
3. Variantie: gemiddelde van het kwadraat van de residuen 𝑉𝑥 =
𝑛−1
- Residu= getal-gemiddelde (𝑥𝑖 − 𝑥̅)
4. Standaarddeviatie/standaardafwijking: ‘typische’ afwijking van gemiddelde
𝑠𝑥 = √𝑉𝑥
- wortel van variantie [maat voor breedte piek]
Samenvatting:
Verdeling= symmetrisch & geen opvallende uitbijters → gemiddelde & standaarddeviatie
Verdeling= scheef → mediaan (of modus) & IKA
Rstudio :
• Numerieke variabele: ‘numeric’ of ‘integer’ [discreet]
• Categorische variabele: ‘character’ of ‘factor’ [gegevens opgeslagen als integers]
- Categorisch <- factor(c (‘slecht’, ‘matig’, ‘matig’, ‘goed’, ‘slecht’, ‘goed’, ‘goed’))
levels(Categorisch) geeft [1] “slecht” “matig” “goed”
Centrum-/spreidings maten van een vector:
- mean(…) geeft gemiddelde | median(…) geeft mediaan| summary(…) geeft statistieken
- range(…) geeft bereik | sd(…) geeft standaarddeviatie | var(…) geeft variantie | IQR(…) geeft IKA
- quantile (…) geeft kwantielen | quantile(…, prob=0.25) geeft Q1 ofwel P25
, VERDELINGEN SAMENVATTEN
▪ frequentietabel: geeft aan hoe vaak een waarde in een bepaalde categorie of klasse valt
o categorische variabelen: slecht – matig – goed – zeer goed – uitstekend
- absolute frequentie: hoe vaak waarde voorkomt
- relatieve frequentie: aandeel van waarde in verhouding tot totale aantal waarnemingen
[fractie/portie: getal tussen 0-1]
o continu numerieke variabelen: opdeling van gegevens in intervallen/klassen […,…)
o discreet numerieke variabelen:
1. verspreid over klein aantal waarden → frequentie elke waarde bepalen
2. verspreid over groot bereik → frequentie bepalen voor klassen
VERDELINGEN VISUALISEREN
CATEGORISCHE VARIABELE
▪ Staafdiagrammen [visualisatie frequentietabel]: oppervlakte staaf geeft frequentie categorie weer
- Y-as op nul beginnen (vertekening voorkomen)
- Ruimte tussen de staven (aparte categorieën)
- Volgorde staven (bij ordinale variabele)
▪ Taart diagram [relatieve frequentie]: grootte taartpunt is frequentie categorie
▪ Stapel diagram [ordinale variabele]: relatieve frequentie als gestapelde staven in volgorde
NUMERIEKE VARIABELE
▪ Histogram [visualisatie frequentietabel]: oppervlakte staaf geeft frequentie klassen
- Y-as op nul beginnen (oppv. proportioneel aan frequentie)
- GEEN ruimte tussen staven (waarden lopen over)
▪ Frequentiepolygoon [bimodaal]: lijn tussen punten in grafiek
▪ Vioolplot [bimodaal]: frequentie peer waarde geschat naar punten in buurt (bandwidth= buurt)
- Variabele op Y-as
- Breedte voor frequentie
▪ Jitterplot [weinig waarnemingen]: ruwe data als puntenwolk
▪ Boxplot: vat verdeling samen dmv. 5 kengetallen
1. Mediaan/Q2 (streep in box)
2. Box (Q1 tot Q3, bevat middelste 50% van data)
3. Uitbijters (1,5 keer IKA als aparte punten)
4. Snorharen (standaarddeviatie)
➔ Scheve verdeling= snorharen aan 1 kant langer en mediaan niet in midden box
➔ Geen informatie over bimodaal & alleen bij veel waarnemingen relevant
Rstudio
- table(…$…) maakt frequentietabel voor factor
- plot(x,y,) maakt spreidings- of lijndiagram van 2 numerieke variabelen tegen elkaar uitgezet
type=”b” [lijn en punten] | type=”l” [lijn]
- hist(…$…, breaks=20) maakt histogram van numerieke vector [breaks specificeert aantal staven]
- barplot(table(…$…) maakt staafdiagram van frequentietabel