Data en hun voorstelling
Soorten gegevens en meetschalen
Categorische of kwalitatieve variabelen
- Nominale variabelen
o Waarde v variabele plaatst element in klasse / categorie
o Geen volgorde
o Vb: kleur wijn, geslacht, nationaliteit, godsdienst, …
- Ordinale variabelen
o Ordening (volgorde) tussen klassen / categorieën
o Geen vaste meeteenheid: verschil tussen niveaus kan niet in aantal eenheden
worden uitgedrukt
o Vb: punten adhv slecht, matig, goed
Kwantitatieve variabelen
- Uitgedrukt in aantal vaste meeteenheden
- Intervalschaal
o Geen natuurlijk nulpunt
o Geen zinvolle verhoudingen
o Vb: tijd afgelezen op klok (4u niet dubbel zo laat als 2u), temperatuur
- Ratioschaal
o Absoluut nulpunt
o Zinvolle verhoudingen
o Vb: massa (120kg dubbel zo zwaar als 60kg)
- Discrete vs continue variabelen
o Discreet
Kan slecht (on)eindig aftelbaar aantal verschillende waarden aannemen
Vb aantal passagiers op vliegtuig
o Continu
Kan continuüm v waarden aannemen
Vb lengte, tijd
Hiërarchie van meetschalen
- Variabelen gemeten op ratioschaal meest informatief
- Gegevens gemeten op hogere schaal kunnen omgezet worden in gegevens op lagere
schaal: NIET omgekeerd
- Statistische methoden voor lagere meetschalen kunnen gebruikt worden voor hogere
meetschalen: NIET omgekeerd
De datamatrix
- Gegevens vaak voorgesteld in matrix
o Rijen = elementen steekproef, ook observatievector genoemd
o Kolommen = verschillende gemeten variabelen
,Voorstellen van univariate kwalitatieve variabelen
- Frequentie ve klasse = aantal elementen v steekproef die tot klasse behoren
- Relatieve frequentie = frequentie in %
- Vaak weergegeven in staafdiagram of cirkel-, sector-, taartdiagram
Voorstellen van univariate kwantitatieve variabelen
Stam- en bladdiagram
- Getallen in stam: getallen voor komma
- Getallen in blad: 1ste cijfer na komma
- Vb: hier goedkoopste wijn 2,20, dan 2,50 dan 2,60 dan 2,70
Histogrammen en frequentiepolygonen voor continue variabelen
- Histogram
o Voorstelling continue variabelen (staafdiagram zonder ruimte tussen staafjes)
o Meestal alle deelintervallen/klassen zelfde breedte
o Relatieve frequentie op y-as totale opp rechthoeken = 1
- Polygoon: middens v toppen rechthoeken verbonden
- Nadeel: vorm hangt sterk af v aantal klassen
o Aantal klassen bepaald door wortel van tot aantal gegevens
(50 gegevens 7 klassen)
,Empirische cumulatieve verdelingsfuncties
- Voor discrete & continue kwantitatieve variabelen
- Op grafiek in oogopslag kwartielen & mediaan bepalen
- Cumulatieve relatieve frequentie bepalen door voorgaande rel freq op te tellen
, Beschrijvende statistieken van
steekproefgegevens
Kengetallen van centrale ligging of locatie
Mediaan
- Def: mediaan Me ve verzameling waarnemingen = middelste element v geordende data
n+1
- Aantal elementen n oneven: -de element
2
n n
- Aantal elementen n even: gemiddelde v -de en( + 1) -ste element
2 2
- Eigenschappen mediaan:
o +/- 50% waarnemingen ligt onder/boven mediaan
o Mediaan niet beïnvloedt door klein aantal extreme waarnemingen
Modus
- Def: modus Mo ve verzameling waarnemingen = waarneming met grootste frequentie
- Modus voor gegroepeerde gegevens: modus Mo v verzameling gegroepeerde
waarnemingen = klassecentrum v modale klasse
- Hoeft niet uniek te zijn: soms meerdere waarden/klassen met grootste frequentie
- In histogram >1 top: histogram bimodaal / multimodaal
Rekenkundig gemiddelde
n
1
- Def: rekenkundig gemiddelde x vd waarnemingen x1, …, xn is x = ∑ x i
n i=1
k
1
- Rekenkundig gemiddelde x v gegroepeerde gegevens is x = ∑f x
n i=1 i i
o x i = klassecentrum v i-de klasse
o f i = frequentie v i-de klasse
o n = aantal waarnemingen
o k = aantal klassen
Soorten gegevens en meetschalen
Categorische of kwalitatieve variabelen
- Nominale variabelen
o Waarde v variabele plaatst element in klasse / categorie
o Geen volgorde
o Vb: kleur wijn, geslacht, nationaliteit, godsdienst, …
- Ordinale variabelen
o Ordening (volgorde) tussen klassen / categorieën
o Geen vaste meeteenheid: verschil tussen niveaus kan niet in aantal eenheden
worden uitgedrukt
o Vb: punten adhv slecht, matig, goed
Kwantitatieve variabelen
- Uitgedrukt in aantal vaste meeteenheden
- Intervalschaal
o Geen natuurlijk nulpunt
o Geen zinvolle verhoudingen
o Vb: tijd afgelezen op klok (4u niet dubbel zo laat als 2u), temperatuur
- Ratioschaal
o Absoluut nulpunt
o Zinvolle verhoudingen
o Vb: massa (120kg dubbel zo zwaar als 60kg)
- Discrete vs continue variabelen
o Discreet
Kan slecht (on)eindig aftelbaar aantal verschillende waarden aannemen
Vb aantal passagiers op vliegtuig
o Continu
Kan continuüm v waarden aannemen
Vb lengte, tijd
Hiërarchie van meetschalen
- Variabelen gemeten op ratioschaal meest informatief
- Gegevens gemeten op hogere schaal kunnen omgezet worden in gegevens op lagere
schaal: NIET omgekeerd
- Statistische methoden voor lagere meetschalen kunnen gebruikt worden voor hogere
meetschalen: NIET omgekeerd
De datamatrix
- Gegevens vaak voorgesteld in matrix
o Rijen = elementen steekproef, ook observatievector genoemd
o Kolommen = verschillende gemeten variabelen
,Voorstellen van univariate kwalitatieve variabelen
- Frequentie ve klasse = aantal elementen v steekproef die tot klasse behoren
- Relatieve frequentie = frequentie in %
- Vaak weergegeven in staafdiagram of cirkel-, sector-, taartdiagram
Voorstellen van univariate kwantitatieve variabelen
Stam- en bladdiagram
- Getallen in stam: getallen voor komma
- Getallen in blad: 1ste cijfer na komma
- Vb: hier goedkoopste wijn 2,20, dan 2,50 dan 2,60 dan 2,70
Histogrammen en frequentiepolygonen voor continue variabelen
- Histogram
o Voorstelling continue variabelen (staafdiagram zonder ruimte tussen staafjes)
o Meestal alle deelintervallen/klassen zelfde breedte
o Relatieve frequentie op y-as totale opp rechthoeken = 1
- Polygoon: middens v toppen rechthoeken verbonden
- Nadeel: vorm hangt sterk af v aantal klassen
o Aantal klassen bepaald door wortel van tot aantal gegevens
(50 gegevens 7 klassen)
,Empirische cumulatieve verdelingsfuncties
- Voor discrete & continue kwantitatieve variabelen
- Op grafiek in oogopslag kwartielen & mediaan bepalen
- Cumulatieve relatieve frequentie bepalen door voorgaande rel freq op te tellen
, Beschrijvende statistieken van
steekproefgegevens
Kengetallen van centrale ligging of locatie
Mediaan
- Def: mediaan Me ve verzameling waarnemingen = middelste element v geordende data
n+1
- Aantal elementen n oneven: -de element
2
n n
- Aantal elementen n even: gemiddelde v -de en( + 1) -ste element
2 2
- Eigenschappen mediaan:
o +/- 50% waarnemingen ligt onder/boven mediaan
o Mediaan niet beïnvloedt door klein aantal extreme waarnemingen
Modus
- Def: modus Mo ve verzameling waarnemingen = waarneming met grootste frequentie
- Modus voor gegroepeerde gegevens: modus Mo v verzameling gegroepeerde
waarnemingen = klassecentrum v modale klasse
- Hoeft niet uniek te zijn: soms meerdere waarden/klassen met grootste frequentie
- In histogram >1 top: histogram bimodaal / multimodaal
Rekenkundig gemiddelde
n
1
- Def: rekenkundig gemiddelde x vd waarnemingen x1, …, xn is x = ∑ x i
n i=1
k
1
- Rekenkundig gemiddelde x v gegroepeerde gegevens is x = ∑f x
n i=1 i i
o x i = klassecentrum v i-de klasse
o f i = frequentie v i-de klasse
o n = aantal waarnemingen
o k = aantal klassen