Beschrijvende statistiek
Hoofdstuk 1: Wat is statistiek?
Waarom statistiek?
• Gegevens analyseren → concrete beslissingen
• Voorsprong bij het verzamelen van gegevens
• Six Sigma verbeterprogramma: concrete problemen oplossen die een grote financiële impact
hebben → aantal fouten en defecten maar weinig
o Meer doordachte, wetenschappelijke aanpak van problemen
o Werkwijze:
→ meetfase: verzamelen van gegevens
→ onderzoeken van gegevens door statistische methoden
→ mogelijks interessante inzichten/aanbevelingen
• Datasets met veel gegevens kan niet grondig bestudeerd worden zonder statistische achtergrond
Definitie van statistiek
• Statistiek = numerieke informatie
• Formeel: statistiek = het geheel van methodologieën voor het verzamelen, voorstellen ,analyseren
en interpreteren van data of gegevens
• Statistiek is een hulpwetenschap
• Doel statistiek: gegevens/data verwerken tot bruikbare informatie
Voorbeelden p16
• Luchtvaartmaatschappij
• Vochtigheidsgraad
• Grootwarenhuizen
• Risicograad van beleggen in een bepaald aandeel
Onderwerp van de statistiek
• Populatie = betreffende objecten = doelgroep
• Eigenschappen = variabelen = karakteristieken
→ waarde varieert per element
• Steekproef = deel van de populatie waarvan effectief gegevens worden verzameld
→ verzamelen van gegeven moet kwalitatief gebeuren → GIGO ‘garbage in, garbage out’ = slechte
gegeven zorgen voor niet betrouwbare resultaten
• Verzamelde gegevens kunnen overzichtelijk voorgesteld worden door tabellen en grafieken of door
het berekenen van kenmerkende waarden (=statistieken) bv: gemiddelde
• Beschrijvende = descriptieve statistiek = het voorstellen van steekproefgegevens
o Stap 1: beschrijven van de steekproefgegevens
o Stap 2: analyseren en interpreteren van de steekproefgegevens
1
Shanti Langers
,• Inferentie = het veralgemenen van de conclusies die gemaakt worden o.b.v. de gegevens uit de
steekproef voor de gehele populatie → inferentiële statistiek = wiskundige stat = verklarende stat =
steekproeftheorie
• Veralgemening = zwakte → nooit met zekerheid uitspraken over de gehele populatie
→ graad van betrouwbaarheid uit te drukken door een kans
• Kans op fouten wordt kleiner naarmate er meer kwaliteitsvolle gegeven worden verzameld
Kansrekening
• Kansrekenen = het bestuderen van processen/experimenten met een onzekere uitkomst
→ bestudeerd populaties/processen rechtstreeks
→ statistiek bestudeerd ‘’ via steekproefgegevens
• Voorbeelden: gooien van een dobbelsteen, industrieel vulproces, bestuderen van het belgisch
kiesgedrag
• Zwakke plek kansrekenen: veronderstellingen kunnen fout zijn → ongeldige conclusies
Software
• Maken van overzichtstabellen/grafische weergave van alle gegevens van een steekproef belangrijk
om structuur in berekeningen te hebben
• Statistische softwarepakket: JMP
Hoofdstuk 2: Data en hun voorstelling
Soorten gegevens en meetschalen
• Verschillende soorten meetschalen voor variabelen
o Kwalitatief/kwantitatief
o Nominaal/ordinaal/interval/ratio
Kwalitatieve variabelen (categorische)
• Nominale variabelen: de waarden van de variabele plaatst het element in een bepaalde
klasse/categorie
o Vb: geslacht, postcode, nationaliteit, …
o Zijn cijfercodes → kan je NIET mee rekenen!
o Relatieve/absolute frequenties kunnen WEL bepaald worden
• Ordinale variabelen: een nominale variabele die op een logische manier geordend kan worden
o Vb: Michelinsterren, opties enquête, …
o Zijn cijfer codes → kan je NIET mee rekenen!
o Relatieve/absolute frequenties kunnen WEL bepaald worden
o De waarden kunnen geordend worden
Kwantitatieve variabelen
• Intervalschaal: waarden worden uitgedrukt in een vaste meeteenheden maar er is geen natuurlijk
nulpunt (geen ondergrens)
o Vb: tijdstippen, temperatuur in °C, …
o Verhoudingen zijn niet zinvol (bv: 20°C is niet dubbel zo warm als 10°C)
o Verschillen tussen waarden zijn WEL betekenisvol
2
Shanti Langers
,• Ratioschaal: waarden worden uitgedrukt in een vaste meeteenheden en er is een natuurlijk nulpunt
o Vb: lengte, gewicht, tijdsduur, …
o Verhoudingen zijn WEL zinvol (bv: 20 meter is dubbel zo ver als 10 meter)
o Let op: temperatuur in Kelvin heeft wel een absolute ondergrens → ratioschaal
• Discrete variabelen
o Aantallen; geen tussenwaarden
o Bv: aantal studenten, aantal bomen, …
• Continue variabelen
o Oneindig veel tussenwaarden; oneindig nauwkeurig
o Bv: lengte, gewicht, …
Hiërarchie van meetschalen
• Gegevens van een hogere meetschaal kunnen omgevormd worden naar een lagere meetschaal
maar niet andersom
Ratio
De datamatrix Interval
Ordinaal
• Gegevens worden vaak in een
Nominaal
matrix voorgesteld
• Rijen stellen elementen/waarnemingen voor = observatievector
• Kolommen stellen verschillende gemeten variabelen voor
• Univariante voorstelling: 1 variabele
• Bivariante voorstelling: 2 variabelen
• Multivariante voorstellingen: meerdere variabelen
Voorstellen van univariante kwalitatieve variabelen (frequenties)
• Staafdiagram
o Ordinale variabelen
o Variabelen groeperen en klassen en ordenen
• Paretodiagram
o Ordinale variabelen
o Variabelen groeperen en klassen en ordenen van meest naar minst frequent
o Aandacht vestigen op klassen met hoogte frequenties
o Lijnstuk illustreert de cumulatieve frequenties (schaal op rechter Y-as)
• Taartdiagram, cirkeldiagram, sectordiagram
o Voordeel: verhoudingen zijn duidelijk weergegeven
o Nadeel: onoverzichtelijk bij veel verschillende groepen
Voorstellen van univariante kwantitatieve variabelen
• Stam- en bladdiagram
o Voordeel: geeft beeld van frequenties EN bewaart individuele waarnemingen
o Stam geeft het cijfer voor de komma weer
o Blad geeft telkens 1e cijfer na de komma weer
o Count geeft de frequentie van de waarneming weer
3
Shanti Langers
, • Naalddiagram
o Discrete univariante kwantitatieve variabelen
o Weergeven relatieve/absolute frequentie per waarde
o Vergelijkbaar met staafdiagram
o Nadeel: bij veel mogelijke waarden niet overzichtelijk
• Histogram
o Continue univariante kwantitatieve variabelen
o Interval wordt onderverdeeld in verschillende klassen
o Nadeel: aantal klassen beïnvloed het uitzicht van de histogram
→ te veel klassen: te veel detail, moeilijk conclusie maken
→ te weinig klassen: te weinig informatie, geen accurate conclusie mogelijk
o Standaardregel: √#𝐰𝐚𝐚𝐫𝐧𝐞𝐦𝐢𝐧𝐠𝐞𝐧 = het aantal klassen
o Rechthoeken worden tegen elkaar geplaatst (verschil van naalddiagram en staafdiagram)
→ benadrukken continu karakter van de variabele
• Frequentiepolygoon
o De middens van de toppen van de kolommen van de histogram worden met elkaar
verbonden en het oppervlak onder dit lijnstuk wordt ingevuld
• Empirische cumulatieve verdelingsfunctie
o Discrete en continue kwantitatieve variabelen
o Voordeel: in een enkele oogopslag kan men de kwartielen en de mediaan bepalen
o Vaak gebruikt om na te gaan of de populatie van de steekproefgegevens normaal verdeeld is
Voorstellen van bivariaten variabelen
Kwalitatieve variabelen
• Kruistabel
o Nominale en ordinale gegevens EN kwantitatieve gegevens in klassen
o = soort meervoudig staafdiagram
• Mozaïek plot
o Grafisch alternatief voor kruistabel
• Meervoudig staafdiagram
o Grafisch alternatief voor kruistabel
Kwantitatieve variabelen
• Puntenwolk
o Een puntenconfiguratie die voortkomt door elke waarneming van een steekproef voor te
stellen als een punt
o Geeft beeld van verband tussen de 2 variabelen
o Bubble plot = voor weergave van 3 kwantitatieve variabelen; de grootte van de punten
verschillen
o Gestratificeerde puntenwolk = voor weergave van 2 kwantitatieve en 1 kwalitatieve
variabelen
4
Shanti Langers
Hoofdstuk 1: Wat is statistiek?
Waarom statistiek?
• Gegevens analyseren → concrete beslissingen
• Voorsprong bij het verzamelen van gegevens
• Six Sigma verbeterprogramma: concrete problemen oplossen die een grote financiële impact
hebben → aantal fouten en defecten maar weinig
o Meer doordachte, wetenschappelijke aanpak van problemen
o Werkwijze:
→ meetfase: verzamelen van gegevens
→ onderzoeken van gegevens door statistische methoden
→ mogelijks interessante inzichten/aanbevelingen
• Datasets met veel gegevens kan niet grondig bestudeerd worden zonder statistische achtergrond
Definitie van statistiek
• Statistiek = numerieke informatie
• Formeel: statistiek = het geheel van methodologieën voor het verzamelen, voorstellen ,analyseren
en interpreteren van data of gegevens
• Statistiek is een hulpwetenschap
• Doel statistiek: gegevens/data verwerken tot bruikbare informatie
Voorbeelden p16
• Luchtvaartmaatschappij
• Vochtigheidsgraad
• Grootwarenhuizen
• Risicograad van beleggen in een bepaald aandeel
Onderwerp van de statistiek
• Populatie = betreffende objecten = doelgroep
• Eigenschappen = variabelen = karakteristieken
→ waarde varieert per element
• Steekproef = deel van de populatie waarvan effectief gegevens worden verzameld
→ verzamelen van gegeven moet kwalitatief gebeuren → GIGO ‘garbage in, garbage out’ = slechte
gegeven zorgen voor niet betrouwbare resultaten
• Verzamelde gegevens kunnen overzichtelijk voorgesteld worden door tabellen en grafieken of door
het berekenen van kenmerkende waarden (=statistieken) bv: gemiddelde
• Beschrijvende = descriptieve statistiek = het voorstellen van steekproefgegevens
o Stap 1: beschrijven van de steekproefgegevens
o Stap 2: analyseren en interpreteren van de steekproefgegevens
1
Shanti Langers
,• Inferentie = het veralgemenen van de conclusies die gemaakt worden o.b.v. de gegevens uit de
steekproef voor de gehele populatie → inferentiële statistiek = wiskundige stat = verklarende stat =
steekproeftheorie
• Veralgemening = zwakte → nooit met zekerheid uitspraken over de gehele populatie
→ graad van betrouwbaarheid uit te drukken door een kans
• Kans op fouten wordt kleiner naarmate er meer kwaliteitsvolle gegeven worden verzameld
Kansrekening
• Kansrekenen = het bestuderen van processen/experimenten met een onzekere uitkomst
→ bestudeerd populaties/processen rechtstreeks
→ statistiek bestudeerd ‘’ via steekproefgegevens
• Voorbeelden: gooien van een dobbelsteen, industrieel vulproces, bestuderen van het belgisch
kiesgedrag
• Zwakke plek kansrekenen: veronderstellingen kunnen fout zijn → ongeldige conclusies
Software
• Maken van overzichtstabellen/grafische weergave van alle gegevens van een steekproef belangrijk
om structuur in berekeningen te hebben
• Statistische softwarepakket: JMP
Hoofdstuk 2: Data en hun voorstelling
Soorten gegevens en meetschalen
• Verschillende soorten meetschalen voor variabelen
o Kwalitatief/kwantitatief
o Nominaal/ordinaal/interval/ratio
Kwalitatieve variabelen (categorische)
• Nominale variabelen: de waarden van de variabele plaatst het element in een bepaalde
klasse/categorie
o Vb: geslacht, postcode, nationaliteit, …
o Zijn cijfercodes → kan je NIET mee rekenen!
o Relatieve/absolute frequenties kunnen WEL bepaald worden
• Ordinale variabelen: een nominale variabele die op een logische manier geordend kan worden
o Vb: Michelinsterren, opties enquête, …
o Zijn cijfer codes → kan je NIET mee rekenen!
o Relatieve/absolute frequenties kunnen WEL bepaald worden
o De waarden kunnen geordend worden
Kwantitatieve variabelen
• Intervalschaal: waarden worden uitgedrukt in een vaste meeteenheden maar er is geen natuurlijk
nulpunt (geen ondergrens)
o Vb: tijdstippen, temperatuur in °C, …
o Verhoudingen zijn niet zinvol (bv: 20°C is niet dubbel zo warm als 10°C)
o Verschillen tussen waarden zijn WEL betekenisvol
2
Shanti Langers
,• Ratioschaal: waarden worden uitgedrukt in een vaste meeteenheden en er is een natuurlijk nulpunt
o Vb: lengte, gewicht, tijdsduur, …
o Verhoudingen zijn WEL zinvol (bv: 20 meter is dubbel zo ver als 10 meter)
o Let op: temperatuur in Kelvin heeft wel een absolute ondergrens → ratioschaal
• Discrete variabelen
o Aantallen; geen tussenwaarden
o Bv: aantal studenten, aantal bomen, …
• Continue variabelen
o Oneindig veel tussenwaarden; oneindig nauwkeurig
o Bv: lengte, gewicht, …
Hiërarchie van meetschalen
• Gegevens van een hogere meetschaal kunnen omgevormd worden naar een lagere meetschaal
maar niet andersom
Ratio
De datamatrix Interval
Ordinaal
• Gegevens worden vaak in een
Nominaal
matrix voorgesteld
• Rijen stellen elementen/waarnemingen voor = observatievector
• Kolommen stellen verschillende gemeten variabelen voor
• Univariante voorstelling: 1 variabele
• Bivariante voorstelling: 2 variabelen
• Multivariante voorstellingen: meerdere variabelen
Voorstellen van univariante kwalitatieve variabelen (frequenties)
• Staafdiagram
o Ordinale variabelen
o Variabelen groeperen en klassen en ordenen
• Paretodiagram
o Ordinale variabelen
o Variabelen groeperen en klassen en ordenen van meest naar minst frequent
o Aandacht vestigen op klassen met hoogte frequenties
o Lijnstuk illustreert de cumulatieve frequenties (schaal op rechter Y-as)
• Taartdiagram, cirkeldiagram, sectordiagram
o Voordeel: verhoudingen zijn duidelijk weergegeven
o Nadeel: onoverzichtelijk bij veel verschillende groepen
Voorstellen van univariante kwantitatieve variabelen
• Stam- en bladdiagram
o Voordeel: geeft beeld van frequenties EN bewaart individuele waarnemingen
o Stam geeft het cijfer voor de komma weer
o Blad geeft telkens 1e cijfer na de komma weer
o Count geeft de frequentie van de waarneming weer
3
Shanti Langers
, • Naalddiagram
o Discrete univariante kwantitatieve variabelen
o Weergeven relatieve/absolute frequentie per waarde
o Vergelijkbaar met staafdiagram
o Nadeel: bij veel mogelijke waarden niet overzichtelijk
• Histogram
o Continue univariante kwantitatieve variabelen
o Interval wordt onderverdeeld in verschillende klassen
o Nadeel: aantal klassen beïnvloed het uitzicht van de histogram
→ te veel klassen: te veel detail, moeilijk conclusie maken
→ te weinig klassen: te weinig informatie, geen accurate conclusie mogelijk
o Standaardregel: √#𝐰𝐚𝐚𝐫𝐧𝐞𝐦𝐢𝐧𝐠𝐞𝐧 = het aantal klassen
o Rechthoeken worden tegen elkaar geplaatst (verschil van naalddiagram en staafdiagram)
→ benadrukken continu karakter van de variabele
• Frequentiepolygoon
o De middens van de toppen van de kolommen van de histogram worden met elkaar
verbonden en het oppervlak onder dit lijnstuk wordt ingevuld
• Empirische cumulatieve verdelingsfunctie
o Discrete en continue kwantitatieve variabelen
o Voordeel: in een enkele oogopslag kan men de kwartielen en de mediaan bepalen
o Vaak gebruikt om na te gaan of de populatie van de steekproefgegevens normaal verdeeld is
Voorstellen van bivariaten variabelen
Kwalitatieve variabelen
• Kruistabel
o Nominale en ordinale gegevens EN kwantitatieve gegevens in klassen
o = soort meervoudig staafdiagram
• Mozaïek plot
o Grafisch alternatief voor kruistabel
• Meervoudig staafdiagram
o Grafisch alternatief voor kruistabel
Kwantitatieve variabelen
• Puntenwolk
o Een puntenconfiguratie die voortkomt door elke waarneming van een steekproef voor te
stellen als een punt
o Geeft beeld van verband tussen de 2 variabelen
o Bubble plot = voor weergave van 3 kwantitatieve variabelen; de grootte van de punten
verschillen
o Gestratificeerde puntenwolk = voor weergave van 2 kwantitatieve en 1 kwalitatieve
variabelen
4
Shanti Langers