Beschrijvende statistiek en kansrekenen
Het examen bestaat uit 6 meerkeuzevragen en 2 tot 3 grotere theorievragen.
Hoofdstuk 1 – Wat is statistiek?
Begrijpend lezen. Geen grote theorievragen en geen meerkeuzevragen
1.1 Waarom statistiek?
1.2 Definitie statistiek
Een statistiek verwijst naar numerieke informatie
• Bevolkingsstatistieken: geboorte- en sterftecijfers, immigraties en emigraties,…
• Economische statistieken: tewerkstellings- en werkloosheidscijfers,
investeringen, prijzen, bruto nationaal product (BNP),…
• Bedrijfsstatistieken: verkoopscijfers, resultatenrekening, groei, aanwervingen,
afdankingen,…
1.3 Voorbeelden
1.4 Onderwerp van de statistiek
Populaties van objecten: Belgische bevolking, klanten van een grootwarenhuis,
verzekeringsnemers, . . .
Processen die objecten genereren: industriële en chemische productieprocessen
Gegevens: geregistreerde eigenschappen of karakteristieken → variabelen
Steekproef: slechts een deel van de objecten wordt bestudeerd
Beschrijvende statistiek vs. verklarende of inferentiële statistiek:
Beschrijvende statistiek (1ste deel Statistiek 1)
- beschrijven van steekproefgegevens
- overzichtelijk voorstellen
- berekenen van een aantal kenmerkende waarden (gemiddelde, variantie, . . . )
Verklarende of inferentiële statistiek
- Statistiek 2
- analyseren en interpreteren van steekproefgegevens
- antwoorden vinden op vragen of hypothesen
- nagaan wat de waarde is van een model
- veralgemenen naar de ganse populatie of het ganse proces: inferentie
Probleem van de verklarende statistiek:
Probleem: op basis van een steekproef kunnen nooit met zekerheid uitspraken over een
populatie of een proces gemaakt worden
We kunnen wel iets zeggen over de betrouwbaarheid van de uitspraken
, 2
Betrouwbaarheid wordt uitgedrukt m.b.v. een kans → kansrekening (2de deel Statistiek 1)
De onbetrouwbaarheid van een uitspraak wordt soms uitgedrukt m.b.v. een foutenmarge
1.5 Kansrekening
Kansrekenen bestudeert processen of experimenten waarvan de uitkomst onzeker is
Voorbeelden:
- gooien van een dobbelsteen
- prijs van een aandeel over 1 jaar
- vraag naar Dell computers gedurende een maand
- percentage defecte producten op een productielijn gedurende een shift
, 3
Hoofdstuk 2 – Data en hun voorstelling
Enkel Meerkeuzevragen
2.1 Soorten gegevens en meetschalen
Gegevens worden verzameld over meerdere eigenschappen of variabelen.
Kwalitatieve of categorische variabelen:
- nominale meetschaal
- ordinale meetschaal
Kwantitatieve variabelen:
- intervalschaal
- ratio meetschaal
2.1.1 Categorische of kwalitatieve variabelen
Nominale variabelen
Elementen van steekproef/populatie worden in een klasse of categorie geplaatst.
- Geslacht (man/vrouw)
- Nationaliteit (Belg/Nederlander/…)
- Godsdienst (katholiek/ protestants/…)
- Bezitten van een wagen (JA/ NEE)
Toekennen van cijfercodes: man = 0, vrouw = 1
Ordinale variabelen
Nominale variabelen waarbij er een ordening is tussen de klassen of categorieën.
- Aantal Michelinsterren van een restaurant
- Antwoorden op enquêtes: “1: helemaal eens”, “2: eerder eens”, “3: noch eens,
noch oneens”, “4: eerder oneens” of “5: helemaal oneens”
- Rekenkundige bewerkingen zinloos (behalve absolute en relatieve frequenties
(percentages))
Geen vaste meeteenheid. Dus het verschil tussen de verschillende niveaus op de
meetschaal kunnen niet uitgedrukt worden in een aantal eenheden.
2.1.2 Kwantitatieve variabelen
Deze variabelen worden uitgedrukt in een aantal vaste meeteenheden.
- Lengte
- Gewicht
- Aantal verkochte auto’s
- Temperatuur
- Duurtijd
- Aantal Kb per tijdseenheid
Bijna alle rekenkundige bewerkingen kunnen zinvol uitgevoerd worden op kwantitatieve
variabelen.
, 4
Intervalschaal
- Geen natuurlijk nulpunt
- Voorbeeld: temperatuur, tijd afgelezen op een klok
- Verschil tussen 2 en 4 uur = verschil tussen 21 en 23 uur
- Verhoudingen houden geen steek (20 graden is niet 4x zo warm als 5 graden
Celcius, 4 uur is niet dubbel zo laat als 2 uur)
Ratioschaal
- Wel een absoluut nulpunt
- Voorbeeld: lengte, gewicht,…
- Verhoudingen zijn wel zinvol (2 meter is dubbel zo lang als 1m)
Discrete vs. continue variabelen
1. Discrete variabele: kan eindig of oneindig aftelbaar aantal verschillende waarden
aannemen (specifieke, gehele getallen)
Vb.: aantal passagiers op lijnvlucht, aantal kinderen in een gezin
2. Continue variabele: wordt gemeten tot op een bepaalde nauwkeurigheid (kunnen
elke waarde binnen een bereik aannemen, inclusief decimalen)
Vb.: lengte, body mass index (BMI)
2.1.3 Hiërarchie van meetschalen
Hoogste en meest informatieve meetschaal RATIO schaal
INTERVAL schaal
ORDINALE meetschaal
Laagste meetschaal NOMINALE meetschaal
Gegevens die op een bepaalde schaal gemeten worden, kunnen omgevormd worden tot
gegevens van een lagere meetschaal.
Omgekeerd kunnen nominale gegevens nooit omgevormd worden tot ordinale of
kwantitatieve gegevens.
Statistische methoden voor lagere meetschalen kunnen gebruikt worden voor hogere
meetschalen, maar niet omgekeerd!
In JMP zijn er enkel deze meetschalen:
In JMP worden interval en ratio gewoon samen onder
‘continuous’ geplaatst.
Wat is dan correct? Effect van logaritme op waarden: Een logaritme:
✔ wordt het verschil tussen mediaan en gemiddelde • drukt grote waarden samen
kleiner
→ omdat de scheefheid afneemt
• kleine waarden veranderen minder
Wat is fout?
✔ wordt de spreiding van de variabele kleiner
→ extreme waarden worden “samengedrukt” ✖ verhoogt de scheefheidscoëfficiënt
→ nee, die daalt (minder scheef)
✔ worden minder landen als extreme waarde aangeduid
→ outliers verdwijnen deels ✖ wijzigt de meetschaal van de variabele
→ blijft metrisch (ratio → interval-achtig, maar nog
✔ wordt de verdeling van de variabele meer symmetrisch
steeds kwantitatief)
→ dit is het belangrijkste effect