STATISTIEK
H0: Voorwoord
- Drie deuren probleem = Monty Hall Probleem
o Spel, 3 deuren + 1 presentator + 1 speler
o Achter 2 deuren een geit, 1 deur een auto
o Speler kiest deur + presentator ook waarachter geit schuilt => wijzigt speler keuze of
niet?
- Foutenmarge = statistiek laat bij testen altijd een zekere waarschijnlijkheid toe dat er een
foute beslissing wordt genomen
o Type 1 (false positive): detecteren van iets wat er niet is
o Type 2 (false negative): niet-detecteren van iets wat er wel is
o BELANG: afhankelijk van de omstandigheden
H1: Inleiding
- Overzicht cursus
o Beschrijvende statistiek
Univariaat (met 1 veranderlijke): presentatie data + statische parameters
Bivariaat (met 2 veranderlijke): correlatie
Multivariaat (met meerdere veranderlijke)
o Wiskundige statistiek
Combinatieleer
Kansrekening
Distributiefuncties: discreet – continue – steekproeftheorie
o Verklarende statistiek
Betrouwbaarheidsintervallen (verschillende statistische parameters)
Testen van hypothesen: voor verschillende statistische parameter + voor
kansverdelingsfuncties + regressie + ANOVA
- Basisbegrippen
o Data / gegevens = observaties die verzameld werden
o Populatie = de verzameling van ALLE elementen die bestudeerd worden
Parameter / kengetal = numerieke waarde die eig. van populatie beschrijft
o Telling = verzameling van data over alle leden van populatie
o Steekproef = verzameling van data over DEELgroep van populatie
(Steekproef)grootheid = numerieke waarde die eig. van steekproef beschrijft
- Verzamelen van data
o 2 bronnen
Observatie => meten / observeren van eigenschappen van elementen
steekproef (mogelijk vooraf bestaande data) = associatie aantonen
Experiment => meten / observeren van invloed van zekere behandelingen op
eigenschappen van de elementen van steekproef = oorzakelijk verband
o Verwarring = niet in staat onderscheid maken tussen effecten van verschillende
behandelingen in experiment
o Samplen = selecteren van elementen voor steekproef uit populatie volgens strategie
, Strategieën: random + systematisch + geclusterd + groepsgewijze selectie +
“zonder veel moeite” (dia 22)
H2: Data voorstelling
- Veranderlijke (= eig. die kan variëren)
o Kwalitatieve veranderlijke = categorie
o Kwantitatieve = meting of telling
Discrete veranderlijke = eindig (of aftelbaar) aantal waarden aannemen
Continue veranderlijke = alle waarden aannemen in (al dan niet) eindig
interval (zonder sprong tussen waarden)
o Gegevens/date = waarden die veranderlijke aannemen
- Meetniveaus
o Nominaal = gegevens onderscheiden door naam / label / categorie
Geen ordening / geen meeteenheid / geen verhouding
o Ordinaal
Wel ordening / geen meeteenheid / geen verhouding
o Interval
Geen absoluut nulpunt / startpunt
Wel ordening / wel meeteenheid / geen verhouding
o Ratio
Wel absoluut nulpunt / startpunt
Wel ordening / wel meeteenheid / wel verhouding
- Kwalitatieve data
o Frequentietabel = samenvatting per categorie
Absolute frequenties => tellen (voor elke categorie)
Relatieve/%/cumu. frequenties => absolute frequentie / som alle warden
- Kwantitatieve data
o Frequentietabel
Absolute + relatieve frequenties => nu wel ordening van numerieke
categorieën (soms nood aan groepering datacat.)
o Frequentietabel groeperen van data (dia 20)
Single – value grouping ( 1 aparte klasse per waarde + beperkt aantal)
Limit grouping (onder en bovengrens voor elke klasse, groot aantal gehele)
Klassebreedte = verschil ondergrens klasse en ondergrens volgende
Klassemidden = gemiddelde onder en bovengrens klasse
Cutpoint grouping (elke klasse halfopen interval)
Gesloten onderaan, open bovenaan => elke waarde 1 interval
Ondergrens elke klasse = kleinste waarde
Bovengrens elke klasse = ondergrens volgende klasse
Klassebreedte = verschil boven en ondergrens klasse
Klassemidden = gemiddelde boven en ondergrens klasse
o Grafieken
Histogram (kan voor alle 3) / frequentiepolygoon / ogieve & cumulatieve
frequentiepolygoon / (modified) boxplot / dot-plot / stamdiagram /
scatterplot & spreidingsdiagram
- Vorm van distributie
o Grafiek / tabel / formule die aangeeft x waarden mogelijke observaties voorkomen
, o Eigenschappen
Modaliteit = aantal pieken (modi ) / scheefheid = symmetrisch of met
overwicht van kleine (links scheef) / grote waarden (rechts scheef)
H3: Kerngetallen en grootheden
- Kengetallen voor het centrum
o Gemiddelde: Populatie µ & Steekproef 𝑥 ̅
Berekening voor afzonderlijke waarnemingen
Berekening voor gegroepeerde waarnemingen
Single-value grouping:
Limit grouping of cutpoint grouping:
o Mediaan = waarde voor evenveel grotere observaties als kleinere observaties =>
maat voor midden van data = xme
Vereist (stijgend) gesorteerde data
Berekening voor afzonderlijke waarnemingen
Aantal elementen (N populatie, n steekproef)
o Oneven = middelste waarde
o Even = gemiddelde van de 2 middelste waarden
Berekening voor gegroepeerde waarnemingen
Single value = zelfde afzonderlijke waarnemingen
Limit of cutpoint
o Interpolatie van de ogive => gebruik relatieve cumulatieve
frequenties => waarde waar ogive 50 % bereikt
o Modus
= de observatie die het vaakst voorkomt
Bij een onderverdeling in klassen: modale klasse = klasse met
hoogste frequentie
Bij continue verdeling: lokaal maximum in de distributiefunctie
- Kengetallen voor de spreiding
o Variantie: populatie = 𝜎² & steekproef = 𝜎
Afzonderlijke waarnemingen
Gegroepeerde waarnemingen
Single value grouping
, Limit of cutpoint grouping
o Standaardafwijking: populatie = s² & steekproef = s
= positieve vierkantswortel van variantie
Maat voor afwijking van alle waarden tov. gemiddelde + beïnvloeding door
uitschieters
o Bereik = Max – Min (eindig + gevoelig voor uitschieters)
o Variatiecoëfficiënt
= hoe nauw zitten de data bij ratio-meetniveau rond de typische gemiddelde
waarden
Zinvol voor ratio-meetniveau (dimensieloos)
Vuistregel
CV < 5% => zeer kleine spreiding
CV < 20% => relatief beperkte spreiding
CV > 50% => zeer grote spreiding
o Ruwe regels voor spreiding
- Kengetallen voor relatieve positie
o Percentielen
PK voor k-de percentiel = k% van de waarnemingen zijn kleiner dan Pk en
(100-k%) van waarnemingen groter dan Pk
Berekening dia 50
o Kwartielen
Eerste kwartiel: Q1 = P25
Tweede kwartiel (mediaan): Q2 = P50
Derde kwartiel: Q3 = P75
Interkwartielafstand: IQR = Q3 -Q1
Bevat 50% centrale waarden van de verdeling
o Decielen = opdeling van data in 10 gelijke delen (P10, P20, P30…0
o Kwintielen = opdeling van data in 5 gelijke delen (P20, P40, P60, P80)
o 5 getallen samenvatting
5 getallen: Min – Q1 – Q2 – Q3 – Max
Uiterste grenzen: min, max
Geconcentreerdheid: rond centrum; IQR te klein tov bereik
Scheefheid: Linker of rechterdeel meer of minder uit elkaar
Voorstellen met (gewijzigd) boxplot
- Gestandaardiseerde veranderlijke
H0: Voorwoord
- Drie deuren probleem = Monty Hall Probleem
o Spel, 3 deuren + 1 presentator + 1 speler
o Achter 2 deuren een geit, 1 deur een auto
o Speler kiest deur + presentator ook waarachter geit schuilt => wijzigt speler keuze of
niet?
- Foutenmarge = statistiek laat bij testen altijd een zekere waarschijnlijkheid toe dat er een
foute beslissing wordt genomen
o Type 1 (false positive): detecteren van iets wat er niet is
o Type 2 (false negative): niet-detecteren van iets wat er wel is
o BELANG: afhankelijk van de omstandigheden
H1: Inleiding
- Overzicht cursus
o Beschrijvende statistiek
Univariaat (met 1 veranderlijke): presentatie data + statische parameters
Bivariaat (met 2 veranderlijke): correlatie
Multivariaat (met meerdere veranderlijke)
o Wiskundige statistiek
Combinatieleer
Kansrekening
Distributiefuncties: discreet – continue – steekproeftheorie
o Verklarende statistiek
Betrouwbaarheidsintervallen (verschillende statistische parameters)
Testen van hypothesen: voor verschillende statistische parameter + voor
kansverdelingsfuncties + regressie + ANOVA
- Basisbegrippen
o Data / gegevens = observaties die verzameld werden
o Populatie = de verzameling van ALLE elementen die bestudeerd worden
Parameter / kengetal = numerieke waarde die eig. van populatie beschrijft
o Telling = verzameling van data over alle leden van populatie
o Steekproef = verzameling van data over DEELgroep van populatie
(Steekproef)grootheid = numerieke waarde die eig. van steekproef beschrijft
- Verzamelen van data
o 2 bronnen
Observatie => meten / observeren van eigenschappen van elementen
steekproef (mogelijk vooraf bestaande data) = associatie aantonen
Experiment => meten / observeren van invloed van zekere behandelingen op
eigenschappen van de elementen van steekproef = oorzakelijk verband
o Verwarring = niet in staat onderscheid maken tussen effecten van verschillende
behandelingen in experiment
o Samplen = selecteren van elementen voor steekproef uit populatie volgens strategie
, Strategieën: random + systematisch + geclusterd + groepsgewijze selectie +
“zonder veel moeite” (dia 22)
H2: Data voorstelling
- Veranderlijke (= eig. die kan variëren)
o Kwalitatieve veranderlijke = categorie
o Kwantitatieve = meting of telling
Discrete veranderlijke = eindig (of aftelbaar) aantal waarden aannemen
Continue veranderlijke = alle waarden aannemen in (al dan niet) eindig
interval (zonder sprong tussen waarden)
o Gegevens/date = waarden die veranderlijke aannemen
- Meetniveaus
o Nominaal = gegevens onderscheiden door naam / label / categorie
Geen ordening / geen meeteenheid / geen verhouding
o Ordinaal
Wel ordening / geen meeteenheid / geen verhouding
o Interval
Geen absoluut nulpunt / startpunt
Wel ordening / wel meeteenheid / geen verhouding
o Ratio
Wel absoluut nulpunt / startpunt
Wel ordening / wel meeteenheid / wel verhouding
- Kwalitatieve data
o Frequentietabel = samenvatting per categorie
Absolute frequenties => tellen (voor elke categorie)
Relatieve/%/cumu. frequenties => absolute frequentie / som alle warden
- Kwantitatieve data
o Frequentietabel
Absolute + relatieve frequenties => nu wel ordening van numerieke
categorieën (soms nood aan groepering datacat.)
o Frequentietabel groeperen van data (dia 20)
Single – value grouping ( 1 aparte klasse per waarde + beperkt aantal)
Limit grouping (onder en bovengrens voor elke klasse, groot aantal gehele)
Klassebreedte = verschil ondergrens klasse en ondergrens volgende
Klassemidden = gemiddelde onder en bovengrens klasse
Cutpoint grouping (elke klasse halfopen interval)
Gesloten onderaan, open bovenaan => elke waarde 1 interval
Ondergrens elke klasse = kleinste waarde
Bovengrens elke klasse = ondergrens volgende klasse
Klassebreedte = verschil boven en ondergrens klasse
Klassemidden = gemiddelde boven en ondergrens klasse
o Grafieken
Histogram (kan voor alle 3) / frequentiepolygoon / ogieve & cumulatieve
frequentiepolygoon / (modified) boxplot / dot-plot / stamdiagram /
scatterplot & spreidingsdiagram
- Vorm van distributie
o Grafiek / tabel / formule die aangeeft x waarden mogelijke observaties voorkomen
, o Eigenschappen
Modaliteit = aantal pieken (modi ) / scheefheid = symmetrisch of met
overwicht van kleine (links scheef) / grote waarden (rechts scheef)
H3: Kerngetallen en grootheden
- Kengetallen voor het centrum
o Gemiddelde: Populatie µ & Steekproef 𝑥 ̅
Berekening voor afzonderlijke waarnemingen
Berekening voor gegroepeerde waarnemingen
Single-value grouping:
Limit grouping of cutpoint grouping:
o Mediaan = waarde voor evenveel grotere observaties als kleinere observaties =>
maat voor midden van data = xme
Vereist (stijgend) gesorteerde data
Berekening voor afzonderlijke waarnemingen
Aantal elementen (N populatie, n steekproef)
o Oneven = middelste waarde
o Even = gemiddelde van de 2 middelste waarden
Berekening voor gegroepeerde waarnemingen
Single value = zelfde afzonderlijke waarnemingen
Limit of cutpoint
o Interpolatie van de ogive => gebruik relatieve cumulatieve
frequenties => waarde waar ogive 50 % bereikt
o Modus
= de observatie die het vaakst voorkomt
Bij een onderverdeling in klassen: modale klasse = klasse met
hoogste frequentie
Bij continue verdeling: lokaal maximum in de distributiefunctie
- Kengetallen voor de spreiding
o Variantie: populatie = 𝜎² & steekproef = 𝜎
Afzonderlijke waarnemingen
Gegroepeerde waarnemingen
Single value grouping
, Limit of cutpoint grouping
o Standaardafwijking: populatie = s² & steekproef = s
= positieve vierkantswortel van variantie
Maat voor afwijking van alle waarden tov. gemiddelde + beïnvloeding door
uitschieters
o Bereik = Max – Min (eindig + gevoelig voor uitschieters)
o Variatiecoëfficiënt
= hoe nauw zitten de data bij ratio-meetniveau rond de typische gemiddelde
waarden
Zinvol voor ratio-meetniveau (dimensieloos)
Vuistregel
CV < 5% => zeer kleine spreiding
CV < 20% => relatief beperkte spreiding
CV > 50% => zeer grote spreiding
o Ruwe regels voor spreiding
- Kengetallen voor relatieve positie
o Percentielen
PK voor k-de percentiel = k% van de waarnemingen zijn kleiner dan Pk en
(100-k%) van waarnemingen groter dan Pk
Berekening dia 50
o Kwartielen
Eerste kwartiel: Q1 = P25
Tweede kwartiel (mediaan): Q2 = P50
Derde kwartiel: Q3 = P75
Interkwartielafstand: IQR = Q3 -Q1
Bevat 50% centrale waarden van de verdeling
o Decielen = opdeling van data in 10 gelijke delen (P10, P20, P30…0
o Kwintielen = opdeling van data in 5 gelijke delen (P20, P40, P60, P80)
o 5 getallen samenvatting
5 getallen: Min – Q1 – Q2 – Q3 – Max
Uiterste grenzen: min, max
Geconcentreerdheid: rond centrum; IQR te klein tov bereik
Scheefheid: Linker of rechterdeel meer of minder uit elkaar
Voorstellen met (gewijzigd) boxplot
- Gestandaardiseerde veranderlijke