Week 1
Module 1 beschrijvende statistiek (uni-variaat)
Categorische variabelen: (Bar chart, Pie chart/ staafdiagram, cirkeldiagram)
Nominaal: niet gestructureerd
Dichotoom: een variabele die slecht maar twee waarden kan aannemen
Ordinaal: gestructureerd, maar zegt niets over de kwaliteit
Kwantitatieve variabelen: (Histogram (geeft de frequentieverdeling van een continue variabele weer),
Identifying skew (scheefheid identificeren), Stem-and-Leaf Plots, time plots, dot plots
Interval en ratio: zit variantie in, gestructureerd en zegt wat tussen de verschillende variabelen
Standaarddeviatie: De mate hoeveel de data afwijkt van het gemiddelde. X -X (met
streepje=gemiddelde)
Hogere standaarddeviatie is een hoger risico, de waardes liggen meer uit elkaar.
,Z-score: hoeveel standaarddeviaties op een bepaalde observaties van elkaar afwijken. Persoonlijke
afwijking. (hoe verder van 0 is unieker, dan wijk je meer af van het gemiddelde)
Geobserveerde waarde: is de ‘’eigen waarde’’
Gemiddelde: gemiddelde over de populatie (N)
Standaard deviatie: zie formule hierboven
Emperical Rule: Z score van de standaarddeviatie is 1,96 omdat dit als P waarde 2,5% is!
, de vijf-getallensamenvatting bestaat uit:
Minimum (ondergrens): Dit is de laagste waarde in de dataset.
Eerste kwartiel (Q1): 25% van de waarden bevindt zich onder de grenswaarde van het eerste
kwartiel.
Mediaan (tweede kwartiel, Q2): De middelste waarde in je dataset als je de datapunten
rangschikt van klein naar groot.
Derde kwartiel (Q3): 75% van de waarden bevindt zich onder de grenswaarde van het derde
kwartiel.
Maximum (bovengrens): Dit is de hoogste waarde in de dataset.
Module 2 Samenhang tussen variabelen (Bi-variaat)
X = horizontaal (onafhankelijk)
Y = verticaal (afhankelijk)
Er zijn vier meetniveaus:
Nominaal: de data kunnen alleen worden gecategoriseerd, zonder duidelijke rangorde.
Ordinaal: de data kunnen worden gecategoriseerd en er is sprake van een duidelijke rangorde.
Interval: de data kunnen worden gecategoriseerd, er is sprake van een rangorde en de intervallen
tussen de categorieën zijn gelijk (bijvoorbeeld steeds een stap van 10).
Ratio: de data kunnen worden gecategoriseerd, er is sprake van een rangorde, de intervallen
tussen de categorieën zijn gelijk en er is een betekenisvol nulpunt.
Causaliteit: dat wanneer de ene variabele de verandering in de andere variabele veroorzaakt.
Categorische variabele
Kruistabel
Conditionele proportie: hoort bij een bepaalde conditie/variabele.
Marginale proportie: hoort bij het totaal, in de marge
Kantitatieve variabele (nummeriek)
Module 1 beschrijvende statistiek (uni-variaat)
Categorische variabelen: (Bar chart, Pie chart/ staafdiagram, cirkeldiagram)
Nominaal: niet gestructureerd
Dichotoom: een variabele die slecht maar twee waarden kan aannemen
Ordinaal: gestructureerd, maar zegt niets over de kwaliteit
Kwantitatieve variabelen: (Histogram (geeft de frequentieverdeling van een continue variabele weer),
Identifying skew (scheefheid identificeren), Stem-and-Leaf Plots, time plots, dot plots
Interval en ratio: zit variantie in, gestructureerd en zegt wat tussen de verschillende variabelen
Standaarddeviatie: De mate hoeveel de data afwijkt van het gemiddelde. X -X (met
streepje=gemiddelde)
Hogere standaarddeviatie is een hoger risico, de waardes liggen meer uit elkaar.
,Z-score: hoeveel standaarddeviaties op een bepaalde observaties van elkaar afwijken. Persoonlijke
afwijking. (hoe verder van 0 is unieker, dan wijk je meer af van het gemiddelde)
Geobserveerde waarde: is de ‘’eigen waarde’’
Gemiddelde: gemiddelde over de populatie (N)
Standaard deviatie: zie formule hierboven
Emperical Rule: Z score van de standaarddeviatie is 1,96 omdat dit als P waarde 2,5% is!
, de vijf-getallensamenvatting bestaat uit:
Minimum (ondergrens): Dit is de laagste waarde in de dataset.
Eerste kwartiel (Q1): 25% van de waarden bevindt zich onder de grenswaarde van het eerste
kwartiel.
Mediaan (tweede kwartiel, Q2): De middelste waarde in je dataset als je de datapunten
rangschikt van klein naar groot.
Derde kwartiel (Q3): 75% van de waarden bevindt zich onder de grenswaarde van het derde
kwartiel.
Maximum (bovengrens): Dit is de hoogste waarde in de dataset.
Module 2 Samenhang tussen variabelen (Bi-variaat)
X = horizontaal (onafhankelijk)
Y = verticaal (afhankelijk)
Er zijn vier meetniveaus:
Nominaal: de data kunnen alleen worden gecategoriseerd, zonder duidelijke rangorde.
Ordinaal: de data kunnen worden gecategoriseerd en er is sprake van een duidelijke rangorde.
Interval: de data kunnen worden gecategoriseerd, er is sprake van een rangorde en de intervallen
tussen de categorieën zijn gelijk (bijvoorbeeld steeds een stap van 10).
Ratio: de data kunnen worden gecategoriseerd, er is sprake van een rangorde, de intervallen
tussen de categorieën zijn gelijk en er is een betekenisvol nulpunt.
Causaliteit: dat wanneer de ene variabele de verandering in de andere variabele veroorzaakt.
Categorische variabele
Kruistabel
Conditionele proportie: hoort bij een bepaalde conditie/variabele.
Marginale proportie: hoort bij het totaal, in de marge
Kantitatieve variabele (nummeriek)