DATA
Data bestaat uit:
- Cases/units/subjects: personen of objecten waar informatie over wordt verzameld.
- Variabelen: stukjes informatie over de cases, met verschillende waarden per case
o Discrete variabelen: gehele getallen (geen komma)
o Continue variabelen: warden die oneindig veel decimalen kunnen hebben.
Meetniveaus:
1. Categorisch: cases worden in groepen geplaatst.
o Label: identificeert een categorie
o Nominaal: geordende categorie waar volgorde niet belangrijk is.
o Ordinaal: geordende categorie waar volgorde belangrijk is.
2. Kwantitatief: numerieke waarden.
o Interval: getallen en 0 hebben een betekenis. Vermenigvuldigen is niet logisch.
o Ratio: getallen hebben een betekenis, maar 0 betekent niets. Vermenigvuldigen
is wel logisch.
KIJKEN NAAR DATA
Analyseren van data:
1. Grafisch: grafieken en duidelijke tabellen.
a. Categorisch: taart, staafdiagram en frequentietabel.
b. Kwantitatief: stem and leaf plot (tientallen als stem, en eentallen als leaves) en
histogram.
2. Numeriek:
a. Gemiddelde (mean): som van alle waarden gedeeld door het aantal cases.
Geschikt voor normale data.
b. Mediaan (median): middelste waarde in datareeks, (N+1)/2. Bij even aantallen:
gemiddelde van de 2 middelste waarden. Geschikt voor scheve data.
c. Modulus (mode): waarde die het vaakst voorkomt. Geschikt voor categorisch.
3. Associatie tussen variabelen
Soort grafiek:
- Normaal: symmetrisch, belvormig
- Skew tot the right: staart naar rechts, voller links
- Skew tot the left: staart naar links, voller rechts
- Dubbele parabool/bimodel: twee toppen
- Trimodel: drie toppen
Quartiles: helpt verschillende grafieken met zelfde numerieke waarden te onderscheiden.
1. Q1: de waarde in het midden van het minimum en Q2.
, 2. Q2: de waarde in het midden (mediaan).
3. Q3: de waarde in het midden van Q2 en het maximum.
Five number summary: beschrijft alle waarde van een grafiek → boxplot maken.
Outliers onderzoeken met de Inter Quartile Range (IQR) = Q3 – Q1
- Lage outliers: Q1 – 1,5 x IQR. Waarden hieronder zijn outliers.
- Hoge outliers: Q3 + 1,5 x IQR. Waarden hierboven zijn outliers.
Standaarddeviatie: de gemiddelde afwijking van de waarden ten opzichte van het gemiddelde.
Hiermee kun je zien hoe steil een grafiek is. Grotere standaarddeviatie → minder steile grafiek.
Stappenplan:
1. Gemiddelde van de dataset berekenen.
2. Bereken voor elke waarde de afstand tot het gemiddelde.
3. Kwadrateer elke uitkomst.
4. Tel deze uitkomsten op.
5. Deel het totaal door n – 1 → variantie.
6. Neem de wortel van de variantie → standaarddeviatie.
RELATIES TUSSEN VARIABELEN
Relatie tussen 2 categorische variabelen weergeven: kruistabel.
- Kolommen: verticaal, rijen: horizontaal, cellen: 4 waarden in het midden, marginalen:
totalen aan de buitenkant.
- Joint distribution: procentuele verdeling van combinatie (deel / geheel x 100%)
- Marginal distribution: procentuele verdeling binnen een rij of kolom (deel 1 + deel 2 /
geheel x 100%)
- Conditional distribution: procentuele verdeling van een rij of kolom binnen de ander
(deel 3 / deel 1 + deel 2 x 100%)
Relatie tussen 2 kwantitatieve variabelen weergeven: scatterplot.
- X-as: onafhankelijke variabele, y-as: afhankelijke variabele.
- Beschrijft:
o De vorm van de relatie
o De richting van de relatie
o De sterkte/duidelijkheid van de relatie
De sterkte van een lineair verband kan beschreven worden met de correlatie.
- Correlatiecoefficient: laat zien hoe sterk de correlatie is aan de hand van een waarde
tussen -1 en 1. Hoe extremer de waarde, hoe sterker het verband tussen de variabelen.
- Berekenen:
1 𝑥𝑖−𝑥𝑔𝑒𝑚 𝑦𝑖−𝑦𝑔𝑒𝑚
o 𝑟 = 𝑛−1 ∑ ( )( )
𝑠𝑥 𝑠𝑦
Data bestaat uit:
- Cases/units/subjects: personen of objecten waar informatie over wordt verzameld.
- Variabelen: stukjes informatie over de cases, met verschillende waarden per case
o Discrete variabelen: gehele getallen (geen komma)
o Continue variabelen: warden die oneindig veel decimalen kunnen hebben.
Meetniveaus:
1. Categorisch: cases worden in groepen geplaatst.
o Label: identificeert een categorie
o Nominaal: geordende categorie waar volgorde niet belangrijk is.
o Ordinaal: geordende categorie waar volgorde belangrijk is.
2. Kwantitatief: numerieke waarden.
o Interval: getallen en 0 hebben een betekenis. Vermenigvuldigen is niet logisch.
o Ratio: getallen hebben een betekenis, maar 0 betekent niets. Vermenigvuldigen
is wel logisch.
KIJKEN NAAR DATA
Analyseren van data:
1. Grafisch: grafieken en duidelijke tabellen.
a. Categorisch: taart, staafdiagram en frequentietabel.
b. Kwantitatief: stem and leaf plot (tientallen als stem, en eentallen als leaves) en
histogram.
2. Numeriek:
a. Gemiddelde (mean): som van alle waarden gedeeld door het aantal cases.
Geschikt voor normale data.
b. Mediaan (median): middelste waarde in datareeks, (N+1)/2. Bij even aantallen:
gemiddelde van de 2 middelste waarden. Geschikt voor scheve data.
c. Modulus (mode): waarde die het vaakst voorkomt. Geschikt voor categorisch.
3. Associatie tussen variabelen
Soort grafiek:
- Normaal: symmetrisch, belvormig
- Skew tot the right: staart naar rechts, voller links
- Skew tot the left: staart naar links, voller rechts
- Dubbele parabool/bimodel: twee toppen
- Trimodel: drie toppen
Quartiles: helpt verschillende grafieken met zelfde numerieke waarden te onderscheiden.
1. Q1: de waarde in het midden van het minimum en Q2.
, 2. Q2: de waarde in het midden (mediaan).
3. Q3: de waarde in het midden van Q2 en het maximum.
Five number summary: beschrijft alle waarde van een grafiek → boxplot maken.
Outliers onderzoeken met de Inter Quartile Range (IQR) = Q3 – Q1
- Lage outliers: Q1 – 1,5 x IQR. Waarden hieronder zijn outliers.
- Hoge outliers: Q3 + 1,5 x IQR. Waarden hierboven zijn outliers.
Standaarddeviatie: de gemiddelde afwijking van de waarden ten opzichte van het gemiddelde.
Hiermee kun je zien hoe steil een grafiek is. Grotere standaarddeviatie → minder steile grafiek.
Stappenplan:
1. Gemiddelde van de dataset berekenen.
2. Bereken voor elke waarde de afstand tot het gemiddelde.
3. Kwadrateer elke uitkomst.
4. Tel deze uitkomsten op.
5. Deel het totaal door n – 1 → variantie.
6. Neem de wortel van de variantie → standaarddeviatie.
RELATIES TUSSEN VARIABELEN
Relatie tussen 2 categorische variabelen weergeven: kruistabel.
- Kolommen: verticaal, rijen: horizontaal, cellen: 4 waarden in het midden, marginalen:
totalen aan de buitenkant.
- Joint distribution: procentuele verdeling van combinatie (deel / geheel x 100%)
- Marginal distribution: procentuele verdeling binnen een rij of kolom (deel 1 + deel 2 /
geheel x 100%)
- Conditional distribution: procentuele verdeling van een rij of kolom binnen de ander
(deel 3 / deel 1 + deel 2 x 100%)
Relatie tussen 2 kwantitatieve variabelen weergeven: scatterplot.
- X-as: onafhankelijke variabele, y-as: afhankelijke variabele.
- Beschrijft:
o De vorm van de relatie
o De richting van de relatie
o De sterkte/duidelijkheid van de relatie
De sterkte van een lineair verband kan beschreven worden met de correlatie.
- Correlatiecoefficient: laat zien hoe sterk de correlatie is aan de hand van een waarde
tussen -1 en 1. Hoe extremer de waarde, hoe sterker het verband tussen de variabelen.
- Berekenen:
1 𝑥𝑖−𝑥𝑔𝑒𝑚 𝑦𝑖−𝑦𝑔𝑒𝑚
o 𝑟 = 𝑛−1 ∑ ( )( )
𝑠𝑥 𝑠𝑦