Week 1 – Gegevens
Beschrijvende statistiek = descriptieve statistiek: overzichtelijk weergeven van kern van gegevens.
Inductieve statistiek = inferentiële statistiek: conclusies trekken uit gegevens.
De verdeling van gegevens kan je weergeven in een tabel of een grafiek:
1) Steelbladdiagram =
2) Histogram =
3) Lijndiagram (tijdgrafiek) =
4) Stamdiagram = mogelijkheid om de feitelijke numerieke waarden op te nemen in een grafiek en
toch een overzicht te bieden.
- Vergelijken van twee verdelingen? Rug-aan-rug stamdiagram.
Een variabele is een eigenschap van een element. Deze kan verschillende waarden aannemen.
Een element is een persoon, dier of object waarop de variabelen betrekking hebben.
Soorten variabelen:
Kwalitatieve variabele = plaatst een element in één of meer groepen. (Geslacht / afstudeerrichting) =
variabelen in woorden.
Kwantitatieve variabele = neemt numerieke waarden aan waarmee rekenkundige bewerkingen
gemaakt kunnen worden = variabelen in getallen.
Onafhankelijke variabele = de variabele die de onderzoeker in het onderzoek stopt.
Afhankelijke variabele = wat een waarde aanneemt als gevolg van de onafhankelijke variabele.
Invloed loopt van onafhankelijk op afhankelijk.
Deze soorten variabelen vallen ook verder onder te verdelen:
Nominaal = geen volgorde (etniciteit)
Ordinaal = volgorde, oftewel een bepaalde rangorde (ranglijst eredivisie)
Ratio = heeft een natuurlijk nulpunt (leeftijd, aantal antecedenten)
Interval = geen natuurlijk nulpunt. (temperatuur, tentamencijfer, IQ)
De vorm van een verdeling kan je beschrijven met bepaalde kernbegrippen.
Scheef = de staart gaat richting een bepaalde kant.
Positief scheef = staart gaat richting rechts.
Negatief scheef = staart gaat richting links.
Symmetrisch = normaal verdeeld.
Populatie = alle mensen van een groep.
- Gemiddelde: μ
Steekproef = deel van een groep.
- Gemiddelde: X=gemiddelde
Belangrijk dat deze representatief is voor de populatie. Want op basis van de steekproef wil
je conclusies trekken voor de gehele populatie. Ieder lid evenveel kans om gekozen te
worden.
N
n
Xi Xi
X
Steekproefgemiddelde: i1 n Populatiegemiddelde: i1
N
, - Het rekenkundig gemiddelde is gevoelig voor uitbijters. Meer dan de mediaan.
- Som van de afwijkingen is 0. Gemiddelde ligt immers in het midden van alle afwijkingen.
- Som van de !gekwadrateerde! afwijkingen is minimaal.
De modus is handig bij nominaal meetniveau. We kijken dan naar de waarneming die het meeste
voorkomt. Er zijn meerdere modi mogelijk.
De mediaan is handig bij ordinaal meetniveau.
- 50% van alle scores is hoger en 50% is lager dan de mediaan.
- Minder gevoelig voor uitbijters dan het gemiddelde.
Positief scheef:
Mediaan ligt links van het gemiddelde. Gemiddelde is immers gevoeliger voor uitbijters. Modus ligt
het meeste links.
Symmetrisch:
Alles valt samen.
Negatief scheef:
Gemiddelde ligt links van modus en mediaan. Modus meest rechts.
Meten van spreiding doe je met de standaardafwijking/standaarddeviatie:
s
2(X - X)i
2
s
(X - X)
i
2
n- 1 n- 1
Variantie: Standaardafwijking:
Wil je van de variantie naar de standaardafwijking; wortel.
Gemodificeerde boxplot:
- Houdt rekening met de 1,5*Interkwartielafstand regel.
- Komt voort uit 5-getallen weergave.
Waarom delen we door n-1?
De steekproefvariantie s2 is een schatter van de echte populatievariantie σ2.
De waarnemingen in een steekproef liggen over het algemeen dichter bij het
steekproefgemiddelde dan bij het populatiegemiddelde. Sterker nog… het
populatiegemiddelde zou buiten de steekproef kunnen liggen.
De afwijking die je vindt door de steekproefvariantie te berekenen en de reflecteren op de
populatie, zal dus te klein zijn. Wil je hier rekening mee houden, moet je delen door een
kleiner getal, dus n-1. Hierdoor wordt je afwijking groter.
Kwalitatieve variabelen zet je in een staafdiagram.
Kwantitatieve variabelen zet je in een histogram of frequentiepolygoon.
Één top = unimodaal.
Het gemiddelde van alle mogelijke steekproefgemiddelden zal precies het populatiegemiddelde zijn.
Daarom is het een ‘zuivere schatter’ van het populatiegemiddelde. ZUIVERHEID