Statistiek is het:
- Verzamelen, ordenen, interpreteren, publiceren van numerieke gegevens
- Kennisverwerving op basis van gegevens
Type gegevens:
Kwalitatief – mogelijke waarden niet numeriek
Kwantitatief – mogelijke waarden numeriek (Tellingen, metingen)
Kwantitatieve gegevens:
Discreet – aantal mogelijke waarden beperkt
Continuous – ook tussenliggende waarden mogelijke
Soorten variabelen:
Nominaal – Categorieën, nevenschikkend (provincies, politiek etc.)
Ordinaal – gradaties van een verschijnsel, omvang tussen waarden onbekend (kleuren etc.)
Ratio (& Interval) – omvang verschillen exact te meten (aantal kilometer, gewicht etc.)
Databronnen:
Primaire data – eigen waarneming (experiment)
Secundaire data – data van bijvoorbeeld: CBS, Eurostat, DANS
Soorten steekproeven:
- Convenience (gewoon de eerste 20 man enquête in laten vullen, gemakzuchtig, slechte
manier!)
- Aselect: enkelvoudige aselecte steekproef (EAS)
- Systematisch (bijvoorbeeld elke 10e persoon)
- Gestratificeerd (combinatie van deelsteekproeven over verschillende deelpopulaties)
- Cluster (steekproef uit bepaalde groep van de populatie
- Getrapt (een steekproef van een steekproef)
Bronnen van vertekening:
, Een combinatie van: de populatie, de onderzoeker, het onderzoek ontwerp/onderwerp en de
respondent
Kan leiden tot: onvolledige dekking, non-respons
Populatie – de groep waarover je uitspraken wilt doen (gehele verzameling elementen)
Steekproef – de groep waarover je gegevens hebt (deelverzameling elementen uit de populatie)
Parameter – numerieke eigenschap van populatie
Steekproefgrootheid (statistic) – numerieke eigenschap van steekproef
Streekproefvariabiliteit – de variabiliteit van de steekproefuitkomsten, zelfs bij aselecte steekproeven
Steekproefverdeling – beschrijft hoe de steekproefgrootheid varieert bij herhaalde
steekproeftrekking
Is de steekproefgrootheid een goede schatter van de onderliggende parameter? Houdt rekening met
vertekening en variabiliteit van uitkomsten
Simulatie – de verdelingen van steekproefgrootheden zoals het steekproefgemiddelde of de
steekproeffractie zijn bekend
Daarom kun je onder voorwaarden, op basis van slechts 1 steekproef een inschatting maken van de
onderliggende parameters.
Centrale limietstelling:
Als de populatie niet normaal verdeeld is dan geldt:
- Onder voorwaarden, zoals een groot aantal cases en een vaste standaardafwijking, dat het
steekproefgemiddelde ongeveer normaal verdeeld is met de standaardafwijking σ/√n
Statistiek 1 – Hoorcollege 2:
- Variabelen in de kolommen
- Cases in de rijen
- Waarden in de cellen
Gegevens invoeren procedure kiezen variabelen kiezen uitkomsten interpreteren
Labels (value & variable) hebben als doel de output begrijpelijk te maken
Gegevens manipuleren cases:
- Sort: cases op een andere volgorde zetten
- Merge: bestanden combineren
- Split file: cases in groepen onderbrengen
- Select: deel cases buiten beschouwing laten
- Weight: cases wegen
Gegevens manipuleren variabelen:
- Compute: nieuwe variabelen berekenen
- Count: tellen hoe vaak een bepaalde waarde voorkomt
- Recode: her coderen van waarden