Week 1
Overzicht vak
Statistisch redeneren gaat over de geletterdheid in statistiek, op het gebied van:
- Kennis
o Identificeren
o Beschrijven
- Vaardigheden
o Vertalen
o Interpreteren
o Lezen
o Berekenen
Op hoger niveau
- Begrijpen
o Uitleggen waarom
o Uitleggen hoe
- Statistisch denken
o Toepassen (het gebruiken van een methode in een specifieke situatie)
o Kritiek (reflecteren zonder het toepassen van bias)
o Evalueren (het toepassen van waarde op je werk)
o Generaliseren
De Empirische cyclus
1. Observatie: Annemarie heeft een hekel aan haar schoonmoeder
2. Inductie: mensen hebben over het algemeen een hekel als een persoon hun schoonmoeder is
3. Deductie: ieder persoon die je het zou vragen zou een hekel hebben aan hun schoonmoeder
Hanteren hypothese als iedereen een hekel zou hebben aan hun schoonmoeder, zou ze de
hypothese accepteren.
,Sampling distributie
Sampling distributie = het concept dat de populatie met de sample verbindt de mogelijkheid dat
iets voorkomt (dus bv. de hoeveelheid aan gele snoepjes in het voorbeeld).
Ook wel “hoe ziet de verdeling eruit uit een experiment dat je trekt”.
1. Duizend samples trekken
2. Het gemiddelde berekenen
3. Je hebt de ware populatie waarde
Deze is ook toepasbaar op het voorbeeld van
Annemarie met schoonmoeders. Je zet de
antwoorden op een schaal van 1-10
beslissingsregel hanteren (welk getal van 1-10 is afwijkend genoeg dat je met zekerheid een beslissing
kunt nemen)
Eigenschappen van een sampling distributie:
- Random samples
- Onbevooroordeelde schatter
- Bij continuous (ontelbaar aantal waarden) wordt de kansdichtheid gebruikt, waarbij er bij
discrete waarden gekeken wordt naar de kans
- Onpraktisch (duizenden samples trekken)
Excel
Het maken van een binominaalverdeling in de populatie:
1. Dataset opstellen
2. Bestand importeren in SPSS: bestand importeer data
csv data importeren
Als deze foutmelding gegeven wordt de
type bij de ‘variable view’ veranderen naar
numeriek.
3. Loop ‘handmatig’ door je dataset en kijk naar
uitzonderlijke waarden
4. Select cases if condition is satisfied (waarbij voldaan
is aan een bepaalde conditie) if … (bv variabelenaam >= 0 & <= 10)
5. Graphs graph builder bar chart verdeel de variabelen over de axen
,Concepten hoofdstuk 1
Steekproefstatistiek: Een getal dat een eigenschap van een steekproef beschrijft.
Steekproefruimte: Alle mogelijke waarden (uitkomsten) van de steekproefstatistiek. Bv de
mogelijkheden dat steekproeven 0, 3 of 8 gele snoepjes bevatten.
Steekproefverdeling: Alle mogelijke waarden van de steekproefstatistiek en hun kansen of
kansdichtheden. Het verzamelt een groot aantal steekproefgrootheden.
Kansdichtheid: Een manier om de kans te bepalen dat een continue willekeurige variabele (zoals een
steekproefstatistiek) binnen een bepaald bereik valt.
Willekeurige variabele: Een variabele met waarden die afhankelijk zijn van toeval.
Verwachte waarde/ verwachting: Het gemiddelde van een kansverdeling, zoals een
steekproefverdeling. Gebaseerd op de aanname dat het een zuiver experiment is.
Onvertekende schatter: Een steekproefstatistiek waarvoor de verwachte waarde gelijk is aan de
populatiewaarde.
Aantekeningen VO
Inferentiële statistiek: biedt technieken om uitspraken te doen over een grotere reeks waarnemingen
(de populatie) op basis van gegevens die zijn verzameld voor een kleinere reeks waarnemingen (de
sample). We willen een uitspraak over de steekproef generaliseren.
Steekproefgrootheid = een waarde die een kenmerk van de steekproef beschrijft (in het voorbeeld
van de snoepjes zijn het aantal gele snoepjes de steekproefgrootheid)
Steekproefruimte = de nummers op de horizontale as (dus alle mogelijke uitkomsten van de
steekproefstatistiek)
Cases = gevallen die geteld worden. In dit geval zijn links de snoepjes de cases en rechts de
steekproeven de gevallen (er wordt geteld hoeveel steekproeven een bepaald aantal gele snoepjes
bevatten).
Kansverdeling van de steekproefgrootheid = de kans (0-1)
voor elke uitkomst van de steekproefgrootheid. Dit doe je
door het aantal steekproeven met een bepaalde
steekproefgrootheid door het totaal aantal getrokken
steekproeven te delen.
De verwachte waarde: de waarde die het meest
waarschijnlijk in een steekproef voorkomt (dit is vaak het
gemiddelde van de steekproefdistributie)
, Als je de kans op maximaal drie gele snoepjes wilt berekenen, tel je de
kansmogelijkheden van 0-3 bij elkaar op en zou er 0.878 moeten uitkomen
Continue variabele = als we altijd een nieuwe waarde kunnen bedenken tussen twee waarden in (1.2,
1.3) er moet gekeken worden naar een reeks waarden ipv één enkele waarde.
- Kansdichtheidsfunctie geeft ons de kans van waarden tussen twee drempelwaarden
o Links-eenzijdige kans: de kans op waarden die oplopen tot een bepaalde waarde
o Rechts-eenzijdige kans: de kans op waarden boven een bepaalde waarde
^ hier wordt de kans weergegeven dat het gewicht van snoepjes tussen de 2.6 en 3.7 ligt. Het rode
gebied geeft de links-eenzijdige kans aan en het groene gebied de rechts-eenzijdige kans.
Discrete variabele = hebben enkel vaste waarden (1,2,3)
Het gemiddelde over verschillende grafieken: staat altijd op hetzelfde getal. Dit betekent dat het
gemiddelde van de steekproefverdeling (de verwachte waarde) gelijk is aan het gemiddelde in zowel
de steekproef als de populatie.
De rode stippellijn in de bovenste grafiek
vertegenwoordigt het gemiddelde van de
snoepgewichten in de populatie.
De rode stippellijn in de middelste grafiek
vertegenwoordigt het gemiddelde van de
steekproefgemiddelden.
De rode stippellijn in de onderste grafiek geeft het
gemiddelde van de snoepgewichten in de steekproef
weer.