100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached 4.2 TrustPilot
logo-home
Summary

Samenvatting Statistiek 1

Rating
4.0
(1)
Sold
8
Pages
25
Uploaded on
18-12-2023
Written in
2023/2024

In deze samenvatting heb ik mijn best gedaan om er een lopend verhaal van te maken door alles uitgebreid uit te leggen met voorbeelden zodat je begrijpt waar het over gaat. De samenvatting is vooral gebaseerd op de hoorcolleges en waar nodig is aangevuld met Grasple en het boek.. Ik heb meer pagina's in de preview gezet, dus neem een kijkje in het voorbeeld en bepaal voor jezelf of deze manier bij je past :) De inhoud is meerdere keren gecheckt en aangepast bij fouten

Show more Read less
Institution
Course













Whoops! We can’t load your doc right now. Try again or contact support.

Connected book

Written for

Institution
Study
Course

Document information

Summarized whole book?
Yes
Uploaded on
December 18, 2023
Number of pages
25
Written in
2023/2024
Type
Summary

Subjects

Content preview

Samenvatting Statistiek 1
Statistiek bestaat uit methoden voor het verzamelen en analyseren van de steekproefdata:
 Design (verzamelen): plannen hoe je data gaat verzamelen in een onderzoek
 Description (analyseren): samenvatten van data. Een hele lijst met cijfers wordt dan
omgezet in simpelere beschrijvende statistieken zoals gemiddelden of diagrammen
 Inference (analyseren): de steekproefdata wordt gebruikt om voorspellingen te doen
over populatieparameters: inferentiële statistiek
o Parameters vatten populatie samen door gemiddelden van variabelen zoals
gewicht: 70 kg. Hierbij hoort een onzekerheidsmarge
Methodologie: de systematische wijze van hoe je onderzoek zou moeten uitvoeren.
Statistiek: gereedschap om je onderzoek uit te kunnen voeren. Er zijn bijvoorbeeld
verschillende manieren om te weten of een verschil significant is. Je moet er dan 1 kiezen
die het best bij jouw situatie past. Statistiek en methodologie zijn dus verschillend maar
kunnen in goed empirisch onderzoek niet zonder elkaar.
Kansrekening: de data van de populatie is bekend, hoe waarschijnlijk is dan een steekproef
uitkomst? Je hebt 10 witte en 10 zwarte sokken in een la, hoe groot is de kans dat je 4 witte
pakt? Gaat uit van deductie: algemeen  specifiek. Met gegeven model voorspel je data
Statistiek: de data van een steekproef is bekend, wat zegt dit over de populatie? Gaat uit
van inductie: specifiek  algemeen. Met gegeven data voorspel je model (populatie)
Bij beide wordt er rekening gehouden met toeval (foutmarge) en wordt er een aanname
gemaakt over de populatie (bijvoorbeeld geen verschil: null hypothese) om deze met de
steekproef te kunnen weerleggen (falsifiëren).


Populatie: totale set van deelnemers die relevant is voor de onderzoeksvraag daarbij horen
parameters (populatiegrootheden)
Steekproef: een deel van de populatie die onderzocht is. Daarbij hoort steekproefgrootheid
Goede data om de onderzoeksvraag te beantwoorden is:
 Betrouwbaar: mate waarin je hetzelfde waarneemt bij herhaling
 Valide: meet je wat je denkt te meten of is er sprake van bias?


Variabele: karakteristiek die per persoon kan verschillen
Meetniveaus vormen de waardes die de variabelen kunnen hebben:
- Kwalitatief:
o Nominaal: zit geen volgorde in, gewoon labels zoals kleur ogen
o Ordinaal: zit een volgorde in zoals opleidingsniveau
- Kwantitatief
o Interval: volgorde + gelijke interval tussen waarden zoals °C
o Ratio: volgorde + gelijke interval + absolute nulpunt zoals K
Waardenbereik:
 Discreet: 1, 2, 3, 4
 Continu: 1.1, 1.2, 1.3

, Samenvatting Statistiek 2
Bij inferentiële statistiek kan er een verschil zitten tussen gemeten steekproefgrootheid en
populatiegrootheid. Steekproef: 100% overgewicht. Populatie: 30% overgewicht. Oorzaken:
 Toeval tussen de steekproeven (toevallig mensen geselecteerd met die score)
 Problemen of fouten binnen de steekproef


Problemen bij een steekproef:
 Sampling error: de mate waarin je resultaten verschillen van de parameter. Hoe
groter de steekproef, hoe kleiner de foutmarge, omdat het dan dichter bij je populatie
is. Puur door toeval verschillen de waarden uit de steekproeven.
 Sampling bias: de ene subject heeft een grotere kans om in een steekproef te
komen dan de andere subject (nonprobability sampling). Voorbeeld hiervan is
convenience sampling: mensen die zich vrijwillig opgeven zijn niet generaliseerbaar
 Response bias (meetfout): je sample geeft andere antwoorden op dan wat ze
werkelijk denken. Veroorzaakt door verkeerde verwoording, volgorde van de vragen
of sociaal wenselijk willen overkomen.
 Non-response bias (selectieve respons): treedt op wanneer sommige subjects geen
resultaten geven doordat ze niet willen meedoen of stoppen met het onderzoek.
Recensies van een product kunnen bijvoorbeeld heel negatief zijn doordat alleen
ontevreden mensen de moeite willen doen om een klacht in te dienen.
Sampling error hoort bij betrouwbaarheid, want als je 5 keer hetzelfde onderzoek uitvoert
met een andere sample heb je steeds weer andere resultaten. Alle bias hoort bij validiteit


Steekproefmethoden:
Simple random sampling: iedereen in de populatie heeft even veel kans om in de
steekproef te komen. Iedereen moet bereikbaar zijn, zo is het experiment generaliseerbaar.
Stel eerst je steekproefkader vast (bijvoorbeeld 600 psychologie studenten). Koppel aan
iedereen een nummer en laat een software random mensen uitkiezen.
Systematic random sampling: niet iedereen in de populatie heeft even veel kans om in je
steekproef te komen. Dit is eenvoudig en ook representatief.
Stel je steekproefkader vast, bepaal de stapgrootte (skip number: k = 4) en begin met
skippen bij een random persoon. Dus bijv na elke 4 personen wordt 1 geselecteerd.
Gestratificeerde steekproef verdeelt de populatie in verschillende groepen (strata) en
selecteert uit elke strata een simple random sample om die vervolgens met elkaar te
vergelijken. Stel steekproefkader op, verdeel populatie in strata, trek aselect uit de strata
 Proportioneel: percentages tussen strata komen ook terug in de steekproef
 Disproportioneel: percentages tussen strata komen niet terug in de steekproef,
bijvoorbeeld: ookal zijn er op deze school 2% meisjes en 98% jongens, de steekproef
bestaat nog steeds uit evenveel jongens als meisjes. Dit wordt zo gedaan, omdat
anders de minderheid niet genoeg representatie heeft in de steekproef, waardoor
correcte vergelijking niet mogelijk is.
Cluster steekproef: niet iedereen in de populatie heeft even veel kans om in de steekproef
te komen. Populatie wordt verdeeld in clusters. Een cluster is bijv. locatie.

,Dus stel je wil alle scholen in NL onderzoeken, dan kies je willekeurig een paar locaties uit
(clusters) en dan onderzoek je alle leerlingen op alle scholen uit de gekozen locaties.
Verschil met vorige is: hier wordt niet vergeleken tussen groepen
Multi-stage sampling: Je selecteert dus weer clusters (locaties), uit elke locatie kies je
willekeurig 8 scholen, uit elke school kies je willekeurig 4 klassen en uit elke klas kies je
willekeurig 5 leerlingen. Verschil met cluster is dat bij clusters de subgroepen volledig worden
onderzocht, maar bij multi-stage sampling wordt uit elke subgroep willekeurig gekozen.




Standaarddeviatie: bij een klokvorm is 68% tussen de eerste s, 95%
tussen 2s en bijna 100% tussen 3s. Variantie = zonder de wortel. De
formule hiernaast gebruik je bij steekproefgemiddelden
Beschrijvende statistiek:
 Centrummaten: gemiddelde, mediaan (middelste waarde) en modus (meest
voorkomende waarde)
 Spreidingsmaten: spreiding van observaties zoals bereik (grootste – kleinste
observatie), standaarddeviatie en interkwartielafstand (waar ligt middelste 50%)
 Positiematen: relatieve positie van observaties, bijv z-waarde, percentiel, kwartiel
(linkerdeel 75%, rechterdeel 25%), mediaan en minimum/maximum


Kwalitatieve variabelen (nominaal en ordinaal) geef je weer in een:
 Tabel: frequentieverdeling
 Grafiek in een staafdiagram met ruimte ertussen
 Taartdiagram
 Centrummaat: modus (meest voorkomende waarde: democraten)
 Spreidingsmaat: variantie-ratio (hoe groot is de proportie van de meest
voorkomende frequentie van het totaal)
Kwantitatieve variabelen (interval en ratio) geef je weer in:
 Tabel: frequentieverdeling
 Grafiek: histogram zonder ruimte ertussen
 Stam-en-blad-diagram (bij interval)
 Boxplot
 Centrummaat: modus, gemiddelde, mediaan
 Spreidingsmaat: bereik, standaarddeviatie, interkwartielafstand (waar ligt middelste
50%)
 Positiematen: percentielscore, kwartiel (alles links is 75%, rechts 25%),
minimum/maximum, mediaan, z-score


Box plot: streep is de mediaan (middelste waarde), randen van de box is de
interkwartielafstand, de rest van de 50% is verdeeld in de snorharen van het minimum tot het
maximum. De snorharen zijn niet groter dan 1,5 keer interkwartielafstand. (dus veel langer
dan de box is het niet). Uitbijters zijn waarden die tussen de 1,5 en 3 keer IQR zitten.
Extreme waarden zitten boven de 3 keer IQR (x).


Welke figuur kies je wanneer? Dat hangt af van:

,  Meetschaal: je kan niet het gemiddelde van ijssmaak hebben
 Uitbijters: box plot komt hier goed van pas
 Scheefheid van de verdeling: als het gemiddelde hoger is dan de mediaan heb je
een scheve verdeling naar rechts (staart naar rechts). Gemiddelde kleiner dan de
mediaan  scheve verdeling naar links (staart naar links)
Univariabele statistiek: alle waarden om 1 variabele te beschrijven.
Bivariabele statistiek: hoe hangen 2 variabelen met elkaar samen? Weer te geven in
kruistabel (kwalitatief) en spreidingsdiagram (scatter plot)

, Samenvatting Statistiek 3
Populatieverdeling: kansverdeling van de waarden van iedereen in de doelpopulatie. Hierbij
horen parameters die onbekend zijn.
 Gemiddelde μ of π bij proportie
 Standaarddeviatie van populatieverdeling (spreiding rond gemiddelde) σ
o Volgens grasple te berekenen door alle waarden – gemiddelde te doen, die
kwadrateren, bij elkaar optellen en delen door n. Neem hier de wortel van
 Omvang N
Steekproefverdeling: statistiek van de steekproef, de kansverdeling van de mogelijke
waarden in 1 specifieke steekproef. Hierbij horen statistieken
 Gemiddelde y of ^π bij proportie
 Standaarddeviatie s (2 manieren)
 Omvang n i gemiddeldes
ii proporties

Steekproevenverdeling: verdeling van steekproefgemiddelde. Gaat niet over hoe
individuele waarnemingen van elkaar verschillen, maar over het hypothetische idee dat als je
oneindig vaak steekproeven van dezelfde omvang uit de populatie trekt, hoe variëren de
steekproefgemiddelden van elkaar? Dankzij de centrale limietstelling weten we hoe de
steekproevenverdeling eruit ziet. Hierdoor kan je wat zeggen over betrouwbaarheid van y
iii gemiddelde
 Gemiddelde μ y
 Standaarddeviatie σ y (standaardfout), gemiddelde verschil tussen meerdere
steekproefgemiddelden en het populatiegemiddelde. (of proportie). 2 manieren: iv proportie
o Er geldt: hoe groter de n, hoe kleiner de standaardfout, want noemer kleiner
 Omvang ∞ (oneindig)


Centrale limietstelling:
Het maakt niet uit wat de vorm van de populatieverdeling is, als de steekproefomvang groot
genoeg is, zal de steekproevenverdeling keurig normaal verdeeld zijn.
Dus steekproevenverdeling is normaal verdeeld bij
1. Random sampling
2. De n is groot genoeg, de vuistregel is groter dan 30. Als de n niet groot genoeg is, is
er sprake van 3 andere verdelingen (t-verdeling, B-verdeling of χ2 verdeling)
Grotere n  standaarddeviatie kleiner
Weinig variatie in y  standaarddeviatie kleiner
Dit zorgt beide voor een hogere validiteit en betrouwbaarheid


Kansberekening-regels: als je de kans op A weet, dan kan je ook de kans berekenen dat
het niet A is.
Kansverdelingen: je hebt discrete (hele waarden) en continue kansverdelingen.
 Discrete variabelen hebben een beperkt aantal mogelijke uitkomsten en je kan de
exacte kansen berekenen voor elke mogelijke uitkomst
 Continue variabelen hebben een oneindig aantal mogelijke waarden (zoals bij
reistijd). De kans voor intervallen van waarden kan berekend worden.

,  Cumulatieve kansverdeling: in plaats van dat je de kans op 1 waarde berekent, kan
je dat ook doen met een groot aantal waarden, zoals de kans dat je minder dan 4
ogen gooit met de dobbelsteen.


Normaalverdeling (z-verdeling): dit is een verdeling van continue waarden, het heeft een
symmetrische bel vorm en het hoogste punt is het gemiddelde, modus en mediaan. Hoe
verder een waarde van het gemiddelde afwijkt, hoe minder vaak deze waarde geobserveerd
wordt. Het gebied onder de normaalverdeling is 100% (dus een kans van 1)
Empirische regel: een regel die bepaalt hoe groot de kans is dat je een bepaalde waarde
observeert in een normaalverdeling: 68% van de scores zit binnen 1 standaarddeviatie van
het gemiddelde, 95% van de scores zit binnen 2 standaarddeviatie van het gemiddelde,
99,7% van de scores zit binnen 3 standaarddeviaties van het gemiddelde.
Significantie: stel dat je de gemiddelde lengte wil weten van 18 miljoen Nederlanders. Er
zijn 5 mensen in Nederland die 230 cm lang zijn. Je trekt een steekproef van 5 mensen, de
kans dat je precies die 5 mensen van 230 cm trekt is ontzettend onwaarschijnlijk, maar de
kans is er wel!
In psychologie hebben we de afspraak dat als de kans minder dan 5% (de kritieke waarde)
is, dat we spreken van een zeer lage waarschijnlijkheid en het resultaat is dan significant.
Z-score: de z-score in een normaalverdeling is het aantal standaarddeviaties dat
de waarde afwijkt van het gemiddelde. Deze kan berekend worden door de formule.
Z-score kan gebruikt worden op 2 manieren:
 Als de y bekend is, vul je de y in de formule, hieruit komt een z-waarde.
Zoek de cumulatieve kans die bij deze z-waarde hoort op in de tabel.
 Als de cumulatieve kans bekend is, kan je bekijken welke y daarbij hoort.
Bijvoorbeeld wat is het IQ waarbij alleen 1% van de bevolking dit heeft? Je zoekt in
de tabel naar de z-score die het dichtst bij 0,01 komt (2,33). Dit vul je in de formule
van de z-score en door de andere letters in te vullen kan je de y eruit afleiden.


Puntschatter: 1 getal dat als beste schatter dient voor de parameter, zoals
steekproefgemiddelde, bijvoorbeeld de wereldbevolking bestaat uit 7 miljard mensen.
Intervalschatter: interval rondom de puntschatter, hierbinnen zal de parameter waarschijnlijk
liggen, bijvoorbeeld de wereldbevolking zit tussen de 6,8 en 6,95 miljard. Kleine interval =
preciezer
Hierbij horen 2 criteria:
 Validiteit: schatters moeten zuiver zijn (niet ver naast de parameter)
 Betrouwbaarheid: de schatter heeft een kleine standaardfout en is dan
doeltreffend


Betrouwbaarheidsinterval: er is een manier om te weten hoeveel procent van de
steekproeven het werkelijke populatiegemiddelde bevat. Bij 95% CI bevat 95%
van de steekproefintervallen het populatiegemiddelde. Hoe breder het interval is,
hoe hoger de CI wordt. Als je significantielevel 5% is, hoort daar een CI van 95%
bij.


Verschillende soorten variabelen hebben ook verschillende soorten steekproevenverdelingen

Reviews from verified buyers

Showing all reviews
1 year ago

4.0

1 reviews

5
0
4
1
3
0
2
0
1
0
Trustworthy reviews on Stuvia

All reviews are made by real Stuvia users after verified purchases.

Get to know the seller

Seller avatar
Reputation scores are based on the amount of documents a seller has sold for a fee and the reviews they have received for those documents. There are three levels: Bronze, Silver and Gold. The better the reputation, the more your can rely on the quality of the sellers work.
kneehead Vrije Universiteit Amsterdam
Follow You need to be logged in order to follow users or courses
Sold
47
Member since
2 year
Number of followers
19
Documents
8
Last sold
1 week ago

3.8

5 reviews

5
2
4
2
3
0
2
0
1
1

Recently viewed by you

Why students choose Stuvia

Created by fellow students, verified by reviews

Quality you can trust: written by students who passed their tests and reviewed by others who've used these notes.

Didn't get what you expected? Choose another document

No worries! You can instantly pick a different document that better fits what you're looking for.

Pay as you like, start learning right away

No subscription, no commitments. Pay the way you're used to via credit card and download your PDF document instantly.

Student with book image

“Bought, downloaded, and aced it. It really can be that simple.”

Alisha Student

Frequently asked questions