100% tevredenheidsgarantie Direct beschikbaar na je betaling Lees online óf als PDF Geen vaste maandelijkse kosten 4.2 TrustPilot
logo-home
Samenvatting

UITGEBREIDE Samenvatting - Inleiding Statistiek (424504-B-5) --> zelf 9 gehaald

Beoordeling
-
Verkocht
-
Pagina's
55
Geüpload op
02-09-2024
Geschreven in
2022/2023

Dit document bevat een uitgebreide samenvatting van het vak Inleiding Statistiek. De samenvatting is makkelijk en duidelijk geschreven. Er wordt veel gebruik gemaakt van plaatjes en voorbeelden zodat je een goed beeld bij de stof krijgt. In deze samenvatting staan alle methodes en namen die je moet kennen. succes met leren!

Meer zien Lees minder











Oeps! We kunnen je document nu niet laden. Probeer het nog eens of neem contact op met support.

Documentinformatie

Geüpload op
2 september 2024
Aantal pagina's
55
Geschreven in
2022/2023
Type
Samenvatting

Onderwerpen

Voorbeeld van de inhoud

Inleiding Statistiek
Tim van Wanrooij


Geel = naam van persoon

Blauw = belangrijk

Paars = echt de kern (moet je kennen = heel belangrijk)



WEEK 1:

Stem-and-leaf plot
zo ziet zo’n plot eruit voor proefpersonen
met de leeftijd van 8,9,16,17,17,18,19,19123,23,24,26,32




Frequentietabellen x f % Cumulatieve
zo ziet zon tabel eruit met de volgende data: %
02505425 587691354796689 0 2 9.09 9.09
je ziet dat de variabelen 5 een percentile rank heeft van 59.1 1 1 4.55 13.64
de score van 5 hoort bij het 59,1 percentiel 2 2 9.09 22.73
3 1 4.55 27.28
4 2 9.09 36.37
5 5 22.73 59.1
6 3 13.64 72.74
7 2 9.09 81.83
8 2 9.09 90.92
9 2 9.09 100
Proportie = frequentie / aantal deelnemers
 gebruik je om histogrammen van onderzoeken met verschillende aantal ppn te vergelijken

,Limieten

Je hebt discrete en continuee variabelen, lengte is continue, want je kunt 180,1651665461… cm zijn.
aantal keer verhuizen is discreet je bent of 2 of 3 keer verhuisd, niet 2.26 keer.




Bij limieten wil je dus de grenzen afbakenen van bijvoorbeeld 179.5 tot 180.5. de ondergrens hoort er
nog bij, de bovengrens valt er buiten. Stel je hebt een getal van 140,5 in het midden dan wil je je
limieten zo stellen dat ze 1 decimaal meer hebben. Dus je limieten worden dan 140.25 en 140.75

Voorbeeld: wat is de percintile rank van 9?

We weten dat de bovengrens van categorie 5-9 is 9,5. Dus de percintile rank van 9,5 is 60%, maar
wat is die van 9? We weten dat bovengrens van 0-4 is 4,5. Alle waarde vanaf 4.5 tot (niet tot en met)
9.5 horen bij de categorie 5-9. Tussen de 60% en 10% zit 50%. Tussen 4.5 en 9.5 zit 5. We willen van
9.5 naar 9.0 dus we gaan 0.5 naar beneden. 0.5 van 5 is 10%. we willen dus 10% naar beneden. Dus
dit kunnen we ook toepassen bij cum %. 10% van 50 is 5. Dus de percentile rank van 9.0 is 55%



X f Cum %
20-24
15-19
10-14
5-9 60%
0-4 10%




Soorten schalen

1. Nominale schaal
* benoemde categorieen (bv hond, kat, hamster)

, * geen kwantitatief onderscheid tussen categorieen ( kunt niet zeggen hond is meer dan kat)
* geen 0 waarde
2. Ordinale schaal
*gerangschikte categorieen (1e, 2e, 3e )
* geen gelijke afstand tussen de rangen
* geen 0 waarde
3. De interval schaal
* bestaat uit even grote intervallen tussen waarden
* elke eenheid heeft dezelfde grootte
* geen echt 0 punt wel een 0 waarde  denk aan temperatuur  0 graden is niet geen temp
4. De ratio schaal
* bestaat uit even grote intervallen tussen waarden
* elke eenheid heeft dezelfde grootte
* maar nu wel een absolute 0
* denk aan afstand


WEEK2:

Sampling

- Steekproeftrekking is het proces waarbij n waarnemingen worden genomen uit een populatie
van grootte N
- Dit is een vd belangrijkste methoden in de gedrags- en sociale wetenschappen
- Als de steekproeftrekking fout is, is de rest bullshit
- GIGO-principe (garbage in, garbage out)
- Steekproef = deelverzameling vd populatie



Centraliteit van data (central tendency)

- Doel: wij willen de gegevens beschrijven
- Specifiek: we willen het centrum vd dataverdeling uitdrukken
- Onthoud: denk aan data = verdeling
 Modus (mode): eenvoudige definitie: de score of categorie met de hoogste frequentie, werkt
voor alle schalen van data (nominale gegevens), in een histogram ligt de modus bij het
bovenste limiet


bij een frequentiegrafiek, zoals getekend hieronder.
heb je 2 toppunten en dus twee modussen = bimodale verdeling

,  Gemiddelde (mean): exacte definitie: de som van alle scores gedeeld door het aantal scores
statistische notatie:


Σ = de som van, n = steekproefgrootte, N = grootte van populatie, x=
scores
∑x
x=Mx=
N
- Waarom niet altijd gemiddelde gebruiken? Extreme waardes beïnvloeden het heel erg 
outliers/uitschieters  deze problemen kun je oplossen door een andere maat te gebruiken
of door mean trimming  extreme waardes schrappen

 Mediaan (median): exacte definitie: de mediaan deel de verdeling in tweeën (vaak het
midden genoemd), eerst data sorteren van laag naar hoog bv. Dan de waarde zoeken die in
het midden ligt. = 50e percentiel  dan interpolatie toepassen 

top x %
4.5 87.5
?? 50
bottom 3.5 37.5


Wij moeten zoeken wat het 50e percentiel is  verschil tussen 4.5 en 3.5 is 1. Verschil tussen
87.5 en 37.5 is 50. Van 87.5 moeten we 37.5 percentiel naar beneden om bij 50 te komen.
37.5/50 = 0.75 dus we moeten 75% omlaag van 87.5. 1 x 0.75 naar beneden van 4.5. dus het
getal dat hoort bij het 50e percentiel is 3.75.


maar als er geen duidelijk middelpunt is (zoals bij een even getal data) nemen we de twee
middelste waarden en berekenen we het gemiddelde daarvan en dat wordt de mediaan



Spreiding van data (variabiliteit)

- Doel: wij willen de data beschrijven
- Specifiek: we willen uitdrukken hoeveel de scores in de data van elkaar verschillen
- Ook wel de spreiding van de data genoemd
- Hoe kunnen we de data variabiliteit uitdrukken?
 Makkelijkste manier: we nemen de laagste waarde en de hoogste waarde
range = max – min
 Berekenen hoeveel elke score verschilt van het (populatie)gemiddelde  distance to the
mean
score – gemiddelde = distance to the mean (kan zowel pos als neg zijn)  geeft ons een
afwijkingsscore / deviation van het gemiddelde voor elke waarde
deviation = x - alle afwijkingsscores bij elkaar opgeteld is altijd 0, dus kunt niet veel
zeggen over totale spreiding , daarom trucje: squaring the difference  je kwadrateerd de
distance to the mean, zo haal je negatieve waardes weg, de grotere waarde worden extra
gestraft, en als we x verdubbelen, kwadrateren we x 2.
Op deze manier krijgen we een iets meer betekenisvolle maat. Het gemiddelde van de
gekwadrateerde afwijkingen noemen we de variantie (variance)

Maak kennis met de verkoper

Seller avatar
De reputatie van een verkoper is gebaseerd op het aantal documenten dat iemand tegen betaling verkocht heeft en de beoordelingen die voor die items ontvangen zijn. Er zijn drie niveau’s te onderscheiden: brons, zilver en goud. Hoe beter de reputatie, hoe meer de kwaliteit van zijn of haar werk te vertrouwen is.
timvwanrooy Tilburg University
Bekijk profiel
Volgen Je moet ingelogd zijn om studenten of vakken te kunnen volgen
Verkocht
37
Lid sinds
3 jaar
Aantal volgers
0
Documenten
18
Laatst verkocht
3 weken geleden

5,0

1 beoordelingen

5
1
4
0
3
0
2
0
1
0

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

Student with book image

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Veelgestelde vragen