Aantekeningen en Samenvatting beschrijvende statistiek
39 keer bekeken 0 aankoop
Vak
Beschrijvende Statistiek (70110102AY)
Instelling
Universiteit Van Amsterdam (UvA)
Boek
Statistics
Zowel overzichtelijke aantekeningen van de colleges van beschrijvende statistiek als een samenvatting van de te lezen stof van Pedagogische Wetenschappen aan de UvA. Wel mist de samenvatting van H9 van het boek. Wel zijn hier aantekeningen over gemaakt.
Aantekeningen hoorcolleges
Hoorcollege 1 (H1, 2.1, 2.2, 2.3)
Fundamentele begrippen
Populatie = de groep die je wil onderzoeken
o Moet heel specifiek beschreven worden
Steekproef = een klein deeltje die je daadwerkelijk van die groep gaat
onderzoeken
Variabele = een bepaald kenmerk van een steekproef dat je gaat meten
o Categorische variabele = variabelen die je kan indelen in categorieën (bijv. sekse)
Je kan cijfers gebruiken maar die hebben geen betekenis. Je kan categorische
variabelen wel ordenen (bijv. hoger opleidingsniveau is hoger getal)
Een categorische variabele kan dus nominaal (geen ordening bijv. man en vrouw)
of ordinaal (een ordening in aan brengen) zijn
o Kwantitatieve variabele = representeert hoeveel je van die variabele je hebt. Het is dus echt
een getal
Discrete variabele = je hebt bepaalde vaste waardes (bijv. hoeveelheid kinderen in
gezin, er kan geen half kind zijn)
Continue variabele = je hebt ook tussenwaarden (bijv. 1 meter, en 1 meter 87,51)
‘statistic’ en parameter zijn beide een samenvatting van de data
o Statistic = in de steekproef
o Parameter = populatie
Parameter kan je bijna nooit weten.
Je wilt uiteindelijk de statistics gebruiken om iets te zeggen over de parameter
Toetsende statistiek = gaat het vooral om de statistics te gebruiken om iets te zeggen over de
parameter
Beschrijvende statistiek = gaat het vooral om het beschrijven van data. Het gaat met name over
het beschrijven van de steekproef
Beschrijvende statistiek voor één variabele
Dit kan je doen met:
o Een grafische weergave van de data
o Het weergeven van centrummaten van de data
bij een centrummaat wordt er één representatieve waarde gebruikt om de data weer
te geven
Beschrijvende statistieken – categorische variabele
Welke statistieken je precies gebruikt is afhankelijk van het type variabele
Eerst ga je de steekproef beschrijven
o Dit beschrijven kan d.m.v.:
Grafische weergave:
Cirkeldiagram
o De taartpunten corresponderen met het percentage observaties en geven op
deze een weergave van een beschrijving van de data
Staafdiagram
o Je kan hierbij de frequentie of de relatieve frequentie laten zien. De staven
laten de observaties zien
o Een staafdiagram kan je herkennen doordat er een opening zit tussen de
staven
Frequentietabel:
1
, Een tabel waarin staat hoe vaak alles voorkomt
Bij een frequentietabel van SPSS zijn er meer gegevens weergegeven. Zo worden
er ook de missing verteld. Het is dus van belang dat je bij een frequentietabel in
SPSS goed kijkt naar de waardes.
o Bij percent staan alle gegevens dus ook missing
o Bij valid percent staan alleen de gegevens van de kinderen die echt hebben
meegedaan.
Bij een frequentietabel is de categorie die het meest voorkomt de modale
categorie.
Beschrijvende statistieken – kwantitatieve variabele
Hierbij kan je ook een frequentietabel maken. Deze frequentietabel wordt alleen wel al een stuk
groter omdat er meer mogelijke hoeveelheden kunnen zijn.
o De modus is weer de waarde die het meest voorkomt.
Als er veel meer mogelijke hoeveelheden zijn, is de modus niet heel betekenisvol meer.
Dit komt doordat de waarde die het meest voorkomt, misschien helemaal niet heel veel
meer voorkomt dan de waarde die net onder de modus ligt
Hierdoor wordt er dan gebruik gemaakt van de mediaan en het gemiddelde. Dit zijn
allebei ander soorten samenvattingen van je data. Het zijn centrummaten
Mediaan = je gaat de data die je hebt verzameld ordenen van groot naar klein of
van klein naar groot. Als een getal vaker voorkomt, zet je die ook vake neer. De
middelste waarde in die getallenlijn is dan de mediaan. Als je een even aantal hebt
liggen er twee getallen in het midden. Deze twee getallen tel je bij elkaar op en
deel je door twee.
Gemiddelde
o ‘Normaal’
gemiddelde
o Gemiddelde van
een
frequentieverdeling
Mediaan vs. gemiddelde
o Soms is de mediaan handiger dan het gemiddelde. Je kijkt dan naar de
verdeling.
Wanneer de verdeling heel mooi klokvormig is, zijn de mediaan en het
gemiddelde precies hetzelfde
Wanneer de verdeling scheef naar links is, ligt het gemiddelde lager dan
de mediaan. Het gemiddelde geeft dan niet helemaal een correcte
weergave van de gegevens, dus dan is de mediaan mogelijk handiger. Het
gemiddelde wordt namelijk te veel omlaag getrokken.
Wanneer de verdeling scheef naar rechts is, ligt het gemiddelde hoger
dan de mediaan.
Als de verdeling niet helemaal symmetrisch is kan je eigenlijk beter
de mediaan gebruiken dan het gemiddelde omdat het gemiddelde
een vertekend beeld geeft.
o Soms geeft het gemiddelde een betere representatie dan de mediaan omdat
meer gegevens bevat.
2
, Bijv. 1, 1, 1, 1, 10, 10, 10. De mediaan is 1 maar dit geeft een heel
vertekend beeld en het gemiddelde een stuk minder
Ook kan je weer een staafdiagram of een cirkeldiagram maken om de frequentie te laten zien.
o Als je heel veel waardes hebt, is een staafdiagram/cirkeldiagram niet heel informatie.
Daarom zijn deze twee bij een kwantitatieve variabele niet heel handig
Bij een kwantitatieve variabele wordt er gebruik gemaakt van:
o Een histogram
Het verschil tussen een staafdiagram en een histogram is dat de staven tegen elkaar
aan staan bij een histogram (bij een staafdiagram niet)
Je verdeelt de frequentietabel in even grote gelijke categorieën. De hoeveelheid in de
categorieën worden weergegeven in de staven.
Bij SPSS kan je een normaalverdeling bij je histogram laten teken. Hij tekent hem alleen
niet altijd kloppend. Hij tekent altijd een verdeling met één heuvel, en nooit twee.
Een uitschieter kan een gemiddelde heel erg vertekenen, en een mediaan minder.
o Met een centrummaat wil je een zo goed mogelijke weergave van de observaties.
3
,Hoorcollege 2 (2.4, 2.5, 2.6)
Spreiding van een variabele
Een variabele is variabel, er zijn verschillende waarden.
o Het is van belang om naast de centrummaten ook te kijken naar andere waarden, zoals de
spreiding. Dit omdat dit een beter beeld geeft van de verschillende waarden van de
gemeten variabele
Het bereik
Het bereik, ook wel range of variatiebreedte genoemd, geeft weer binnen welke afstand van
elkaar als geobserveerde waarden zich bevinden. Het wordt berekend door
maximum−minimum
Het bereik wordt sterk beïnvloedt door uitschieters
Er zijn ook nog andere mogelijke manieren om de spreiding in de data weer te geven:
Interkwartielafstand
De interkwartielafstand is IQR( IKR)=Q 3−Q 1 waarbij het derde kwartiel (Q3) overeenkomt
met P75 en het eerste kwartiel (Q1) overeenkomt met P25
o De interkwartielafstand is gebaseerd op percentielen. Het Pde percentiel is de waarde
waarvoor geldt dat p procent van de waarnemingen kleiner is, of er gelijk aan is.
Bijvoorbeeld: de waarde waarvoor de helft van alle waarnemingen kleiner of gelijk is, heeft
het 50ste percentiel. Deze wordt genoteerd als P50 en wordt ook wel de mediaan genoemd.
Mogelijke uitschieters:
o Q 1−1,5∗IKA
o Q 3+1,5∗IKA
Er wordt gesproken van mogelijke uitschieters omdat:
Deze mogelijke uitschieters ook gewoon een normale waarde kunnen zijn en niet
perse een uitschieter hoeven te zijn
Het ook te maken heeft met de werkelijke verdeling. Als ze er buiten vallen, kan
het zo zijn dat ze niet heel erg buiten de normale dataverdeling vallen en dus niet
perse een echte uitschieter zijn.
Boxplots
Boxplots zijn gebaseerd op de kwartielen en deze kwartielen kan
je ook precies aflezen.
In deze boxplot zie je dat er heel veel mensen zijn met lage
scores. Het eerste kwartiel ligt namelijk al bij de minimumscore
en het tweede kwartiel (mediaan) ligt ook vrij laag. Tussen het
tweede en derde kwartiel ligt veel meer spreiding dan tussen het
eerste en tweede kwartiel.
Deze boxplot is rechts scheef verdeeld (de staart ligt rechts, de
spreiding is vooral rechts)
Bij een normale verdeling wordt er voorkeur gegeven aan het gemiddelde
Op basis van het gemiddelde kan je ook een andere spreidingsmaat kunnen berekenen.
Deviatie
Deviatie: x−x
4
, De deviatie houdt in dat je het gemiddelde uitrekent van de steekproef en dat voor elke
geobserveerde waarde gaat kijken wat de afstand is tot het gemiddelde.
o De waarde die geobserveerd is (de x van elke persoon) – het gemiddelde van de steekproef
(x)
o Als de deviatie negatief is, betekent dit dat de observatie onder het gemiddelde ligt
o Als de deviatie positief is, betekent dit dat de observatie boven het gemiddelde ligt
Als je alle deviaties bij elkaar gaat optellen, komt daar altijd 0 uit. Dit komt doordat de
mintekens worden weggestreept van de plustekens. Dit komt omdat het gemiddelde
het ‘balanspunt’ is.
o Om deze reden moet je de standaarddeviaties gaan kwadrateren. Op deze manier
worden de mintekens weggewerkt. Dus x−x wordt x−x 2
De uitkomsten van x−x 2 tel je bij elkaar op (= 15) en wordt de
kwadratensom genoemd. Deze kwadratensom deel je door n−1
Wat je nu uitrekent is de variantie.
Variantie
De variantie berekenen (zie ook hiervoor):
o Bereken de deviaties
o Kwadrateer de deviaties
o Sommeer de gekwadrateerde deviaties
o Deel de som door n-1
Als je de variantie gebruikt, gebruik je niet meer dezelfde meetschaal als de oorspronkelijke
variabele. Dit komt doordat je gaat kwadrateren. Hierdoor is het heel lastig te interpreteren wat
de variantie betekent. Om deze reden wordt er gebruik gemaakt van de standaarddeviatie.
Standaarddeviatie
De standaarddeviatie (s) is eigenlijk precies hetzelfde als de variantie alleen wordt er uit
de variantie de wortel uitgetrokken. Hierdoor wordt het kwadrateren ongedaan
gemaakt.
o Eerst moet je het dus kwadrateren omdat je anders een gemiddelde van 0 krijgt, maar
uiteindelijk maak je dat kwadrateren ongedaan, zodat je het makkelijker kan interpreteren.
Dan krijg je dus de standaarddeviatie.
Empirische regel
Als je weet dat de verdeling normaal verdeelt is kan je de empirische regel gebruiken om te
bepalen hoeveel procent van jou steekproef binnen bepaalde grenzen liggen. Je kan dan zeggen:
o 68% van alle waarden ligt binnen x ± 1 s , dus binnen één standaarddeviatie
o 95% van alle waarden ligt binnen x ± 2 s , dus binnen twee standaarddeviaties
o Bijna alle waarden ligt binnen x ± 3 s , dus binnen drie standaarddeviaties
Zodra de verdeling niet meer perfect normaal (symmetrisch) is, wijken de percentages
af
Hierdoor kan je dus ook potentiële uitschieters identificeren. Alles wat binnen die drie
standaarddeviaties ligt wordt nog ‘normaal’ gevonden en alles wat hierbuiten ligt zijn
potentiële uitschieters.
De empirische regel mag alleen gebruikt worden bij normaalverdelingen
Z-score (of standaardscore)
Hiermee kan je heel precies uitrekenen hoeveel standaarddeviaties een score van
het gemiddelde ligt.
o Je neemt de waarde die je hebt geobserveerd, hier trek je het gemiddelde van af
en dit deel je door de standaarddeviatie.
5
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper terryrutte. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor $10.35. Je zit daarna nergens aan vast.