100% tevredenheidsgarantie Direct beschikbaar na je betaling Lees online óf als PDF Geen vaste maandelijkse kosten
logo-home
Samenvatting selectie RUG statistiek €8,39
In winkelwagen

Samenvatting

Samenvatting selectie RUG statistiek

1 beoordeling
 4 keer verkocht

In het jaar 2024 heb ik selectie gedaan voor psychologie aan de RUG. Met deze samenvatting heb ik 93,33% behaald op het onderdeel statistiek. Door veel uitleg, voorbeeldvragen en afbeeldingen heb ik de stof zo duidelijk mogelijk op papier gezet. Aangevuld met (alleen) relevante stof van docent zelf...

[Meer zien]

Voorbeeld 5 van de 11  pagina's

  • 3 februari 2025
  • 11
  • 2024/2025
  • Samenvatting
Alle documenten voor dit vak (31)

1  beoordeling

review-writer-avatar

Door: ditteverbeek • 2 maanden geleden

avatar-seller
Meikevsr
Statistiek
Data
Cases zijn objecten die worden beschreven door een set aan data. Voorbeelden van cases zijn
klanten, leerlingen en deelnemers van een onderzoek. Voor elke case wordt informatie verzameld
over eigenschappen van die case. Deze eigenschappen zijn variabelen. Een label is een speciale
variabele die in sommige datasets wordt gebruikt om onderscheid te maken tussen cases. Elke case
kan een andere waarde hebben op een variabele.
Bijvoorbeeld:
Case: leerling
Variabele: leeftijd (leerling is bijv. 16, 16 is dan de waarde)
Voor variabele ‘schoolniveau’ is een label bijv. VWO of HAVO
Of voor variabele ‘Eindcijfer van een leerling’, zou het label
‘voldoende’ of ‘onvoldoende’ zijn.

Een categorische variabele is een variabele waarvan de
waardes categorisch zijn. Een leerling doet bijv. HAVO of VWO
(categorie). Een kwantitatieve variabele is een variabele met
numerieke waardes. Hier kunnen berekeningen mee worden
gedaan, zoals optellen en gemiddeldes. Bij kwantitatief is het
belangrijk de meeteenheid te vermelden, leeftijd in jaren of
maanden, lengte in cm of mm.

In een dataset kunnen getallen staan bijv: [1,4,7,9,10,12]. In Figuur 1.1
deze set staan 6 getallen, deze getallen heten ook wel
observaties (n).
In een spreadsheat wordt alle informatie uit een dataset weergegeven (zie figuur 1.1).

Bij een dataset wordt vaak achtergrondinformatie gegeven om de dataset te begrijpen. Om data te
bekijken, is het relevant om de volgende vragen te stellen om inzicht te krijgen in de key
characteristics:
1. Wie? Welke cases beschrijft de data en hoe veel cases heeft de data?
2. Wat? Hoeveel variabelen heeft de data? Wat zijn de exacte definities van deze variabelen? Wat zijn
de meeteenheden?
3. Waarom? Wat is het doel van de data? Welke vragen willen we beantwoorden met de data?

Adjusting one variable to create another is het aanpassen van een variabele om een andere te
creëren. Bijvoorbeeld: het gemiddelde cijfer van een school maken vanuit de gemiddelde cijfers van
de leerlingen. Dit kan dan worden vergeleken het gemiddelde cijfer van andere scholen.

Bij het presenteren van resultaten van je statistische berekeningen is het van belang om rekening te
houden met hoe je dit het best kan communiceren naar een algemeen publiek. Er moeten
bijvoorbeeld minder decimalen zijn en je moet je richten op de belangrijke bevindingen.

Verdelingen weergeven met grafieken
Exploratory data analysis helpt ons om de belangrijkste kenmerken van data te beschrijven. Dit
begint met het onderzoeken van elke variabele afzonderlijk en vervolgens het bestuderen van de
relaties tussen de variabelen. We beginnen met grafische weergaven en voegen vervolgens
numerieke samenvattingen toe voor een vollediger begrip. Vaak dient de analyse als een voorspelling
(predictive analystics). Bijvoorbeeld, als Albert Heijn gegevens zou willen gebruiken om te beslissen
waar een nieuwe winkel te openen, zou het bedrijf gegevens van zijn huidige winkels analyseren met
de focus op kenmerken van zeer succesvolle winkels. Als managers een nieuwe locatie met


4

,vergelijkbare kenmerken kunnen vinden, voorspellen ze dat een nieuwe winkel op die locatie succesvol
zal zijn.

Weergave van categorische variabelen
De verdeling van een categorische variabele somt de categorieën (waardes) van de variabele op en
geeft voor elke waarde het aantal, percentage of proportie
van cases die in elke categorie vallen.
Proportie = deel/geheel
Percentage = (deel/geheel) x 100



Figuur 1.2

De verdeling van een categorische variabele kan visueel worden weergegeven aan de hand van een
staafdiagram (bar graph) of taartdiagram (pie chart). Ook hier kan weer onderscheid worden
gemaakt tussen aantal, proportie en percentage per categorie. Bij het maken van een staafdiagram is
het belangrijk om na te denken over de volgorde van het weergeven van de categorieën. Dit kan
bijvoorbeeld met aflopend aantal per categorie. Bij het maken van een taartdiagram moeten alle
categorieën worden meegenomen waar de variabele uit bestaat, omdat de volledige cirkel gelijk is
aan 100%.




Figuur 1.3
Figuur 1.4


Weergave van kwantitatieve variabelen
Een stemplot wordt gebruikt om de vorm van de verdeling van een kwantitatieve variabele weer te
geven. Het werkt het beste als de variabelen hoger dan 0 zijn en als
er niet te veel cases zijn (kleine dataset). Een stemplot bestaat uit
een stem en leaf. Een leaf is altijd 1 cijfer. Bijvoorbeeld: 1356 geeft
stem= 135 en leaf = 6 of 65 geeft stem= 6 en leaf= 5.

Een andere vorm van een stemplot is een back-to-back stemplot.
Hierbij worden 2 relevante verdelingen met elkaar vergeleken. In
figuur 1.6 is de vergelijking tussen maandag en woensdag gegevens
te zien. Een ander voorbeeld is het onderscheid tussen mannen en
vrouwen.
Figuur 1.5
De dataset is hier:
[90,94,84,87,89,85,83,79,72,70,72]



Figuur 1.6
De dataset is hier:
[49,51,56,58,62,63,69,60,60,63,68]

5

,Als een stemplot moet worden aangepast zijn daar 2 manieren voor:
1. Splitting stems = houdt in dat het aantal stems wordt verdubbeld. In figuur 1.7 is te zien dat
bijv. de 2 wordt opgesplitst in de leaf namelijk: <5 en 5
2. Trimming = Trimming is het verwijderen van
de laatste cijfers van observaties om de
dataset te vereenvoudigen of het aantal
stems in een stamdiagram te verminderen.
Bijvoorbeeld: 7,5673201 wordt gebruikt in je
stemplot met stem 7,567320 en stem 1, dan
gebruik je bijvoorbeeld 7,57 met stem 7,5 en
leaf 7.


Andere weergave methoden voor kwantitatief:
▪ Histogrammen: deelt de mogelijke waardes
van de variabele op in categorieën (bijv.
80,90,100 etc.) en voor elke categorie wordt
Figuur 1.7
het aantal of percentage observaties
gegeven aan de hand van de lengte van de categorie (in de
figuur, 100 heeft 10). Het aantal observaties binnen een
categorie in een histogram heet de frequentie (figuur 1.8).
Niet verwarren met een staafdiagram, een staafdiagram is
voor categorieën, zoals soorten fruit, en toont hoeveel in
elke categorie valt. Een histogram is voor continue data,
zoals leeftijd of IQ, en toont hoeveel in elk interval valt.
Daarnaast moet er bij een staafdiagram ruimte zitten
tussen de staven en bij een histogram niet.
Figuur 1.8
Data-analyse
Nadat informatie is verzameld kan je de dataset gaan plotten. Zo krijg je een visuele weergave en zie
je het algehele patroon van de verdeling. In deze verdeling kunnen ook opvallende afwijkingen zijn,
zo’n afwijking heet een outlier en is een score die afwijkt van de rest van de scores. De extreme
waardes van een verdeling zijn de staarten of tails van de verdeling.

Beschrijven van een verdeling wordt gedaan door:
▪ Center: het middelste punt van de verdeling
▪ Spreiding: bereik van de scores, hoogste en laagste waarde.
▪ Vorm:
1. Aantal modes (pieken) van de verdeling. Een verdeling met 1 piek heet unimodal. Met 2
pieken heet bimodal en met 3 pieken trimodal.
2. Symmetrie of skewness (scheefheid) van de verdeling. Als een verdeling exact
symmetrisch is, zijn het gemiddelde en de mediaan precies hetzelfde. Bij een scheve
verdeling ligt het gemiddelde verder in de lange staart dan de mediaan.




Figuur 1.9 Figuur 1.10 Figuur 1.11
Links-scheef Zero skew Rechts-scheef
6

,In een time plot of tijdsgrafiek worden observaties weergegeven
aan de hand van het moment waarop ze zijn gemeten. In figuur 1.12
liggen de hoge zomertemperaturen rond de 80°F en januari is de
koudste maand, iets kouder dan december. Hoewel er een duidelijk
algemeen patroon is, is er een aanzienlijke variatie eromheen, met
een bereik van ongeveer 20°F.



Figuur 1.12
Verdelingen beschrijven met nummers
We kunnen onze gegevensverkenning beginnen met grafieken, maar numerieke samenvattingen
maken onze analyse specifieker.

Measuring center: the mean
Het gemiddelde is de optelsom van de waardes van alle observaties gedeeld door het aantal
observaties.
x ̄ = gemiddelde
x1 … = waarde van observaties
n = aantal observaties
Formule 1.1
1/n = duidt aan dat er een gemiddelde is berekend
 = sigma, de som van…
xi = alle waarden van de observaties (x1 t/m xn)

Measuring center: the median (M)
De mediaan is het middelste punt van de verdeling/dataset. (n+1) / 2. Formule geeft niet de mediaan
zelf maar de locatie ervan.
Bijv. dataset is [14,15,16,17,18], n= 5
n is oneven -> (5+1) / 2 = 3, dus plek 3 en dat is in de dataset 16.

Bijv. dataset is [14,15,16,17], n= 4
n is even -> (4+1) / 2 = 2,5 dus plek 2,5 en dat valt in de dataset tussen 15 en 16 daarom pakken we
het gemiddelde van de twee middelste waarnemingen. Dus (15+16)/ 2 = 15,5. De mediaan is hier
15,5

Measuring spread: quartiles (Q)
Omdat de mediaan de data in tweeën verdeelt, is dit ook wel het 50e percentiel. Kwartielen delen de
data in vieren, waarbij elk deel 25% van de observaties bevat.
Q1 = observaties links van mediaan
Q2 = mediaan
Q3 = observaties rechts van mediaan

Figuur 1.13
Voorbeeld figuur 1.13: n = even
Q1 = mediaan van observaties links dus,
n=3 dus (3+1) /2 = 2 dus plek 2 in Q1 en dat is 4 in de dataset.
Voorbeeld figuur 1.14:
Q3 = mediaan van observaties rechts dus,
n=2 dus (2+1) / 2 = 1,5 dus plek 1,5 rechts van M, dit ligt tussen 9 en
10 -> (9+10) /2 = 9,5 dus Q3 is 9,5
Figuur 1.14
n = oneven




7

, Five-number-summary & boxplots
FNS geeft een snelle weergave van de center en de spreiding:
Minimum-Q1-M-Q3-Maximum

Voorbeeld: [1,4,5,8,9,10]
= 1 - 2,5 – 6,5 – 9,5 - 10
Een visuele representatie van de FNS is een boxplot, ook wel box-and-whisker plot:
Als je naar een boxplot kijkt, zoek dan eerst de mediaan,
die het centrum van de verdeling markeert. Kijk dan naar
de spreiding. De kwartielen tonen de spreiding van de
middelste helft van de gegevens, en de uitersten (de
kleinste en grootste waarnemingen) tonen de spreiding
van de gehele dataset.
Figuur 1.15

De 1,5 × IQR-regel voor vermoedelijke outliers
Door deze IQR regel toe te passen kunnen outliers worden gezocht. Zie formule
1.2 en formule 1.3

Voorbeeld: Formule 1.2
Zoals hierboven te zien, FNS = 1 - 2,5 – 6,5 – 9,5 - 10
IQR = 9,5 – 2,5 = 7
Outlier zoeken Q1 -> 2,5 – 1,5 x 7 = -8, alles lager dan -8 is een outlier in Q1. Er
is hier dus geen outlier omdat het laagste getal in de set 1 is.
Ander voorbeeld: Formule 1.3
Stel je hebt de volgende dataset [31,34,38,41,23,67].
Stap 1: Q1 = 31, Q3 = 41, IQR =10
Stap 2: 1,5 x IQR = 15
Minimale waarde: 31 – 15 = 16
Maximale waarde: 41 + 15 = 56.
Stap 3: 67 is hoger dan 56, dus een verdachte outlier.

Soorten boxplots:
Een modified boxplot gebruikt de vuistregel voor het bepalen van outliers. De eindes van de whiskers
zijn hier niet het maximum en minimum, maar de afstand van 1, 5 × IQR vanaf de kwartielen. Punten
die hierbuiten liggen worden weergegeven als outliers.
Side-by-side boxplots geven meerdere boxplots in dezelfde grafiek weer, zodat verschillende groepen
die op dezelfde variabele zijn gemeten, kunnen worden vergeleken.




Figuur 1.16 Figuur 1.17
Modified boxplot Side-by-side boxplot


8

Dit zijn jouw voordelen als je samenvattingen koopt bij Stuvia:

Bewezen kwaliteit door reviews

Bewezen kwaliteit door reviews

Studenten hebben al meer dan 850.000 samenvattingen beoordeeld. Zo weet jij zeker dat je de beste keuze maakt!

In een paar klikken geregeld

In een paar klikken geregeld

Geen gedoe — betaal gewoon eenmalig met iDeal, creditcard of je Stuvia-tegoed en je bent klaar. Geen abonnement nodig.

Direct to-the-point

Direct to-the-point

Studenten maken samenvattingen voor studenten. Dat betekent: actuele inhoud waar jij écht wat aan hebt. Geen overbodige details!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper Meikevsr. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €8,39. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 69081 samenvattingen verkocht

Opgericht in 2010, al 15 jaar dé plek om samenvattingen te kopen

Begin nu gratis
€8,39  4x  verkocht
  • (1)
In winkelwagen
Toegevoegd