Week 1
1.1Data
Een statistische analyse begint met een dataset. We stellen een dataset samen
door eerst te bepalen welke zaken er onderzocht moeten worden. Voor elk geval
moet er informatie gewonnen worden. Dit worden variabelen genoemd.
Cases De onderzoeksobjecten/individuen die in een
(onderzoeksobjecten) dataset beschreven worden.
Label Speciale variabele die in sommige datasets
gebruikt wordt om verschillende
onderzoeksobjecten te onderscheiden.
Variabele Een karakter van een onderzoeksobject.
Bijvoorbeeld leeftijd, kleur, woonplaats.
Een categoriale variabele plaatst een onderzoeksobject in één of meerdere
groepen of categorieën. Een kwantitatieve variabele neemt numerieke waarden
aan (uitgedrukt in getallen, zoals leeftijd, lengte, prijs) waardoor rekenkundige
bewerkingen zoals optellen en gemiddeldes berekenen zinvol zijn.
Een label voor de onderzoeksobjecten moet zorgvuldig gekozen worden. Een
spreadsheet (bijvoorbeeld Excel) is een handig hulpmiddel om data in te
verwerken. Een ander belangrijk deel van het beschrijven van kwantitatieve
variabelen is de meeteenheid.
Belangrijkste kenmerken van een dataset
Wanneer je onderzoek uitvoert is het belangrijk om jezelf de volgende vragen te
stellen:
1. Wie? Welke onderzoeksobjecten beschrijven de data. Hoeveel
onderzoeksobjecten bevat de dataset?
2. Wat? Hoeveel variabelen bevat de data? Wat zijn de exacte definities van
deze data? Wat zijn de meeteenheden (euro’s, dollars, meters, centimeter)
van elke kwantitatieve variabele?
3. Waarom? Wat is het doel van het onderzoek?
Vaak zijn variabelen simpel te begrijpen. Bijvoorbeeld lengte in centimeters,
studietijd in minuten, gewicht in kilo’s, etc. Soms zijn er speciale instrumenten
nodig om variabelen in kaart te brengen. Zorg ervoor dat elke variabele meet
waar je het voor nodig hebt.
Samenvatting 1.1
Een dataset bestaat uit onderzoeksobjecten. Bijvoorbeeld deelnemers,
bedrijven, onderwerpen.
De data geeft waarden van variabelen. Een variabele is een kenmerk van
een onderzoeksobject.
Een label gebruik je om de onderzoeksobjecten te identificeren.
Bijvoorbeeld nummer 1 voor deelnemer 1.
1
, Sommige variabelen zijn categoriaal, andere zijn kwantitatief. Een
voorbeeld van categoriaal is man/vrouw. Gewicht, lengte, salaris etc zijn
kwantitatief (getallen).
De belangrijkste kenmerken van een dataset zijn de antwoorden op de
vragen: wie? wat? en waarom?
1.2 Displaying Distributions with Graphs (Verdelingen weergeven met grafieken)
Statistische hulpmiddelen en ideeën helpen ons om data te onderzoeken en de
belangrijkste kenmerken te beschrijven. Deze manier van onderzoek wordt
verkennende gegevensanalyse genoemd. We beschrijven wat we zien.
Begin met het onderzoeken van elke losse variabele. Kijk daarna naar de relaties
tussen variabelen. Begin met een grafiek of grafieken. Voeg daarna numerieke
samenvattingen of specifieke aspecten toe bij de data.
Categorische variabelen: staafdiagrammen en cirkeldiagrammen
De waarden van een categorische variabele zijn labels voor de categorieën, als
‘ja’ en ‘nee’. De verdeling van een categoriale variabele somt de categorieën en
het aantal/procent van de onderzoeksobjecten dat in elke categorie valt. Een
alternatief voor percentage is verhouding.
De categorieën in een staafdiagram kun je in elke volgorde zetten. Wanneer je
een cirkeldiagram gebruikt, wordt er in procenten uitgedrukt. Zorg ervoor dat het
totaal altijd 100% is.
Kwantitatieve variabelen: Stam-bladdiagram en histogrammen
Een stemplot (afbeelding links) geeft een snel beeld van de vorm van een
verdeling, omdat de numerieke waarden in de grafiek te zien zijn.
Stemplot maken:
1. Splits de getallen op in een stam en een blad.
2. De stam zijn de tientallen.
3. Het blad is het laatste cijfer.
4. Alle bladeren die bij dezelfde stam horen, schrijf je naast elkaar.
13: Stam 1, blad 3
Een stemplot laat de werkelijke waarden van de observaties zien. Een histogram
(afbeelding rechts) doet dat niet. Een histogram laat alleen een bepaald
percentage of aantal zien van de observaties in elke klas. Voor kleine datasets is
2
,het aan te raden een stemplot te gebruiken en geen histogram. Een histogram is
wel te gebruiken wanneer het niet handig is om individuele observaties te
publiceren.
Verdelingen onderzoeken
Wanneer je een grafiek hebt gemaakt, is het raadzaam om altijd te vragen ‘wat
zie ik?’. Bepaal de volgende zaken:
Algemeen patroon en afwijkingen van het patroon.
Beschrijf het algemene patroon aan de hand van de vorm, centrum
(midden) en de spreiding.
Een belangrijke afwijking is een uitschieter, die buiten het patroon valt.
Het middenpunt is het punt waar de helft van de waarden onder ligt en de helft
van de waarden boven ligt. De spreiding van een verdeling kan beschreven
worden door te kijken naar de laagste waarde en de hoogste waarde.
De waarde die het vaakst voorkomt is de modus. Wanneer er maar één hoge piek
is, wordt dit unimodaal genoemd. Er is dan dus één waarde die het vaakst
voorkomt.
Omgaan met uitschieters
Uitschieters zijn vaak makkelijk te zien omdat ze apart staan van het algemene
patroon van een histogram of een stemplot. Een uitschieter kan veroorzaakt
worden door een fout in het verwerven van data of door andere ongewone
omstandigheden.
Tijdgrafieken
Wanneer data is verzameld op verschillende momenten, is het handig om de
observaties in chronologische volgorde te weergeven. De tijd staat altijd
horizontaal en de variabele staat verticaal.
Tijdgrafiek
Samenvatting 1.2
Verkennende data-analyse maakt gebruik van grafieken en numerieke
samenvattingen om de variabelen uit een dataset te beschrijven en de
relaties tussen variabelen te beschrijven.
De verdeling van een variabele vertelt welke waarde het aanneemt en hoe
vaak deze waarden voorkomen.
Staafgrafieken en cirkeldiagrammen laten de verdeling van categorische
variabelen zien. Deze grafieken gebruiken aantallen en procenten bij de
categorieën.
3
, Stemplots en histogrammen laten de verdeling zien van kwantitatieve
variabelen. Een stemplot bestaat uit een stam en een blad. Een histogram
toont aantallen of percentages.
Kijk naar vorm, middenpunt, spreiding en afwijkingen van de waarden.
Een uitschieter volgt niet het algemene patroon van een verdeling.
Wanneer je onderzoek over langere tijd doet, kun je een tijdgrafiek maken.
1.3 Verdelingen beschrijven met getallen
Je kunt data-analyse beginnen met grafieken, maar het inzetten van numerieke
samenvattingen zorgt ervoor dat de analyse meer specifiek wordt.
De mediaan
De mediaan is het middelpunt. De helft van de waarden ligt boven de mediaan
en de helft van de waarden ligt onder de mediaan. Er is een speciale manier om
de mediaan te vinden:
1. Zet alle waarden van klein naar groot.
2. Als het aantal waarden oneven is, dan is het middelste getal de mediaan.
Mediaan= aantal waarden +1 gedeeld door 2. (n+1)/2
3. Als het aantal waarden even is, dan is de mediaan het gemiddelde van de
twee middelste waarden. De locatie van de mediaan is opnieuw (n+1)/2.
De formule geeft niet direct de waarde van de mediaan, maar de plaats
waar de mediaan te vinden is.
Het vijfcijferige overzicht en boxplots
Het vijfcijferige overzicht van een reeks waarnemingen bestaat uit het minimum
(laagste waarde), Q1 (eerste kwartiel), mediaan, Q3 (derde kwartiel) en het
maximum (hoogste waarde).
Q1= (n+1)/4
Q3 = 3*(n+1)/4
Een boxplot is een grafiek van het vijfcijferige overzicht:
Een centrale box tussen Q1 en Q3;
Een lijn in de box die de mediaan M markeert;
Lijnen vanaf de box naar de kleinste en de hoogste waarde.
Boxplot
Wanneer je naar een boxplot kijkt, bepaal je eerst waar je de mediaan ziet. Kijk
daarna naar de spreiding.
De 1,5 x IQR (interkwartielafstand) voor verdachte uitschieters
4