Moore, McCabe & Craig – Introduction to the practice of statistics
Chapter 1 Looking at data - Distributions
Statistiek is de wetenschap van leren van data. Data zijn numerieke of kwalitatieve
beschrijvingen van de objecten die we willen studeren.
1.1 Data
Een analist in statistiek start met een set van data.
Cases: de objecten die beschreven worden bij een reeks data. Zoals klanten of bedrijven.
Label: Een speciale variabele die in sommige gegevensverzamelingen gebruikt wordt, het
moet de verschillende gevallen onderscheiden.
Variabel: karakteristieken van een geval.
Verschillende gevallen kunnen verschillen van de waarden van de variabelen.
Voorbeeld: In Itunes worden er 6 liedjes getoond (cases), ze zijn genummerd van 1 t/m 6.
De nummers onderscheiden de 6 liedjes (label). Daarna zijn nog 5 verschillende columns, de
naam van het lied, de tijd, artiest, album en genre.
Categorische variabel: plaats een object in een of meerdere groepen of categorieën.
Kwantitatieve variabel: neemt numerieke waarden waarvoor rekenkundige bewerkingen,
zoals het toevoegen van het gemiddelde, zinvol is.
De verdeling van een variabele vertelt ons welke waarden er nodig is en hoe vaak het duurt.
Een geschikt label moet zorgvuldig worden gekozen.
Voorbeeld: Meestal wordt er gekozen om op naam van lied te sorteren. Maar als je meer
artiesten hebt die hetzelfde nummer zingen, of dezelfde artiest heeft hetzelfde nummer op
meerdere albums, dan zal de naam van het lied niet een uniek label zijn van de nummer in je
afspeellijst.
Een kwantitatieve variabele vraagt speciale aandacht voordat er gerekend kan worden
met de waarden.
Voorbeeld: het eerst nummer duurt 3:32. Om te kunnen rekenen met deze waarde, moet je
eerst al de waarden omrekenen naar een eenheid (bijvoorbeeld 212 seconden).
Units of measurement (meeteenheden): een belangrijk onderdeel van de beschrijving van
een kwantitatieve variabel. Refereert naar de seconden of minuten of de lengte van een
persoon.
,Belangrijkste kenmerken van een data set:
Je hebt altijd achtergrond informatie nodig om dat data te kunnen begrijpen. Stel jezelf de
volgende vragen als je een statistische studie begint:
1. Wie? Welke zaak omschrijft de data? Hoeveel zaken bevat de dataset?
2. Wat? Hoeveel variabelen bevat de dataset? Wat zijn de exacte definities van deze
variabelen? Wat zijn de meeteenheden van de kwantitatieve variabelen?
3. Waarom? Welk doel heeft de data? Willen we een specifieke vraag beantwoorden?
Willen we een conclusie maken voor een andere casus dan waar we nu data voor
hebben? Zijn de variabelen geschikt voor het doel?
Spreadsheet (Excel): Ze zijn erg nuttig voor simpele berekeningen. Je kan een formule
intypen en je hebt dezelfde berekening voor elke rij.
Bij het maken van spreadsheets voor eventuele gebruik met statistische software, is
het beter om spaties in namen van variabelen te voorkomen. Je kan ook _ neerzetten waar
je normaal een spatie zou doen. Bijvoorbeeld exam_1, exam_2
Voorbeeld 1: Je kan een lijst maken van leerlingen, daarbij kan er gekeken worden naar de
verschillende examens die gemaakt zijn en daaruit kan een cijfer berekent worden (zie figuur
1.2). Er zijn 8 variabelen (label van studenten en cijfers van de verschillende vakken)
Instrumenten: Elke discipline gebruikt zijn eigen instrumenten om de variabelen in de studie
te weergeven. Om goed te worden in je vak moet je weten welke variabelen belangrijk zijn
en hoe je deze het beste kan meten.
Ben er zeker van dat elke variabele echt meet wat je wilt. Een slechte keuze van
variabelen kan leiden tot misleidende conclusies. Vaak geeft de koers waarmee iets gebeurt
een zinvoller inzicht, dan een eenvoudige telling van gebeurtenissen.
Een variabel aanpassen om een andere variabelen te creëren: Je kan bijvoorbeeld de
nummer veranderen, dan krijg je een andere variabel. Bijv. Op School A zitten 1000 1e jaars,
800 in het 6e jaar. Dan doe je 800:1000= 0.80. Op school B zitten 2000 1e jaars, 1200 6e jaars,
1200:2000=0,60. Hiermee bereken je het slagingspercentage van 2 scholen.
,1.2 Displaying Distributions with Graphs
Exploratory data analysis: Het beschrijven van de belangrijkste kenmerken van de gegevens,
door middel van statistieke tools en ideeën. Er zijn 2 manieren voor:
1. Begin met het onderzoeken elke variabel apart. Daarna kan je de relatie tussen de
verschillende variabelen bestuderen.
2. Begin met een grafiek of grafieken. Voeg dan numerieke samenvattingen of
specifieke aspecten van de data toe.
Categorical variables: bar graphs and pie tarts
De verdeling van een categorische variabel: hierin staan de categorieën en het geeft ofwel
de telling of het percentage van gevallen die in die categorie vallen.
Het kan zo zijn dat je bijvoorbeeld anders hebt staan in een onderzoek, hier zijn veel
verschillende antwoorden op mogelijk. Je moet voorzichtig zijn met conclusies trekken
hierbij. Je wil niet een belangrijk informatie in de gegevens verdoezelen door het
combineren van gegevens op deze manier.
Grafieken worden gebruikt om een duidelijk beeld te geven over de informatie en andere
karakteristieken van de data. Er zijn 2 soorten grafieken:
- Staafdiagram: is flexibeler dan de taartdiagram.
- Taartdiagram
Je moet altijd rekening houden met de beste manier om de waarden van de
categorische variabele in een staafdiagram te weergeven.
Bij een taartdiagram moet je alle categorieën weergeven, anders is de taart niet heel.
Quantitative variables: stemplots (steel en blad diagram)
Een steel en blad diagram geeft snel een beeld weer van de vorm van een verdeling, terwijl
ook de feitelijke numerieke waarden in de grafiek staan. Ze werken het beste voor een klein
aantal waarnemingen die allemaal grote zijn dan 0.
Hoe maak je een steel en blad diagram?
1. Scheid elke observatie in een steel bestaande uit alle cijfer en eindig met een blad.
Stelen mogen zoveel mogelijk cijfers bevatten, maar elk blad bevat alleen 1 cijfer.
2. Schrijf de stelen verticaal op met het laagste cijfer bovenaan, teken daarna een
verticale lijn aan de rechterkant van de cijfers.
3. Schrijf elk blad aan de rechterkant van de lijn, de cijfers oplopend vanaf de stam.
voorbeeld steel-blad diagram.
Wanneer je twee verdelingen wil vergelijken, kan je een back-to-back stemplot gebruiken.
Dan heb je blad aan beide kanten van de steel.
, Er zijn twee modificaties van de basis stemplot dat hulpzaam kan zijn in verschillende
situaties. Je kan het aantal nummers van de steel verdubbelen door de tak in tweeën te
splitsen: een blad van 0-4 en het andere blad van 5-9 bijvoorbeeld. Wanneer de
geobserveerde waarden veel cijfers bevatten, kun je het beste de nummers trimmen
(kinppen) door de laatste cijfers te verwijderen.
Histograms (kolomdiagram)
Een histogram breekt het bereik van de waarden van een variabele in klassen en geeft alleen
het aantal of het percentage van de waarnemingen die in elke klasse vallen weer. De klassen
moeten altijd gelijk zijn.
Maak gebruik van een histogram van percentages voor het vergelijken van verschillende
verdelingen met verschillende observaties.
Hoe maak je een histogram:
1. Verdeel de reeks data in gelijke klassen. Bijvoorbeeld 75-85, 85-95 etc.
2. Tel de nummers van elke klasse, deze telling heet frequentie. Maak daarna een
frequentie tabel.
3. teken de histogram. Eerst de horizontale as (the variabelen schaal), daarna de
verticale as (telling/ frequentie).
Data analyse in actie
De uiterste waarden van een verdeling staan aan het uiteinde van de verdeling. De hoogste
waarden staan in het bovenste of rechter uiteinde, en de laagste waarden in de beneden of
linker uiteinde.
- Wanneer je de achtergrond kent van je data (cases, variables, units of
measurements), moet je als eerste de data structureren.
- Als je naar de gestructureerde data kijkt, kijk dan naar een patroon en voor
opvallende afwijkingen.
Behandelen van een verdeling:
- Kijk in grafieken naar patronen en opvallende afwijkingen van deze patronen.
- Je kan de patronen beschrijven in vorm, center en verspreiding.
- Een belangrijke afwijking is een uitschieter.
Shape/vorm beschrijven:
Modes: de verdeling heeft meerder pieken
Unimodel: de verdeling heeft 1 grote piek
Symmetric: symmetrisch beeld van de verdeling.
Skewed to the right: rechter uiteinde is veel langer dan de linker uiteinde.
Uitschieters zijn observaties die buiten het gewone patroon vallen. Kijk altijd naar de
uitschieters en probeer deze te verklaren.
Een tijd plot: Wanneer opmerkingen over een variabele worden genomen na verloop van
tijd. De tijd wordt horizontaal weergegeven, de waarden van de variabel verticaal. Je kan
dan de veranderingen over tijd zien.