HOOFDSTUK 1: LOOKING AT DATA - DISTRIBUTIONS
1.1 Data
Leerdoelen:
Voorbeelden geven van “cases” in datagegevens.
Identificeren van variabelen in datagegevens.
Demonstreren hoe een label kan worden gebruikt als een variabele in datagegevens.
Identificeren van waarden van een variabele.
Classificeren van variabelen als categorisch of kwantitatief.
Beschrijven van de hoofdkenmerken van datagegevens.
Uitleggen hoe een schatting het resultaat is van het aanpassen van één variabele om een andere
te creëren.
Cases, Labels, Variables and Values
Cases: zijn de objecten die zijn beschreven door datagegeven; (klanten, bedrijven, etc.)
Label: is een speciale variabele die wordt gebruikt in sommige datagegevens om onderscheid te
maken in verschillende cases.
Variabele: een kenmerk van een case.
Values: verschillende cases kunnen verschillende waarden aannemen.
Categorisch en kwantitatieve variabelen
Categorical variable: plaatst een case in één of meerdere groepen of categorieën.
Quantitative variable: geeft numerieke waarden voor rekenkundige bediening, zoals het optellen
en het geven van gemiddelden.
Distribution: vertelt ons welke waarden een variabele heeft en hoe vaak het deze waarden bevat.
- Een geschikte label moet zorgvuldig worden gekozen voor de cases ( v.b. zelfde liedjes).
- Een kwantitatieve variabele (zoals tijd) behoeft speciale aandacht voordat we reken-
kundigheden kunnen uitvoeren ( v.b. tijd omzetten naar minuten of seconden).
Units of measurement: vertelt ons hoe de variabele is gemeten (minuten of seconden)
Hoofdkenmerken van datagegevens:
1) Who?
- Welke cases beschrijft de data?
- Hoeveel cases bevat de data?
2) What?
- Hoeveel variabelen bevat de data?
- Wat zijn de exacte definities van de variabelen?
- Wat zijn de units of measurement voor elke kwantitatieve variabele?
3) Why?
- Welke doel heeft de data?
- Hopen we op het beantwoorden van speciale vragen?
- Willen we conclusies trekken over andere cases dan waar we eigenlijk de data voor hebben?
- Zijn de variabelen die zijn opgenomen bruikbaar voor het bedoelde doel?
Spreadsheet: maak je in excel, erg handig en bruikbaar voor rekenkundigheden.
- Voor spreadsheets en statistische software is het niet toegestaan om spaties te gebruiken
(Exam of Exam_1).
A t/m F: omzetten in cijfers 4 t/m 0: is het verschil even groot tussen de cijfers?
Instruments: meetbare speciale variabelen, voor elke studieapart. ( v.b. formules)
- Weet zeker dat elke variabele écht meet wat je wilt weten, anders misleidende conclusies.
Rate: waarin iets gebeurd/verschijnt beter meetbaar dan optellen gebeurtenissen (gegevens
delen door elkaar).
Adjusting one variable to create another: door het gebruiken van rates creëer je een nieuwe
variabele (of betere).
- Bedenk altijd hoe je het beste je resultaten aan een algemeen publiek gaat communiceren
(geen moeilijk software data presenteren).
1
, 1.2 Displaying Distributions with Graphs
Leerdoelen:
Analyseren van een distributie van een categorische variabele m.b.v een “bar graph”.
Analyseren van een distributie van een categorische variabele m.b.v. een “pie chart”.
Analyseren van een distributie van een kwantitatieve variabele m.b.v. een “stemplot”.
Analyseren van een distributie van een kwantitatieve variabel m.b.v. een “histogram”.
Onderzoeken van een distributie van een kwantitatieve variabele met respect voor het
algehele patroon van data met zijn deviaties.
Identificeren van de vorm, het midden, en de spreiding van de distributie van een
kwantitatieve variabele.
Identificeren en beschrijven van outliers in de distributie van een kwantitatieve variabele.
Gebruiken van een “time plot” om de distributie van een kwantitatieve variabele te beschrijven
dat is gemeten over tijd.
Explanatory data analysis: statische tools en ideeën helpen ons data en hun hoofdaken te
beschrijven. 2 basisstrategieën:
1) Begin met het onderzoeken van elk variabele, dan de studie op de relaties.
2) Begin met grafiek(en), dan toevoegen van numerieke samenvattingen of specifieke aspecten
van de data.
Categorische variabelen: bar graphs and pie charts
Distribution of a categorical variable: geeft de categorieën en ook de frequentie of het
percentage van de cases in elke categorie (online resources).
- Wees zorgvuldig met het beoordelen van een kleine subgroep, zoals “others”!
Bar graph (staafdiagram)
Volgorde categorieën maakt niet uit ( voorkeur hoogste % of alfabetisch), bepaal dit op de
bruikbaarheid voor het onderzoek.
Meer flexibel dan pie charts.
Pie chart (cirkeldiagram)
Alle categorieën moeten 100% vormen.
Kwantitatieve variabelen: stemplots
Ook wel steelbladdiagram
Wekt het beste als alle gegevens > 0.
Hoe maak je die?:
1) Verdeel de “stems” (tientallen) met een verticale streep.
2) Verdeel de “blaadjes” achter de streep.
3) Zet de blaadjes op volgorden.
Back-to-back stemplot: vergelijken van 2 distributies (jongens & meisjes)
2 manieren: split or trim
- Split: één stam met tientallen
- Trim: tientallen verdeeld in 2 groepen o-4 en 5-9.
Histrograms (histrogrammen)
Verdeeld waarde van variabelen in klassen en geeft alleen de frequentie of % van observaties in
klassen weer:
- Klassen altijd met gelijke spreiding
- Voor kleine datasets stemplot!
- Bij grote datasets frequenties.
- Gebruik histogrammen met % om verschillende distributies te vergelijken die verschillende
aantallen observaties hebben.
- Afwegingen maken voor breedte klassen:
1) Skyscraper effect: te weinig klassen.
2