SAMENVATTING STATISTIEK II
HOOFDSTUK 0: PROLEGOMA
0.1 STATISTIEK, PSYCHOMETRIE & METHODOLOGIE
• Methodologie: samenstelling van steekproef en kiezen onderzoeksdesign
• Psychometrie: meten van variabelen
• Statistiek: data analyseren en onderzoeksvraag beantwoorden
à Beschrijvende statistiek: gegevens ordenen, presenteren, samenvatten, beschrijven
à Inductieve statistiek: observaties (op steekproefniveau) veralgemenen naar de
populatie
0.2 VARIABELEN
Variabele= eigenschap die bij de elementen vd populatie/steekproef varieert, deze
variabele is:
• Numeriek of niet numeriek (keuze onderzoeker) vb. geslacht – man/vrouw of 0/1
• Continu (als er tussen twee waarden een derde waarde ligt) of discreet (intrinsiek
ad variabele) vb. continu= centimeters VS discreet = loon
• Variabele wordt aangeduid met een hoofdletter vb. X of Y
• Waarnemingen vd variabele worden aangeduid met de overeenkomstige kleine
letter vb. x of y
• De successieve waarnemingen van een variabele worden aangeduid met een
kleine letter + een cijfer vb. x1, x2…xn (n= steekproefgrootte)
0.3 MEETNIVEAUS EN ZINVOLHEID
1. Absoluut: vast nulpunt, meeteenheid & discrete variabelen vb. mensen in de aula
– variabele gemeten door objecten te tellen
2. Ratio: vast nulpunt, gekozen meeteenheid (vb. lengte in meter) & continue
variabele vb. leeftijd, lengte…
3. Interval: gekozen nulpunt, gekozen meeteenheid & continue variabelen vb.
temperatuur
à Metrische of kwantitatieve niveaus: bewerkingen zijn (meestal) zinvol
4. Ordinaal: geen definieerbare meeteenheid, wel ordening vb. medailles: brons,
zilver, goud of Likert à variabele kan continu of discreet zijn! Vb. continu: tussen
niet akkoord en neutraal zit variatie
5. Nominaal: geen definieerbare meeteenheid en geen ordening vb. haarkleur
à Categorische en kwalitatieve niveaus: bewerkingen zijn zinloos
Zinvolheid: waarheidswaarde onafhankelijk van de gebruikte meetschaal dwz juiste
bewering in de ene schaal blijft juist in de andere schaal & fout in ene blijft fout in andere
1
,HOOFDSTUK 1: DATA MANIPULATIE
1.1 DATA IN R
Een vector= reeks objecten dat als één samengesteld object door R wordt beschouwd
à Functie: c ()
à vb. leeftijd <- c (18, 22, 17, 19, 19)
Met vectoren kan je vervolgens deze bewerkingen uitvoeren:
• Gemiddelde berekenen: mean (naamvector)
• Lengte van de vector: length (naamvector)
• Kleinste waarde: min (naamvector)
• Grootste waarde: max (naamvector)
• Mediaan berekenen: median (naamvector)
• Bepaalde waarden uit vector oproepen: naamvector [nummer]
Een string= reeks tekens vb. Anna, Meike, Fara, Femke maar ook vb. aulanummers 2, 4
etc.
à String zijn betekenisloos voor R en moeten tussen haakjes worden ingegeven
à Om getallen die niet numeriek van aard zijn in R in te geven heb je 2 opties:
1) Haakjes: aulanummer <- (“2”, “4’)
2) Functie factor: aulanummer <- (c (2, 4)
à Bij beide functies laat je R weten dat de getallen als niet numeriek moeten worden
beschouwd, de factor functie is tijdbesparend bij grotere datasets
à Bij nominale variabelen is een factor aanmaken genoeg maar bij ordinaal niet omdat
er hier wel een ordening in zit waardoor we gebruiken maken van ‘levels’ en ‘ordered’
Factoren bij ordinale variabelen: 3 functies nodig
1) Factor (c ()) -> maakt een factor met ingevoegde objecten
2) Levels = c () -> aantal mogelijke categorieën van de factor in oplopende
volgorde
3) Ordered = TRUE -> zorgt ervoor dat bovenstaande volgorde wordt opgenomen
(zorgt bij output voor kleiner dan tekentjes tussen de levels)
4) Voorbeeld: < uitslag <- factor ( c(“brons”, “goud”, “zilver”, “brons”, “brons”,
“zilver”), levels= c (“brons”, “zilver”, “goud”), ordered= TRUE)
Data frame= verzameling van losse vectoren in een steekproef (laat R weten dat de 1e
waarde van elke vector samen hoort en zo voor elke waarde)
à Commando: data.frame (naam van vectoren die je wil toevoegen)
à Bij oproepen van het dataframe krijg je een tabel waarbij R aan elk proefpersoon een
nummer en bijhorende score per meting (per vector) heeft toegekend
à Oproepen van één vector (of kolom) uit het dataframe met commando:
naamdataframe$naamvector
Dimensies= grootte van het dataframe met commando: dim (naamdataframe)
à Als output krijg je twee cijfers: steekproefgrootte eerst & aantal variabelen als tweede
2
,à Alternatief voor steekproefgrootte: length (naamdataframe$naamvector)
= De lengte van een vector naar keuze uit steekproef = het aantal metingen van
die vector = het aantal proefpersonen = de steekproefgrootte
Bestanden in R:
• .csv bestand= bestand met gegevens (vaak aangemaakt in excel of SPSS)
• .R bestand= bestand met commando’s (script)
• Commando write.csv om dataframe op te slaan
• Commando read.csv (file= “naambestand”) om dataframe in te lezen
à LET OP: na het inlezen van een .csv bestand is het noodzakelijk om
meetniveaus aan te geven dmv aanmaken van de relevante factoren (want deze
info gaat verloren bij het opslaan, dus dit zijn betekenisloze strings voor R)
1.2 DE DATA IN EXCEL
Databestanden worden vaak aangemaakt in Excel of SPSS omdat dit eenvoudiger is dan
in R, de aangemaakte databestanden kan je vervolgens opslaan en inlezen in R:
Voor Excel:
• Opslaan van het bestand als .csv à “save as” à “Comma Seperated Values” als
format
• Kiezen van de juiste working directory in R waar het .csv bestand is opgeslaan
• Inlezen van juiste bestand met read.csv
à LET OP: als de versie van Excel die je gebruikt, (komma) in de plaats van. (punt)
moet je extra commando in R toevoegen à dec= “,”
1.3 DATA IN SPSS
Stuk aandachtig doorlezen in boek!
1.4 GEÏMPORTEERDE DATA EN MEETNIVEAUS
NUMERIEKE VARIABELEN
• Geïmporteerde numerieke variabelen worden door R automatisch als ratio of
interval beschouwd à expliciet aan R laten weten indien variabele ordinaal
(factor, levels, ordered) of nominaal (factor)
NIET- NUMERIEKE VARIABELEN
• Geïmporteerde niet numerieke variabelen worden door R automatisch als strings
zonder betekenis beschouwd à expliciet aan R laten weten indien variabele
ordinaal of nominaal is
1.5 HET CODEBOEK
Stuk aandachtig doorlezen in boek!
3
, HOOFDSTUK 2: BESCHRIJVENDE STATISTIEK
2.1 ORDENINGSTECHNIEKEN
Frequentieverdeling van een bestand: samenvattend overzicht van de frequenties van de
waarden van waargenomen data
à Commando: table (naamdatabestand$naamvariabele)
Frequenties= aantal keren dat een bepaalde variabele voorkomt
Relatieve frequentieverdeling= frequentieverdeling/ steekproefgrootte
à Commando: table (naamdatabestand$naamvariabele)/ dim
(naamdatabestand) [1]
à [1] want de 1e waarde van de dimensies= steekproefgrootte
à Alternatief commando: prop.table (table(naamdatabestand$naamvariabele)
Bivariate frequentieverdeling= frequentieverdeling van twee variabelen (frequenties of
voorkomen van twee variabelen in combinatie met elkaar
à Commando: table (naam van de twee variabelen en een komma ertussen)
2.2 GRAFISCHE VOORSTELLINGEN
1) Cirkeldiagram: geschikt voor nominale variabelen
• Functie pie met twee argumenten
1. x= vector met de frequenties of proporties
2. Labels= vector met de namen van de categorieën
à > pie (x= c (10, 18, 2), labels = c (“ped”, “psy”, “soc”))
• Alternatief commando: pie (table (naamdatabestand$naamvariabele)) zelfde
output want tabel= twee vectoren)
2) Lijn- of staafdiagram: geschikt voor discrete variabelen (eindig aantal
mogelijkheden)
• Functie barplot met twee argumenten:
1. Vector met de waarden van de variabele
2. Vector met corresponderende frequenties
• Alternatief commando: barplot (table (naamdatabestand$naamvariabele)
3) Histogram: geschikt voor continue variabelen (ratio of interval meetniveau)
• Functie hist met maar één argument namelijk lijst met scores
à hist (x= naamdatabestand$naamvariabele)
• Met het extra argument break voor aantal klassen)
à hist (x= naamdatabestand$naamvariabele, breaks= x)
à Verschil tussen een staafdiagram & een histogram: een staafdiagram heeft aparte
staven die elkaar niet raken, een histogram representeert een parabool – de balken raken
elkaar
4) Spreidingsdiagram: geschikt voor bivariate frequentieverdelingen van ratio – of
interval meetniveau
4
HOOFDSTUK 0: PROLEGOMA
0.1 STATISTIEK, PSYCHOMETRIE & METHODOLOGIE
• Methodologie: samenstelling van steekproef en kiezen onderzoeksdesign
• Psychometrie: meten van variabelen
• Statistiek: data analyseren en onderzoeksvraag beantwoorden
à Beschrijvende statistiek: gegevens ordenen, presenteren, samenvatten, beschrijven
à Inductieve statistiek: observaties (op steekproefniveau) veralgemenen naar de
populatie
0.2 VARIABELEN
Variabele= eigenschap die bij de elementen vd populatie/steekproef varieert, deze
variabele is:
• Numeriek of niet numeriek (keuze onderzoeker) vb. geslacht – man/vrouw of 0/1
• Continu (als er tussen twee waarden een derde waarde ligt) of discreet (intrinsiek
ad variabele) vb. continu= centimeters VS discreet = loon
• Variabele wordt aangeduid met een hoofdletter vb. X of Y
• Waarnemingen vd variabele worden aangeduid met de overeenkomstige kleine
letter vb. x of y
• De successieve waarnemingen van een variabele worden aangeduid met een
kleine letter + een cijfer vb. x1, x2…xn (n= steekproefgrootte)
0.3 MEETNIVEAUS EN ZINVOLHEID
1. Absoluut: vast nulpunt, meeteenheid & discrete variabelen vb. mensen in de aula
– variabele gemeten door objecten te tellen
2. Ratio: vast nulpunt, gekozen meeteenheid (vb. lengte in meter) & continue
variabele vb. leeftijd, lengte…
3. Interval: gekozen nulpunt, gekozen meeteenheid & continue variabelen vb.
temperatuur
à Metrische of kwantitatieve niveaus: bewerkingen zijn (meestal) zinvol
4. Ordinaal: geen definieerbare meeteenheid, wel ordening vb. medailles: brons,
zilver, goud of Likert à variabele kan continu of discreet zijn! Vb. continu: tussen
niet akkoord en neutraal zit variatie
5. Nominaal: geen definieerbare meeteenheid en geen ordening vb. haarkleur
à Categorische en kwalitatieve niveaus: bewerkingen zijn zinloos
Zinvolheid: waarheidswaarde onafhankelijk van de gebruikte meetschaal dwz juiste
bewering in de ene schaal blijft juist in de andere schaal & fout in ene blijft fout in andere
1
,HOOFDSTUK 1: DATA MANIPULATIE
1.1 DATA IN R
Een vector= reeks objecten dat als één samengesteld object door R wordt beschouwd
à Functie: c ()
à vb. leeftijd <- c (18, 22, 17, 19, 19)
Met vectoren kan je vervolgens deze bewerkingen uitvoeren:
• Gemiddelde berekenen: mean (naamvector)
• Lengte van de vector: length (naamvector)
• Kleinste waarde: min (naamvector)
• Grootste waarde: max (naamvector)
• Mediaan berekenen: median (naamvector)
• Bepaalde waarden uit vector oproepen: naamvector [nummer]
Een string= reeks tekens vb. Anna, Meike, Fara, Femke maar ook vb. aulanummers 2, 4
etc.
à String zijn betekenisloos voor R en moeten tussen haakjes worden ingegeven
à Om getallen die niet numeriek van aard zijn in R in te geven heb je 2 opties:
1) Haakjes: aulanummer <- (“2”, “4’)
2) Functie factor: aulanummer <- (c (2, 4)
à Bij beide functies laat je R weten dat de getallen als niet numeriek moeten worden
beschouwd, de factor functie is tijdbesparend bij grotere datasets
à Bij nominale variabelen is een factor aanmaken genoeg maar bij ordinaal niet omdat
er hier wel een ordening in zit waardoor we gebruiken maken van ‘levels’ en ‘ordered’
Factoren bij ordinale variabelen: 3 functies nodig
1) Factor (c ()) -> maakt een factor met ingevoegde objecten
2) Levels = c () -> aantal mogelijke categorieën van de factor in oplopende
volgorde
3) Ordered = TRUE -> zorgt ervoor dat bovenstaande volgorde wordt opgenomen
(zorgt bij output voor kleiner dan tekentjes tussen de levels)
4) Voorbeeld: < uitslag <- factor ( c(“brons”, “goud”, “zilver”, “brons”, “brons”,
“zilver”), levels= c (“brons”, “zilver”, “goud”), ordered= TRUE)
Data frame= verzameling van losse vectoren in een steekproef (laat R weten dat de 1e
waarde van elke vector samen hoort en zo voor elke waarde)
à Commando: data.frame (naam van vectoren die je wil toevoegen)
à Bij oproepen van het dataframe krijg je een tabel waarbij R aan elk proefpersoon een
nummer en bijhorende score per meting (per vector) heeft toegekend
à Oproepen van één vector (of kolom) uit het dataframe met commando:
naamdataframe$naamvector
Dimensies= grootte van het dataframe met commando: dim (naamdataframe)
à Als output krijg je twee cijfers: steekproefgrootte eerst & aantal variabelen als tweede
2
,à Alternatief voor steekproefgrootte: length (naamdataframe$naamvector)
= De lengte van een vector naar keuze uit steekproef = het aantal metingen van
die vector = het aantal proefpersonen = de steekproefgrootte
Bestanden in R:
• .csv bestand= bestand met gegevens (vaak aangemaakt in excel of SPSS)
• .R bestand= bestand met commando’s (script)
• Commando write.csv om dataframe op te slaan
• Commando read.csv (file= “naambestand”) om dataframe in te lezen
à LET OP: na het inlezen van een .csv bestand is het noodzakelijk om
meetniveaus aan te geven dmv aanmaken van de relevante factoren (want deze
info gaat verloren bij het opslaan, dus dit zijn betekenisloze strings voor R)
1.2 DE DATA IN EXCEL
Databestanden worden vaak aangemaakt in Excel of SPSS omdat dit eenvoudiger is dan
in R, de aangemaakte databestanden kan je vervolgens opslaan en inlezen in R:
Voor Excel:
• Opslaan van het bestand als .csv à “save as” à “Comma Seperated Values” als
format
• Kiezen van de juiste working directory in R waar het .csv bestand is opgeslaan
• Inlezen van juiste bestand met read.csv
à LET OP: als de versie van Excel die je gebruikt, (komma) in de plaats van. (punt)
moet je extra commando in R toevoegen à dec= “,”
1.3 DATA IN SPSS
Stuk aandachtig doorlezen in boek!
1.4 GEÏMPORTEERDE DATA EN MEETNIVEAUS
NUMERIEKE VARIABELEN
• Geïmporteerde numerieke variabelen worden door R automatisch als ratio of
interval beschouwd à expliciet aan R laten weten indien variabele ordinaal
(factor, levels, ordered) of nominaal (factor)
NIET- NUMERIEKE VARIABELEN
• Geïmporteerde niet numerieke variabelen worden door R automatisch als strings
zonder betekenis beschouwd à expliciet aan R laten weten indien variabele
ordinaal of nominaal is
1.5 HET CODEBOEK
Stuk aandachtig doorlezen in boek!
3
, HOOFDSTUK 2: BESCHRIJVENDE STATISTIEK
2.1 ORDENINGSTECHNIEKEN
Frequentieverdeling van een bestand: samenvattend overzicht van de frequenties van de
waarden van waargenomen data
à Commando: table (naamdatabestand$naamvariabele)
Frequenties= aantal keren dat een bepaalde variabele voorkomt
Relatieve frequentieverdeling= frequentieverdeling/ steekproefgrootte
à Commando: table (naamdatabestand$naamvariabele)/ dim
(naamdatabestand) [1]
à [1] want de 1e waarde van de dimensies= steekproefgrootte
à Alternatief commando: prop.table (table(naamdatabestand$naamvariabele)
Bivariate frequentieverdeling= frequentieverdeling van twee variabelen (frequenties of
voorkomen van twee variabelen in combinatie met elkaar
à Commando: table (naam van de twee variabelen en een komma ertussen)
2.2 GRAFISCHE VOORSTELLINGEN
1) Cirkeldiagram: geschikt voor nominale variabelen
• Functie pie met twee argumenten
1. x= vector met de frequenties of proporties
2. Labels= vector met de namen van de categorieën
à > pie (x= c (10, 18, 2), labels = c (“ped”, “psy”, “soc”))
• Alternatief commando: pie (table (naamdatabestand$naamvariabele)) zelfde
output want tabel= twee vectoren)
2) Lijn- of staafdiagram: geschikt voor discrete variabelen (eindig aantal
mogelijkheden)
• Functie barplot met twee argumenten:
1. Vector met de waarden van de variabele
2. Vector met corresponderende frequenties
• Alternatief commando: barplot (table (naamdatabestand$naamvariabele)
3) Histogram: geschikt voor continue variabelen (ratio of interval meetniveau)
• Functie hist met maar één argument namelijk lijst met scores
à hist (x= naamdatabestand$naamvariabele)
• Met het extra argument break voor aantal klassen)
à hist (x= naamdatabestand$naamvariabele, breaks= x)
à Verschil tussen een staafdiagram & een histogram: een staafdiagram heeft aparte
staven die elkaar niet raken, een histogram representeert een parabool – de balken raken
elkaar
4) Spreidingsdiagram: geschikt voor bivariate frequentieverdelingen van ratio – of
interval meetniveau
4