Waar gebruiken we statistiek voor:
Onderzoek naar het effect van verschillende methodes
Onderzoek invloed geslacht op tweede taal
Waarom gebruiken we statistiek
Om relaties in de data vast te stellen (inferentiele statistiek)
o 2 groepen vergelijken, of 1 met een bepaalde waarde
o associatie tussen 2 variabelen
o interne consistentie tussen 2 vragenlijsten, meten meerdere vragen
hetzelfde?
Om een samenvatting in de data te geven (descriptieve statistiek)
Het vereiste is dat de data variabel is. Iets vast stellen over een populatie kan niet door
alleen data van mannen te bekijken.
[1]: betekent dat het resultaat 1 element lang is
Variabele: iets waar je een bepaalde waarde in stopt
A <- 5 : variabele is a je stopt de waarde a er in
NA: een waarde die niet aanwezig zijn
C: geeft een vector aan= een lijst van waardes
C(…, …, …, …)
[1] geeft het eerste element aan: 2 4 6 8
[5] nu komt dus het 5e element 10 12 14 16
b[4] <- a: het vierde element van b wil ik de waarde a laten worden
mean(): berekend het gemiddelde
NA: als dat er uitkomt is een van de waardes NA dus het is niet mogelijk een gemiddelde
uit te rekenen.
na.rm=TRUE : Het gemiddelde geven maar de NA’s worden genegeerd dus er komt wel
een waarde uit.
Een excel bestand opslaan als csv
Vervolgens lezen met read.csv en opgeslagen in variabele ‘dat’
Dat <- read.csv
str(dat) laat de structuur van de hele tabel ‘dat’ zien
dim() laat het aantal rijen en tabellen zien bijv (195 6)
head() geeft eerste 6 rijen van de kolommen zien.
Als je waarde in een tabel wilt veranderen moet je wel het rij en kolom nummer
aangeven. Voor de komma is de rij en na de komma kolom.
Dat[1, ] laat alle waardes van de eerste rij zien (in alle kolommen)