Aantekeningen Statistiek, R en RStudio
Inhoud
COO1 – Intro R........................................................................................................................................2
Generaties programmeertalen:..........................................................................................................2
Eenvoudige berekeningen..................................................................................................................3
Datatypes:..........................................................................................................................................3
Logische operatoren:..........................................................................................................................3
Datastructuren:..................................................................................................................................3
COO2 – Intro R importeren, selecteren, sorteren en missende gegevens..............................................4
Data importeren.................................................................................................................................4
Selecteren van data............................................................................................................................5
Sorteren en ordenen van de data.......................................................................................................6
Missende waarden.............................................................................................................................6
COO 3 – plotting.....................................................................................................................................7
Packages.............................................................................................................................................7
Basics van het plotten.........................................................................................................................7
Plots opslaan......................................................................................................................................8
Plots customizen.................................................................................................................................8
COO 4 – beschrijvende statistiek in R.....................................................................................................9
Beschrijvende statistiek voor een continue uitkomst, stap voor stap................................................9
Het beschrijven van meer dan 1 groep...............................................................................................9
Transformaties...................................................................................................................................9
MTE......................................................................................................................................................10
PR R Thema 1........................................................................................................................................11
Volledige zelfstudie..........................................................................................................................11
Steekproefvariatie en de centrale limietstelling...........................................................................11
Het verband tussen schatten en toetsen......................................................................................13
Schatten in de praktijk: een uitstapje naar een betrouwbaarheidsinterval voor het verschil in
twee steekproefgemiddelden.......................................................................................................13
Vragen en antwoorden zelfstudie....................................................................................................14
Werkcollege......................................................................................................................................14
Beschrijvende statistiek................................................................................................................14
Betrouwbaarheidsinterval voor een gemiddelde.........................................................................15
Betrouwbaarheidsinterval voor het verschil tussen twee gemiddelden.......................................16
OD data inlezen en analyseren.....................................................................................................17
1
,PR R Thema 2........................................................................................................................................19
Volledige zelfstudie..........................................................................................................................19
Betrouwbaarheidsinterval............................................................................................................19
Werkplan voor betrouwbaarheidsinterval....................................................................................21
Betrouwbaarheidsinterval, niet gebaseerd op een z-verdeling....................................................22
Lineaire regressie en correlatie, opfrissen....................................................................................25
Lineaire regressie: interferentie (betrouwbaarheids- en predictieinterval).................................27
Ijklijnen.........................................................................................................................................27
Vragen en antwoorden Zelfstudie....................................................................................................27
Werkcollege......................................................................................................................................28
Lineaire regressie..........................................................................................................................28
Stap 1: data uit .csv lezen.........................................................................................................28
Stap 2: spreidingsdiagram maken van de data.........................................................................28
Stap 3: Regressielijn schatten en toevoegen aan plot...............................................................28
Stap 4 voorspellingen met predictieintervallen........................................................................29
PR R Thema 3........................................................................................................................................30
Volledige zelftstudie.........................................................................................................................30
Inferentiële statistiek: toetstheorie aan de hand van een z-toets................................................30
Intermezzo – Hypotheses.........................................................................................................31
Intermezzo – Onbetrouwbaarheid en power...........................................................................32
Intermezzo – Onbetrouwbaarheid en power – vervolg............................................................32
Intermezzo – Onbetrouwbaarheid en power – vervolg............................................................33
Intermezzo – p-waarde en eenzijdig of tweezijdig toetsen......................................................34
Intermezzo – p-waarde en eenzijdig of tweezijdig toetsen – vervolg.......................................35
Toetsen in de praktijk: t-toets voor één steekproefgemiddelde...................................................36
Intermezzo – Model..................................................................................................................36
Toetsen in de praktijk: een uitstapje naar de chi-kwadraat toets.................................................38
Intermezzo – Chi-kwadraat toets..............................................................................................39
Intermezzo – R script................................................................................................................40
Werkcollege......................................................................................................................................41
COO1 – Intro R
Generaties programmeertalen:
1. Machine code 1111111111000000
2. Assembly jmp eax
3. Prodecure talen C++, Java, Python
2
, 4. Hogere abstractie SQL, R
Eenvoudige berekeningen
> - aftrekken
> / delen
> : gesloten intervaln
> * vermenigvuldiging
> ^ machtsverheffing
Objecten: een
> A <- 10 + 5 # je geeft a nu de waarde 5, kies naam slim
> 5
Datatypes:
> Logical (TRUE, FALSE)
> Numeric (0,1,2,3,0.3,-9,1.2e3
> Character (“tekst”)
Logische operatoren:
> < kleiner dan
> > groter dan
> <= kleiner of gelijk
> >= groter of gelijk
> == gelijk aan
> != ongelijk aan
> & en
> | of
Datastructuren:
Vector: lijst van elementen van hetzelfde datatype
> Maken d.m.v. combine functie c(…)
> A <- c(1, 2, 3)
> Maken d.m.v. sequence functie seq(…)
> A <- seq(1, 3, by=.5)
o Sequence van 1 tot en met 3, met stapjes van .5
o Gebruik je geen “by” dan gebruikt r automatisch 1
> Maken d.m.v. repetition functie rep(…)
> A <- rep(1,4)
o Vector met 1 wat 4 keer herhaald gaat worden
> A <- rep(1:3, 2)
o Gesloten interval operator : zorgt voor interval van 1 tot 3, wat 2 keer herhaald
wordt
> Maken d.m.v. normaalverdeling en uniform verdeling
> A <- nrnorm(5)
o Geeft 5 waarden uit een normaalverdeling
Matrix: tweediemensionale vector, met rijen en kolommen
> A <- matrix(1:6, nr=2, nc=3)
3
, > Geeft matrix met getallen 1 tot en met 6 met 2 rijen en 3 kolommen
.
> Je kan ook vectoren creëren en deze in een matrix zetten m.b.v. rbind() en cbind()
Lijst: hierbij kun je, in tegenstelling tot matrix en vector, verschillende datatypen door elkaar opslaan
> A <- list(“how”, “are”, “you”, “?”)
Dataframe: soort tabel waar verschillende soorten datatypen opgeslagen kunnen worden
Factor: datstructuur voor categorische date en levels zijn de mogelijke categoriënn
Hier heb je zelf de levels ingegeven!
COO2 – Intro R importeren, selecteren, sorteren en
missende gegevens
Data importeren
Datasets importeren doe je met de read.csv() of read.table() functie. Tussen de haakjes zet je de
locatie op de computer waar je je bestanden vandaan haalt.
> Read.csv() is een variant van de algemenere read.table(). Csv indiceert dat alle waarden door
een komma gescheiden zijn.
4
Inhoud
COO1 – Intro R........................................................................................................................................2
Generaties programmeertalen:..........................................................................................................2
Eenvoudige berekeningen..................................................................................................................3
Datatypes:..........................................................................................................................................3
Logische operatoren:..........................................................................................................................3
Datastructuren:..................................................................................................................................3
COO2 – Intro R importeren, selecteren, sorteren en missende gegevens..............................................4
Data importeren.................................................................................................................................4
Selecteren van data............................................................................................................................5
Sorteren en ordenen van de data.......................................................................................................6
Missende waarden.............................................................................................................................6
COO 3 – plotting.....................................................................................................................................7
Packages.............................................................................................................................................7
Basics van het plotten.........................................................................................................................7
Plots opslaan......................................................................................................................................8
Plots customizen.................................................................................................................................8
COO 4 – beschrijvende statistiek in R.....................................................................................................9
Beschrijvende statistiek voor een continue uitkomst, stap voor stap................................................9
Het beschrijven van meer dan 1 groep...............................................................................................9
Transformaties...................................................................................................................................9
MTE......................................................................................................................................................10
PR R Thema 1........................................................................................................................................11
Volledige zelfstudie..........................................................................................................................11
Steekproefvariatie en de centrale limietstelling...........................................................................11
Het verband tussen schatten en toetsen......................................................................................13
Schatten in de praktijk: een uitstapje naar een betrouwbaarheidsinterval voor het verschil in
twee steekproefgemiddelden.......................................................................................................13
Vragen en antwoorden zelfstudie....................................................................................................14
Werkcollege......................................................................................................................................14
Beschrijvende statistiek................................................................................................................14
Betrouwbaarheidsinterval voor een gemiddelde.........................................................................15
Betrouwbaarheidsinterval voor het verschil tussen twee gemiddelden.......................................16
OD data inlezen en analyseren.....................................................................................................17
1
,PR R Thema 2........................................................................................................................................19
Volledige zelfstudie..........................................................................................................................19
Betrouwbaarheidsinterval............................................................................................................19
Werkplan voor betrouwbaarheidsinterval....................................................................................21
Betrouwbaarheidsinterval, niet gebaseerd op een z-verdeling....................................................22
Lineaire regressie en correlatie, opfrissen....................................................................................25
Lineaire regressie: interferentie (betrouwbaarheids- en predictieinterval).................................27
Ijklijnen.........................................................................................................................................27
Vragen en antwoorden Zelfstudie....................................................................................................27
Werkcollege......................................................................................................................................28
Lineaire regressie..........................................................................................................................28
Stap 1: data uit .csv lezen.........................................................................................................28
Stap 2: spreidingsdiagram maken van de data.........................................................................28
Stap 3: Regressielijn schatten en toevoegen aan plot...............................................................28
Stap 4 voorspellingen met predictieintervallen........................................................................29
PR R Thema 3........................................................................................................................................30
Volledige zelftstudie.........................................................................................................................30
Inferentiële statistiek: toetstheorie aan de hand van een z-toets................................................30
Intermezzo – Hypotheses.........................................................................................................31
Intermezzo – Onbetrouwbaarheid en power...........................................................................32
Intermezzo – Onbetrouwbaarheid en power – vervolg............................................................32
Intermezzo – Onbetrouwbaarheid en power – vervolg............................................................33
Intermezzo – p-waarde en eenzijdig of tweezijdig toetsen......................................................34
Intermezzo – p-waarde en eenzijdig of tweezijdig toetsen – vervolg.......................................35
Toetsen in de praktijk: t-toets voor één steekproefgemiddelde...................................................36
Intermezzo – Model..................................................................................................................36
Toetsen in de praktijk: een uitstapje naar de chi-kwadraat toets.................................................38
Intermezzo – Chi-kwadraat toets..............................................................................................39
Intermezzo – R script................................................................................................................40
Werkcollege......................................................................................................................................41
COO1 – Intro R
Generaties programmeertalen:
1. Machine code 1111111111000000
2. Assembly jmp eax
3. Prodecure talen C++, Java, Python
2
, 4. Hogere abstractie SQL, R
Eenvoudige berekeningen
> - aftrekken
> / delen
> : gesloten intervaln
> * vermenigvuldiging
> ^ machtsverheffing
Objecten: een
> A <- 10 + 5 # je geeft a nu de waarde 5, kies naam slim
> 5
Datatypes:
> Logical (TRUE, FALSE)
> Numeric (0,1,2,3,0.3,-9,1.2e3
> Character (“tekst”)
Logische operatoren:
> < kleiner dan
> > groter dan
> <= kleiner of gelijk
> >= groter of gelijk
> == gelijk aan
> != ongelijk aan
> & en
> | of
Datastructuren:
Vector: lijst van elementen van hetzelfde datatype
> Maken d.m.v. combine functie c(…)
> A <- c(1, 2, 3)
> Maken d.m.v. sequence functie seq(…)
> A <- seq(1, 3, by=.5)
o Sequence van 1 tot en met 3, met stapjes van .5
o Gebruik je geen “by” dan gebruikt r automatisch 1
> Maken d.m.v. repetition functie rep(…)
> A <- rep(1,4)
o Vector met 1 wat 4 keer herhaald gaat worden
> A <- rep(1:3, 2)
o Gesloten interval operator : zorgt voor interval van 1 tot 3, wat 2 keer herhaald
wordt
> Maken d.m.v. normaalverdeling en uniform verdeling
> A <- nrnorm(5)
o Geeft 5 waarden uit een normaalverdeling
Matrix: tweediemensionale vector, met rijen en kolommen
> A <- matrix(1:6, nr=2, nc=3)
3
, > Geeft matrix met getallen 1 tot en met 6 met 2 rijen en 3 kolommen
.
> Je kan ook vectoren creëren en deze in een matrix zetten m.b.v. rbind() en cbind()
Lijst: hierbij kun je, in tegenstelling tot matrix en vector, verschillende datatypen door elkaar opslaan
> A <- list(“how”, “are”, “you”, “?”)
Dataframe: soort tabel waar verschillende soorten datatypen opgeslagen kunnen worden
Factor: datstructuur voor categorische date en levels zijn de mogelijke categoriënn
Hier heb je zelf de levels ingegeven!
COO2 – Intro R importeren, selecteren, sorteren en
missende gegevens
Data importeren
Datasets importeren doe je met de read.csv() of read.table() functie. Tussen de haakjes zet je de
locatie op de computer waar je je bestanden vandaan haalt.
> Read.csv() is een variant van de algemenere read.table(). Csv indiceert dat alle waarden door
een komma gescheiden zijn.
4