SOFTWARE
Data uploaden en bewerken
Let’s get started
Bestand inladen: df ← read.table(file.choose(), header = T, sep=”\t”)
→ sep=“\t” indien de separator tabs zijn
→ sep=“;” indien separator ; is
→ “Header = TRUE” indien de eerste rij van de gegevens de naam is van de
variabele
o Kan je checken met print(names(df))
→ Zien de gegevens eruit zoals ze horen?
o Indien in de dataset , ipv . wordt gebruikt voor decimalen, moeten
we ook dec = “,” meegeven.
o De types van de data checken met str(df) checken en int
veranderen naar char bij nominale categorieën:
df$kolom1 <- as.factor(df$kolom1)) (zie ANOVA)
Om maten van vorm, chiq of lambda: library(rapportools)
Wanneer Levene’s test: library(car)
df kan vastgepind worden, zo moet je nooit meer “df” oproepen
→ attach(df)
Ook: library(tidyverse)
→ Prob.table voor voorwaardelijke kansen
Dataframe filteren/veranderen
Bepaalde subset maken:
subset ← df[df$kolom1 == a | df$kolom2 < 3 & df$kolom3 > 1, ]
→ Komma want eerst kolommen ingeven, hierna rijen → wanneer geen
specifieke rij: komma met gewoon spatie achter
Alternatieve code:
subset ← subset(df, df$kolom1 == a | dflambda$kolom2 < 3 & df$kolom3 >1)
Variabele veranderen: een of andere formule uitvogelen
→ Bv leeftijd in maanden weergeven: leeftijd <- “leeftijd” * 12 + 6
Lege variabele aanmaken: *de naam die je het wil geven* <- NA
, → Hierna kan je de variabele dan vullen; bv:
Associaties
De associatiematen
• eerst: library(rapportools)
Nominaal Lambda.test wanneer dichotoom
Chisq.test wanneer niet dichotoom
Ordinaal: rangcorrelatie Kendall → method weergeven
Spearman (rs) → method meegeven
Ratio Pearson
→default dus gewoon cor(df$opname,
df$leeftijd)
Interpretatie lambda.test (table (df$rij, df$kolom))
$row = Hoeveel beter kan je kolommen voorspellen, als rijen gegeven zijn
Lambda(kolom/rij)
→ “bij het voorspellen van *kolom* maken we *x* % minder fouten indien we
kennis hebben over *rij*
$col = hoeveel beter kan je rijen voorspellen als je kolom gegeven hebt
Lambda (rij/kolom)
→ “bij het voorspellen van *rij* maken we *x* % minder fouten indien we kennis
hebben over *kolom*
Interpretatie correlatie
0-0,3 Zwakke correlatie
0,3 – 0,5 Matige correlatie
, 0,5-0,7 Sterke correlatie
>0,7 Heel sterke correlatie
Hoe groter chi-kwadraat, hoe meer afhankelijk variabele moet zijn
Grafieken
Overzicht
Discreet Continue
Vanaf Nominaal • Barplot (met plaats tussen
balkjes!)
• Taartdiagram
Vanaf Ordinaal • Barplot (met plaats tussen Histogram
balkjes!)
• Boxplot
• Taartdiagram
Vanaf interval • Barplot (ZONDER plaats • Histogram
tussen balkjes: space = 0) • Scatterplot
• Scatterplot • Boxplot
• Boxplot • Stamdiagram
geef een naam!! Extra puntjes
→ main = “naam”
Staafdiagram (discrete variabelen)
• Nominaal en ordinaal → wel plaats tussen balkjes
• Interval en ratio → geen plaats tussen balkjes → space = 0
barplot(table(df$kolom1), main = “Titel”, ylab = “naam y-as”, xlab = “naam x-as”,
col = “red”)
→ Dit geeft de visuele frequentietabel, zonder de table() krijg je alle rijen apart
→ Voorbeeld:
barplot(table(df$eten), main = "staafdiagram
eetgewoonten", ylab = "aantal patiënten", col =
c("purple", "red", "blue", "yellow"), names =
c("vegetarier", "veganist", "halal", "omnivoor"), las = 2)
→ Nog mooier
Data uploaden en bewerken
Let’s get started
Bestand inladen: df ← read.table(file.choose(), header = T, sep=”\t”)
→ sep=“\t” indien de separator tabs zijn
→ sep=“;” indien separator ; is
→ “Header = TRUE” indien de eerste rij van de gegevens de naam is van de
variabele
o Kan je checken met print(names(df))
→ Zien de gegevens eruit zoals ze horen?
o Indien in de dataset , ipv . wordt gebruikt voor decimalen, moeten
we ook dec = “,” meegeven.
o De types van de data checken met str(df) checken en int
veranderen naar char bij nominale categorieën:
df$kolom1 <- as.factor(df$kolom1)) (zie ANOVA)
Om maten van vorm, chiq of lambda: library(rapportools)
Wanneer Levene’s test: library(car)
df kan vastgepind worden, zo moet je nooit meer “df” oproepen
→ attach(df)
Ook: library(tidyverse)
→ Prob.table voor voorwaardelijke kansen
Dataframe filteren/veranderen
Bepaalde subset maken:
subset ← df[df$kolom1 == a | df$kolom2 < 3 & df$kolom3 > 1, ]
→ Komma want eerst kolommen ingeven, hierna rijen → wanneer geen
specifieke rij: komma met gewoon spatie achter
Alternatieve code:
subset ← subset(df, df$kolom1 == a | dflambda$kolom2 < 3 & df$kolom3 >1)
Variabele veranderen: een of andere formule uitvogelen
→ Bv leeftijd in maanden weergeven: leeftijd <- “leeftijd” * 12 + 6
Lege variabele aanmaken: *de naam die je het wil geven* <- NA
, → Hierna kan je de variabele dan vullen; bv:
Associaties
De associatiematen
• eerst: library(rapportools)
Nominaal Lambda.test wanneer dichotoom
Chisq.test wanneer niet dichotoom
Ordinaal: rangcorrelatie Kendall → method weergeven
Spearman (rs) → method meegeven
Ratio Pearson
→default dus gewoon cor(df$opname,
df$leeftijd)
Interpretatie lambda.test (table (df$rij, df$kolom))
$row = Hoeveel beter kan je kolommen voorspellen, als rijen gegeven zijn
Lambda(kolom/rij)
→ “bij het voorspellen van *kolom* maken we *x* % minder fouten indien we
kennis hebben over *rij*
$col = hoeveel beter kan je rijen voorspellen als je kolom gegeven hebt
Lambda (rij/kolom)
→ “bij het voorspellen van *rij* maken we *x* % minder fouten indien we kennis
hebben over *kolom*
Interpretatie correlatie
0-0,3 Zwakke correlatie
0,3 – 0,5 Matige correlatie
, 0,5-0,7 Sterke correlatie
>0,7 Heel sterke correlatie
Hoe groter chi-kwadraat, hoe meer afhankelijk variabele moet zijn
Grafieken
Overzicht
Discreet Continue
Vanaf Nominaal • Barplot (met plaats tussen
balkjes!)
• Taartdiagram
Vanaf Ordinaal • Barplot (met plaats tussen Histogram
balkjes!)
• Boxplot
• Taartdiagram
Vanaf interval • Barplot (ZONDER plaats • Histogram
tussen balkjes: space = 0) • Scatterplot
• Scatterplot • Boxplot
• Boxplot • Stamdiagram
geef een naam!! Extra puntjes
→ main = “naam”
Staafdiagram (discrete variabelen)
• Nominaal en ordinaal → wel plaats tussen balkjes
• Interval en ratio → geen plaats tussen balkjes → space = 0
barplot(table(df$kolom1), main = “Titel”, ylab = “naam y-as”, xlab = “naam x-as”,
col = “red”)
→ Dit geeft de visuele frequentietabel, zonder de table() krijg je alle rijen apart
→ Voorbeeld:
barplot(table(df$eten), main = "staafdiagram
eetgewoonten", ylab = "aantal patiënten", col =
c("purple", "red", "blue", "yellow"), names =
c("vegetarier", "veganist", "halal", "omnivoor"), las = 2)
→ Nog mooier