Hoorcollege 1:
Een categorische x kun je niet zomaar in een regressieanalyse gooien. Als je 1 x hebt dan is
het een eenweg variantie analyse. Bij 2 variabelen is het een tweeweg variantie analyse. Bij
deze verschillende analyses heb je ook verschillende toetsen. Bij een binaire y bestaat een
logistische regressie in plaats van een lineaire regressie, om hiervan een lineaire regressie te
maken moet je deze transformeren. Bij elke toets bestaan non parametrische toetsen.
ANOVA
Wat is ANOVA? Een analyse of variance.
Waar ken je ANOVA van? Een onderdeel van de regressieanalyse
Waar gebruik je ANOVA voor, welke vraag beantwoord je, wat toets je? Met de F
toets toetst je of er iets in het model (een onafhankelijke variabele) een significant
deel van de variantie in y verklaart.
Waar kijk je naar? R2 geeft in een proportie aan hoeveel variantie verklaard wordt, je
hebt hiermee gelijk de verklaarde en de onverklaarde variantie, hiermee heb je ook
de totale variantie. De totale onzekerheid over y bestaat uit de variantie, deze
onzekerheid wil je terugbrengen door x-en te gebruiken. De totale variantie in y:
Σ (𝑦− ӯ)2 𝑇𝑆𝑆
𝑣𝑎𝑟𝑖𝑎𝑛𝑡𝑖𝑒 𝑖𝑛 𝑦: 𝑛−1 = 𝐷𝐹𝑡 (𝑡𝑜𝑡𝑎𝑙𝑒 𝑣𝑟𝑖𝑗ℎ𝑒𝑖𝑑𝑠𝑔𝑟𝑎𝑑𝑒𝑛
De F verdeling heeft 2 vrijheidsgraden. Met df1 = k en df2 = n-k-1
Factor: categorische onafhankelijke variabele, je deelt de steekproef op in groepen naar
resultaat.
Significant houdt in: dat het niet gebaseerd is op toeval. Dus een resultaat is niet gebaseerd
op toeval. Significant hoeft niet gelijk te betekenen dat iets een groot effect heeft. Komt niet
door toevallige steekproeffluctuaties.
Boxplots zijn belangrijk bij het vergelijken van groepen:
Boxplot laat medianen zien, deze lijken veel op gemiddelden als de verdeling redelijk
normaal verdeeld is.