- Vragen over confusion matrix: accuracy, recall, specificiteit?
- Dendrogram tekenen
- Wanneer zou je een ward methode met k-means verkiezen boven hierachial clustering
- Wanneer zou je ene PCA verkiezen boven t-SNN
- Verband out of bag performance en K-fold cross validation
--> een is hoger dan andere of zoiets
- Vragen over ROC curve: hoe ziet deze eruit bij random assignment, waneer alles fout wordt
geclassificeerd?
- Vraag over type II fout, als je positief en negatief samples hebt (negatief = true statement,
positief = false statement) waarbij de false statements worden verwijdert, wat gebeurdt er dan
bij een type II error
à ik heb aangeduid dat een false statement als true wordt gezien
- Practicum: PCA, niet zo moeilijk hebben we gedaan in de les
- Hoe komt het dat neural networks moeilijkere classificaties kunnen oplossen
à door hidden layers (heb ik aangeduid)
à door regognition of complex patterns (misschien)
- Wat bepaald de treshold in een logistic regression classifier
--> y-value
à beta weights
à de e macht
à ..
- Welk voorbeeld zal niet neigen naar overfitting (5 keuze’s)
Exam questions advanced data analysis 2021-2022 open boek
1. Berekenen van accuracy, recall, specificiteit, alle positieve gevallen dmv een confusion
matrix.
2. Wanneer zou je een ward methode met k-means verkiezen boven hierarchical
clustering? (misschien niet goed onthouden)
3. Wanneer zou je een PCA verkiezen boven t-SNE?
a. Als je de analyse nadien op een independent dataset moet doen
4. Verband out of bag performance en K-fold cross validation
→ een is hoger dan andere of zoiets
, Out of bag performance gives an estimate of how good each prediction is, but tends to
underestimate the performance of the entire random forest! This is because it's the
average of each tree separately.
Therefore the out of bag performance will be lower than what we see in the cross-
validation because we don’t have the advantage of combining different decision trees.
(However because of overfitting it will be very close)
≠ a value of the collection of decision trees as a whole! That’s why they still do cross-
validation to check the overall performance of the random forest.
5. Vragen over ROC curve: hoe ziet deze eruit bij random assignment, wanneer alles
fout wordt geclassificeerd?
⇒C
6. Welk voorbeeld zal niet neigen naar overfitting?
a.
7. What would be the result of a hierarchical clustering on this data set with
single linkage where the distance metric would correspond to the distance
between the points in the graph. Draw the clusters as nested circles and
provide a rough dendrogram.