100% tevredenheidsgarantie Direct beschikbaar na je betaling Lees online óf als PDF Geen vaste maandelijkse kosten 4.2 TrustPilot
logo-home
Samenvatting

Data Science Samenvatting + Key concepts

Beoordeling
-
Verkocht
-
Pagina's
61
Geüpload op
22-06-2022
Geschreven in
2021/2022

Data Science samenvatting. Ik heb deze samenvatting gemaakt om te leren voor het vak Data Science dat in het 3de jaar wordt gegeve. Op basis van het lesmateriaal van Universiteit Leiden. Het is een uitgebreide samenvatting + key concepts (een nog compactere versie van dezelfde stof)

Meer zien Lees minder











Oeps! We kunnen je document nu niet laden. Probeer het nog eens of neem contact op met support.

Documentinformatie

Geüpload op
22 juni 2022
Bestand laatst geupdate op
22 juni 2022
Aantal pagina's
61
Geschreven in
2021/2022
Type
Samenvatting

Voorbeeld van de inhoud

Uitgebreide samenvatting per lecture + Key concepts (kleinere
samenvatting van samenvatting)
Data Science lecture 1 5
Research Paradigms 5
Data Challenges 5
Application domain 5
Task definition questions 6
Supervised vs Unsupervised 6
Addressing data science problems: 7
Mean vs Median 7
Outliers 7
Regression 8
Simple linear regression 8
Multiple linear regression 8
Logistic Regression 9
Loss functions 9
Sigmoid 10

Lecture 2 11
Visualisation 11
Anscombe’s quartet 11
Visualisation Metaphors 11
Bad visualisation 12

Lecture 3 13
Supervised learning 13
Classification 13
Classification models 14
Vector space model 14
K-Nearest Neighbour (KNN) 14
Support vector machine(SVM) 15
Neural networks 16
Hidden layers 16
ReLU VS sigmoid 17
Single neurons 17
Cost functions 18
Gradient descent 18
Perceptrons 19
XOR problem 20
Feed forward networks 20
Training Neural nets 21

Lecture 4 22
Experiment setup 22

1
Jesse de Gans

, Hyper parameter tuning 22
Regression evaluation 22
Evaluation of rankings 22
Evaluation for classification 23
F-score 23
Classifier quality & analysis 23

Lecture 5 24
Network science 24
Network types 24
Real-world network properties 24
Network density 25
Degree 25
Components 25
Distance 25
Clustering coefficients 25
Centrality 26
Degree centrality 26
Closeness centrality 26
Betweenness centrality 26
Communities 27
Modularity maximisation 27

Lecture 6 28
Data collection 28
Using Existing labelled data 28
Create new labelled data 28
Inter-rater agreement 29
Interpretation of Cohen’s Kappa 29

Lecture 7 30
Data Preparation 30
Feature extraction 30
Dense vs Sparse data 30
Text Classification 31
Traditionally 31
Preprocessing: Raw text to features 32
Clean up and normalisation 32
Tokenization 32
Pre-processing with NLP tools 32
Feature creation 32
Image to matrix 33
Image feature extraction 33
Convolutional neural networks 33
Need to knows 34
Image preprocessing 34

2
Jesse de Gans

,Lecture 8 35
Choosing models and methods 35
Choosing supervised vs Unsupervised: 35
Choosing between classification clustering or regression: 35
Decide on features 35
Choosing the right estimator 35
Supervised Classification models 36
Transfer learning 36
Transfer learning for images 36
Transfer learning for text 36

Lecture 9 37
Feature normalisation 37
Scaling numerical features 37
Dimensionality reduction 37
PCA (Principal component Analysis) 38
Significance testing 38
Which test to use 38

Lecture 10 39
Natural Language processing 39
Text data challenges 39
Zipfs law 39
Bag-of-words model: Text as classification object 40
Words(terms) as features 40
Computing term weights (real valued) 40
Term frequency (tf) 40
Inverse document frequency (idf) 41
Tf-idf(term-frequency Inverse document frequency) 41
Term-document matrix 41
Words and polysemy 42
Word embeddings 42
Learning word embeddings 42
Neural language models 43
Application of transfer learning to image and text data 43

Lecture 11 44
Evaluation of classification 44
Evaluation for regression 44
Confusion matrices 44
Error analyses 45
Dimensionality reduction 46
Class imbalance 46
Machine learning 46
Hyper param optimization 47

3
Jesse de Gans

, Overfitting 47
Cross validation 47
Leave-one-out cross validation 48

Lecture 12 49
Big data 49
Responsible data science 49
Risks and opportunities 49
Explainable models 50

Key concepts: 51-61




4
Jesse de Gans

Maak kennis met de verkoper

Seller avatar
De reputatie van een verkoper is gebaseerd op het aantal documenten dat iemand tegen betaling verkocht heeft en de beoordelingen die voor die items ontvangen zijn. Er zijn drie niveau’s te onderscheiden: brons, zilver en goud. Hoe beter de reputatie, hoe meer de kwaliteit van zijn of haar werk te vertrouwen is.
jessedegans Universiteit Leiden
Bekijk profiel
Volgen Je moet ingelogd zijn om studenten of vakken te kunnen volgen
Verkocht
17
Lid sinds
6 jaar
Aantal volgers
15
Documenten
8
Laatst verkocht
1 jaar geleden

3,5

4 beoordelingen

5
1
4
1
3
1
2
1
1
0

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

Student with book image

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Veelgestelde vragen