Toegepaste machine learning
Week 1
What is machine learning?
machine learning algorithms build on a model based on [patterns in] sample data, known as
training data, in order to make predictions or decisions on new unseen data, without being
explicitly programmed to do so
○ leren doe je van samples
○ op zoek naar patronen
Data Science/Machine learning “steps”
1. Interacting with the outside world
● Reading and writing a variety of file formats and databases
2. Preparation
● schoonmaken van data
● cleaning, munging, combining, normalizing, reshaping, slicing and
dicing, and transforming data for analysis
3. Transformation
● data transformeren, beter geschikt maken om een model te maken
● Applying mathematical and statistical operations to groups of data
sets to derive new data sets
4. Modeling and computation
● Connecting your data to statistical models; machine learning
algorithms, or other computational tools
5. Presentation
● informatie visualisatie
● creating interactive or static graphical visualizations or textual
summaries
● dit vak is in stap 4
ML and evaluation
● In machine learning we always evaluate models:
○ evaluation → hoe goed doet iets het (opmeten)
○ machine learning gaat alleen maar over opmeten
○ classification → je deelt iemand in in een vast aantal groepjes
■ vb. geslacht
■ accuracy, precision, recall, F1
○ regression → voorspellen numerieke waarde
■ verklarende en voorspellende variabelen
● als y numeriek → regressie
■ RMSE
○ je wil een lijn waarbij de som van alle errors (in het kwadraat) zo klein
mogelijk is
, RMSE
● root mean squared error
● sqrt → r
● N → aantal waarden in de lijst (noemer van de breuk)
● sum → (echte waarde - voorspelde waarde) in het kwadraat
● het is een loop door de lijsten A en B (true en predicted)
In reality in ML
● vectorized computations
○ very fast
○ super elegant
● np.array → object, komt met de gebruike operaties
● mean → zit hier al bij numpy hoef je niet meer zelf uit te rekenen
Baselines
● baseline → voorspeller die je leert met alleen maar globale informatie (geen
informatie over wat je moet voorspellen)
● A predictor “learned” using only global information
○ that is, the distribution of the classes or values over the population
■ vb. distributie van de klasse over de populatie
● predictor is only based on “prejudice”
● It does not use any feature of an instance
Goede baseline voor geslacht informatiekunde student?
● je doet er een aantal eigenschappen van een persoon in en dat moet je het geslacht
kunnen voorspellen
, ● antwoord: man → majority class (modus/mode) → de waarde die het meest
voorkomt
Goede baseline voor jullie cijfer voor dit vak?
● gemiddelde van vorig jaar
Goede baseline voor fooi?
● the best guess, based on the tip column
● shape → aantal rijen en kolommen
● x → verklarende variabele
● y → voorspelde variabele
● regressie → minimaliseert RMSE
● regressie lijn → a * total_bill + b
Baseline
Evaluate
● er wordt een lijst met één waarde samengevoegd (kan eigenlijk niet)
● pandas probeert beide “lijsten” even groot te maken
● tips.tip.values is a long array of values
● tips.tip.mean() is just a number
● RMSE is comparing two equal array lengths
● rubberband nature of numpy and pandas → broadcasting
Week 1
What is machine learning?
machine learning algorithms build on a model based on [patterns in] sample data, known as
training data, in order to make predictions or decisions on new unseen data, without being
explicitly programmed to do so
○ leren doe je van samples
○ op zoek naar patronen
Data Science/Machine learning “steps”
1. Interacting with the outside world
● Reading and writing a variety of file formats and databases
2. Preparation
● schoonmaken van data
● cleaning, munging, combining, normalizing, reshaping, slicing and
dicing, and transforming data for analysis
3. Transformation
● data transformeren, beter geschikt maken om een model te maken
● Applying mathematical and statistical operations to groups of data
sets to derive new data sets
4. Modeling and computation
● Connecting your data to statistical models; machine learning
algorithms, or other computational tools
5. Presentation
● informatie visualisatie
● creating interactive or static graphical visualizations or textual
summaries
● dit vak is in stap 4
ML and evaluation
● In machine learning we always evaluate models:
○ evaluation → hoe goed doet iets het (opmeten)
○ machine learning gaat alleen maar over opmeten
○ classification → je deelt iemand in in een vast aantal groepjes
■ vb. geslacht
■ accuracy, precision, recall, F1
○ regression → voorspellen numerieke waarde
■ verklarende en voorspellende variabelen
● als y numeriek → regressie
■ RMSE
○ je wil een lijn waarbij de som van alle errors (in het kwadraat) zo klein
mogelijk is
, RMSE
● root mean squared error
● sqrt → r
● N → aantal waarden in de lijst (noemer van de breuk)
● sum → (echte waarde - voorspelde waarde) in het kwadraat
● het is een loop door de lijsten A en B (true en predicted)
In reality in ML
● vectorized computations
○ very fast
○ super elegant
● np.array → object, komt met de gebruike operaties
● mean → zit hier al bij numpy hoef je niet meer zelf uit te rekenen
Baselines
● baseline → voorspeller die je leert met alleen maar globale informatie (geen
informatie over wat je moet voorspellen)
● A predictor “learned” using only global information
○ that is, the distribution of the classes or values over the population
■ vb. distributie van de klasse over de populatie
● predictor is only based on “prejudice”
● It does not use any feature of an instance
Goede baseline voor geslacht informatiekunde student?
● je doet er een aantal eigenschappen van een persoon in en dat moet je het geslacht
kunnen voorspellen
, ● antwoord: man → majority class (modus/mode) → de waarde die het meest
voorkomt
Goede baseline voor jullie cijfer voor dit vak?
● gemiddelde van vorig jaar
Goede baseline voor fooi?
● the best guess, based on the tip column
● shape → aantal rijen en kolommen
● x → verklarende variabele
● y → voorspelde variabele
● regressie → minimaliseert RMSE
● regressie lijn → a * total_bill + b
Baseline
Evaluate
● er wordt een lijst met één waarde samengevoegd (kan eigenlijk niet)
● pandas probeert beide “lijsten” even groot te maken
● tips.tip.values is a long array of values
● tips.tip.mean() is just a number
● RMSE is comparing two equal array lengths
● rubberband nature of numpy and pandas → broadcasting