DATA SCIENCE
P4
KDG | 2021-22
,Inhoudsopgave
Inhoudsopgave ............................................................................................................................................... 1
1. Samenhang ................................................................................................................................................. 3
1.1 Causaliteit ..................................................................................................................................................... 3
1.2 Het voorbeeld ............................................................................................................................................... 3
1.3 De correlatiecoëfficiënt van Pearson ............................................................................................................ 4
1.4 Rangcorrelatie .............................................................................................................................................. 5
1.4.1 Spearman .............................................................................................................................................. 6
1.4.2 Kendall .................................................................................................................................................. 6
1.5 Lineaire regressie .......................................................................................................................................... 6
1.5.1 Bepalen van de lijn ................................................................................................................................ 6
1.5.2 Regressie in Python ............................................................................................................................... 7
1.5.3 Verklarende variantie ........................................................................................................................... 7
1.6 Niet-lineaire regressie ................................................................................................................................... 8
2. Forecasting ................................................................................................................................................. 9
2.1 Het voorbeeld ............................................................................................................................................... 9
2.2 Forecasting op basis van het verleden ........................................................................................................ 10
2.2.1 Naïve forecasting ................................................................................................................................ 10
2.2.2 Gemiddelde van alle vorige waarden ................................................................................................. 11
2.2.3 Voortschrijdend gemiddelde .............................................................................................................. 11
2.2.4 Lineaire combinatie ............................................................................................................................ 12
2.3 Betrouwbaarheid van een model................................................................................................................ 13
2.4 Een model voor de data maken .................................................................................................................. 14
2.4.1 Trend forecasting ................................................................................................................................ 14
2.4.2 Seasonal forecasting ........................................................................................................................... 16
3. Beslissingsbomen ...................................................................................................................................... 19
3.1 Voorbeelden................................................................................................................................................ 20
3.1.1 Ad eater .............................................................................................................................................. 20
3.1.2 The simpsons ...................................................................................................................................... 20
3.2 ID3 .............................................................................................................................................................. 20
3.2.1 Het basisalgoritme .............................................................................................................................. 21
3.2.2 Information gain ................................................................................................................................. 22
3.2.3 Beperkingen ........................................................................................................................................ 24
3.3 Andere algoritmes ...................................................................................................................................... 24
3.3.1 Het CART algoritme............................................................................................................................. 25
3.3.2 ID3 verbeterd ...................................................................................................................................... 27
4. Clustering.................................................................................................................................................. 27
1
, 4.1 Meerdmensionale ruimten ......................................................................................................................... 28
4.2 Afstanden.................................................................................................................................................... 28
4.2.1 Euclidische afstand ............................................................................................................................. 28
4.2.2 Manhattan afstand ............................................................................................................................. 29
4.2.3 Genormaliseerde afstand ................................................................................................................... 30
4.2.4 Andere afstandsmaten ....................................................................................................................... 30
4.3 Meetniveaus ............................................................................................................................................... 31
4.3.1 Ordinale gegevens .............................................................................................................................. 31
4.3.2 Nominale gegevens............................................................................................................................. 31
4.4 Clusters zoeken ........................................................................................................................................... 32
4.4.1 K-means clustering.............................................................................................................................. 32
4.4.2 Hiërarchische clustering...................................................................................................................... 35
4.5 Clusters en beslissingsbomen...................................................................................................................... 36
5. Principal component analysis .................................................................................................................... 38
5.1 Voorbeelden................................................................................................................................................ 38
5.1.1 Simpsons ............................................................................................................................................. 38
5.1.2 Cijfers herkennen ................................................................................................................................ 39
5.2 Werkwijze ................................................................................................................................................... 39
2
, 1. Samenhang
1.1 Causaliteit
Verbanden zijn een correlatie.
2 soorten:
• Positieve correlatie: de ene variabele stijgt als de andere ook stijgt
• Negatieve correlatie: de ene variabele daalt als de andere stijgt
à gaan er vaak vanuit dat er een causaal verband bestaat: we gaan er vanuit dat de ene
variabele afhankelijk is van de andere en we deze dus kunnen voorspellen adhv de andere.
!! er is niet altijd een causaal verband: correlatie kan toeval zijn of er kan een andere
connectie zijn
Bv correlatie tussen zakkenrollers en aantal verkochte ijsjes: aantal ijsjes niet oorzaak van
zakkenrollers, maar gemeenschappelijke factor: goed weer & veel mensen
1.2 Het voorbeeld
We werken met het voorbeeld van aantal LinkedIn connecties en het loon. Is er een verband
tussen deze 2?
Met een scatterplot kunnen we snel te weten komen of er mogelijk een correlatie is: Voor
iedere rij in de tabel wordt het aantal connecties gebruikt als x-coördinaat en het loon als y-
coördinaat. Iedere lijn correspondeert dan met een punt in een vlak.
(functie voor in Python)
Hier zie je dat er hoogst waarschijnlijk een verband is: hoe hoger het loon hoe meer
connecties à wel met variatie
Als er een perfect verband zou zijn zou er een rechte lijn te zien zijn.
3
P4
KDG | 2021-22
,Inhoudsopgave
Inhoudsopgave ............................................................................................................................................... 1
1. Samenhang ................................................................................................................................................. 3
1.1 Causaliteit ..................................................................................................................................................... 3
1.2 Het voorbeeld ............................................................................................................................................... 3
1.3 De correlatiecoëfficiënt van Pearson ............................................................................................................ 4
1.4 Rangcorrelatie .............................................................................................................................................. 5
1.4.1 Spearman .............................................................................................................................................. 6
1.4.2 Kendall .................................................................................................................................................. 6
1.5 Lineaire regressie .......................................................................................................................................... 6
1.5.1 Bepalen van de lijn ................................................................................................................................ 6
1.5.2 Regressie in Python ............................................................................................................................... 7
1.5.3 Verklarende variantie ........................................................................................................................... 7
1.6 Niet-lineaire regressie ................................................................................................................................... 8
2. Forecasting ................................................................................................................................................. 9
2.1 Het voorbeeld ............................................................................................................................................... 9
2.2 Forecasting op basis van het verleden ........................................................................................................ 10
2.2.1 Naïve forecasting ................................................................................................................................ 10
2.2.2 Gemiddelde van alle vorige waarden ................................................................................................. 11
2.2.3 Voortschrijdend gemiddelde .............................................................................................................. 11
2.2.4 Lineaire combinatie ............................................................................................................................ 12
2.3 Betrouwbaarheid van een model................................................................................................................ 13
2.4 Een model voor de data maken .................................................................................................................. 14
2.4.1 Trend forecasting ................................................................................................................................ 14
2.4.2 Seasonal forecasting ........................................................................................................................... 16
3. Beslissingsbomen ...................................................................................................................................... 19
3.1 Voorbeelden................................................................................................................................................ 20
3.1.1 Ad eater .............................................................................................................................................. 20
3.1.2 The simpsons ...................................................................................................................................... 20
3.2 ID3 .............................................................................................................................................................. 20
3.2.1 Het basisalgoritme .............................................................................................................................. 21
3.2.2 Information gain ................................................................................................................................. 22
3.2.3 Beperkingen ........................................................................................................................................ 24
3.3 Andere algoritmes ...................................................................................................................................... 24
3.3.1 Het CART algoritme............................................................................................................................. 25
3.3.2 ID3 verbeterd ...................................................................................................................................... 27
4. Clustering.................................................................................................................................................. 27
1
, 4.1 Meerdmensionale ruimten ......................................................................................................................... 28
4.2 Afstanden.................................................................................................................................................... 28
4.2.1 Euclidische afstand ............................................................................................................................. 28
4.2.2 Manhattan afstand ............................................................................................................................. 29
4.2.3 Genormaliseerde afstand ................................................................................................................... 30
4.2.4 Andere afstandsmaten ....................................................................................................................... 30
4.3 Meetniveaus ............................................................................................................................................... 31
4.3.1 Ordinale gegevens .............................................................................................................................. 31
4.3.2 Nominale gegevens............................................................................................................................. 31
4.4 Clusters zoeken ........................................................................................................................................... 32
4.4.1 K-means clustering.............................................................................................................................. 32
4.4.2 Hiërarchische clustering...................................................................................................................... 35
4.5 Clusters en beslissingsbomen...................................................................................................................... 36
5. Principal component analysis .................................................................................................................... 38
5.1 Voorbeelden................................................................................................................................................ 38
5.1.1 Simpsons ............................................................................................................................................. 38
5.1.2 Cijfers herkennen ................................................................................................................................ 39
5.2 Werkwijze ................................................................................................................................................... 39
2
, 1. Samenhang
1.1 Causaliteit
Verbanden zijn een correlatie.
2 soorten:
• Positieve correlatie: de ene variabele stijgt als de andere ook stijgt
• Negatieve correlatie: de ene variabele daalt als de andere stijgt
à gaan er vaak vanuit dat er een causaal verband bestaat: we gaan er vanuit dat de ene
variabele afhankelijk is van de andere en we deze dus kunnen voorspellen adhv de andere.
!! er is niet altijd een causaal verband: correlatie kan toeval zijn of er kan een andere
connectie zijn
Bv correlatie tussen zakkenrollers en aantal verkochte ijsjes: aantal ijsjes niet oorzaak van
zakkenrollers, maar gemeenschappelijke factor: goed weer & veel mensen
1.2 Het voorbeeld
We werken met het voorbeeld van aantal LinkedIn connecties en het loon. Is er een verband
tussen deze 2?
Met een scatterplot kunnen we snel te weten komen of er mogelijk een correlatie is: Voor
iedere rij in de tabel wordt het aantal connecties gebruikt als x-coördinaat en het loon als y-
coördinaat. Iedere lijn correspondeert dan met een punt in een vlak.
(functie voor in Python)
Hier zie je dat er hoogst waarschijnlijk een verband is: hoe hoger het loon hoe meer
connecties à wel met variatie
Als er een perfect verband zou zijn zou er een rechte lijn te zien zijn.
3