INLEIDING ................................................................................................................................................... 2
1. INTRODUCTIE: DATA-ANALYTIC THINKING ...................................................................................... 3
2. BUSINESS PROBLEMS AND DATA SCIENCE SOLUTIONS .............................................................. 8
3. INTRODUCTION TO PREDICTIVE MODELING: CORRELATION TO SUPERVISED SEGMENTATION
14
4. FITTING A MODEL TO DATA.............................................................................................................. 23
5. OVERFITTING AND ITS AVOIDANCE ................................................................................................ 29
6. SIMILARITY, NEIGHBORS AND CLUSTERS ..................................................................................... 38
7. DECISION ANALYTIC THINKING I: WHAT IS A GOOD MODEL? ..................................................... 51
8. VISUALIZING MODEL PERFORMANCE ............................................................................................ 60
9. EVIDENCE AND PROBABILITIES...................................................................................................... 69
10. REPRESENTING AND TEXT MINING .............................................................................................. 76
11. DECISION ANALYTIC THINKING II: TOWARD ANALYTICAL ENGINEERING ................................ 85
12. OTHER DATA SCIENCE TASKS AND TECHNIQUES ...................................................................... 89
13. DATA SCIENCE AND BUSINESS STRATEGY ................................................................................. 94
14. CONCLUSIE ...................................................................................................................................... 97
1
,Inleiding
Belang van data voor bedrijven
- Informatie
- Hindsight: wat is er gebeurd?
- Insight: waarom is dit gebeurd?
- Foresight: wat zal er gebeuren?
- Optimalisatie: Hoe kunnen we ervoor zorgen dat iets gebeurt?
o vb. Hoe kunnen we ervoor zorgen dat een klant koopt?
- De waarde wordt steeds groter, en de informatie steeds complexer
Data value gap
- Waarde stijgt, naargelang je zaken oplost met data
- Bedrijven begrijpen vaak niet hoeveel waarde ze uit de data kunnen halen
- Bedrijven zijn zich wel bewust van de data value gap: ze hebben data, maar weten niet goed hoe ze de
waarde eruit moeten halen
Data science
- Data science
o Big data
o Data analytics: analyseren van data dit is het deel dat we in deze cursus bekijken
- Artificial intelligence
o Machine learning
Deep learning
Gebruik van data door bedrijven
- Fraud detection
- Real-time inventory management
- Intuitive customer insights
- …
Fundamentele concepten van data science
- Data science in een organisatie
- Data analytisch denken
o Identificeren van de juiste/nodige data en methoden
- Aanreiken van concepten die helpen om kennis te halen uit data
- Bedrijfsprobleem kunnen benaderen en oplossen vanuit een data perspectief
2
,1. Introductie: Data-analytic thinking
Waarom is data science zo belangrijk?
- Heel veel toepassingen voor bedrijven
o Data = competitief voordeel voor bedrijven
o Vb. Als bank kan voorspellen of klant de lening zal kunnen terugbetalen, dan heeft dit een heel grote
waarde voor de bank. De bank zal deze informatie gebruiken.
- Bedrijven moeten aantonen dat ze aan bepaalde vereisten voldoen
o Compliance: voldoen aan regels
o Dit wordt aangetoond met data
o Vb. Bank moet kunnen aantonen dat hij kredietwaardig is
Data opportunities
- Heel grote hoeveelheid data
o Data verzameling sinds 1960 tot nu = de hoeveelheid data die we nu in 1 jaar verzamelen
- Variatie in data
o Grote hoeveelheid en variatie manuele analyse van data is bijna onmogelijk
- Technologische voorruitgang
o Computer sterkte rekenkracht verbetert
o Toename aan connectiviteit
Meer en meer producten zijn verbonden met elkaar
Er worden meer en meer datapunten gecreëerd
o Goede algoritmes
o Big data 1.0 big data 2.0
Web 1.0
Basis internet technologie
Ontstaan online aanwezigheid
Ontstaan elektronische commerce capability
o Bedrijven startten met online te verkopen
= Ontstaan internet 1.0
Big data 1.0 hier bevinden we ons vandaag
Grote hoeveelheden data worden geprocessed
o Data processing is niet per se = data science
Data processing is noodzakelijk voor data science
Data science: toegang tot data nodig
o Big data = datasets die te groot zijn voor traditionele data processing
systemen, ze vereisen nieuwe processing technologieën
Efficiëntie verbeteren
Web 2.0
Integratie van sociale netwerk componenten
o End-users kunnen data toevoegen aan websites
Individuele klant krijgt luidere stem
o Amazon implementeerde dit veel vroeger dan de rest (reviews, ratings, …)
Big data 2.0
Big data wordt geprocessed
Wat kan deze data voor ons doen?
Compliance to regulations
- Basel II
o Voor banken
Banken moeten kunnen aantonen dat ze voldoen aan de regelgeving van Basel II
3
, o Risico modellen bouwen
Credit
Marktaandeel
Operational
- Solvency II
o Voor verzekeringsmaatschappijen
Moeten kunnen aantonen dat ze in staat zijn om de polissen effectief te dekken
o Cyber security: er moet aangetoond worden dat er beschermingen zijn
Toepassingen
- Marketing
o Targeted marketing
Marketing specifiek op een bepaalde groep gericht
o Online advertising
Google = gratis service, maar verkoopt ads, dit zorgt voor de inkomsten van google
Deze ads zijn sterk gepersonaliseerd, op basis van uw zoekopdrachten
o Recommendations for cross selling
Vb. je bekijkt een serie op Netflix en krijgt info over een gelijkaardige serie
- Customer relationship mgmt
o Analysing customer behaviour
Vb. klant gebruikt een service veel (vb. helpdesk), op basis hiervan kan je de prijs aanpassen
o Manage attrition/churn
De kostprijs om een nieuwe klant aan te werven vs kost om bestaande klant aan te houden
Churn prediction: anticiperen op wat het meest kost
Churn: op het einde van het contract, verlengt de klant dit niet, maar gaat de klant naar de
competitie
o Maximize expected customer value
- Finance
o Credit scoring
o Trading
- Operations mgmt
o Fraud detection
o Workforce management
- Corporate performance mgmt
o Manier waarop bedrijf zich in de markt gepositioneerd heeft
- Market
o Mergers
Fusie 2 grote bedrijven
Vooraleer effectieve fusie: data teams van beide ondernemingen zullen samen zitten
o Globalisering
o Meer data van heterogene bronnen moet (sneller) geanalyseerd worden
Omwille van mergers en globalisation
Data brokers
Uber heeft geen taxi’s, airb&b heeft geen hotels, …
De bedrijven hebben geen fysieke zaken, ze hebben enkel data
- Bedrijven differentiëren zich strategisch met data science
Voorbeelden
- Walmart: Hurricane Frances
o Welke producten worden verkocht als er een orkaan komt? predictive technology
Walmart biedt deze producten goedkoper aan, wanneer een orkaan op komst is
o Goed verkochte producten bij komst van orkaan
Kaarsen: Heel voorspelbaar dat de vraag hiernaar zal stijgen
4
, Poptarts: minder voorspelbaar
Bier: best verkochte product bij komst van orkaan
- Target: pregnancy prediction
o Kunnen we voorspellen wie zwanger is?
o Target heeft op getrouwheidskaart gekeken als er baby-gerelateerde producten worden verkocht, ze
verwachten dat er x aantal maanden later een baby geboren werd, door het veranderen van het
consumptiepatroon van personen, kunnen ze hierop inspelen
- Megatelco: churn prediction
o Churn = klanten switchen van het ene bedrijf naar het andere
o Door zo goed mogelijk te voorspellen welke klanten zouden weggaan, kon dit bedrijf het meeste
winst maken in een competitie
Deze voorbeelden
- Niet gewoon hypotheses testen, maar data onderzoeken om iets zinvol te ontdekken
Data analytical thinking
- Zal data helpen een bedrijfsprobleem op te lossen?
o Hoe kan dit systematisch toegepast worden? kunnen we een model bouwen om steeds op
dezelfde manier beslissingen te maken?
- Venture capitalists (risicokapitalisten) willen investeren
- Begrijp data-driven campagnes
- Nood voor managers met data-analytic skills
- Big data is big business
- Data science is een onderdeel van de strategie van een bedrijf = strategic asset
o Vb. colruyt
GDPR wet Europa: bescherming private gegevens doelbeperking: als je data gebruikt hebt
waarvoor je ze verzameld hebt, mag je die data daarna niet meer bijhouden
Grote beperking voor bedrijven
Colruyt gooit de data niet weg, want deze is handig voor meerdere doelen
Colruyt anonimiseert de data, ze houden de data bij zonder dat deze gelinkt kan
worden aan een persoon -> kost heel veel geld
o Zo zijn ze wel GDPR compliant
o Ze behouden de data, hebben hierdoor een concurrentieel voordeel, en
moeten geen boete betalen
Verband data analytical thinking en de evolutie van Big Data 1.0 Big Data 2.0
- De evolutie volgt de toename in data-analytisch denken
Voorbeelden: data science als strategic asset
- Signet bank vs capital one
o Signet: durfde random krediet te verstrekken
Is nu de grootste kredietverstrekker
- Amazon
o Cross-selling: belangrijkste asset van amazon
- Harrah’s casinos
o Klein online casino platform die dit data-driven wou maken
o Kocht ondertussen Caesar’s palace
- Valuation of Facebook and Twitter
o Marktwaarde van bedrijven in schatten data-driven
Data science
- Een set van fundamentele principes die de extractie van kennis uit gegevens begeleiden
5