BUSINESS INTELLIGENCE
Introduc)e .................................................................................................................................... 5
Hoofdstuk 1: Introduc)on – Data Analy)c Thinking ...................................................................... 7
1. Waarom zijn data science en data analy4cal thinking belangrijk? ........................................................ 7
1.1. Data opportuni-es................................................................................................................................................ 7
2. Enkele prak4sche voorbeelden ............................................................................................................ 9
2.1. Hurricane Frances ................................................................................................................................................. 9
2.2. Pregnancy predic-on ............................................................................................................................................ 9
2.3. Churn predic-on ................................................................................................................................................... 9
3. Wat is data-analy4cal thinking?......................................................................................................... 10
3.1. Data science capability as strategic asset ........................................................................................................... 11
4. Wat is data science? .......................................................................................................................... 12
Hoofdstuk 2: Business problems and data science solu)ons ........................................................ 14
1. Different data-mining tasks ............................................................................................................... 14
1.1. Classifica-on & class probability es-ma-on....................................................................................................... 14
1.2. Regression .......................................................................................................................................................... 14
1.3. Similarity matching ............................................................................................................................................. 15
1.4. Clustering ............................................................................................................................................................ 15
1.5. Co-occurrence grouping ..................................................................................................................................... 15
1.6. Profiling .............................................................................................................................................................. 15
1.7. Link predic-on .................................................................................................................................................... 16
1.8. Data reduc-on .................................................................................................................................................... 16
1.9. Causal modelling ................................................................................................................................................ 16
1.10. Andere fundamentele technieken .................................................................................................................... 17
2. Supervised versus unsupervised ........................................................................................................ 17
3. The data mining process .................................................................................................................... 18
3.1. Een belangrijk onderscheid ................................................................................................................................ 18
3.2. Knowledge discovery in databases ..................................................................................................................... 19
4. Andere analysetechnieken en technologieën..................................................................................... 22
4.1. Sta-s-cs .............................................................................................................................................................. 22
4.2. Database querying .............................................................................................................................................. 22
4.3. Data warehousing ............................................................................................................................................... 23
4.4. Regression analysis ............................................................................................................................................. 23
4.5. Datamining (KDD) en machine learning (AI) ....................................................................................................... 23
Hoofdstuk 3: Introduc)on to predic)ve modeling ....................................................................... 25
1. Terminologie ..................................................................................................................................... 25
1.1. Model ................................................................................................................................................................. 25
1.2. Two high-level primary goals: predic-on and descrip-on .................................................................................. 25
1.3. Instance .............................................................................................................................................................. 26
1.4. Induc-e en deduc-e ........................................................................................................................................... 26
2. Supervised segmenta4on .................................................................................................................. 26
2.1. Complica-es ....................................................................................................................................................... 27
3. Het selecteren van informa4eve aPributen ....................................................................................... 27
3.1. Entropie .............................................................................................................................................................. 28
3.2. Informa-on gain ................................................................................................................................................. 29
3.3. Numeric values ................................................................................................................................................... 30
3.4. Regressieproblemen ........................................................................................................................................... 30
4. Segmenta4e met boomstructuurmodellen ........................................................................................ 30
5. Andere voorstellingen ....................................................................................................................... 32
1
, 5.1. Decision lines en hyper planes ........................................................................................................................... 32
5.2. Bomen als reeksen van regels ............................................................................................................................ 33
6. Probability es4ma4on ....................................................................................................................... 33
Hoofdstuk 4: FiHng a model to data ........................................................................................... 35
1. Linear discriminant func4ons ............................................................................................................ 35
1.1. Op-maliseren van de objec-ve func-on ............................................................................................................ 37
2. Classifica4on: scoring and ranking ..................................................................................................... 38
3. Linear model for classifica4on: Support Vector Machines (SVM)........................................................ 39
4. Linear model for classifica4on: logis4c regression ............................................................................. 40
5. Linear model for regression: linear regression ................................................................................... 41
6. Wat als de data niet lineair is? ........................................................................................................... 42
Hoofdstuk 5: OverfiHng and its avoidance ................................................................................. 43
1. Overfi[ng ......................................................................................................................................... 43
1.1. Holdout data ....................................................................................................................................................... 43
1.2. Overfi]ng en boomstructuren........................................................................................................................... 44
1.3. Overfi]ng en mathema-sche func-es .............................................................................................................. 44
1.4. Waarom is overfi]ng slecht? ............................................................................................................................. 46
2. Overfi[ng vermijden ........................................................................................................................ 47
2.1. Cross valida-on................................................................................................................................................... 47
2.2. Learning curve .................................................................................................................................................... 48
2.3. Overfi]ng vermijden en complixiteit controleren ............................................................................................. 49
Hoofdstuk 6: Similarity, neighbors and clusters ........................................................................... 53
1. Calculate similarity ............................................................................................................................ 53
1.1. Het gebruik van similarity ................................................................................................................................... 53
1.2. Distance .............................................................................................................................................................. 53
1.3. Nearest-neighbor reasoning ............................................................................................................................... 54
2. Clustering as similarity-based segmenta4on ...................................................................................... 59
2.1. Hiërarchische clustering ..................................................................................................................................... 60
2.2. Centroid clustering ............................................................................................................................................. 60
2.3. Clustering resultaten .......................................................................................................................................... 62
Hoofdstuk 7: Decision analy)cal thinking: What is a good model? ............................................. 64
1. Evalueren van classifiers .................................................................................................................... 64
1.1. Plain accuracy ..................................................................................................................................................... 64
1.2. Confusion matrix ................................................................................................................................................ 65
2. Generalizing beyond classifiers .......................................................................................................... 67
3. Expected value framework ................................................................................................................ 67
3.1. Expected benefit of targe-ng ............................................................................................................................. 68
3.2. Classifier evalua-on ............................................................................................................................................ 68
3.3. Kosten en baten .................................................................................................................................................. 70
3.4. Model performance............................................................................................................................................ 70
4. Baseline performance and consequences .......................................................................................... 72
Hoofdstuk 8: Visualizing model performance .............................................................................. 73
1. Ranking instead of classifying ............................................................................................................ 73
2. Profit curves ...................................................................................................................................... 75
3. ROC curves en AUC ............................................................................................................................ 75
2
, 4. Cumula4ve response curve and lic curve .......................................................................................... 77
5. Voorbeeld ......................................................................................................................................... 78
Hoofdstuk 9: Evidence and probabili)es...................................................................................... 81
1. Combining evidence probabilis4cally................................................................................................. 81
2. Joint probability and independence .................................................................................................. 82
3. Bayes’ Rule ........................................................................................................................................ 83
3.1. Bayes’ Rule toepassen op data science .............................................................................................................. 84
3.2. Condi-onal independence and Naïve Bayes ...................................................................................................... 85
3.3. Voor- en nadelen van Naïve Bayes ..................................................................................................................... 86
4. A model of evidence “Lic” ................................................................................................................ 87
Hoofdstuk 10: Represen)ng and mining text............................................................................... 89
1. Dataprepara4e .................................................................................................................................. 89
2. Bag of words ..................................................................................................................................... 89
2.1. Term frequency................................................................................................................................................... 90
2.2. Normaliza-on and stemming ............................................................................................................................. 90
2.3. Raw count versus normalizing counts ................................................................................................................ 90
3. TFIDF ................................................................................................................................................. 91
3.1. Measuring sparseness: inverse document frequency ........................................................................................ 91
3.2. Combining TF en IDF (TFIDF) .............................................................................................................................. 92
4. N-gram sequence .............................................................................................................................. 93
5. Named en4ty extrac4on.................................................................................................................... 93
6. Topic models ..................................................................................................................................... 94
Hoofdstuk 11: Decision analy)cal thining: Toward analy)cal engineering.................................. 97
1. Charity mailing .................................................................................................................................. 97
1.1. Wat is het exacte businessprobleem? ................................................................................................................ 97
1.2. Hoe kunnen we het bedrijfsprobleem oplossen? ............................................................................................... 98
2. Churn predic4on ............................................................................................................................... 99
2.1. Wat is het exacte businessprobleem? ................................................................................................................ 99
2.2. Hoe kunnen we het bedrijfsprobleem oplossen? ............................................................................................. 101
Hoofdstuk 12: Other data science tasks and techniques .............................................................103
1. Co-occurrence grouping .................................................................................................................. 103
2. Profiling .......................................................................................................................................... 106
3. Link predic4on ................................................................................................................................ 108
4. Data reduc4on ................................................................................................................................ 108
5. Bias, variance & ensemble methods ................................................................................................ 109
5.1. Types of errors .................................................................................................................................................. 110
6. Causal modelling ............................................................................................................................. 110
7. Toegepast voorbeeld rond viral marke4ng ....................................................................................... 111
Hoofdstuk 13: Data science and business strategy .....................................................................112
1. Compe44ve advantage ................................................................................................................... 112
2. De rol van managers in data science ................................................................................................ 113
2.1. Verantwoordelijkheden van managers ............................................................................................................. 113
2.2. Het perspec-ef van de data scien-st................................................................................................................ 114
3
, 2.3. Valkuilen ........................................................................................................................................................... 114
2.4. Wat met kleine bedrijven? ............................................................................................................................... 115
3. Evalua4ng proposals for data science projects ................................................................................. 115
Een data mining voorstel evalueren in de prak-jk .................................................................................................. 116
Hoofdstuk 14: Conclusie .............................................................................................................118
1. Fundamentele concepten ................................................................................................................ 118
1.1. Hoe past data science binnen een organisa-e? ............................................................................................... 118
1.2. Hoe denk je data-analy-sch? ........................................................................................................................... 118
1.3. Hoe haal je kennis uit data?.............................................................................................................................. 119
2. Adver4sing over different devices ................................................................................................... 119
2.1. Het probleem.................................................................................................................................................... 119
2.2. De oplossing: gebruik van text mining-concepten............................................................................................ 119
2.3. Toepassing op adverten-es .............................................................................................................................. 120
3. Wat kan data niet doen? ................................................................................................................. 120
4. Data representeert niet de ‘objec4ve truth’..................................................................................... 121
5. Privacy concerns.............................................................................................................................. 121
4
, Introduc)e
Data value escalator
Wat is data science?
20 top use-cases
#1: Fraud Detec2on #12: Personalized Recommenda2ons
#2: Real-Time Inventory Management #13: Network Security Monitoring
#3: Intui2ve Customer Insights #14: Text and Image Recogni2on
#4: Automated Demand Forecas2ng #15: Smart Manufacturing Processes
#5: Automated Targeted Adver2sing #16: Social Media Monitoring & Analysis
#6: Automated Supply Chain Op2miza2on #17: Real-Time Loca2on Tracking &
#7: Predic2ve Maintenance and Repair Management
Scheduling #18: Healthcare Diagnos2cs & Treatment
#8: Smart Pricing Strategies Planning
#9: Predic2ve Outcome Modeling #19: Automated Legal Document
Classifica2on
#10: Predic2ve Risk Modeling
#20: Automated Quality Control & Tes2ng
#11: Intelligent Chatbots
5
,Data science speelt een cruciale rol in moderne organisa2es doordat het helpt om waardevolle
inzichten uit data te halen en strategische beslissingen te ondersteunen. Er zijn drie fundamentele
concepten die centraal staan binnen het domein van data science.
1. De plaats van data science binnen een organisa:e
Data science wordt steeds vaker geïntegreerd in verschillende bedrijfsprocessen. Het stelt
organisa2es in staat om efficiënter te werken, risico’s beter in te schaaen en klantgedrag
nauwkeuriger te analyseren. Men moet dus nadenken hoe data science past in een organisa2e. Door
data science strategisch in te zeaen, kunnen bedrijven een compe22ef voordeel behalen ten opzichte
van hun concurrenten. Dit gebeurt bijvoorbeeld door snellere innova2e, gepersonaliseerde marke2ng
of betere voorspellingen van de marktvraag.
2. Data-analy:sch denken
Een kernvaardigheid binnen data science is data-analy2sch denken. Dit houdt in dat men leert om
problemen te benaderen met een analy2sche blik. Het begint bij het iden2ficeren van de juiste en
relevante data die nodig zijn om een vraagstuk te onderzoeken. Daarnaast is het essen2eel om
geschikte methoden en analysetechnieken te kiezen die passen bij het type data en het gewenste
resultaat. Deze manier van denken vormt de basis voor een systema2sche en onderbouwde aanpak
van bedrijfsproblemen.
3. Inzichten en kennis halen uit data
Het uiteindelijke doel van data science is om kennis te genereren uit ruwe gegevens. Dit betekent dat
men in staat moet zijn om patronen te herkennen, trends te analyseren en conclusies te trekken op
basis van data. Hiervoor is een combina2e van technische vaardigheden, kri2sch denkvermogen en
inzicht in de context van het probleem nodig. Het omzeaen van data naar bruikbare informa2e helpt
organisa2es om beter te begrijpen wat er gebeurt en waarom.
Het doel van deze fundamentele concepten is om in staat te zijn een bedrijfsprobleem te benaderen
en op te lossen vanuit een data-perspec2ef. Dit betekent dat men leert denken in termen van data,
geschikte analysemethoden toepast en op basis van inzichten gefundeerde beslissingen kan nemen
die waarde creëren voor de organisa2e.
6
, Hoofdstuk 1: Introduc)on – Data Analy)c Thinking
De afgelopen vijbien jaar is er veel geïnvesteerd in bedrijfsinfrastructuur, waardoor het vermogen om
gegevens te verzamelen in de hele onderneming heeb verbeterd. Vrijwel elk onderdeel van het bedrijf
staat nu open voor gegevensverzameling en is vaak zelfs uitgerust met instrumenten voor
gegevensverzameling: opera2ons, produc2e, supply chain management, klantgedrag,
marke2ngcampagnepresta2es, workflowprocedures, enzovoort. Tegelijker2jd is er nu op grote schaal
informa2e beschikbaar over externe gebeurtenissen zoals markarends, nieuws uit de sector en
bewegingen van concurrenten. Deze brede beschikbaarheid van gegevens heeb geleid tot een
toenemende belangstelling op voor methoden om nuege informa2e en kennis uit gegevens te
extraheren – het domein van data science.
We bespreken vier paden binnen data analy2cal thinking:
• Waarom zijn data science en data analy2cal thinking belangrijk?
• Enkele prak2sche voorbeelden
• Wat is data-analy2cal thinking?
• Wat is data science?
1. Waarom zijn data science en data analy>cal thinking belangrijk?
Er zijn drie redenen waarom data-analy2cal thinking en data science zo belangrijk zijn:
1. Eerst en vooral zijn er veel mogelijkheden dankzij de beschikbare data.
2. Daarnaast is een een probleem met betrekking tot de naleving van de regels.
3. Ten sloae zijn er enorm veel applica2ons mogelijk.
1.1. Data opportuni:es
Nu er enorme hoeveelheden gegevens beschikbaar zijn, richten bedrijven in bijna elke branche zich
op het benuaen van gegevens voor concurren2evoordeel. In het verleden konden bedrijven teams
van sta2s2ci, modelleurs en analisten inzeaen om datasets handma2g te onderzoeken, maar het
volume en de variëteit van de gegevens hebben de capaciteit van handma2ge analyse ver overtroffen.
Tegelijker2jd zijn computers veel krach2ger geworden, zijn netwerken alomtegenwoordig geworden
en zijn er algoritmen ontwikkeld die datasets met elkaar kunnen verbinden om bredere en diepere
analyses mogelijk te maken dan voorheen mogelijk was. Het samenkomen van deze fenomenen heeb
geleid tot de steeds wijder verbreide zakelijke toepassing van data science principes en data-mining
technieken.
Van Big Data 1.0 naar Big Data 2.0
Een manier om na te denken over de stand van zaken met betrekking tot big data-technologieën is
door een analogie te trekken met het gebruik van interneaechnologieën door bedrijven. In Web 1.0
hielden bedrijven zich bezig met de basis interneaechnologieën, zodat ze een aanwezigheid op het
web konden ves2gen, elektronische handel konden opbouwen en de efficiën2e van hun ac2viteiten
konden verbeteren. We kunnen ons voorstellen dat we ons in het 2jdperk van Big Data 1.0 bevinden.
Bedrijven zijn druk bezig met het opbouwen van de mogelijkheden om grote hoeveelheden gegevens
te verwerken, grotendeels ter ondersteuning van hun huidige ac2viteiten – bijvoorbeeld om de
efficiën2e te verbeteren.
7
,Zodra bedrijven Web 1.0 technologieën grondig hadden geïntegreerd (en in het proces de prijzen van
de onderliggende technologie hadden gedrukt) begonnen ze verder te kijken. Ze begonnen zich af te
vragen wat het Web voor hen kon doen en hoe het dingen kon verbeteren die ze al2jd al deden – en
zo kwamen we in het 2jdperk van Web 2.0, waar nieuwe systemen en bedrijven voordeel begonnen
te halen uit de interac2eve aard van het Web. De veranderingen die deze verschuiving in denken
teweegbracht zijn alomtegenwoordig; de meest voor de hand liggende zijn de integra2e van sociale
netwerkcomponenten en de opkomst van de “stem” van de individuele consument (en burger).
We kunnen verwachten dat na Big Data 1.0 een Big Data 2.0-fase zal volgen. Zodra bedrijven in staat
zijn om enorme hoeveelheden gegevens op een flexibele manier te verwerken, moeten ze zich gaan
afvragen: “Wat kan ik nu doen dat ik eerder niet kon, of beter dan voorheen?” Dit wordt waarschijnlijk
het gouden 2jdperk van data science.
Het is belangrijk op te merken dat in het Web 1.0 2jdperk sommige bedrijven Web 2.0 ideeën al ver
voor de mainstream begonnen toe te passen. Amazon is een goed voorbeeld en integreerde de
“stem” van de consument al vroeg, in de beoordeling van producten, in productbeoordelingen (en
dieper, in de beoordeling van productbeoordelingen). Op dezelfde manier zien we dat sommige
bedrijven Big Data 2.0 al toepassen. Amazon is opnieuw een bedrijf in de voorhoede, dat
datagestuurde aanbevelingen doet op basis van enorme hoeveelheden gegevens. Er zijn ook andere
voorbeelden. Online adverteerders moeten extreem grote hoeveelheden gegevens verwerken
(miljarden adverten2evertoningen per dag is niet ongewoon) en een zeer hoge verwerkingscapaciteit
handhaven (real2me biedsystemen nemen beslissingen in 2entallen milliseconden). We moeten naar
deze en soortgelijke industrieën kijken voor hints naar de vooruitgang in big data en data science die
vervolgens door andere industrieën zullen worden overgenomen.
Compliance to regula:ons – naleving van de voorschriFen
Data-analy2cal thinking is er ook om regels na te leven. Er zijn twee regels aan bepaalde takken in
de industrie opgelegd: Basel II en Solvency II.
• Basel II is voor banken om risicomodellen op te stellen om de markten, kredieten en het
opera2onele in te schaaen.
• Solvency II is een voorschrib voor verzekeringsbedrijven.
Possible applica:ons
Waarschijnlijk zijn de breedste toepassingen van dataminingtechnieken te vinden in marke2ng voor
taken als gerichte marke2ng, online reclame en aanbevelingen voor cross-selling.
Datamining wordt gebruikt voor customer rela2onship management of algemeen klantrela2ebeheer
om het gedrag van klanten te analyseren om het verloop (churning) te beheersen en de verwachte
klantwaarde te maximaliseren.
De financiële sector gebruikt datamining voor kredietscores en handel, en in opera2es via
fraudedetec2e en personeelsbeheer. Grote retailers, van Walmart tot Amazon, passen datamining
toe in hun hele bedrijf, van marke2ng tot supply chain management. Veel bedrijven hebben zich
strategisch gedifferen2eerd met datawetenschap, soms tot het punt dat ze zich ontwikkelen tot
dataminingbedrijven.
Daarnaast wordt datamining ook voor corporate performance management gebruikt.
Ten sloae wordt datamining via de markt (mergers en globalisa2on) verzameld. Je hebt niet genoeg
met jouw eigen data. Meer gegevens uit heterogene bronnen van de markt moeten steeds sneller
geanalyseerd worden.
8
,2. Enkele prak>sche voorbeelden
2.1. Hurricane Frances
Neem een voorbeeld uit een verhaal in de New York Times uit 2004:
Orkaan Frances was onderweg, raasde over de Caraïben en dreigde de Atlan8sche kust van Florida te
raken. Inwoners zochten hoger gelegen gebieden op, maar ver weg, in Bentonville, Ark., besloten
leidinggevenden bij Wal-Mart Stores dat de situa8e een geweldige kans bood voor een van hun
nieuwste gegevensgestuurde wapens ... voorspellende technologie.
Een week voordat de storm aan land kwam, zeGe Linda M. Dillman, hoofd informa8e van Wal-Mart,
haar personeel onder druk om voorspellingen te doen op basis van wat er was gebeurd toen orkaan
Charley enkele weken eerder toesloeg. Gesteund door de biljoenen bytes aan winkelhistorie die zijn
opgeslagen in het datawarehouse van Wal-Mart, vond ze dat het bedrijf “kon beginnen te voorspellen
wat er ging gebeuren, in plaats van te wachten tot het gebeurde”, zoals ze het uitdrukte.
Bedenk waarom datagestuurde voorspellingen nueg kunnen zijn in dit scenario. Het zou nueg
kunnen zijn om te voorspellen dat mensen in het pad van de orkaan meer flessenwater zouden kopen.
Misschien, maar dit lijkt een beetje voor de hand liggend en waarom zouden we datawetenschap
nodig hebben om dit te ontdekken? Het zou nueg kunnen zijn om te voorspellen hoeveel de verkoop
zal toenemen als gevolg van de orkaan, om ervoor te zorgen dat de plaatselijke Wal-Marts de juiste
voorraden hebben. Misschien zou uit de gegevens kunnen blijken dat een bepaalde dvd in de buurt
van de orkaan was uitverkocht, maar misschien was hij die week in Wal-Marts in het hele land
uitverkocht, niet alleen daar waar de orkaan aankwam. De voorspelling zou enigszins nueg kunnen
zijn, maar is waarschijnlijk algemener dan Ms. Dillman bedoelde.
Het zou waardevoller zijn om patronen als gevolg van de orkaan te ontdekken die niet voor de hand
lagen. Om dit te doen, zouden analisten de enorme hoeveelheid Wal-Mart-gegevens van eerdere,
vergelijkbare situa2es (zoals orkaan Charley) kunnen onderzoeken om ongebruikelijke lokale vraag
naar producten te iden2ficeren. Op basis van dergelijke patronen zou het bedrijf kunnen an2ciperen
op een ongebruikelijke vraag naar producten en de voorraad naar de winkels kunnen haasten voordat
de orkaan aan land kwam.
Dat is inderdaad wat er gebeurde. De New York Times rapporteerde dat: "... de experts onderzochten
de gegevens en ontdekten dat de winkels inderdaad bepaalde producten nodig zouden hebben – en
niet alleen de gebruikelijke zaklampen. We wisten in het verleden niet dat aardbeien Pop-Tarts zeven
keer meer verkochten voordat er een orkaan kwam", zei mevrouw Dillman in een recent interview.
En het best verkochte ar2kel vóór de orkaan was bier.”
2.2. Pregnancy predic:on
Bij Target wisten ze dat de komst van een nieuwe baby in een gezin een punt is waarop mensen hun
winkelgewoonten ingrijpend veranderen. Target zegt dat zodra ze luiers van target kopen, ze ook al
het andere gaan daar kopen. Target was geïnteresseerd in de vraag of ze konden voorspellen of
mensen in verwach2ng zijn. Als ze dat konden, zouden ze een voordeel behalen door aanbiedingen
te doen voor hun concurrenten dat konden doen. Met behulp van data science, analyseerde Target
historische informa2e over klanten die later zwanger bleken te zijn.
2.3. Churn predic:on
Het probleem rond churn predic2on zal dienen als een lopend voorbeeld doorheen de hele cursus.
9
, Stel dat je net een geweldige analy2sche baan hebt gekregen bij MegaTelCo, een van de grootste
telecommunica2ebedrijven in de Verenigde Staten. Ze hebben een groot probleem met
klantenbehoud in hun draadloze business. In de mid-Atlan2sche regio verlaat 20% van de mobiele
telefoonklanten het bedrijf als hun contract afloopt en het wordt steeds moeilijker om nieuwe klanten
te werven. Omdat de markt voor mobiele telefoons nu verzadigd is, is de enorme groei in de draadloze
markt afgenomen. Communica2ebedrijven zijn nu verwikkeld in een strijd om elkaars klanten aan te
trekken en hun eigen klanten te behouden. Klanten die van het ene bedrijf naar het andere
overstappen wordt churn genoemd, en het is duur voor iedereen: het ene bedrijf moet geld uitgeven
aan incen2ves om een klant aan te trekken, terwijl het andere bedrijf inkomsten verliest als de klant
vertrekt.
Je bent gevraagd om te helpen het probleem te begrijpen en een oplossing te bedenken. Het
aantrekken van nieuwe klanten is veel duurder dan het behouden van bestaande klanten, dus een
groot deel van het marke2ngbudget wordt besteed aan het voorkomen van churn. Marke2ng heeb
al een speciale reten2eaanbieding ontworpen. Jouw taak is om een nauwkeurig, stap-voor-stap plan
te bedenken voor de manier waarop het data science team de enorme gegevensbronnen van
MegaTelCo moet gebruiken om te beslissen welke klanten de speciale reten2eaanbieding moeten
krijgen voordat hun contracten aflopen.
Denk goed na over welke gegevens je zou kunnen gebruiken en hoe ze zouden worden gebruikt. Meer
specifiek, hoe moet MegaTelCo een reeks klanten kiezen die hun aanbod ontvangen om de opzegging
van een bepaald incen2vebudget zo goed mogelijk te verminderen? Het beantwoorden van deze
vraag is veel ingewikkelder dan het op het eerste gezicht lijkt. We zullen in de loop van het boek
herhaaldelijk op dit probleem terugkomen en onze oplossing verfijnen naarmate we meer inzicht
krijgen in de fundamentele concepten van datawetenschap.
In werkelijkheid is klantbehoud een van de belangrijkste toepassingen van dataminingtechnologieën,
vooral in de telecommunica2e- en financiële sector. Deze bedrijven waren meer in het algemeen
enkele van de eerste en breedste toepassers van dataminingtechnologieën.
3. Wat is data-analy>cal thinking?
Het analyseren van casestudies zoals het churnprobleem verbetert ons vermogen om problemen
“data-analy2sch” te benaderen. Wanneer u wordt geconfronteerd met een bedrijfsprobleem, moet
u kunnen beoordelen of en hoe gegevens de presta2es kunnen verbeteren. We bespreken een aantal
fundamentele concepten en principes die zorgvuldig denken vergemakkelijken.
• Will data help solve a business problem?
• How to do so systema2cally?
• Venture capitalists wan2ng to invest?
• Understand data-driven campaigns
• Need for managers with data-analy2c skills
• Big Data is Big Business
Zoals hierboven vermeld, is het belangrijk om data science te begrijpen, zelfs als je nooit van plan
bent om het zelf te doen, omdat data-analyse nu zo cruciaal is voor de bedrijfsstrategie. Bedrijven
worden steeds meer gedreven door data-analyse, dus er is een groot professioneel voordeel als je
competent kunt samenwerken met en binnen dergelijke bedrijven. Als je de fundamentele concepten
begrijpt en beschikt over kaders voor het organiseren van data-analy2sch denken, kun je niet alleen
competent samenwerken, maar ook kansen zien voor het verbeteren van datagestuurde
besluitvorming of datagestuurde bedreigingen voor de concurren2e zien.
10
Introduc)e .................................................................................................................................... 5
Hoofdstuk 1: Introduc)on – Data Analy)c Thinking ...................................................................... 7
1. Waarom zijn data science en data analy4cal thinking belangrijk? ........................................................ 7
1.1. Data opportuni-es................................................................................................................................................ 7
2. Enkele prak4sche voorbeelden ............................................................................................................ 9
2.1. Hurricane Frances ................................................................................................................................................. 9
2.2. Pregnancy predic-on ............................................................................................................................................ 9
2.3. Churn predic-on ................................................................................................................................................... 9
3. Wat is data-analy4cal thinking?......................................................................................................... 10
3.1. Data science capability as strategic asset ........................................................................................................... 11
4. Wat is data science? .......................................................................................................................... 12
Hoofdstuk 2: Business problems and data science solu)ons ........................................................ 14
1. Different data-mining tasks ............................................................................................................... 14
1.1. Classifica-on & class probability es-ma-on....................................................................................................... 14
1.2. Regression .......................................................................................................................................................... 14
1.3. Similarity matching ............................................................................................................................................. 15
1.4. Clustering ............................................................................................................................................................ 15
1.5. Co-occurrence grouping ..................................................................................................................................... 15
1.6. Profiling .............................................................................................................................................................. 15
1.7. Link predic-on .................................................................................................................................................... 16
1.8. Data reduc-on .................................................................................................................................................... 16
1.9. Causal modelling ................................................................................................................................................ 16
1.10. Andere fundamentele technieken .................................................................................................................... 17
2. Supervised versus unsupervised ........................................................................................................ 17
3. The data mining process .................................................................................................................... 18
3.1. Een belangrijk onderscheid ................................................................................................................................ 18
3.2. Knowledge discovery in databases ..................................................................................................................... 19
4. Andere analysetechnieken en technologieën..................................................................................... 22
4.1. Sta-s-cs .............................................................................................................................................................. 22
4.2. Database querying .............................................................................................................................................. 22
4.3. Data warehousing ............................................................................................................................................... 23
4.4. Regression analysis ............................................................................................................................................. 23
4.5. Datamining (KDD) en machine learning (AI) ....................................................................................................... 23
Hoofdstuk 3: Introduc)on to predic)ve modeling ....................................................................... 25
1. Terminologie ..................................................................................................................................... 25
1.1. Model ................................................................................................................................................................. 25
1.2. Two high-level primary goals: predic-on and descrip-on .................................................................................. 25
1.3. Instance .............................................................................................................................................................. 26
1.4. Induc-e en deduc-e ........................................................................................................................................... 26
2. Supervised segmenta4on .................................................................................................................. 26
2.1. Complica-es ....................................................................................................................................................... 27
3. Het selecteren van informa4eve aPributen ....................................................................................... 27
3.1. Entropie .............................................................................................................................................................. 28
3.2. Informa-on gain ................................................................................................................................................. 29
3.3. Numeric values ................................................................................................................................................... 30
3.4. Regressieproblemen ........................................................................................................................................... 30
4. Segmenta4e met boomstructuurmodellen ........................................................................................ 30
5. Andere voorstellingen ....................................................................................................................... 32
1
, 5.1. Decision lines en hyper planes ........................................................................................................................... 32
5.2. Bomen als reeksen van regels ............................................................................................................................ 33
6. Probability es4ma4on ....................................................................................................................... 33
Hoofdstuk 4: FiHng a model to data ........................................................................................... 35
1. Linear discriminant func4ons ............................................................................................................ 35
1.1. Op-maliseren van de objec-ve func-on ............................................................................................................ 37
2. Classifica4on: scoring and ranking ..................................................................................................... 38
3. Linear model for classifica4on: Support Vector Machines (SVM)........................................................ 39
4. Linear model for classifica4on: logis4c regression ............................................................................. 40
5. Linear model for regression: linear regression ................................................................................... 41
6. Wat als de data niet lineair is? ........................................................................................................... 42
Hoofdstuk 5: OverfiHng and its avoidance ................................................................................. 43
1. Overfi[ng ......................................................................................................................................... 43
1.1. Holdout data ....................................................................................................................................................... 43
1.2. Overfi]ng en boomstructuren........................................................................................................................... 44
1.3. Overfi]ng en mathema-sche func-es .............................................................................................................. 44
1.4. Waarom is overfi]ng slecht? ............................................................................................................................. 46
2. Overfi[ng vermijden ........................................................................................................................ 47
2.1. Cross valida-on................................................................................................................................................... 47
2.2. Learning curve .................................................................................................................................................... 48
2.3. Overfi]ng vermijden en complixiteit controleren ............................................................................................. 49
Hoofdstuk 6: Similarity, neighbors and clusters ........................................................................... 53
1. Calculate similarity ............................................................................................................................ 53
1.1. Het gebruik van similarity ................................................................................................................................... 53
1.2. Distance .............................................................................................................................................................. 53
1.3. Nearest-neighbor reasoning ............................................................................................................................... 54
2. Clustering as similarity-based segmenta4on ...................................................................................... 59
2.1. Hiërarchische clustering ..................................................................................................................................... 60
2.2. Centroid clustering ............................................................................................................................................. 60
2.3. Clustering resultaten .......................................................................................................................................... 62
Hoofdstuk 7: Decision analy)cal thinking: What is a good model? ............................................. 64
1. Evalueren van classifiers .................................................................................................................... 64
1.1. Plain accuracy ..................................................................................................................................................... 64
1.2. Confusion matrix ................................................................................................................................................ 65
2. Generalizing beyond classifiers .......................................................................................................... 67
3. Expected value framework ................................................................................................................ 67
3.1. Expected benefit of targe-ng ............................................................................................................................. 68
3.2. Classifier evalua-on ............................................................................................................................................ 68
3.3. Kosten en baten .................................................................................................................................................. 70
3.4. Model performance............................................................................................................................................ 70
4. Baseline performance and consequences .......................................................................................... 72
Hoofdstuk 8: Visualizing model performance .............................................................................. 73
1. Ranking instead of classifying ............................................................................................................ 73
2. Profit curves ...................................................................................................................................... 75
3. ROC curves en AUC ............................................................................................................................ 75
2
, 4. Cumula4ve response curve and lic curve .......................................................................................... 77
5. Voorbeeld ......................................................................................................................................... 78
Hoofdstuk 9: Evidence and probabili)es...................................................................................... 81
1. Combining evidence probabilis4cally................................................................................................. 81
2. Joint probability and independence .................................................................................................. 82
3. Bayes’ Rule ........................................................................................................................................ 83
3.1. Bayes’ Rule toepassen op data science .............................................................................................................. 84
3.2. Condi-onal independence and Naïve Bayes ...................................................................................................... 85
3.3. Voor- en nadelen van Naïve Bayes ..................................................................................................................... 86
4. A model of evidence “Lic” ................................................................................................................ 87
Hoofdstuk 10: Represen)ng and mining text............................................................................... 89
1. Dataprepara4e .................................................................................................................................. 89
2. Bag of words ..................................................................................................................................... 89
2.1. Term frequency................................................................................................................................................... 90
2.2. Normaliza-on and stemming ............................................................................................................................. 90
2.3. Raw count versus normalizing counts ................................................................................................................ 90
3. TFIDF ................................................................................................................................................. 91
3.1. Measuring sparseness: inverse document frequency ........................................................................................ 91
3.2. Combining TF en IDF (TFIDF) .............................................................................................................................. 92
4. N-gram sequence .............................................................................................................................. 93
5. Named en4ty extrac4on.................................................................................................................... 93
6. Topic models ..................................................................................................................................... 94
Hoofdstuk 11: Decision analy)cal thining: Toward analy)cal engineering.................................. 97
1. Charity mailing .................................................................................................................................. 97
1.1. Wat is het exacte businessprobleem? ................................................................................................................ 97
1.2. Hoe kunnen we het bedrijfsprobleem oplossen? ............................................................................................... 98
2. Churn predic4on ............................................................................................................................... 99
2.1. Wat is het exacte businessprobleem? ................................................................................................................ 99
2.2. Hoe kunnen we het bedrijfsprobleem oplossen? ............................................................................................. 101
Hoofdstuk 12: Other data science tasks and techniques .............................................................103
1. Co-occurrence grouping .................................................................................................................. 103
2. Profiling .......................................................................................................................................... 106
3. Link predic4on ................................................................................................................................ 108
4. Data reduc4on ................................................................................................................................ 108
5. Bias, variance & ensemble methods ................................................................................................ 109
5.1. Types of errors .................................................................................................................................................. 110
6. Causal modelling ............................................................................................................................. 110
7. Toegepast voorbeeld rond viral marke4ng ....................................................................................... 111
Hoofdstuk 13: Data science and business strategy .....................................................................112
1. Compe44ve advantage ................................................................................................................... 112
2. De rol van managers in data science ................................................................................................ 113
2.1. Verantwoordelijkheden van managers ............................................................................................................. 113
2.2. Het perspec-ef van de data scien-st................................................................................................................ 114
3
, 2.3. Valkuilen ........................................................................................................................................................... 114
2.4. Wat met kleine bedrijven? ............................................................................................................................... 115
3. Evalua4ng proposals for data science projects ................................................................................. 115
Een data mining voorstel evalueren in de prak-jk .................................................................................................. 116
Hoofdstuk 14: Conclusie .............................................................................................................118
1. Fundamentele concepten ................................................................................................................ 118
1.1. Hoe past data science binnen een organisa-e? ............................................................................................... 118
1.2. Hoe denk je data-analy-sch? ........................................................................................................................... 118
1.3. Hoe haal je kennis uit data?.............................................................................................................................. 119
2. Adver4sing over different devices ................................................................................................... 119
2.1. Het probleem.................................................................................................................................................... 119
2.2. De oplossing: gebruik van text mining-concepten............................................................................................ 119
2.3. Toepassing op adverten-es .............................................................................................................................. 120
3. Wat kan data niet doen? ................................................................................................................. 120
4. Data representeert niet de ‘objec4ve truth’..................................................................................... 121
5. Privacy concerns.............................................................................................................................. 121
4
, Introduc)e
Data value escalator
Wat is data science?
20 top use-cases
#1: Fraud Detec2on #12: Personalized Recommenda2ons
#2: Real-Time Inventory Management #13: Network Security Monitoring
#3: Intui2ve Customer Insights #14: Text and Image Recogni2on
#4: Automated Demand Forecas2ng #15: Smart Manufacturing Processes
#5: Automated Targeted Adver2sing #16: Social Media Monitoring & Analysis
#6: Automated Supply Chain Op2miza2on #17: Real-Time Loca2on Tracking &
#7: Predic2ve Maintenance and Repair Management
Scheduling #18: Healthcare Diagnos2cs & Treatment
#8: Smart Pricing Strategies Planning
#9: Predic2ve Outcome Modeling #19: Automated Legal Document
Classifica2on
#10: Predic2ve Risk Modeling
#20: Automated Quality Control & Tes2ng
#11: Intelligent Chatbots
5
,Data science speelt een cruciale rol in moderne organisa2es doordat het helpt om waardevolle
inzichten uit data te halen en strategische beslissingen te ondersteunen. Er zijn drie fundamentele
concepten die centraal staan binnen het domein van data science.
1. De plaats van data science binnen een organisa:e
Data science wordt steeds vaker geïntegreerd in verschillende bedrijfsprocessen. Het stelt
organisa2es in staat om efficiënter te werken, risico’s beter in te schaaen en klantgedrag
nauwkeuriger te analyseren. Men moet dus nadenken hoe data science past in een organisa2e. Door
data science strategisch in te zeaen, kunnen bedrijven een compe22ef voordeel behalen ten opzichte
van hun concurrenten. Dit gebeurt bijvoorbeeld door snellere innova2e, gepersonaliseerde marke2ng
of betere voorspellingen van de marktvraag.
2. Data-analy:sch denken
Een kernvaardigheid binnen data science is data-analy2sch denken. Dit houdt in dat men leert om
problemen te benaderen met een analy2sche blik. Het begint bij het iden2ficeren van de juiste en
relevante data die nodig zijn om een vraagstuk te onderzoeken. Daarnaast is het essen2eel om
geschikte methoden en analysetechnieken te kiezen die passen bij het type data en het gewenste
resultaat. Deze manier van denken vormt de basis voor een systema2sche en onderbouwde aanpak
van bedrijfsproblemen.
3. Inzichten en kennis halen uit data
Het uiteindelijke doel van data science is om kennis te genereren uit ruwe gegevens. Dit betekent dat
men in staat moet zijn om patronen te herkennen, trends te analyseren en conclusies te trekken op
basis van data. Hiervoor is een combina2e van technische vaardigheden, kri2sch denkvermogen en
inzicht in de context van het probleem nodig. Het omzeaen van data naar bruikbare informa2e helpt
organisa2es om beter te begrijpen wat er gebeurt en waarom.
Het doel van deze fundamentele concepten is om in staat te zijn een bedrijfsprobleem te benaderen
en op te lossen vanuit een data-perspec2ef. Dit betekent dat men leert denken in termen van data,
geschikte analysemethoden toepast en op basis van inzichten gefundeerde beslissingen kan nemen
die waarde creëren voor de organisa2e.
6
, Hoofdstuk 1: Introduc)on – Data Analy)c Thinking
De afgelopen vijbien jaar is er veel geïnvesteerd in bedrijfsinfrastructuur, waardoor het vermogen om
gegevens te verzamelen in de hele onderneming heeb verbeterd. Vrijwel elk onderdeel van het bedrijf
staat nu open voor gegevensverzameling en is vaak zelfs uitgerust met instrumenten voor
gegevensverzameling: opera2ons, produc2e, supply chain management, klantgedrag,
marke2ngcampagnepresta2es, workflowprocedures, enzovoort. Tegelijker2jd is er nu op grote schaal
informa2e beschikbaar over externe gebeurtenissen zoals markarends, nieuws uit de sector en
bewegingen van concurrenten. Deze brede beschikbaarheid van gegevens heeb geleid tot een
toenemende belangstelling op voor methoden om nuege informa2e en kennis uit gegevens te
extraheren – het domein van data science.
We bespreken vier paden binnen data analy2cal thinking:
• Waarom zijn data science en data analy2cal thinking belangrijk?
• Enkele prak2sche voorbeelden
• Wat is data-analy2cal thinking?
• Wat is data science?
1. Waarom zijn data science en data analy>cal thinking belangrijk?
Er zijn drie redenen waarom data-analy2cal thinking en data science zo belangrijk zijn:
1. Eerst en vooral zijn er veel mogelijkheden dankzij de beschikbare data.
2. Daarnaast is een een probleem met betrekking tot de naleving van de regels.
3. Ten sloae zijn er enorm veel applica2ons mogelijk.
1.1. Data opportuni:es
Nu er enorme hoeveelheden gegevens beschikbaar zijn, richten bedrijven in bijna elke branche zich
op het benuaen van gegevens voor concurren2evoordeel. In het verleden konden bedrijven teams
van sta2s2ci, modelleurs en analisten inzeaen om datasets handma2g te onderzoeken, maar het
volume en de variëteit van de gegevens hebben de capaciteit van handma2ge analyse ver overtroffen.
Tegelijker2jd zijn computers veel krach2ger geworden, zijn netwerken alomtegenwoordig geworden
en zijn er algoritmen ontwikkeld die datasets met elkaar kunnen verbinden om bredere en diepere
analyses mogelijk te maken dan voorheen mogelijk was. Het samenkomen van deze fenomenen heeb
geleid tot de steeds wijder verbreide zakelijke toepassing van data science principes en data-mining
technieken.
Van Big Data 1.0 naar Big Data 2.0
Een manier om na te denken over de stand van zaken met betrekking tot big data-technologieën is
door een analogie te trekken met het gebruik van interneaechnologieën door bedrijven. In Web 1.0
hielden bedrijven zich bezig met de basis interneaechnologieën, zodat ze een aanwezigheid op het
web konden ves2gen, elektronische handel konden opbouwen en de efficiën2e van hun ac2viteiten
konden verbeteren. We kunnen ons voorstellen dat we ons in het 2jdperk van Big Data 1.0 bevinden.
Bedrijven zijn druk bezig met het opbouwen van de mogelijkheden om grote hoeveelheden gegevens
te verwerken, grotendeels ter ondersteuning van hun huidige ac2viteiten – bijvoorbeeld om de
efficiën2e te verbeteren.
7
,Zodra bedrijven Web 1.0 technologieën grondig hadden geïntegreerd (en in het proces de prijzen van
de onderliggende technologie hadden gedrukt) begonnen ze verder te kijken. Ze begonnen zich af te
vragen wat het Web voor hen kon doen en hoe het dingen kon verbeteren die ze al2jd al deden – en
zo kwamen we in het 2jdperk van Web 2.0, waar nieuwe systemen en bedrijven voordeel begonnen
te halen uit de interac2eve aard van het Web. De veranderingen die deze verschuiving in denken
teweegbracht zijn alomtegenwoordig; de meest voor de hand liggende zijn de integra2e van sociale
netwerkcomponenten en de opkomst van de “stem” van de individuele consument (en burger).
We kunnen verwachten dat na Big Data 1.0 een Big Data 2.0-fase zal volgen. Zodra bedrijven in staat
zijn om enorme hoeveelheden gegevens op een flexibele manier te verwerken, moeten ze zich gaan
afvragen: “Wat kan ik nu doen dat ik eerder niet kon, of beter dan voorheen?” Dit wordt waarschijnlijk
het gouden 2jdperk van data science.
Het is belangrijk op te merken dat in het Web 1.0 2jdperk sommige bedrijven Web 2.0 ideeën al ver
voor de mainstream begonnen toe te passen. Amazon is een goed voorbeeld en integreerde de
“stem” van de consument al vroeg, in de beoordeling van producten, in productbeoordelingen (en
dieper, in de beoordeling van productbeoordelingen). Op dezelfde manier zien we dat sommige
bedrijven Big Data 2.0 al toepassen. Amazon is opnieuw een bedrijf in de voorhoede, dat
datagestuurde aanbevelingen doet op basis van enorme hoeveelheden gegevens. Er zijn ook andere
voorbeelden. Online adverteerders moeten extreem grote hoeveelheden gegevens verwerken
(miljarden adverten2evertoningen per dag is niet ongewoon) en een zeer hoge verwerkingscapaciteit
handhaven (real2me biedsystemen nemen beslissingen in 2entallen milliseconden). We moeten naar
deze en soortgelijke industrieën kijken voor hints naar de vooruitgang in big data en data science die
vervolgens door andere industrieën zullen worden overgenomen.
Compliance to regula:ons – naleving van de voorschriFen
Data-analy2cal thinking is er ook om regels na te leven. Er zijn twee regels aan bepaalde takken in
de industrie opgelegd: Basel II en Solvency II.
• Basel II is voor banken om risicomodellen op te stellen om de markten, kredieten en het
opera2onele in te schaaen.
• Solvency II is een voorschrib voor verzekeringsbedrijven.
Possible applica:ons
Waarschijnlijk zijn de breedste toepassingen van dataminingtechnieken te vinden in marke2ng voor
taken als gerichte marke2ng, online reclame en aanbevelingen voor cross-selling.
Datamining wordt gebruikt voor customer rela2onship management of algemeen klantrela2ebeheer
om het gedrag van klanten te analyseren om het verloop (churning) te beheersen en de verwachte
klantwaarde te maximaliseren.
De financiële sector gebruikt datamining voor kredietscores en handel, en in opera2es via
fraudedetec2e en personeelsbeheer. Grote retailers, van Walmart tot Amazon, passen datamining
toe in hun hele bedrijf, van marke2ng tot supply chain management. Veel bedrijven hebben zich
strategisch gedifferen2eerd met datawetenschap, soms tot het punt dat ze zich ontwikkelen tot
dataminingbedrijven.
Daarnaast wordt datamining ook voor corporate performance management gebruikt.
Ten sloae wordt datamining via de markt (mergers en globalisa2on) verzameld. Je hebt niet genoeg
met jouw eigen data. Meer gegevens uit heterogene bronnen van de markt moeten steeds sneller
geanalyseerd worden.
8
,2. Enkele prak>sche voorbeelden
2.1. Hurricane Frances
Neem een voorbeeld uit een verhaal in de New York Times uit 2004:
Orkaan Frances was onderweg, raasde over de Caraïben en dreigde de Atlan8sche kust van Florida te
raken. Inwoners zochten hoger gelegen gebieden op, maar ver weg, in Bentonville, Ark., besloten
leidinggevenden bij Wal-Mart Stores dat de situa8e een geweldige kans bood voor een van hun
nieuwste gegevensgestuurde wapens ... voorspellende technologie.
Een week voordat de storm aan land kwam, zeGe Linda M. Dillman, hoofd informa8e van Wal-Mart,
haar personeel onder druk om voorspellingen te doen op basis van wat er was gebeurd toen orkaan
Charley enkele weken eerder toesloeg. Gesteund door de biljoenen bytes aan winkelhistorie die zijn
opgeslagen in het datawarehouse van Wal-Mart, vond ze dat het bedrijf “kon beginnen te voorspellen
wat er ging gebeuren, in plaats van te wachten tot het gebeurde”, zoals ze het uitdrukte.
Bedenk waarom datagestuurde voorspellingen nueg kunnen zijn in dit scenario. Het zou nueg
kunnen zijn om te voorspellen dat mensen in het pad van de orkaan meer flessenwater zouden kopen.
Misschien, maar dit lijkt een beetje voor de hand liggend en waarom zouden we datawetenschap
nodig hebben om dit te ontdekken? Het zou nueg kunnen zijn om te voorspellen hoeveel de verkoop
zal toenemen als gevolg van de orkaan, om ervoor te zorgen dat de plaatselijke Wal-Marts de juiste
voorraden hebben. Misschien zou uit de gegevens kunnen blijken dat een bepaalde dvd in de buurt
van de orkaan was uitverkocht, maar misschien was hij die week in Wal-Marts in het hele land
uitverkocht, niet alleen daar waar de orkaan aankwam. De voorspelling zou enigszins nueg kunnen
zijn, maar is waarschijnlijk algemener dan Ms. Dillman bedoelde.
Het zou waardevoller zijn om patronen als gevolg van de orkaan te ontdekken die niet voor de hand
lagen. Om dit te doen, zouden analisten de enorme hoeveelheid Wal-Mart-gegevens van eerdere,
vergelijkbare situa2es (zoals orkaan Charley) kunnen onderzoeken om ongebruikelijke lokale vraag
naar producten te iden2ficeren. Op basis van dergelijke patronen zou het bedrijf kunnen an2ciperen
op een ongebruikelijke vraag naar producten en de voorraad naar de winkels kunnen haasten voordat
de orkaan aan land kwam.
Dat is inderdaad wat er gebeurde. De New York Times rapporteerde dat: "... de experts onderzochten
de gegevens en ontdekten dat de winkels inderdaad bepaalde producten nodig zouden hebben – en
niet alleen de gebruikelijke zaklampen. We wisten in het verleden niet dat aardbeien Pop-Tarts zeven
keer meer verkochten voordat er een orkaan kwam", zei mevrouw Dillman in een recent interview.
En het best verkochte ar2kel vóór de orkaan was bier.”
2.2. Pregnancy predic:on
Bij Target wisten ze dat de komst van een nieuwe baby in een gezin een punt is waarop mensen hun
winkelgewoonten ingrijpend veranderen. Target zegt dat zodra ze luiers van target kopen, ze ook al
het andere gaan daar kopen. Target was geïnteresseerd in de vraag of ze konden voorspellen of
mensen in verwach2ng zijn. Als ze dat konden, zouden ze een voordeel behalen door aanbiedingen
te doen voor hun concurrenten dat konden doen. Met behulp van data science, analyseerde Target
historische informa2e over klanten die later zwanger bleken te zijn.
2.3. Churn predic:on
Het probleem rond churn predic2on zal dienen als een lopend voorbeeld doorheen de hele cursus.
9
, Stel dat je net een geweldige analy2sche baan hebt gekregen bij MegaTelCo, een van de grootste
telecommunica2ebedrijven in de Verenigde Staten. Ze hebben een groot probleem met
klantenbehoud in hun draadloze business. In de mid-Atlan2sche regio verlaat 20% van de mobiele
telefoonklanten het bedrijf als hun contract afloopt en het wordt steeds moeilijker om nieuwe klanten
te werven. Omdat de markt voor mobiele telefoons nu verzadigd is, is de enorme groei in de draadloze
markt afgenomen. Communica2ebedrijven zijn nu verwikkeld in een strijd om elkaars klanten aan te
trekken en hun eigen klanten te behouden. Klanten die van het ene bedrijf naar het andere
overstappen wordt churn genoemd, en het is duur voor iedereen: het ene bedrijf moet geld uitgeven
aan incen2ves om een klant aan te trekken, terwijl het andere bedrijf inkomsten verliest als de klant
vertrekt.
Je bent gevraagd om te helpen het probleem te begrijpen en een oplossing te bedenken. Het
aantrekken van nieuwe klanten is veel duurder dan het behouden van bestaande klanten, dus een
groot deel van het marke2ngbudget wordt besteed aan het voorkomen van churn. Marke2ng heeb
al een speciale reten2eaanbieding ontworpen. Jouw taak is om een nauwkeurig, stap-voor-stap plan
te bedenken voor de manier waarop het data science team de enorme gegevensbronnen van
MegaTelCo moet gebruiken om te beslissen welke klanten de speciale reten2eaanbieding moeten
krijgen voordat hun contracten aflopen.
Denk goed na over welke gegevens je zou kunnen gebruiken en hoe ze zouden worden gebruikt. Meer
specifiek, hoe moet MegaTelCo een reeks klanten kiezen die hun aanbod ontvangen om de opzegging
van een bepaald incen2vebudget zo goed mogelijk te verminderen? Het beantwoorden van deze
vraag is veel ingewikkelder dan het op het eerste gezicht lijkt. We zullen in de loop van het boek
herhaaldelijk op dit probleem terugkomen en onze oplossing verfijnen naarmate we meer inzicht
krijgen in de fundamentele concepten van datawetenschap.
In werkelijkheid is klantbehoud een van de belangrijkste toepassingen van dataminingtechnologieën,
vooral in de telecommunica2e- en financiële sector. Deze bedrijven waren meer in het algemeen
enkele van de eerste en breedste toepassers van dataminingtechnologieën.
3. Wat is data-analy>cal thinking?
Het analyseren van casestudies zoals het churnprobleem verbetert ons vermogen om problemen
“data-analy2sch” te benaderen. Wanneer u wordt geconfronteerd met een bedrijfsprobleem, moet
u kunnen beoordelen of en hoe gegevens de presta2es kunnen verbeteren. We bespreken een aantal
fundamentele concepten en principes die zorgvuldig denken vergemakkelijken.
• Will data help solve a business problem?
• How to do so systema2cally?
• Venture capitalists wan2ng to invest?
• Understand data-driven campaigns
• Need for managers with data-analy2c skills
• Big Data is Big Business
Zoals hierboven vermeld, is het belangrijk om data science te begrijpen, zelfs als je nooit van plan
bent om het zelf te doen, omdat data-analyse nu zo cruciaal is voor de bedrijfsstrategie. Bedrijven
worden steeds meer gedreven door data-analyse, dus er is een groot professioneel voordeel als je
competent kunt samenwerken met en binnen dergelijke bedrijven. Als je de fundamentele concepten
begrijpt en beschikt over kaders voor het organiseren van data-analy2sch denken, kun je niet alleen
competent samenwerken, maar ook kansen zien voor het verbeteren van datagestuurde
besluitvorming of datagestuurde bedreigingen voor de concurren2e zien.
10