1 LES 1
1.1 DATA-ANALYTICAL THINKING
1.1.1 INTRODUCTIE
Laatste jaren veel geïnvesteerd in bedrijfsinfrastructuur
o Vermogen om gegevens te verzamelen in hele onderneming verbeterd
o Elk aspect van bedrijfsleven staat open voor gegevensverzameling:
Operaties
Productie
Supply chain management
Prestaties van marketingcampagnes
Klantgedrag
…
Veel info beschikbaar over externe gebeurtenissen: markttrends, sectornieuws en bewegingen van
concurrenten
Brede beschikbare beschikbaarheid gegevens heeft geleid tot toenemende belangstelling voor methoden
om nuttige informatie en kennis uit gegevens te halen: domein van datawetenschap
1.1.2 WAAROM DATA-ANALYTICAL THINKING EN DATA SCIENCE
1.1.2.1 VEEL DATA OPPORTUNITIES
Enorme hoeveelheden gegevens beschikbaar: bedrijven gericht op benutten gegevens voor
concurrentievoordeel
Volume en verscheidenheid data
o Overtreft capaciteit handmatige analyse -> niet langer mensen in dienst nemen om de gegevens
handmatig te onderzoeken
Bredere zakelijke toepassing van dataweteschappelijke principes en dataminingtechnieken
o Computers zijn krachtiger geworden
o Netwerken alomtegenwoordig
o Algoritmen ontwikkeld die datasets met elkaar verbinden
Maakt het mogelijk bredere en diepere analyses te doen
Evolutie van data
o Web 1.0
Basistechnologie/en van het internet
Online aanwezigheid creëren en vermogen om elektronische handel op te bouwen
o Big data 1.0
Efficiënter
Grote hoeveelheden data verwerken
o Web 2.0
Wat kan het web doen voor ons en hoe kan het processen die men reeds deed verbeteren
Nieuwe systemen en bedrijven maken gebruik van het interactieve karakter van het web
Incorporatie van componenten sociale netwerk en opkomst stem van individuele consument
o Big data 2.0
Nu we die grote hoeveelheden data kunnen verwerken, wat kan het doen voor ons?
Eens bedrijven flexibel met grote hoeveelheden data kiunnen omgaan
1
, “gouden tijdperk van datawetenschap”
Er zijn bedrijven die ver op de mainstream vooruitlopen en al bij big data 2.0 zitten
1.1.2.2 NALEVING VOORSCHRIFTEN
Het helpt bewijzen dat je de regels naleeft, 2 regels aan bepaalde takken in industrie opgelegd:
o Basel II: banken moeten een risicomodel opstellen om de markten, kredieten en het operationele
in te schatten
o Solvency II: voorschrift voor verzekeringsbedrijven
1.1.2.3 MOGELIJKE TOEPASSINGEN
Breedste toepassingen van datamining-technieken liggen vooral in de marketing
o Targeted marketing
o Online reclame
o Aanbevelingen voor cross selling
Algemeen klantrelatiebeheer (CRM)
o Gedrag van klanten analyseren
o Verloop beheren
o Verwachte waarde voor klanten maximaliseren
Financiële sector
o Kredietscores
o Handel
o Operaties
Fraudedectie
Personeelsbeheer
Corporate performance management
Via de markt verzameld
o Mergers
o Globalisation
Je hebt niet genoeg met je eigen data -> meer gegevens uit heterogene bronnen van de markt moeten steeds
sneller geanalyseerd worden
1.1.3 VOORBEELDEN WAAR DATA-ANALUTICAL THINKING EN DATA SCIENCE GEBRUIKT WORDEN
1.1.3.1 HURRICANE FRANCES – WALMART
Patronen ontdekken als gevolg van de orkaan die niet voor de hand liggend waren
o Analisten zouden het enorme volume van WalMart gegevens van eerdere, soortgelijke situaties
kunnen onderzoeken om de ongewone lokale vraag naar producten te identificeren
o Stelt het in staat om te anticiperen op ongebruikelijke vraag naar producten en voorraad haasten
naar winkels voor aanlanding orkaan
Uit onderzoeken bleek dat winkels bepaalde producten nodig zouden hebben
o Verkoop aardbeienpoptarts steeg 7x zo snel
o Bier werd best verkochte product
1.1.3.2 PREGNANCY PREDICTION – TARGET
Wisten dat komst van een baby in een gezin een punt is waar winkelgewoonten ingrijpend veranderen
o Zodra ze luiers van tarket kopen, gaan ze al het andere daar gaan kopen volgens Target
2
, Target vroeg zich af of ze konden voorspellen of mensen in verwachting zijn
o Voordeel behalen door aanbiedingen te doen voor concurrenten dat deden
Analyseerden historische informatie over klanten die nadien zwanger bleekten te zijn via data science
1.1.3.3 CHURN PREDICTION – MEGATRENDS
Lopend voorbeeld over heel het boek
Churn: klanten die van het ene bedrijf naar het andere overstappen
Aantrekken van nieuwe klanten veel duurder dan behouden bestaande klanten
o Veel marketingbudget uitgetrokken om churn te voorkomen
o Belangrijk gebruik van dataminingtechnologie (vooral in telecommunicatie en financiële sector)
1.1.4 WAT IS DATA-ANALYTICAL THINKING?
Business probleem: in staat zijn om te beoordelen hoe gegevens de prestaties kunnen verbeteren en hoe je
dit op een systematische manier kan doen
o Managers moeten steeds meer toezicht houden op analyseteams en analyseprojecten
o Marketeers moeten datagestuurde campagnes organiseren en begrijpen
o Venture capitalists moeten verstandig kunnen investeren in bedrijven met substantiële data-activa
o Bedrijfsstrategieën moeten in staat zijn om plannen te bedenken waarin gegevens worden
geëxploiteerd
De behoefte aan managers met data-analytische vaardigheden is hoog
o Bedrijf kan een hefboomwerking krijgen van een datawetenschappelijk team bij het nemen van
betere beslissingen op verschillende gebieden van eht bedrijf
o Managers moeten wel in die gebieden de grondbeginselen van de datawetenschap begrijpen voor
een effectieve hefboomwerking
Big data 2.0 volgt de opkomstvan data-analytical thinking
1.1.4.1 DATA SCIENCE CAPABILITY AS STRATEGIC ASSET
Capaciteit van data science moet al seen strategische troef gezien worden
o Te veel bedrijven zien het als realiseren van waarde uit sommige bestaande gegevens
o Velen gaan niet zorgvuldig na of ze over het juiste analytische talent beschikken
Data science moet als active gezien worden
o Expliciet nadenken over mate waarin we erin moeten investeren
1.1.4.1.1 VOORBEELDEN
Signet Bank vs Capital One
Meeste winst uit kredietkaarten komt voort uit zij die er lang overdoen om hun krediet terug te betalen
o Kleine groep, Wie zijn deze mensen?
Strategie: verschillende voorwaarden aan verschillende klanten aanbieden
o Probleem: Signet Bank had niet de juiste gegevens om winstgevendheid te modelleren bij strategie
o Oplossing: fundamentele strategie van datawetenschap in spel brengen
Verwerven van nodige gegevens tegen een kostprijs
Ze gingen willekeurige kredieten aanbieden in samenwerking met Capital One
o Aantal slechte accounts steeg: van 2,9% niet betaald naar 6%
o Verliezen door laten gaan zodat datawetenschappers:
Voorspellende modellen kunnen bouwen obv gegevens
Modellen evalueren
3
, Modellen inzetten om winst te verbeteren
Creditcardoperatie werd zo winstgevend dat het werd gesplitst van andere activiteiten van de bank
o Bedrijf beschouwde verliezen als investeringen in gegevens, ondanks klachten van belanghebbenden
Amazon
In staat om in een vroeg stadium gegevens te verzamelen over online klanten
o Veroorzaakte aanzienlijke overstapkosten: consumenten vinden waarde in aanbevelingen Amazon
o Amazon rekende zelf een premie aan
Gegevens verzamelen zorgde ervoor dat Amazon makkelijker klanten behield
Harrah’s Casinos
Investeerden in het verzamelen en ontginnen van gegevens over gokkers
o Volgden alle links en kliks op hun site
Ontdekten zo dat als je iemand elke maand 100 dollar gratis geeft, hij min. 1000 euro spendeert
o Verder onderzoek gedaan naar hoeveel ze gratis konden geven om de winst te maximaliseren
Waardering van Facebook en X (twitter)
Hebben een hoge waardering
o Komt voornamelijk vanwege data-assets die ze willen vastleggen of Creëren
1.1.4.2 WAT IS DATA SCIENCE OF DATAWETENSCHAP?
= Data science heeft tot doel de besluitvorming te verbeteren in het directe belang van het bedrijf. Het gaat om
principes, processen en technieken voor het begrijpen van verschijnselen via de analyse van gegevens
4 fundamentele datawetenschappelijke principes:
1. CRISP-DM
o Cross Industry Standard Process for Data Mining
o Extraheren van nuttige kennis uit data om business problemen op te lossen kan systematisch
worden behandeld door een proces te volgen met goed gedefiniere stadia
CRISP-DM codificeert het proces
o Biedt een raamwerk om na te denken over het structureren van data-analytische problemen
2. Mass data
o Uit een grote massa gegevens kan de informatietechnologie worden gebruikt om informatieve
beschrijvende attributen van belangstellenden te vinden
Moet weten waar je moet zoeken
o Doel is om een business probleem te vertalen in een data probleem
3. Overfitting
o Als je te hard naar een set van gegevens kijkt, zul je iets vinden
Zal misschien niet algemeen gelden buiten de gegevens waarin je kijkt
o Je probeert zo goed mogelijk te scoren waardoor je op een bepaald moment gaat overfitten en
juist slechter scoren
4. Nuttige informatie
o Bij het formuleren van dataminingoplossingen en het evalueren van de resultaten moet
zorgvuldig worden nagedacht over de context waarin ze zullen worden gebruikt
o Nuttige informatie hangt sterk af van toepassing in kwestie
De individuele rol van de data scientist in het proces is zeer belangrijk
Data science ondersteunt de datagestuurde besluitvorming, maar overlapt er ook mee
o Data-driven decision-making (DDD)
4
1.1 DATA-ANALYTICAL THINKING
1.1.1 INTRODUCTIE
Laatste jaren veel geïnvesteerd in bedrijfsinfrastructuur
o Vermogen om gegevens te verzamelen in hele onderneming verbeterd
o Elk aspect van bedrijfsleven staat open voor gegevensverzameling:
Operaties
Productie
Supply chain management
Prestaties van marketingcampagnes
Klantgedrag
…
Veel info beschikbaar over externe gebeurtenissen: markttrends, sectornieuws en bewegingen van
concurrenten
Brede beschikbare beschikbaarheid gegevens heeft geleid tot toenemende belangstelling voor methoden
om nuttige informatie en kennis uit gegevens te halen: domein van datawetenschap
1.1.2 WAAROM DATA-ANALYTICAL THINKING EN DATA SCIENCE
1.1.2.1 VEEL DATA OPPORTUNITIES
Enorme hoeveelheden gegevens beschikbaar: bedrijven gericht op benutten gegevens voor
concurrentievoordeel
Volume en verscheidenheid data
o Overtreft capaciteit handmatige analyse -> niet langer mensen in dienst nemen om de gegevens
handmatig te onderzoeken
Bredere zakelijke toepassing van dataweteschappelijke principes en dataminingtechnieken
o Computers zijn krachtiger geworden
o Netwerken alomtegenwoordig
o Algoritmen ontwikkeld die datasets met elkaar verbinden
Maakt het mogelijk bredere en diepere analyses te doen
Evolutie van data
o Web 1.0
Basistechnologie/en van het internet
Online aanwezigheid creëren en vermogen om elektronische handel op te bouwen
o Big data 1.0
Efficiënter
Grote hoeveelheden data verwerken
o Web 2.0
Wat kan het web doen voor ons en hoe kan het processen die men reeds deed verbeteren
Nieuwe systemen en bedrijven maken gebruik van het interactieve karakter van het web
Incorporatie van componenten sociale netwerk en opkomst stem van individuele consument
o Big data 2.0
Nu we die grote hoeveelheden data kunnen verwerken, wat kan het doen voor ons?
Eens bedrijven flexibel met grote hoeveelheden data kiunnen omgaan
1
, “gouden tijdperk van datawetenschap”
Er zijn bedrijven die ver op de mainstream vooruitlopen en al bij big data 2.0 zitten
1.1.2.2 NALEVING VOORSCHRIFTEN
Het helpt bewijzen dat je de regels naleeft, 2 regels aan bepaalde takken in industrie opgelegd:
o Basel II: banken moeten een risicomodel opstellen om de markten, kredieten en het operationele
in te schatten
o Solvency II: voorschrift voor verzekeringsbedrijven
1.1.2.3 MOGELIJKE TOEPASSINGEN
Breedste toepassingen van datamining-technieken liggen vooral in de marketing
o Targeted marketing
o Online reclame
o Aanbevelingen voor cross selling
Algemeen klantrelatiebeheer (CRM)
o Gedrag van klanten analyseren
o Verloop beheren
o Verwachte waarde voor klanten maximaliseren
Financiële sector
o Kredietscores
o Handel
o Operaties
Fraudedectie
Personeelsbeheer
Corporate performance management
Via de markt verzameld
o Mergers
o Globalisation
Je hebt niet genoeg met je eigen data -> meer gegevens uit heterogene bronnen van de markt moeten steeds
sneller geanalyseerd worden
1.1.3 VOORBEELDEN WAAR DATA-ANALUTICAL THINKING EN DATA SCIENCE GEBRUIKT WORDEN
1.1.3.1 HURRICANE FRANCES – WALMART
Patronen ontdekken als gevolg van de orkaan die niet voor de hand liggend waren
o Analisten zouden het enorme volume van WalMart gegevens van eerdere, soortgelijke situaties
kunnen onderzoeken om de ongewone lokale vraag naar producten te identificeren
o Stelt het in staat om te anticiperen op ongebruikelijke vraag naar producten en voorraad haasten
naar winkels voor aanlanding orkaan
Uit onderzoeken bleek dat winkels bepaalde producten nodig zouden hebben
o Verkoop aardbeienpoptarts steeg 7x zo snel
o Bier werd best verkochte product
1.1.3.2 PREGNANCY PREDICTION – TARGET
Wisten dat komst van een baby in een gezin een punt is waar winkelgewoonten ingrijpend veranderen
o Zodra ze luiers van tarket kopen, gaan ze al het andere daar gaan kopen volgens Target
2
, Target vroeg zich af of ze konden voorspellen of mensen in verwachting zijn
o Voordeel behalen door aanbiedingen te doen voor concurrenten dat deden
Analyseerden historische informatie over klanten die nadien zwanger bleekten te zijn via data science
1.1.3.3 CHURN PREDICTION – MEGATRENDS
Lopend voorbeeld over heel het boek
Churn: klanten die van het ene bedrijf naar het andere overstappen
Aantrekken van nieuwe klanten veel duurder dan behouden bestaande klanten
o Veel marketingbudget uitgetrokken om churn te voorkomen
o Belangrijk gebruik van dataminingtechnologie (vooral in telecommunicatie en financiële sector)
1.1.4 WAT IS DATA-ANALYTICAL THINKING?
Business probleem: in staat zijn om te beoordelen hoe gegevens de prestaties kunnen verbeteren en hoe je
dit op een systematische manier kan doen
o Managers moeten steeds meer toezicht houden op analyseteams en analyseprojecten
o Marketeers moeten datagestuurde campagnes organiseren en begrijpen
o Venture capitalists moeten verstandig kunnen investeren in bedrijven met substantiële data-activa
o Bedrijfsstrategieën moeten in staat zijn om plannen te bedenken waarin gegevens worden
geëxploiteerd
De behoefte aan managers met data-analytische vaardigheden is hoog
o Bedrijf kan een hefboomwerking krijgen van een datawetenschappelijk team bij het nemen van
betere beslissingen op verschillende gebieden van eht bedrijf
o Managers moeten wel in die gebieden de grondbeginselen van de datawetenschap begrijpen voor
een effectieve hefboomwerking
Big data 2.0 volgt de opkomstvan data-analytical thinking
1.1.4.1 DATA SCIENCE CAPABILITY AS STRATEGIC ASSET
Capaciteit van data science moet al seen strategische troef gezien worden
o Te veel bedrijven zien het als realiseren van waarde uit sommige bestaande gegevens
o Velen gaan niet zorgvuldig na of ze over het juiste analytische talent beschikken
Data science moet als active gezien worden
o Expliciet nadenken over mate waarin we erin moeten investeren
1.1.4.1.1 VOORBEELDEN
Signet Bank vs Capital One
Meeste winst uit kredietkaarten komt voort uit zij die er lang overdoen om hun krediet terug te betalen
o Kleine groep, Wie zijn deze mensen?
Strategie: verschillende voorwaarden aan verschillende klanten aanbieden
o Probleem: Signet Bank had niet de juiste gegevens om winstgevendheid te modelleren bij strategie
o Oplossing: fundamentele strategie van datawetenschap in spel brengen
Verwerven van nodige gegevens tegen een kostprijs
Ze gingen willekeurige kredieten aanbieden in samenwerking met Capital One
o Aantal slechte accounts steeg: van 2,9% niet betaald naar 6%
o Verliezen door laten gaan zodat datawetenschappers:
Voorspellende modellen kunnen bouwen obv gegevens
Modellen evalueren
3
, Modellen inzetten om winst te verbeteren
Creditcardoperatie werd zo winstgevend dat het werd gesplitst van andere activiteiten van de bank
o Bedrijf beschouwde verliezen als investeringen in gegevens, ondanks klachten van belanghebbenden
Amazon
In staat om in een vroeg stadium gegevens te verzamelen over online klanten
o Veroorzaakte aanzienlijke overstapkosten: consumenten vinden waarde in aanbevelingen Amazon
o Amazon rekende zelf een premie aan
Gegevens verzamelen zorgde ervoor dat Amazon makkelijker klanten behield
Harrah’s Casinos
Investeerden in het verzamelen en ontginnen van gegevens over gokkers
o Volgden alle links en kliks op hun site
Ontdekten zo dat als je iemand elke maand 100 dollar gratis geeft, hij min. 1000 euro spendeert
o Verder onderzoek gedaan naar hoeveel ze gratis konden geven om de winst te maximaliseren
Waardering van Facebook en X (twitter)
Hebben een hoge waardering
o Komt voornamelijk vanwege data-assets die ze willen vastleggen of Creëren
1.1.4.2 WAT IS DATA SCIENCE OF DATAWETENSCHAP?
= Data science heeft tot doel de besluitvorming te verbeteren in het directe belang van het bedrijf. Het gaat om
principes, processen en technieken voor het begrijpen van verschijnselen via de analyse van gegevens
4 fundamentele datawetenschappelijke principes:
1. CRISP-DM
o Cross Industry Standard Process for Data Mining
o Extraheren van nuttige kennis uit data om business problemen op te lossen kan systematisch
worden behandeld door een proces te volgen met goed gedefiniere stadia
CRISP-DM codificeert het proces
o Biedt een raamwerk om na te denken over het structureren van data-analytische problemen
2. Mass data
o Uit een grote massa gegevens kan de informatietechnologie worden gebruikt om informatieve
beschrijvende attributen van belangstellenden te vinden
Moet weten waar je moet zoeken
o Doel is om een business probleem te vertalen in een data probleem
3. Overfitting
o Als je te hard naar een set van gegevens kijkt, zul je iets vinden
Zal misschien niet algemeen gelden buiten de gegevens waarin je kijkt
o Je probeert zo goed mogelijk te scoren waardoor je op een bepaald moment gaat overfitten en
juist slechter scoren
4. Nuttige informatie
o Bij het formuleren van dataminingoplossingen en het evalueren van de resultaten moet
zorgvuldig worden nagedacht over de context waarin ze zullen worden gebruikt
o Nuttige informatie hangt sterk af van toepassing in kwestie
De individuele rol van de data scientist in het proces is zeer belangrijk
Data science ondersteunt de datagestuurde besluitvorming, maar overlapt er ook mee
o Data-driven decision-making (DDD)
4