Samenvatting

Samenvatting Business Intelligence 4-1 ...

Beoordeling

Verkocht

Pagina's

Geüpload op

28-05-2025

Geschreven in

2024/2025

samenvatting BI in 2 delen. Tem 4.1, vanaf 4.2

Instelling

Vak

Oeps! We kunnen je document nu niet laden. Probeer het nog eens of neem contact op met support.

Meld schending auteursrecht

Geschreven voor

Vak: Business Intelligence

Alle documenten voor dit vak (118)

Documentinformatie

Geüpload op: 28 mei 2025
Aantal pagina's: 71
Geschreven in: 2024/2025
Type: Samenvatting

Onderwerpen

business
intelligence
business intelligence
bi
bi

Voorbeeld van de inhoud

4.1 DECISION ANALYTICAL THINKING: WHAT IS A GOOD MODEL

INTRODUCTIE

Is de accuraatheid de verkeerde norm om te bepalen als een model goed is? Zie vorige 100%
accuraatheid -> overfitting. Het is vaak al moeilijk om het bedrijfsprobleem juist te
begrijpen dus het evalueren van een model voor dit probleem op te lossen is zeker
niet voor de hand liggend. Hierdoor wordt er vaak gekozen voor een soort
surrogaat evaluatie.

Om ervoor te zorgen dat data science daadwerkelijk waarde toevoegt aan een
toepassing, is het van groot belang dat zowel datawetenschappers als andere
betrokkenen goed nadenken over wat ze precies willen bereiken met datamining.
Toch gebeurt het vaak dat de resultaten van datamining niet voldoende worden teruggekoppeld naar het
oorspronkelijke doel, zowel door de datawetenschappers zelf als door hun samenwerkingspartners. Dit
maakt het lastig om de prestaties van een model op een zinvolle manier te evalueren.

We moeten hier echter voorzichtig mee omgaan. In veel gevallen is het simpelweg niet mogelijk om het
uiteindelijke doel nauwkeurig te meten — bijvoorbeeld omdat de technische infrastructuur tekortschiet,
of omdat het te duur is om de juiste gegevens te verzamelen. In zulke gevallen is het nodig om gebruik te
maken van een surrogaatmaat: een vervangende meting die hopelijk goed aansluit bij wat we eigenlijk
willen weten. Het is dan ook essentieel om bewust en kritisch na te denken over wat we écht willen
meten, zodat de surrogaatmaat zo goed mogelijk aansluit bij het onderliggende doel.

Bij het bespreken van classifiers spreken we vaak over een "positieve" uitkomst als iets wat we willen
detecteren, bijvoorbeeld een probleem of een risico, en over een "negatieve" uitkomst als iets wat geen
verdere aandacht vereist. Deze terminologie kan verwarrend zijn, omdat "positief" in het dagelijks
taalgebruik juist vaak iets goeds betekent. In de context van data science helpt het daarom om een
positief voorbeeld te zien als een waarschuwingssignaal — iets wat aandacht verdient — en een negatief
voorbeeld als een normaal of onschuldig geval.

Terminologie

Bad Positive : als we een instantie positief voorspellen hoe moeten we daarop reageren?

- Diagnose: voorspellen dat iemand kanker heeft, maar heeft uiteindelijk geen.
- Verdere testen om te controleren en zien dat je geen kanker hebt, alles oke

Harmless Negative: als we een bepaalde klasse classificeren als negatief, heeft dit dan een impact op het
systeem?

- Diagnose: voorspellen dat iemand geen kanker heeft, maar blijkt achter wel kanker te hebben
- Ziek worden maar denken dat je geen kanker hebt
 Gevolgen zijn dus zeer verschillend

,Systemen meenemen als we een model evalueren

Hoe classifieres met elkaar vergelijken? -> Tot nu toe gedaan door te kijken
naar de accuraatheid. Kan bijvoorbeeld op deze 2 manieren:

De realiteit is dat datasets vaak niet perfect verdeeld zijn -> unbalanced
datasets

- Een bepaalde klasse is zeer zeldzaam in een set
- Een andere klasse komt vaak voor in een set

Dit zorgt dus voor een onevenwichtige of scheve klassenverdeling. Hoe schever deze wordt, hoe slechter
de accuraatheid

Voorbeeld hieronder: Stel dat rood positief is en betekent dat iemand op een reclame boodschap zal
klikken. Als je dan de nauwkeurigheid van iemand negatief wil berekenen, dus iemand die niet op de
reclameboodschap zal klikken, dan is dat 2799/2800 = 99,9%. Je voorspelt dus dat eigenlijk quasi
niemand op de reclame zal klikken. Vermoedelijk is dit niet bevredigend als er een niet-triviale oplossing
wordt gezocht. Een rapport van 99,9% nauwkeurigheid kan ons weinig vertellen over wat datamining
werkelijk heeft bereikt.

 Heeft een enorme impact op de accuraatheid
 Foto 1: 75% groen 25% rood => altijd groen voorspellen => accuraatheid 75%
 Accuraatheid neemt toe (zie foto’s)
 De laatste foto heeft een accuraatheid van bijna 99.99% => goed model
 We zouden dan bijna nooit een instantie rood classificeren
 Dan heb je eigenlijk niets aan datamining

EVALUEREN VAN CLASSIFIERS

Plain Accuracy
In veel toepassingen van datamining — zoals churnanalyse — komt het voor dat de ene klasse veel vaker
voorkomt dan de andere. In zulke gevallen kan nauwkeurigheid (accuracy) een misleidende maat zijn om
te beoordelen hoe goed een model werkelijk is.

Denk terug aan het churnprobleem. Stel dat je dataminingteam twee modellen ontwikkeld heeft:

- Model 1 behaalt een nauwkeurigheid van 64%.

, - Model 2 haalt een nauwkeurigheid van 80%.

Op het eerste gezicht lijkt model 2 veel beter, maar dat is niet vanzelfsprekend. We moeten eerst kijken
naar de verdeling van de data. Stel dat het churn% (baseline churn) in de dataset gemiddeld 10% per
maand is. Dat betekent dat slechts 1 op 10 klanten vertrekt, en 9 op 10 klanten blijft. In dat geval kan een
model dat altijd voorspelt dat een klant blijft, al een nauwkeurigheid van 90% bereiken — zonder ooit
effectief churn te detecteren. Een model dat zich volledig richt op de majority vote kan dus hoge
nauwkeurigheid halen, zonder nuttig te zijn.

Beide modellen zijn op verschillende datasets geëvalueerd:

- Model 1 werd getest op een representatieve steekproef van de echte klantenpopulatie.
- Model 2 werd getest op een kunstmatig gebalanceerde dataset, waarin evenveel churners als
niet-churners voorkomen. Ipv dat er 1 klant churned en 9 niet, gaan hier 5 klanten churnen en 5
niet. Om zo een betere dataset te hebben voor de churners te indentificeren.
o Het balanceren van een dataset wordt soms toegepast wanneer er geen evenwicht is in
de dataset.

Als we in model 1 ook die gebalanceerde dataset gebruiken hebben we ook een accuraatheid van 80%.

Door deze verschillen krijgt model 2 een oneerlijk voordeel: het hoeft zich niet aan te passen aan de
echte scheve verdeling van churn. Daardoor lijkt de accuraatheid hoger, maar die prestatie zou niet
standhouden op echte klantendata.

Wanneer we dieper kijken naar wat er precies fout loopt, zien we:

Model 1 voorspelt alle churnende klanten correct (majority vote), maar maakt fouten bij de niet-
churners: 60% van de niet-churners wordt foutief als churner aangeduid.

Model 2 voorspelt alle niet-churners correct, maar mist 60% van de churners: die worden onterecht als
blijvend beschouwd.

Beide modellen hebben dus hun eigen tekortkomingen, maar de accuraatheid vertelt ons hier weinig
over. Alleen door expliciet te kijken naar hoeveel positieve en negatieve voorbeelden
correct of fout worden geclassificeerd kunnen we echt iets zeggen over de waarde
van een model.

Conclusie:

De accuraatheid is vaak onvoldoende om te evalueren als een model goed is of niet,
vooral bij scheef verdeelde data. Je dieper moet kijken naar de onderliggende fouten
in plaats van enkel naar het algemene percentage juiste voorspellingen. Alleen dan kan je inschatten of
een model werkelijk nuttige beslissingen ondersteunt in de praktijk. We moeten eigenlijk gebruik maken
van een confusion matrix.

, Confusion matrix
Een Confusion matrix is een krachtige tool om de prestaties van een classificatiemodel inzichtelijk te
maken. Voor een probleem met n klassen is het een n × n-matrix, waarbij de kolommen de waarden zijn
die in de dataset zitten (pos of neg) en de rijen zijn de voorspellingen van het model (yes of no). Elk
voorbeeld uit de testset wordt geplaatst in de cel die overeenkomt met de combinatie van zijn werkelijke
en voorspelde klasse. Hier hebben we een 2x2 matrix.

Bij binaire classificatie, zoals in churnanalyse, gebruiken we vaak:

- p (positief) = klant die churnt
- n (negatief) = klant die blijft
- y (yes) = model voorspelt churn
- n (no) = model voorspelt geen churn

• stel we gaan yes voorspellen en de waarde in de datatset is pos -> true positive
• yes voorspellen en de waarde in de dataset is neg -> false positive
• stel we voorspellen no en de waarde in de dataset is pos -> false negative
• we voorspellen no en de waarde in de dataset is neg -> true negative

De correcte voorspellingen verschijnen op de hoofddiagonaal van de matrix, terwijl de fouten te vinden
zijn in de andere cellen:

- False positives: klanten die zouden blijven, maar foutief als churners worden voorspeld.
- False negatives: klanten die zouden vertrekken, maar foutief als blijvend worden voorspeld.

Toepassing op het churnprobleem

We bekijken twee modellen op een dataset van 1000 klanten. De churnratio is 10% per maand — dus
100 klanten churnen, en 900 niet.

De Confusion matrices:

Model 1 (evaluatie op representatieve steekproef):

- Churn correct voorspelt: 100
- Geen churn fout als churn voorspeld: 300
- Geen churn correct voorspeld: 600
 Accuraatheid = 64%

Model 2 (evaluatie op gebalanceerde dataset):

- Churn fout voorspeld: 200
- Geen churn correct voorspeld: 800
 Accuraatheid = 80%

$7.16

Krijg toegang tot het volledige document:

100% tevredenheidsgarantie

Direct beschikbaar na je betaling

Lees online óf als PDF

Geen vaste maandelijkse kosten

Maak kennis met de verkoper

userlc

Maak kennis met de verkoper

userlc Universiteit Gent

Bekijk profiel

Volgen

Verkocht

Lid sinds

7 maanden

Aantal volgers

Documenten

Laatst verkocht

0.0

0 beoordelingen

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper userlc. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor $7.16. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews) Afgelopen 30 dagen zijn er 47909 samenvattingen verkocht Opgericht in 2010, al 16 jaar dé plek om samenvattingen te kopen