Data Mining and its Applications
Samenvatting open boek tentamen blok 2.b
Week 1- Introduction to data mining
Lecture
1. Wat is Data Mining?
Definitie:
Data Mining is het proces waarbij je uit grote, vaak heterogene datasets interessante patronen
of inzichten haalt door middel van statistiek, machine learning of AI-technieken.
● NIST: analyseren van grote datasets om patronen te ontdekken die leiden tot kennis.
● ISO: patroonherkenning in kwantitatieve data door analyse vanuit meerdere
perspectieven.
Kenmerken:
● Werkt met grote volumes data
● Data vaak verzameld voor andere doeleinden
● Richt zich op het vinden van bruikbare kennis, bijv. in de commerciële,
maatschappelijke of wetenschappelijke context
● Maakt gebruik van machine learning, statistiek en rekenkracht
2. Data Mining & AI
Data mining maakt vaak deel uit van of maakt gebruik van:
Term Omschrijving
AI Simuleren van menselijke intelligentie
ML Algoritmen leren uit data zonder expliciete
programmering
Deep Learning Neurale netwerken herkennen complexe patronen
LLM (Large Language Models) AI-modellen zoals ChatGPT die tekst begrijpen/genereren
Toepassingen: aanbevelingssystemen, beeldherkenning, automatische tekstgeneratie,
fraudedetectie, voorspellingen.
,4. Het Data Mining Proces (CRISP-DM)
CRISP-DM fasen:
1. Inception/discovery
Doelstelling bepalen, context schetsen, eerste hypothese formuleren
2. Data preparation
Data extraheren, transformeren, semantisch begrijpen
3. Model planning
Selectie van technieken, bepalen van procesflow
4. Model building
Trainen, testen en valideren van modellen
5. Resultaatcommunicatie
Presentatie en evaluatie bij stakeholders
6. Operationalisatie
Pilot, implementatie, en eventueel continu gebruik
Alternatief projectmodel (volgens college):
1. Inception
2. Understanding
3. Prepare
4. Model
5. Evaluate
6. Operationalize
5. Betrokken stakeholders
Rol Verantwoordelijkheden
Business user Domeinkennis, doelbepaling, interpretatie
Project sponsor ROI, strategische doelen
Project manager Tijd, scope, kwaliteit, budget
BI-analist KPI’s, dashboards, brugfunctie
Data admin/integrator Toegang, security, dataflow
Data Modellering, analyse,
scientist/engineer methodeverantwoording
→ Goed samenspel tussen deze rollen voorkomt communicatieproblemen of mismatch in
verwachtingen.
,6. Type problemen in Data Mining
Type Voorbeelden
Clustering / Welke klantgroepen bestaan er?
Segmentatie
Classificatie Gaat iemand reageren? Is iemand
kredietwaardig?
Regressie Hoe verandert een koers of prijs over tijd?
Generatie (GenAI) Scenario's of visualisaties genereren o.b.v. input
7. Exploratory Data Analysis (EDA)
Doel:
● Vertrouwen krijgen in de data
● Inzichten in verdelingen, verbanden en datakwaliteit
● Valideren van aannames over representativiteit en relevantie
●
Attribuutanalyse:
● Nominaal: labels (man/vrouw, producttype)
● Ordinaal: gesorteerde categorieën (BSc < MSc < PhD)
● Numeriek:
○ Discreet: hele getallen (aantal kinderen)
○ Continu: kommagetallen (lengte, gewicht)
○ Schaaltypes: interval (datum), ratio (afstand), absoluut (telling)
Visualisatieprincipes (college)
Bij datavisualisatie draait het om begrijpelijkheid:
● Simplicity: toon alleen wat nodig is.
● Focus: leg nadruk op relevante info.
● Contrast: gebruik kleur en vorm verstandig.
● Storytelling: breng een boodschap over, niet alleen een beeld.
Visualisatietypen:
● 1D: histogram, barplot
● 2D: scatterplot, heatmap
● 3D: scatterplot matrix, parallel coordinates
, Hoofdstuk 1 - inleiding
1.1 Motivatie: Waarom data science?
● Door technologische vooruitgang kunnen we enorme hoeveelheden gegevens
verzamelen en opslaan.
● Gegevens ≠ kennis: patronen blijven vaak verborgen in ruwe data.
● Belangrijk doel: gegevens omzetten in kennis → inzichten en voorspellingen.
● “We verdrinken in informatie, maar hongeren naar kennis.” – John Naisbett
1.1.1 Gegevens vs. Kennis
Gegevens (data) Kennis (knowledge)
Gaat over individuele Gaat over algemene
gevallen regels/wetten
Makkelijk te verzamelen Moeilijk te vinden
Laat geen voorspellingen Maakt voorspellingen
toe mogelijk
Goede kennis voldoet aan:
● Correctheid
● Algemeenheid
● Bruikbaarheid
● Begrijpelijkheid
● Nieuwheid
1.1.2 Kepler vs. Brahe – een historisch voorbeeld
● Tycho Brahe verzamelde nauwkeurige astronomische data.
● Johannes Kepler ontdekte uit die data de wetten van planeetbeweging.
● Illustratie van: data ≠ kennis, analyse vereist modellen, interpretatie en intuïtie.
1.1.3 Intelligente gegevens wetenschap
● Statistiek is slechts een deel van data science.
● Twee soorten studies:
○ Experimenteel: data-generatie wordt gestuurd.
○ Observationeel: data wordt enkel waargenomen.
● Veel data science technieken zijn verkennend (hypothese-genererend), niet altijd
hypothese-toetsend.
Samenvatting open boek tentamen blok 2.b
Week 1- Introduction to data mining
Lecture
1. Wat is Data Mining?
Definitie:
Data Mining is het proces waarbij je uit grote, vaak heterogene datasets interessante patronen
of inzichten haalt door middel van statistiek, machine learning of AI-technieken.
● NIST: analyseren van grote datasets om patronen te ontdekken die leiden tot kennis.
● ISO: patroonherkenning in kwantitatieve data door analyse vanuit meerdere
perspectieven.
Kenmerken:
● Werkt met grote volumes data
● Data vaak verzameld voor andere doeleinden
● Richt zich op het vinden van bruikbare kennis, bijv. in de commerciële,
maatschappelijke of wetenschappelijke context
● Maakt gebruik van machine learning, statistiek en rekenkracht
2. Data Mining & AI
Data mining maakt vaak deel uit van of maakt gebruik van:
Term Omschrijving
AI Simuleren van menselijke intelligentie
ML Algoritmen leren uit data zonder expliciete
programmering
Deep Learning Neurale netwerken herkennen complexe patronen
LLM (Large Language Models) AI-modellen zoals ChatGPT die tekst begrijpen/genereren
Toepassingen: aanbevelingssystemen, beeldherkenning, automatische tekstgeneratie,
fraudedetectie, voorspellingen.
,4. Het Data Mining Proces (CRISP-DM)
CRISP-DM fasen:
1. Inception/discovery
Doelstelling bepalen, context schetsen, eerste hypothese formuleren
2. Data preparation
Data extraheren, transformeren, semantisch begrijpen
3. Model planning
Selectie van technieken, bepalen van procesflow
4. Model building
Trainen, testen en valideren van modellen
5. Resultaatcommunicatie
Presentatie en evaluatie bij stakeholders
6. Operationalisatie
Pilot, implementatie, en eventueel continu gebruik
Alternatief projectmodel (volgens college):
1. Inception
2. Understanding
3. Prepare
4. Model
5. Evaluate
6. Operationalize
5. Betrokken stakeholders
Rol Verantwoordelijkheden
Business user Domeinkennis, doelbepaling, interpretatie
Project sponsor ROI, strategische doelen
Project manager Tijd, scope, kwaliteit, budget
BI-analist KPI’s, dashboards, brugfunctie
Data admin/integrator Toegang, security, dataflow
Data Modellering, analyse,
scientist/engineer methodeverantwoording
→ Goed samenspel tussen deze rollen voorkomt communicatieproblemen of mismatch in
verwachtingen.
,6. Type problemen in Data Mining
Type Voorbeelden
Clustering / Welke klantgroepen bestaan er?
Segmentatie
Classificatie Gaat iemand reageren? Is iemand
kredietwaardig?
Regressie Hoe verandert een koers of prijs over tijd?
Generatie (GenAI) Scenario's of visualisaties genereren o.b.v. input
7. Exploratory Data Analysis (EDA)
Doel:
● Vertrouwen krijgen in de data
● Inzichten in verdelingen, verbanden en datakwaliteit
● Valideren van aannames over representativiteit en relevantie
●
Attribuutanalyse:
● Nominaal: labels (man/vrouw, producttype)
● Ordinaal: gesorteerde categorieën (BSc < MSc < PhD)
● Numeriek:
○ Discreet: hele getallen (aantal kinderen)
○ Continu: kommagetallen (lengte, gewicht)
○ Schaaltypes: interval (datum), ratio (afstand), absoluut (telling)
Visualisatieprincipes (college)
Bij datavisualisatie draait het om begrijpelijkheid:
● Simplicity: toon alleen wat nodig is.
● Focus: leg nadruk op relevante info.
● Contrast: gebruik kleur en vorm verstandig.
● Storytelling: breng een boodschap over, niet alleen een beeld.
Visualisatietypen:
● 1D: histogram, barplot
● 2D: scatterplot, heatmap
● 3D: scatterplot matrix, parallel coordinates
, Hoofdstuk 1 - inleiding
1.1 Motivatie: Waarom data science?
● Door technologische vooruitgang kunnen we enorme hoeveelheden gegevens
verzamelen en opslaan.
● Gegevens ≠ kennis: patronen blijven vaak verborgen in ruwe data.
● Belangrijk doel: gegevens omzetten in kennis → inzichten en voorspellingen.
● “We verdrinken in informatie, maar hongeren naar kennis.” – John Naisbett
1.1.1 Gegevens vs. Kennis
Gegevens (data) Kennis (knowledge)
Gaat over individuele Gaat over algemene
gevallen regels/wetten
Makkelijk te verzamelen Moeilijk te vinden
Laat geen voorspellingen Maakt voorspellingen
toe mogelijk
Goede kennis voldoet aan:
● Correctheid
● Algemeenheid
● Bruikbaarheid
● Begrijpelijkheid
● Nieuwheid
1.1.2 Kepler vs. Brahe – een historisch voorbeeld
● Tycho Brahe verzamelde nauwkeurige astronomische data.
● Johannes Kepler ontdekte uit die data de wetten van planeetbeweging.
● Illustratie van: data ≠ kennis, analyse vereist modellen, interpretatie en intuïtie.
1.1.3 Intelligente gegevens wetenschap
● Statistiek is slechts een deel van data science.
● Twee soorten studies:
○ Experimenteel: data-generatie wordt gestuurd.
○ Observationeel: data wordt enkel waargenomen.
● Veel data science technieken zijn verkennend (hypothese-genererend), niet altijd
hypothese-toetsend.