100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached 4.6 TrustPilot
logo-home
Summary

Samenvatting Guide to Intelligent Data Science - Data Mining and its Applications (EBB056B05)

Rating
-
Sold
-
Pages
27
Uploaded on
04-11-2025
Written in
2024/2025

In dit document vind je zowel de stof van hoorcolleges en het boek om alles bij elkaar te hebben voor het leren van het tentamen. Daarnaast gaat het dieper in op de technieken die gebruikt worden voor data mining.

Institution
Course










Whoops! We can’t load your doc right now. Try again or contact support.

Connected book

Written for

Institution
Study
Course

Document information

Summarized whole book?
Yes
Uploaded on
November 4, 2025
Number of pages
27
Written in
2024/2025
Type
Summary

Subjects

Content preview

Data mining samenvatting
Hoofdstuk 1
Data is a statement like Columbus discovered America in 1492. The essential
property of these statements is that they refer to single events, objects, people,
points in time, etc, therefore the utility is limited. Knowledge cosists of statements like
the train from rome to Zurich leaves at 7:30. When knowledge is true they have a
large domain of application. Knowledge refers to classes of instance and describes
general patterns, structures, laws and principles. With knowledge you can make
predictions and forecasts. Criteria to assess knowledge:
- Correctness
- Generality (algemeen toepasbaar)
- Usefulness
- Comprehensibility (begrijpelijkheid)
- Novelty (new)
Kepler’s law’s combined from the data off Tycho Brahe. Statistics has a long history
and originated from collecting and analyzing data about the population and the state
in general. Statistics can be divided into descriptive and inferential statistics.
Descriptive statistics summarize data without making specific assumptions about the
data, like mean. Inferential statistics provided more rigorous method, based on
certain assumptions about the data generating random process. In an experimental
study one can control and manipulate the data generating proces. You can chose
how you collect the data. In an observational study one cannot control the data
generating process. Inferential statistics is often applied to hypothesis testing.
Explory data analysis is concerned with generating hypotheses from the collected
data. De mogelijkheid om grote gegevensverzamelingen uit de echte wereld te
analyseren, die oorspronkelijk voor andere doeleinden zijn verzameld, ontstond met
de beschikbaarheid van krachtige tools en technologieën die enorme hoeveelheden
data kunnen verwerken en analyseren – wat tegenwoordig data science wordt
genoemd.
Er zijn twee situaties waar data science ons
kan helpen met bepaalde problemen. Ten
eerste is het probleem niet nieuw, maar
wordt routinematig opgelost door het
verzamelen van gegevens om bepaalde
taken te optimaliseren. Ten tweede heb je
een nieuw probleem waar alleen maar een
beetje kennis over is. Data van gerelateerde
situatie zouden in dit probleem kunnen
helpen.

,Zonder in de details te treden, zijn de belangrijkste factoren die overbleven in een
vereenvoudigd kostenmodel, afgeleid van 40 projecten, de volgende [10]:

 het aantal tabellen en attributen,
 de spreiding van de attributen (slechts enkele versus veel waarden),
 het aantal externe databronnen,
 het type model (waarbij voorspellende modellen het duurst zijn),
 de mix van attributentypen (combinatie van numerieke en niet-numerieke
gegevens), en
 de vertrouwdheid van het personeel met data science-projecten in het
algemeen,
het projectdomein in het bijzonder, en de gebruikte softwarepakketten.



Laat me weten als je een meer formele of technische toon zoekt.

Probleem categorieën. Elke data science probleem is verschillend en daarom zijn er
ook meerdere methodes om de problemen op te lossen:

- Classifaction: Voorspel de uitkomst van een experiment met een beperkt
aantal mogelijke resultaten. We zijn geïnteresseerd in een voorspelling
aangezien de kennis in de toekomst ligt of door de kosten, moeilijkheidsgraad
om het vast te stellen
- Regression: Dit is ook een voorspelling maar een numerieke voorspelling
- Clustering, segmentatie: Het samenvatten van data door het vormen van
groepen bij gelijke problemen. Hierdoor krijg je wellicht inzicht in de structuur.
Cases die niet bij een groep horen zijn abnormaal.
- Association analysis: het vinden van correlaties of associaties om de
afhankelijkheden beter te begrijpen.
- Deviation analysis: op basis van kennis over de structuren en trends, het
zoeken naar exceptionele groepen



Hoofdstuk 2

Het is belangrijk om te beginnen met segmenteren. Segmenteer klanten op bepaalde
types en koppel ze bijvoorbeeld aan de winsten die ze genereren. Het moeilijkste is
om data te koppelen aan een antwoord die de vraag beantwoordt. Bijvoorbeeld als
we het verschil tussen klanten in Azië en Europa moesten vergelijken met alleen
Europese markt data wordt dit lastig.

Hoofdstuk 3

In zulke gevallen spreken de
projectleider en de analist
verschillende 'talen', wat kan
leiden tot misverstanden en
verwarring. In het ergste geval

, leiden de communicatieproblemen tot zeer vage projectdoelen, net vaag genoeg om
elke betrokkene zijn eigen interpretatie te laten zien. Om dit probleem te verhelpen
kan je gebruik maken van interviewen technieken en uitleggende materialen zoals
mindmaps.

In de map moeten alleen de directe relaties weergegeven worden. Daarnaast moet
de naam juist gekozen worden zoals familiestatus is zeer onduidelijk. Wanneer het
domein begrijpelijk is, moet het hoofddoel en het probleem geïdentificeerd worden.
Het doel moet duidelijk zijn om te weten welke richting je moet volgen in het
onderzoek. De meest belangrijke middelen zijn data en kennis. Verwachten dat het
probleem kan oplossen met de gegeven data kan leiden tot continu het model
proberen te optimaliseren, terwijl de data wellicht niet toereikend is. Hieronder volgt
een lijst met vereisten:

- Model vereisten: model moet verklarend zijn
- Ethisch, politiek, legal: variablen zoals gender, leeftijd en afkomst niet
gebruiken.
- Technical constraints: het vinden van de oplossing moet niet langer duren dan
n seconden

Assumpties:

- Representatief: als er conclusies worden getrokken over een groep moet die
onderbouwd worden met data en representatief zijn voor de hele groep
- Informatief: de meeste factors met invloed moet gerepresenteerd worden
- Goede data: Data van kwaliteit
- Externe factoren: We kunnen verwachten dat de externe wereld niet constant
verandert.

Voor dat het model uitgekozen wordt zijn er nog bepaalde factoren die duidelijk
moeten zijn:

- Interpreteerbaarheid: Het model moet worden begrepen. Bij sommige black-
box modellen is dat lastig
- StabiliteitL Als de analyse meerdere keren is uitgevoerd kan je gelijke
performance hebben uit meerdere modellen. Een black-box hindert
vergelijking
- Een flexibel model kan beter aanpassen aan complexe situaties. Inflexibele
modellen maken meer assumpties. Met flexibele modellen kans op overfitting
- Runtime: Als er beperkende eisen zijn gesteld aan het model kunnen
sommige berekeningen niet gemaakt worden
- Kennis van de expert: als de expert al veel juiste kennis heeft is de keuze van
een model makkelijker te maken.

Hoofdstuk 4

In de meeste gevallen gaan we ervan uit dat we data in tabellen kunnen weergeven,
waarbij rijen de instanties, records of dataobjecten bevatten en de kolommen de
attributen, kenmerken of variabelen voorstellen. Een attribuut of het domein kan
verschillend kenmerken hebben. De meeste basic is het scale type: een attribuut kan
$9.42
Get access to the full document:

100% satisfaction guarantee
Immediately available after payment
Both online and in PDF
No strings attached

Get to know the seller
Seller avatar
gerrojager

Get to know the seller

Seller avatar
gerrojager Rijksuniversiteit Groningen
Follow You need to be logged in order to follow users or courses
Sold
12
Member since
1 year
Number of followers
2
Documents
14
Last sold
3 months ago

0.0

0 reviews

5
0
4
0
3
0
2
0
1
0

Recently viewed by you

Why students choose Stuvia

Created by fellow students, verified by reviews

Quality you can trust: written by students who passed their tests and reviewed by others who've used these notes.

Didn't get what you expected? Choose another document

No worries! You can instantly pick a different document that better fits what you're looking for.

Pay as you like, start learning right away

No subscription, no commitments. Pay the way you're used to via credit card and download your PDF document instantly.

Student with book image

“Bought, downloaded, and aced it. It really can be that simple.”

Alisha Student

Frequently asked questions