Summary

Samenvatting - Data Science ()

Rating

Sold

Pages

Uploaded on

10-12-2024

Written in

2024/2025

Uitgebreide samenvatting voor het tentamen Data Science over de onderwerpen DM en DEP in het Nederlands (belangrijke Engelse begrippen staan er wel in). Na elk onderwerp is er ook nog een overzicht belangrijkste punten voor het tentamen.

Show more Read less

Institution

Course

Content preview

Samenvatting tentamen Data Science
DM & DEP

Inhoudsopgave
Topic Data Mining...........................................................................................2
Overzicht belangrijkste punten voor het tentamen.......................................................16

Topic DEP..................................................................................................... 23
Overzicht belangrijkste punten voor het tentamen.......................................................29

,Topic Data Mining
De basis van datamining:
 Datamining is fundamenteel in Data Science
 Wat: patronen, correlaties, afwijkingen, inzichten, trends ontdekken
uit (grote) datasets
 Doel: inzicht krijgen in de gegevens voor besluitvorming,
voorspelling en kennisontdekking
 Gerelateerd aan:
o Machine learning: het ontwikkelen van algoritmen waarmee
computers kunnen leren van gegevens en voorspellingen of
beslissingen kunnen maken
o Statistisch leren: een kader bieden voor het begrijpen en
analyseren van gegevens door relaties te modelleren en
voorspellingen te doen op basis van statistische principes en
technieken
o Kunstmatige intelligentie: intelligente systemen creëren die
autonoom taken kunnen uitvoeren
 Het heeft/geeft veel gegevens
 Ontdek patronen en modellen die:
o Geldig: met enige zekerheid gelden voor nieuwe gegevens
o Nuttig: het moet mogelijk zijn om er iets mee te doen
o Onverwacht: niet voor de hand liggend voor het systeem
o Begrijpelijk: mensen moeten het patroon kunnen interpreteren

Let op: als je er afval ingooit krijg je er ook afval uit (slechte data in,
slechte data uit)

Er zijn 2 types of Data Mining methodes: Supervised en unsupervised
learning
 Bij supervised learning wordt een model getraind voor het
voorspellen of te schatten (een output gebaseerd op een of meer
inputs)
- Trainingsgegevens bevatten de gewenste output / labels
 Bij unsupervised learning is het doel om te leren over relaties en
structuur van de gegevens.
- Trainingsgegevens bevatten geen gewenste output/ ongelabeld
(hier zijn er dus nog geen labels)

Voorbeelden:
Supervised  Je wilt een e-mailsysteem bouwen dat automatisch kan
bepalen of een e-mail spam is of niet. Je hebt een dataset met duizenden
e-mails die gelabeld zijn als "spam" of "geen spam". Het model leert de
kenmerken van spam e-mails (bijv. bepaalde woorden of patronen) en
gebruikt die informatie om nieuwe e-mails te classificeren als spam of niet.
Het model leert van gelabelde data en probeert vervolgens nieuwe data
probeert te voorspellen.

,Unsupervised  Je wilt klanten groeperen op basis van hun koopgedrag
om gepersonaliseerde aanbiedingen te kunnen sturen, maar je hebt geen
vooraf gedefinieerde labels. Je hebt een dataset van klanten met
informatie over hun aankoopgeschiedenis (zoals frequentie, soort
producten, uitgaven), maar geen label zegt hoe klanten gegroepeerd
moeten worden. Het model analyseert de gegevens en groepeert klanten
op basis van overeenkomende patronen. Bijvoorbeeld, het ontdekt
groepen zoals "klanten die vaak dure elektronica kopen" en "klanten die
regelmatig goedkope huishoudelijke producten kopen." Het model ontdekt
een structuur in ongestructureerde, ongekende data.

Bij supervised learning kan er sprake zijn van verschillende soorten
problemen:
 Regressieprobleem
- De uitvoer is continu
 Classificatieprobleem
- Binaire classificatie: twee klassen
- Classificatie in meerdere klassen
- De output is een binaire of categorische waarde (gebaseerd op
een waarschijnlijkheid)

Voorbeelden:
Supervised
- Voorspellen van creditcardfraude (= classificatie)
- Spam uitfilteren (= classificatie)
- Handgeschreven afbeeldingen omzetten in tekst (= classificatie)
- Voorspellen van huizen-/vastgoed- en aandelenmarktprijzen (=
regressie)

Unsupervised
- Groepen klanten identificeren met een bepaald gedrag (= clusteren)
- Patronen identificeren zoals: als een klant X koopt, is er een neiging
om ook Y te kopen (= associatie)

Een aantal termen:
 Input: kenmerk, eigenschap, variabele, covariaat
 Output: afhankelijke variabele, responsvariabele, label
 Feature selection: variabelenselectie
 Feature engineering: variabele transformatie, dummy codering
 Method: algoritme, benadering of techniek die wordt gebruikt om
een model op gegevens (de schatter)
 Model: het getrainde resultaat van het toepassen van een methode
op een dataset (de schatter)
 Training: een model leren voorspellingen te doen of beslissingen te
beslissingen te nemen door het gegevens te geven
 Learning: het resultaat van het trainingsproces

Het trainen van een model:
 Er zijn veel modellen

,  Hoe complexer je model, hoe beter?
 Hoe weten we hoe goed uw model is?
 Hoe presteert je model op nieuwe gegevens?
 Validatie van je model met ongeziene testgegevens
(Train  Test  Use)

De makkelijkste methode is de Lineare Regressie met 2 parameters [Fev =
β0+β1age]. Maar er is ook een lineare regressie met 3 parameters [Fev =
β0+β1age+β2age2].

Het aantal parameters in een model weerspiegelt de complexiteit en
flexibiliteit. Met meer parameters kan het model fijnere details en nuances
in de gegevens vastleggen.
 Hoe complexer het model, hoe beter?
- Niet-lineaire termen (bijv. polynomen van hogere orde)
- Meer lagen in je netwerk
 Hoe meer functies in je model, hoe beter?
NEE!

Pas op voor OVERFITTING!

Zorg ervoor dat je een goede balans zoekt tussen bias en variance (Loess
model)

Overfitting & underfitting
Overfitting = een te complex model (groot aantal parameters) om
willekeurige fluctuaties in de trainingsgegevens op te vangen gegevens 
slechte prestaties op ongeziene gegevens

Underfitting = een te eenvoudig model om de onderliggende patronen in
de gegevens vast te leggen  slechte prestaties op zowel de training en
ongeziene gegevens

Hoe complexer het model, hoe lager de bias (betere aanpassing aan de
trainingsgegevens) maar hoger de variantie (d.w.z. gevoeligheid voor
variaties in de trainingsgegevens)

Een eenvoudiger model heeft een hogere bias maar een lagere variantie

!! Bias en variance in evenwicht brengen

Report Copyright Violation

Written for

Institution: Universiteit Twente (UT)
Study: Business Administration
Course: Data Science (202300200)

All documents for this subject (4)

Document information

Uploaded on: December 10, 2024
Number of pages: 31
Written in: 2024/2025
Type: SUMMARY

Subjects

data science
supervised learning
dep
unsupervised learning
clustering
classification
regression
bias variance
overfitting
k nearest neighbor
naïve bayes
decision trees
dbms
star schema
dm

R105,37

Get access to the full document:

100% satisfaction guarantee

Immediately available after payment

Both online and in PDF

No strings attached

Get to know the seller

MHofm

4,4

(16)

Get to know the seller

MHofm Universiteit Utrecht

View profile

Sold

171

Member since

3 year

Number of followers

Documents

Last sold

2 weeks ago

4,4

16 reviews

Why students choose Stuvia

Created by fellow students, verified by reviews

Quality you can trust: written by students who passed their exams and reviewed by others who've used these notes.

Didn't get what you expected? Choose another document

No worries! You can immediately select a different document that better matches what you need.

Pay how you prefer, start learning right away

No subscription, no commitments. Pay the way you're used to via credit card or EFT and download your PDF document instantly.

“Bought, downloaded, and aced it. It really can be that simple.”

Alisha Student

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying this summary from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller MHofm. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy this summary for R105,37. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews) 50031 documents were sold in the last 30 days Founded in 2010, the go-to place to buy summaries for 16 years now

Samenvatting - Data Science ()

Content preview

Written for

Document information

Subjects

Get to know the seller

Trending documents

Recently viewed by you

Why students choose Stuvia

Created by fellow students, verified by reviews

Didn't get what you expected? Choose another document

Pay how you prefer, start learning right away

Frequently asked questions

What do I get when I buy this document?

Satisfaction guarantee: how does it work?

Who am I buying this summary from?

Will I be stuck with a subscription?

Can Stuvia be trusted?

Samenvatting - Data Science ()

Content preview

Written for

Document information

Subjects

More courses for Universiteit Twente (UT) > Business Administration

Get to know the seller

Trending documents

Recently viewed by you

Why students choose Stuvia

Created by fellow students, verified by reviews

Didn't get what you expected? Choose another document

Pay how you prefer, start learning right away

Frequently asked questions

What do I get when I buy this document?

Satisfaction guarantee: how does it work?

Who am I buying this summary from?

Will I be stuck with a subscription?

Can Stuvia be trusted?