College aantekeningen

Data Mining summary Master Data Science & Society

Beoordeling

Verkocht

Pagina's

Geüpload op

25-03-2025

Geschreven in

2024/2025

Summary Data Mining from the Master Data Science & Society

Instelling

Vak

Oeps! We kunnen je document nu niet laden. Probeer het nog eens of neem contact op met support.

Meld schending auteursrecht

Geschreven voor

Instelling: Tilburg University (UVT)
Studie: Data Science & Society
Vak: Data Mining for Business & Governance (880662M6)

Alle documenten voor dit vak (7)

Documentinformatie

Geüpload op: 25 maart 2025
Bestand laatst geupdate op: 27 maart 2025
Aantal pagina's: 53
Geschreven in: 2024/2025
Type: College aantekeningen
Docent(en): Dr. gonzalo nápoles
Bevat: Alle colleges

Onderwerpen

Voorbeeld van de inhoud

Contents
Week 1.........................................................................................................2
Week 2.......................................................................................................10
Week 3.......................................................................................................16
Week 4.......................................................................................................25
Week 5.......................................................................................................32
Week 6.......................................................................................................43
Week 7.......................................................................................................51

,Week 1
Goal lecture 1: We will discuss how to deal with missing values, how to
compute the correlation/association between two features, methods to
encode categorical features and handle class imbalance.

Feature = numerical variable (column)

Instances = rows

There are 3 ways to handle missing values:

1. Remove the problem feature containing missing values.
Recommended when there are many missing values for that feature
(not advised)
2. Remove the instances containing missing values. Recommended
when there are many missing values for that feature (not advised)
3. The most popular: replacing the missing values for a given feature
with a representative value such as the mean, the median or the
mode of that feature

But there are also machine learning models that are trained on the non-
missing information!

Autoencoders are deep neural networks that involve two neural blocks
named encoder and decoder.

- The encoder reduces the problem dimensionality
- The decoder completes the pattern.

Feature scaling (so that each feature is In the same
scale)

Normalization

,It allows encoding all numeric features in the [0,1] scale.

Standardization

Similar to the normalization, but the transformed
values might not be in the [0,1] interval.

Correlation between two numerical values

Pearson’s correlation is used when we want to determine the
correlation between two numerical variables given k observations. Only
when the value lies between [-1,1]

Example:

Mean x: 20.67

Mean y: 234,44

Do for each x – xmean and for each y –
ymean. sum all x and y differences and
multiply.

, Association between two categorical (ordinal or nominal) variables

X2 assocation measure is used when we want to measure the
association between two categorical variables given k observations.

Step 1 to make a contingency table:

Step 2:

The expected value is the multiplication of the
individual frequencies divided by the number of
observations.

Example:

€7,06

Krijg toegang tot het volledige document:

100% tevredenheidsgarantie

Direct beschikbaar na je betaling

Lees online óf als PDF

Geen vaste maandelijkse kosten

Maak kennis met de verkoper

Lisette17

3,8

(5)

Maak kennis met de verkoper

Lisette17 Hogeschool InHolland

Bekijk profiel

Volgen

Verkocht

Lid sinds

5 jaar

Aantal volgers

Documenten

Laatst verkocht

2 maanden geleden

3,8

5 beoordelingen

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper Lisette17. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €7,06. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews) Afgelopen 30 dagen zijn er 57429 samenvattingen verkocht Opgericht in 2010, al 16 jaar dé plek om samenvattingen te kopen

Data Mining summary Master Data Science & Society

Geschreven voor

Documentinformatie

Onderwerpen

Voorbeeld van de inhoud

Meer vakken binnen Tilburg University (UVT) > Data Science & Society

Maak kennis met de verkoper

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Niet tevreden? Kies een ander document

Betaal zoals je wilt, start meteen met leren

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Tevredenheidsgarantie: hoe werkt dat?

Van wie koop ik deze samenvatting?

Zit ik meteen vast aan een abonnement?

Is Stuvia te vertrouwen?