100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached 4.2 TrustPilot
logo-home
Summary

Samenvatting Data Science

Rating
-
Sold
3
Pages
31
Uploaded on
13-07-2021
Written in
2020/2021

Samenvatting van het derdejaarsvak Data Science voor de richting Applied Computer Science van ITF. Het document omvat de 5 hoofdstukken die werden toegelicht tijdens de lessen.

Institution
Course











Whoops! We can’t load your doc right now. Try again or contact support.

Written for

Institution
Study
Course

Document information

Uploaded on
July 13, 2021
Number of pages
31
Written in
2020/2021
Type
Summary

Subjects

Content preview

1 SETTING THE SCENE
Wat is data?
Structured data
Senses data: bevat gegevens over de bevolking over de jaren heen.
Rectangular/tabular data: mooi gestructureerde data die er een beetje uitzien als een
rechthoek. Deze soort data bevat rijen die naar observaties of data points verwijzen en
kolommen die naar variabelen verwijzen.

• Data die kan worden gezet in kolommen en rijen
• Een rij kan meerdere datatypes bevatten
• Elke kolom heeft wel dezelfde datatypes
• 20% volgens Gartner
België is een voorbeeld van een observatie, 2003 is een variabele.
Unstructered data:

• Audio (voice recording, audio van muziek, …)
• Afbeeldingen: een foto van een kat bv heeft veel data (RGB de hoeveelheid aan
kleuren, de onderliggende info = deze afbeelding is een kat)
• Tekst: (tweet bv) dit is ook unstructured data omdat je dit moeilijk in een tabel kan
zetten. informatie = de combinatie van de woorden kan hidden informatie bevatten
• 80% volgens Gartner




Wat is Data Science?
“Het gebruik van wetenschappelijke methodes om informatie te
ontdekken die verstopt zit in data. “
Wat maakt mij een goede Data Scientist?

• Hacking skills = kunnen programmeren om data te
analyseren
• Math & statistics = de juiste methoden/technieken
kunnen toepassen en weten wanneer je een methode



JDK 2021 1

, moet gebruiken want je komt in de gevarenzone als je een techniek gebruikt die daar
eigenlijk niet geschikt voor is, dan ga je er verkeerde conclusies uit trekken.
• Substantive expertise = weten waarover de data gaat zodat je verschillende vragen
eraan kan stellen om de juiste conclusies eruit te halen.
Ultieme doel van Data Science: van een dataset naar juiste conclusies gaan zodat ze
verstaanbaar zijn voor de mensen die de dataset nog nooit hebben gezien.
AI = algemene term, zijn technieken om menselijke intelligentie na te doen
ML = subset van AI waarbij machines leren om iets beter te doen aan de hand van ervaring
of data
DL = subset van ML waarbij er artificiële neural networks worden gebruikt
Je hebt data nodig om al deze dingen te doen en daarvoor moet je de data eerst begrijpen
en daarvoor is data science dus nuttig.




De afbeelding hierboven is een voorbeeld van Data Science. We gaan van tabular data naar
een mooie visualisatie waaruit we conclusies kunnen trekken (des te rijker je bent, des te
langer je leeft). Visualisaties zijn perfect voor de mens omdat wij zo gebouwd zijn.




De afbeelding hierboven is een voorbeeld van Machine Learning. Je gaat op basis van een
audio input, voorspellen of er al dan niet een machine error ergens zit. Het model doet dat op
basis van meerdere audiobestanden die hij al had gekregen om op te trainen.
Dit zou data science zijn wanneer we gaan analyseren welke hidden informatie hierin zit.
Voorbeeld met de tweets van Trump = Data science: we krijgen een data set, we gaan die
analyseren en proberen er interessante dingen uit te halen bv waarom het komt dat Trump
vaak woorden in hoofdletters zet.




JDK 2021 2

,Data Science Process




1. Importeer de data
Deze data kan zitten in een CSV, Excel-file, SQL waarmee je een link moet leggen …
2. Tidy (cleaning the data)
De data properder maken zodat je kan gaan transformeren, bv rijen verwijderen die je niet
nodig hebt.
Stappen 1 en 2 zijn erg belangrijk want dat zal je veel tijd besparen en gemakkelijker zijn om
de volgende stappen uit te voeren.
3. Transform
4. Visualise (plotten maken, visualiseren)
5. Model data (beschrijven hoe je data zich gedraagt)
Stappen 3 tot 5 is een iteratief proces omdat je misschien bij een visualisatie iets ontdekt dat
nog niet juist staat waardoor je terug moet gaan transformeren of dat een bepaalde variabele
wel interessant kan zijn om te visualiseren/modelleren. Door dit proces meerdere keren te
herhalen, kan je gerichtere vragen gaan stellen.
Wat is het verschil tussen Business Intelligence en Data Science?
Bij BI ga je een vraag hebben bv hoeveel winst gaan we maken als we iets nieuw lanceren?
De vraag die gesteld wordt, is al heel gericht of specifiek. Je kent de achtergrond ook al.
Bij DS is het een iteratief proces, je krijgt veel data, je weet nog niet welke stukken interessant
kunnen zijn. Door dat proces ga je langzaamaan meer inzicht krijgen in de data.
R
Statistical programming language, de taal voor data science omdat je met enkele lijnen code,
inzichten kan krijgen in je data en visualisaties.

• Is goed om te experimenteren, begrijpen en visualiseren
Python is beter voor machine learning omdat je daar modellen mee gaat bouwen en
deployen.




JDK 2021 3

, GGPLOT2 = pakket om visualisaties te maken
Install.packages(“ggplot2) package installeren
Library(ggplot2) package en functies laden
Mpg




234 observaties / data points (audi, a4, …)
11 variabelen (manufacturer, model, disply, ..)

We weten niet goed wat “displ” zou kunnen betekenen, hiervoor moeten we dus ?mpg als
commando ingeven zodat we wat meer info krijgen over onze dataset.




We zien een negatieve correlatie: grotere motoren zuipen meer.




JDK 2021 4

Get to know the seller

Seller avatar
Reputation scores are based on the amount of documents a seller has sold for a fee and the reviews they have received for those documents. There are three levels: Bronze, Silver and Gold. The better the reputation, the more your can rely on the quality of the sellers work.
GraduateITF Thomas More Hogeschool
Follow You need to be logged in order to follow users or courses
Sold
20
Member since
4 year
Number of followers
9
Documents
16
Last sold
3 weeks ago

3.0

1 reviews

5
0
4
0
3
1
2
0
1
0

Recently viewed by you

Why students choose Stuvia

Created by fellow students, verified by reviews

Quality you can trust: written by students who passed their tests and reviewed by others who've used these notes.

Didn't get what you expected? Choose another document

No worries! You can instantly pick a different document that better fits what you're looking for.

Pay as you like, start learning right away

No subscription, no commitments. Pay the way you're used to via credit card and download your PDF document instantly.

Student with book image

“Bought, downloaded, and aced it. It really can be that simple.”

Alisha Student

Frequently asked questions