100% tevredenheidsgarantie Direct beschikbaar na je betaling Lees online óf als PDF Geen vaste maandelijkse kosten 4.2 TrustPilot
logo-home
Samenvatting

Samenvatting Data Science

Beoordeling
-
Verkocht
3
Pagina's
31
Geüpload op
13-07-2021
Geschreven in
2020/2021

Samenvatting van het derdejaarsvak Data Science voor de richting Applied Computer Science van ITF. Het document omvat de 5 hoofdstukken die werden toegelicht tijdens de lessen.












Oeps! We kunnen je document nu niet laden. Probeer het nog eens of neem contact op met support.

Documentinformatie

Geüpload op
13 juli 2021
Aantal pagina's
31
Geschreven in
2020/2021
Type
Samenvatting

Voorbeeld van de inhoud

1 SETTING THE SCENE
Wat is data?
Structured data
Senses data: bevat gegevens over de bevolking over de jaren heen.
Rectangular/tabular data: mooi gestructureerde data die er een beetje uitzien als een
rechthoek. Deze soort data bevat rijen die naar observaties of data points verwijzen en
kolommen die naar variabelen verwijzen.

• Data die kan worden gezet in kolommen en rijen
• Een rij kan meerdere datatypes bevatten
• Elke kolom heeft wel dezelfde datatypes
• 20% volgens Gartner
België is een voorbeeld van een observatie, 2003 is een variabele.
Unstructered data:

• Audio (voice recording, audio van muziek, …)
• Afbeeldingen: een foto van een kat bv heeft veel data (RGB de hoeveelheid aan
kleuren, de onderliggende info = deze afbeelding is een kat)
• Tekst: (tweet bv) dit is ook unstructured data omdat je dit moeilijk in een tabel kan
zetten. informatie = de combinatie van de woorden kan hidden informatie bevatten
• 80% volgens Gartner




Wat is Data Science?
“Het gebruik van wetenschappelijke methodes om informatie te
ontdekken die verstopt zit in data. “
Wat maakt mij een goede Data Scientist?

• Hacking skills = kunnen programmeren om data te
analyseren
• Math & statistics = de juiste methoden/technieken
kunnen toepassen en weten wanneer je een methode



JDK 2021 1

, moet gebruiken want je komt in de gevarenzone als je een techniek gebruikt die daar
eigenlijk niet geschikt voor is, dan ga je er verkeerde conclusies uit trekken.
• Substantive expertise = weten waarover de data gaat zodat je verschillende vragen
eraan kan stellen om de juiste conclusies eruit te halen.
Ultieme doel van Data Science: van een dataset naar juiste conclusies gaan zodat ze
verstaanbaar zijn voor de mensen die de dataset nog nooit hebben gezien.
AI = algemene term, zijn technieken om menselijke intelligentie na te doen
ML = subset van AI waarbij machines leren om iets beter te doen aan de hand van ervaring
of data
DL = subset van ML waarbij er artificiële neural networks worden gebruikt
Je hebt data nodig om al deze dingen te doen en daarvoor moet je de data eerst begrijpen
en daarvoor is data science dus nuttig.




De afbeelding hierboven is een voorbeeld van Data Science. We gaan van tabular data naar
een mooie visualisatie waaruit we conclusies kunnen trekken (des te rijker je bent, des te
langer je leeft). Visualisaties zijn perfect voor de mens omdat wij zo gebouwd zijn.




De afbeelding hierboven is een voorbeeld van Machine Learning. Je gaat op basis van een
audio input, voorspellen of er al dan niet een machine error ergens zit. Het model doet dat op
basis van meerdere audiobestanden die hij al had gekregen om op te trainen.
Dit zou data science zijn wanneer we gaan analyseren welke hidden informatie hierin zit.
Voorbeeld met de tweets van Trump = Data science: we krijgen een data set, we gaan die
analyseren en proberen er interessante dingen uit te halen bv waarom het komt dat Trump
vaak woorden in hoofdletters zet.




JDK 2021 2

,Data Science Process




1. Importeer de data
Deze data kan zitten in een CSV, Excel-file, SQL waarmee je een link moet leggen …
2. Tidy (cleaning the data)
De data properder maken zodat je kan gaan transformeren, bv rijen verwijderen die je niet
nodig hebt.
Stappen 1 en 2 zijn erg belangrijk want dat zal je veel tijd besparen en gemakkelijker zijn om
de volgende stappen uit te voeren.
3. Transform
4. Visualise (plotten maken, visualiseren)
5. Model data (beschrijven hoe je data zich gedraagt)
Stappen 3 tot 5 is een iteratief proces omdat je misschien bij een visualisatie iets ontdekt dat
nog niet juist staat waardoor je terug moet gaan transformeren of dat een bepaalde variabele
wel interessant kan zijn om te visualiseren/modelleren. Door dit proces meerdere keren te
herhalen, kan je gerichtere vragen gaan stellen.
Wat is het verschil tussen Business Intelligence en Data Science?
Bij BI ga je een vraag hebben bv hoeveel winst gaan we maken als we iets nieuw lanceren?
De vraag die gesteld wordt, is al heel gericht of specifiek. Je kent de achtergrond ook al.
Bij DS is het een iteratief proces, je krijgt veel data, je weet nog niet welke stukken interessant
kunnen zijn. Door dat proces ga je langzaamaan meer inzicht krijgen in de data.
R
Statistical programming language, de taal voor data science omdat je met enkele lijnen code,
inzichten kan krijgen in je data en visualisaties.

• Is goed om te experimenteren, begrijpen en visualiseren
Python is beter voor machine learning omdat je daar modellen mee gaat bouwen en
deployen.




JDK 2021 3

, GGPLOT2 = pakket om visualisaties te maken
Install.packages(“ggplot2) package installeren
Library(ggplot2) package en functies laden
Mpg




234 observaties / data points (audi, a4, …)
11 variabelen (manufacturer, model, disply, ..)

We weten niet goed wat “displ” zou kunnen betekenen, hiervoor moeten we dus ?mpg als
commando ingeven zodat we wat meer info krijgen over onze dataset.




We zien een negatieve correlatie: grotere motoren zuipen meer.




JDK 2021 4

Maak kennis met de verkoper

Seller avatar
De reputatie van een verkoper is gebaseerd op het aantal documenten dat iemand tegen betaling verkocht heeft en de beoordelingen die voor die items ontvangen zijn. Er zijn drie niveau’s te onderscheiden: brons, zilver en goud. Hoe beter de reputatie, hoe meer de kwaliteit van zijn of haar werk te vertrouwen is.
GraduateITF Thomas More Hogeschool
Bekijk profiel
Volgen Je moet ingelogd zijn om studenten of vakken te kunnen volgen
Verkocht
20
Lid sinds
4 jaar
Aantal volgers
9
Documenten
16
Laatst verkocht
3 weken geleden

3,0

1 beoordelingen

5
0
4
0
3
1
2
0
1
0

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via Bancontact, iDeal of creditcard en download je PDF-document meteen.

Student with book image

“Gekocht, gedownload en geslaagd. Zo eenvoudig kan het zijn.”

Alisha Student

Veelgestelde vragen