Garantie de satisfaction à 100% Disponible immédiatement après paiement En ligne et en PDF Tu n'es attaché à rien 4.2 TrustPilot
logo-home
Resume

Samenvatting Data Science

Note
-
Vendu
3
Pages
31
Publié le
13-07-2021
Écrit en
2020/2021

Samenvatting van het derdejaarsvak Data Science voor de richting Applied Computer Science van ITF. Het document omvat de 5 hoofdstukken die werden toegelicht tijdens de lessen.












Oups ! Impossible de charger votre document. Réessayez ou contactez le support.

Infos sur le Document

Publié le
13 juillet 2021
Nombre de pages
31
Écrit en
2020/2021
Type
Resume

Aperçu du contenu

1 SETTING THE SCENE
Wat is data?
Structured data
Senses data: bevat gegevens over de bevolking over de jaren heen.
Rectangular/tabular data: mooi gestructureerde data die er een beetje uitzien als een
rechthoek. Deze soort data bevat rijen die naar observaties of data points verwijzen en
kolommen die naar variabelen verwijzen.

• Data die kan worden gezet in kolommen en rijen
• Een rij kan meerdere datatypes bevatten
• Elke kolom heeft wel dezelfde datatypes
• 20% volgens Gartner
België is een voorbeeld van een observatie, 2003 is een variabele.
Unstructered data:

• Audio (voice recording, audio van muziek, …)
• Afbeeldingen: een foto van een kat bv heeft veel data (RGB de hoeveelheid aan
kleuren, de onderliggende info = deze afbeelding is een kat)
• Tekst: (tweet bv) dit is ook unstructured data omdat je dit moeilijk in een tabel kan
zetten. informatie = de combinatie van de woorden kan hidden informatie bevatten
• 80% volgens Gartner




Wat is Data Science?
“Het gebruik van wetenschappelijke methodes om informatie te
ontdekken die verstopt zit in data. “
Wat maakt mij een goede Data Scientist?

• Hacking skills = kunnen programmeren om data te
analyseren
• Math & statistics = de juiste methoden/technieken
kunnen toepassen en weten wanneer je een methode



JDK 2021 1

, moet gebruiken want je komt in de gevarenzone als je een techniek gebruikt die daar
eigenlijk niet geschikt voor is, dan ga je er verkeerde conclusies uit trekken.
• Substantive expertise = weten waarover de data gaat zodat je verschillende vragen
eraan kan stellen om de juiste conclusies eruit te halen.
Ultieme doel van Data Science: van een dataset naar juiste conclusies gaan zodat ze
verstaanbaar zijn voor de mensen die de dataset nog nooit hebben gezien.
AI = algemene term, zijn technieken om menselijke intelligentie na te doen
ML = subset van AI waarbij machines leren om iets beter te doen aan de hand van ervaring
of data
DL = subset van ML waarbij er artificiële neural networks worden gebruikt
Je hebt data nodig om al deze dingen te doen en daarvoor moet je de data eerst begrijpen
en daarvoor is data science dus nuttig.




De afbeelding hierboven is een voorbeeld van Data Science. We gaan van tabular data naar
een mooie visualisatie waaruit we conclusies kunnen trekken (des te rijker je bent, des te
langer je leeft). Visualisaties zijn perfect voor de mens omdat wij zo gebouwd zijn.




De afbeelding hierboven is een voorbeeld van Machine Learning. Je gaat op basis van een
audio input, voorspellen of er al dan niet een machine error ergens zit. Het model doet dat op
basis van meerdere audiobestanden die hij al had gekregen om op te trainen.
Dit zou data science zijn wanneer we gaan analyseren welke hidden informatie hierin zit.
Voorbeeld met de tweets van Trump = Data science: we krijgen een data set, we gaan die
analyseren en proberen er interessante dingen uit te halen bv waarom het komt dat Trump
vaak woorden in hoofdletters zet.




JDK 2021 2

,Data Science Process




1. Importeer de data
Deze data kan zitten in een CSV, Excel-file, SQL waarmee je een link moet leggen …
2. Tidy (cleaning the data)
De data properder maken zodat je kan gaan transformeren, bv rijen verwijderen die je niet
nodig hebt.
Stappen 1 en 2 zijn erg belangrijk want dat zal je veel tijd besparen en gemakkelijker zijn om
de volgende stappen uit te voeren.
3. Transform
4. Visualise (plotten maken, visualiseren)
5. Model data (beschrijven hoe je data zich gedraagt)
Stappen 3 tot 5 is een iteratief proces omdat je misschien bij een visualisatie iets ontdekt dat
nog niet juist staat waardoor je terug moet gaan transformeren of dat een bepaalde variabele
wel interessant kan zijn om te visualiseren/modelleren. Door dit proces meerdere keren te
herhalen, kan je gerichtere vragen gaan stellen.
Wat is het verschil tussen Business Intelligence en Data Science?
Bij BI ga je een vraag hebben bv hoeveel winst gaan we maken als we iets nieuw lanceren?
De vraag die gesteld wordt, is al heel gericht of specifiek. Je kent de achtergrond ook al.
Bij DS is het een iteratief proces, je krijgt veel data, je weet nog niet welke stukken interessant
kunnen zijn. Door dat proces ga je langzaamaan meer inzicht krijgen in de data.
R
Statistical programming language, de taal voor data science omdat je met enkele lijnen code,
inzichten kan krijgen in je data en visualisaties.

• Is goed om te experimenteren, begrijpen en visualiseren
Python is beter voor machine learning omdat je daar modellen mee gaat bouwen en
deployen.




JDK 2021 3

, GGPLOT2 = pakket om visualisaties te maken
Install.packages(“ggplot2) package installeren
Library(ggplot2) package en functies laden
Mpg




234 observaties / data points (audi, a4, …)
11 variabelen (manufacturer, model, disply, ..)

We weten niet goed wat “displ” zou kunnen betekenen, hiervoor moeten we dus ?mpg als
commando ingeven zodat we wat meer info krijgen over onze dataset.




We zien een negatieve correlatie: grotere motoren zuipen meer.




JDK 2021 4
€10,49
Accéder à l'intégralité du document:

Garantie de satisfaction à 100%
Disponible immédiatement après paiement
En ligne et en PDF
Tu n'es attaché à rien

Faites connaissance avec le vendeur

Seller avatar
Les scores de réputation sont basés sur le nombre de documents qu'un vendeur a vendus contre paiement ainsi que sur les avis qu'il a reçu pour ces documents. Il y a trois niveaux: Bronze, Argent et Or. Plus la réputation est bonne, plus vous pouvez faire confiance sur la qualité du travail des vendeurs.
GraduateITF Thomas More Hogeschool
Voir profil
S'abonner Vous devez être connecté afin de suivre les étudiants ou les cours
Vendu
20
Membre depuis
4 année
Nombre de followers
9
Documents
16
Dernière vente
3 semaines de cela

3,0

1 revues

5
0
4
0
3
1
2
0
1
0

Récemment consulté par vous

Pourquoi les étudiants choisissent Stuvia

Créé par d'autres étudiants, vérifié par les avis

Une qualité sur laquelle compter : rédigé par des étudiants qui ont réussi et évalué par d'autres qui ont utilisé ce document.

Le document ne convient pas ? Choisis un autre document

Aucun souci ! Tu peux sélectionner directement un autre document qui correspond mieux à ce que tu cherches.

Paye comme tu veux, apprends aussitôt

Aucun abonnement, aucun engagement. Paye selon tes habitudes par carte de crédit et télécharge ton document PDF instantanément.

Student with book image

“Acheté, téléchargé et réussi. C'est aussi simple que ça.”

Alisha Student

Foire aux questions