Geschrieben von Student*innen, die bestanden haben Sofort verfügbar nach Zahlung Online lesen oder als PDF Falsches Dokument? Kostenlos tauschen 4,6 TrustPilot
logo-home
Zusammenfassung

INFOB2DA Data Analytics Summary

Bewertung
-
Verkauft
5
seiten
61
Hochgeladen auf
04-10-2023
geschrieben in
2022/2023

Summary of the information sciences (informatiekunde) course Data Analytics. Contains a summary of all lectures relevant for the exam

Hochschule
Kurs

Inhaltsvorschau

Data Analytics - Summary
Utrecht University, Informatiekunde
2020-2021, blok 2
Lecturer: Dr. Michael Behrisch
Summary: Ayco Geul


Course Structure
1 Basics 2
1.1 Introduction 2
1.2 Definitions and Concepts 2
1.3 Data Foundation 5
Types of Data 5
Typical Data Classes 5
Data Preprocessing 7
Data cleaning 7
1. Binning (Local Smoothing) 8
2. Regression 8
3. Clustering 10
Normalization 11
Segmentation 11
Data reduction 12
Reduce the number of data points 12
Reduce the number of dimensions 14

2 Data Mining 17
2.1 Classification 17
2.1.1 Decision Trees 19
2.1.2 Naive Bayes Classifier 24
Bayes Classifier 24
2.1.3 Support Vector Machines 28
Linear SVM 28
Non-linear SVM 29
2.1.4 K-Nearest Neighbor Classifier (k-NN) 31
2.1.5 (Artificial) Neural Networks (ANN) 33
Basic understanding of NN 33
What are synapses (inhibition and excitation) 33
Activation function (Threshold for firing) 34
Output? 34
Learning 34
2.1.6 Deep Learning 36
2.2 Clustering and Outlier Analysis 42
2.2.1 Introduction 42
2.2.2 Clustering Methods 43

, 2.2.2.1 Partitioning Method 43
k-Medoids Clustering 43
2.2.2.2 Hierarchical-based Methods 46
2.2.2.3 Density-based Methods 48
2.2.2.4 Other Methods 50
Optics (DBSCAN including hierarchical methods) 50
2.2.3 Conclusion 51
2.3 Association Rules 52
2.3.1 Introduction 52
Market basket analysis 52
2.3.2 Frequent itemset mining 52
2.3.3 Mining various kinds of association rules 56
2.3.4 Conclusion 57

3 Visualization 58
3.1 Human perception 58
3.2 Design of Data Visualization Techniques 59
3.3 - for Non-Spatial Data 59
3.4 - for Temporal Data 59
3.5 - for Geo-Spatial Data 59
3.6 - for Spatial Data 59




1

,1 Basics

1.1 Introduction

1.2 Definitions and Concepts

KDD - Knowledge Discovery in Databases
- Process of semi-automatic extraction of knowledge from databases which is valid,
unknown and (potentially) useful

KDD is an interdisciplinary field




KDD Process Model
The process until data transformation costs 70% of the effort.




This model is an interactive and iterative process - It can go back and forth.

Beware! Different usages of terms in Data Analytics.




2

, Visualization = representation form to gain a better understanding about the data.
“Visualization is the process of presenting data in a form that allows
rapid understanding of relationships and findings that are not readily
evident from raw data.”

A model = an abstract representation of data.

Data
Data has many sources: sensors, surveys, computations, simulations, etc…
Independent of the source, all data has a data type

Goals of visualization:
1. Presentation
a. Starting point: facts to be presented are fixed a priori
b. Process: choice of appropriate presentation techniques
c. Result: high quality visualization of the data to present facts
2. Confirmatory Analysis
a. Starting point: hypotheses about the data
b. Process: goal oriented examination of the hypotheses
c. Result: visualization of data to confirm or reject the hypotheses
3. Exploratory Analysis
a. Starting point: no hypotheses about the data
b. Process: interactive, usually undirected search for structures, trends
c. Result: visualization of data to lead to hypotheses about the data




3

Schule, Studium & Fach

Hochschule
Studium
Kurs

Dokument Information

Hochgeladen auf
4. oktober 2023
Anzahl der Seiten
61
geschrieben in
2022/2023
Typ
ZUSAMMENFASSUNG

Themen

6,49 €
Vollständigen Zugriff auf das Dokument erhalten:

Falsches Dokument? Kostenlos tauschen Innerhalb von 14 Tagen nach dem Kauf und vor dem Herunterladen kannst du ein anderes Dokument wählen. Du kannst den Betrag einfach neu ausgeben.
Geschrieben von Student*innen, die bestanden haben
Sofort verfügbar nach Zahlung
Online lesen oder als PDF

Lerne den Verkäufer kennen

Seller avatar
Bewertungen des Ansehens basieren auf der Anzahl der Dokumente, die ein Verkäufer gegen eine Gebühr verkauft hat, und den Bewertungen, die er für diese Dokumente erhalten hat. Es gibt drei Stufen: Bronze, Silber und Gold. Je besser das Ansehen eines Verkäufers ist, desto mehr kannst du dich auf die Qualität der Arbeiten verlassen.
timb3 Universiteit Utrecht
Folgen Sie müssen sich einloggen, um Studenten oder Kursen zu folgen.
Verkauft
15
Mitglied seit
2 Jahren
Anzahl der Follower
7
Dokumente
10
Zuletzt verkauft
5 Jahren vor

0,0

0 rezensionen

5
0
4
0
3
0
2
0
1
0

Kürzlich von dir angesehen.

Warum sich Studierende für Stuvia entscheiden

on Mitstudent*innen erstellt, durch Bewertungen verifiziert

Geschrieben von Student*innen, die bestanden haben und bewertet von anderen, die diese Studiendokumente verwendet haben.

Nicht zufrieden? Wähle ein anderes Dokument

Kein Problem! Du kannst direkt ein anderes Dokument wählen, das besser zu dem passt, was du suchst.

Bezahle wie du möchtest, fange sofort an zu lernen

Kein Abonnement, keine Verpflichtungen. Bezahle wie gewohnt per Kreditkarte oder Sofort und lade dein PDF-Dokument sofort herunter.

Student with book image

“Gekauft, heruntergeladen und bestanden. So einfach kann es sein.”

Alisha Student

Häufig gestellte Fragen