100% Zufriedenheitsgarantie Sofort verfügbar nach Zahlung Sowohl online als auch als PDF Du bist an nichts gebunden 4,6 TrustPilot
logo-home
Zusammenfassung

Zusammenfassung Data Mining praktische Übungen und theoretisches

Bewertung
-
Verkauft
2
seiten
34
Hochgeladen auf
23-04-2021
geschrieben in
2020/2021

Der Schwerpunkt liegt auf dem praktischen Einüben bekannter Data-Mining Algorithmen












Ups! Dein Dokument kann gerade nicht geladen werden. Versuch es erneut oder kontaktiere den Support.

Dokument Information

Gesamtes Buch?
Nein
Welche Kapitel sind zusammengefasst?
Kapitel 3.5
Hochgeladen auf
23. april 2021
Datei zuletzt aktualisiert am
23. april 2021
Anzahl der Seiten
34
geschrieben in
2020/2021
Typ
Zusammenfassung

Themen

Inhaltsvorschau

Data – Mining
Inhaltsverzeichnis
1. Einleitung - Vorwort .......................................................................................................... 3
1.1. Data Mining - Einführung ........................................................................................... 3
1.2. KDD und CRISP ......................................................................................................... 3
1.2.1. KDD – Knowledge Discovery in Databases ........................................................ 4
1.2.2. CRISP – Cross Industry Standard Process for Data Mining .................................... 6
............................................................................................................................................ 7
2. Statistik – Grundlagen ........................................................................................................ 8
2.1. Univariate / Bivariate und Multivariate Statistik ......................................................... 8
2.2. Skalenniveau ................................................................................................................ 9
2.3. Häufigkeiten .............................................................................................................. 10
2.4. Modus, Median und Arithmetischer Mittelwert ........................................................ 11
2.5. Quartil und Spannweite ............................................................................................. 12
2.6. Mittlere absolute Abweichung................................................................................... 12
2.7. Varianz und Standardabweichung ............................................................................. 13
3. Statistik und Data-Mining ................................................................................................ 14
3.1. Klassifikation und Segmentierung............................................................................. 14
3.2. Überwachtes und Unüberwachtes Lernen ................................................................. 14
3.3. Data Mining in der Praxis .......................................................................................... 15
4. Klassifikation ................................................................................................................... 16
4.1. Entropie ......................................................................................................................... 16
4.2. Informationsgewinn ...................................................................................................... 17
4.3. Chi-Quadrat ................................................................................................................... 19
4.4. Entscheidungsbäume ..................................................................................................... 21
4.5. Entscheidungsbäume unter Verwendung von Chi-Quadrat .......................................... 23
5. Segmentierung ...................................................................................................................... 25
5.1. KNN – K-Nearest Neighbour ........................................................................................ 25
5.2. Distanzmatrix ................................................................................................................ 26
5.3. Manhattan-/Euklidische- und Chebyshev Distanz ........................................................ 26
5.3. Assoziationsanalyse ...................................................................................................... 29
5.4. Apriori – Algorithmus ................................................................................................... 30
5.5. K-Means Verfahren ....................................................................................................... 32
Literaturverzeichnis .................................................................................................................. 34
Tabellenverzeichnis .................................................................................................................. 35
Abbildungsverzeichnis ............................................................................................................. 35

, 1. Einleitung - Vorwort
Die vorliegende Zusammenfassung ist ein von mir selbst erstelltes Dokument, welches sich an
den Inhalten der Veranstaltung „Data-Mining“ orientiert und sich als Ziel setzt vor allem
praktische Inhalte verständlich aufzuführen. Vorhandene Quellenangaben basieren auf
öffentlich zugänglichen Publikationen, da exakte Materialien der Veranstaltung „Data-
Mining“, ohne Einwilligung des Professors, rechtlich in solcher Form unzulässig sind.
Dennoch bietet die folgende Zusammenfassung eine umfangreiche Ergänzung zum Lernstoff
und bildet die wichtigsten Bereiche der Veranstaltung ab. Zusätzlich zu den einzelnen
Kapitelinhalten sind Aufgaben eingefügt, die als Hilfestellung zur optimalen
Prüfungsvorbereitung dienen sollen. Ich nehme keine Garantie oder Gewährleistung auf
Richtigkeit auf die von mir aufgeführten Inhalte. Vorliegende Aufgaben sind gänzlich oder
teilweise von mir persönlich fiktiv angenommen und dienen dazu, aufgeführte Themen besser
zu verstehen.

Ich habe sehr viel Zeit und Mühe in diese Zusammenfassung investiert und würde mich
deshalb über eine positive Bewertung sehr freuen. Positive wie auch negative Kritik ist immer
erwünscht. Viel Spaß beim Durcharbeiten der Unterlagen und viel Erfolg bei der Klausur!

1.1. Data Mining - Einführung

Was ist Data-Mining - Definition?

Data Mining ist interdisziplinär und nutzt Erkenntnisse aus den Bereichen der Informatik,
Mathematik und Statistik zur rechnergestützten Analyse von Datenbeständen. Große
Datenbestände werden dabei auf bedeutsame Zusammenhänge, Trends oder Muster
untersucht.* (Vgl. Luber 2016)

*Die Definition von Data-Mining ist nicht prüfungsrelevant, aber dennoch wichtig, um die
folgenden Kapitel zu verstehen. Vor allem die Statistik ist ein wesentlicher Faktor für das
Durchführen erfolgreicher Analysen und dem Entdecken von Trends und Zusammenhängen
auf vorhandenen Datenbeständen.

1.2. KDD und CRISP
KDD (Knowledge Discovery in Databases) und CRISP (Cross Industry Standard Process for
Data Mining) sind beides Möglichkeiten zur Modellierung eines Data Mining Prozesses. Im
Wesentlichen unterscheiden sich die beiden Herangehensweisen im Einsatzgebiet. Während
CRISP-DM eher in der Industrie verwendet wird, kommt KDD primär in der Wissenschaft
zum Einsatz.
Anwendungsgebiete des Data-Mining:
• Lieferantenmanagement
• Medizin
• Ingenieurwesen
• Produktion
• Marketing
• Vertrieb
(Vgl. MoreThanDigital 2019)

, 1.2.1. KDD – Knowledge Discovery in Databases

KDD bedeutet auf Deutsch die Wissensentdeckung in Datenbanken. Es handelt sich hierbei
um einen Prozess mit dem Ziel der Erkennung von bislang unbekannten fachlichen
Zusammenhängen aus vorhandenen, meist großen Datenbeständen. In Abgrenzung zu Data-
Mining umfasst KDD auch die Vorbereitung der Daten sowie die Bewertung der Resultate.
Das bedeutet, dass Data-Mining nur eine Teilmenge von KDD darstellt. (Vgl. Wikipedia
2021)

Schritte des KDD Prozesses

1. Selection – Datenselektion
• Geeignete Daten werden aus dem Gesamtdatenbestand ausgewählt. Dabei können
sowohl externe als auch interne Daten genutzt werden. Nach erfolgreicher Auswahl
der Daten werden diese separat in einem Zieldatenbestand abgespeichert.

2. Preprocessing – Datenvorverarbeitung
• Der zuvor, in der Selektionsphase ausgewählte Zieldatenbestand wird nun auf
Qualität geprüft. Fehlerbehaftete oder widersprüchliche Daten werden dabei bereinigt
und gegebenenfalls korrigiert.
• Die Datenvorverarbeitung stellt dabei einen der wichtigsten Schritte im KDD dar.
Eine schlechte Datenvorverarbeitung kann das Analyseergebnis stark negativ
beeinflussen.

3. Transformation – Datentransformation
• In der Datentransformation geht es darum, die Daten in ein adäquates, in gewisser
Weise standardisiertes Format umzuwandeln. Das ist notwendig, um die spätere
Analyse zu verbessern.

4. Data Mining – Data Mining
• Das Data Mining stellt den Kernprozess, nämlich die Wissensgenerierung dar. Nun
kann, durch Einsatz geeigneter mathematischer Methoden, die auf die
Aufgabenstellung abgestimmt sind, ein Modell entwickelt werden.
• Das Ziel dabei ist die Suche und das Auffinden von Datenmustern, die bisher
unbekannt waren.

5. Interpretation/Evaluation – Evaluation und Interpretation
• In der Interpretation und Evaluation geht es darum das Ergebnis in der Data-Mining
Methode zu überprüfen und einzuschätzen.
• Dieses Wissen muss bezüglich der Verwendbarkeit bewertet werden. Folgende
Kriterien sind dabei zu nennen:
▪ Validität des Musters
▪ Neuartigkeit des generierten Wissens auf Basis der Muster
▪ Nützlichkeit des Musters
▪ Verständlichkeit der Aussage
(Vgl. MoreThanDigital 2019)

, Abbildung 1 KDD Prozess
Quelle: https://morethandigital.info/grundlagen-des-data-mining-ein-prozess-ueberblick/


Aufgabe - Überlege, wann eine solche Untersuchung Sinn machen würde. Nenne ein Beispiel
und begründe dieses.

Lösung

Wie zuvor, vor allem im letzten Punkt des KDD-Prozesses erwähnt, macht eine Untersuchung
dann Sinn, wenn man vermutet, dass ein Modell geschaffen werden kann, dass besser ist als
das Basismodell.

Fiktives Beispiel

Es wird angenommen, dass 50% aller Männer sonntags Brötchen kaufen

Diese Vorhersage trifft zu 70% zu. Von den angenommenen 50% aller Männer kaufen
tatsächlich nur 70% sonntags Brötchen. Nun möchten wir herausfinden, wie wir unsere
Annahme verbessern können. Welche Einflussfaktoren spielen eine wesentliche Rolle?

Zu nennen wären bspw. Alter, Wohnort, Familienstand usw.
Diese Einflussfaktoren werden auch Prädikatoren genannt.

Überprüft wird nun, unter Einfluss von Prädikatoren, ob sich unsere Vorhersage gegenüber
der Zielvariable „Männer kaufen sonntags Brötchen“ verbessert hat.

Es wird ein Modell erstellt, dass alle Einflussfaktoren berücksichtigt um eine konkretere,
bessere Vorhersage treffen zu können.

Spielen die oben aufgeführten Prädikatoren tatsächlich eine wesentliche Rolle dabei, ob
sonntags Brötchen gekauft werden oder nicht, so wird die Vorhersagequalität des neuen
Modelles höchstwahrscheinlich besser sein, da wir unsere Zielvariable genauer vorhersagen
können.

Ist dies der Fall, können wir das neu entwickelte Modell dem Basis-Modell vorziehen.
15,89 €
Vollständigen Zugriff auf das Dokument erhalten:

100% Zufriedenheitsgarantie
Sofort verfügbar nach Zahlung
Sowohl online als auch als PDF
Du bist an nichts gebunden

Lerne den Verkäufer kennen
Seller avatar
JAdel

Lerne den Verkäufer kennen

Seller avatar
JAdel Hochschule Fulda
Profil betrachten
Folgen Sie müssen sich einloggen, um Studenten oder Kursen zu folgen.
Verkauft
2
Mitglied seit
4 Jahren
Anzahl der Follower
2
Dokumente
1
Zuletzt verkauft
2 Jahren vor

0,0

0 rezensionen

5
0
4
0
3
0
2
0
1
0

Kürzlich von dir angesehen.

Warum sich Studierende für Stuvia entscheiden

on Mitstudent*innen erstellt, durch Bewertungen verifiziert

Geschrieben von Student*innen, die bestanden haben und bewertet von anderen, die diese Studiendokumente verwendet haben.

Nicht zufrieden? Wähle ein anderes Dokument

Kein Problem! Du kannst direkt ein anderes Dokument wählen, das besser zu dem passt, was du suchst.

Bezahle wie du möchtest, fange sofort an zu lernen

Kein Abonnement, keine Verpflichtungen. Bezahle wie gewohnt per Kreditkarte oder Sofort und lade dein PDF-Dokument sofort herunter.

Student with book image

“Gekauft, heruntergeladen und bestanden. So einfach kann es sein.”

Alisha Student

Häufig gestellte Fragen