y y
SOLUTIONMANUAL
y
,Contents
1 Introduction 3
1.11 Exercises ................................................................................................................................................................ 3
y
2 Data Preprocessing
y 13
2.8 Exercises .............................................................................................................................................................. 13
3 Data Warehouse and OLAP Technology: An Overview
y y y y y y 31
3.7 Exercises .............................................................................................................................................................. 31
4 Data Cube Computation and Data Generalization
y y y y y 41
4.5 Exercises .............................................................................................................................................................. 41
5 Mining Frequent Patterns, Associations, and Correlations
y y y y y 53
5.7 Exercises .............................................................................................................................................................. 53
6 Classification and Prediction y y 69
6.17 Exercises .............................................................................................................................................................. 69
y
7 Cluster Analysis y 79
7.13 Exercises .............................................................................................................................................................. 79
y
8 Mining Stream, Time-Series, and Sequence Data
y y y y y 91
8.6 Exercises .............................................................................................................................................................. 91
9 Graph Mining, Social Network Analysis, and Multirelational Data Mining
y y y y y y y y 103
9.5 Exercises .............................................................................................................................................................103
10 Mining Object, Spatial, Multimedia, Text, and Web Data
y y y y y y y 111
10.7 Exercises .............................................................................................................................................................111
11 Applications and Trends in Data Mining
y y y y y 123
11.7 Exercises .............................................................................................................................................................123
1
,Chapter 1 y
Introduction
1.11 Exercises
1.1. What is data mining? In your answer, address the following:
y y y y y y y y y
(a) Is it another hype?
y y y
(b) Is it a simple transformation of technology developed from databases, statistics, and machine learning?
y y y y y y y y y y y y y
(c) Explain how the evolution of database technology led to data mining.
y y y y y y y y y y
(d) Describe the steps involved in data mining when viewed as a process of knowledge discovery.
y y y y y y y y y y y y y y
Answer:
Data mining refers to the process or method that extracts or “mines” interesting knowledge or
y y y y y y y y y y y y y y
patterns from large amounts of data.
y y y y y y
(a) Is it another hype?
y y y
Data mining is not another hype. Instead, the need for data mining has arisen due to the wide availability of
y y y y y y y y y y y y y y y y y y y
huge amounts of data and the imminent need for turning such data into useful information and knowledge.
y y y y y y y y y y y y y y y y y
yThus, data mining can be viewed as the result of the natural evolution of information technology.
y y y y y y y y y y y y y y y
(b) Is it a simple transformation of technology developed from databases, statistics, and machine learning?
y y y y y y y y y y y y y
No. Data mining is more than a simple transformation of technology developed from databases, sta-
y y y y y y y y y y y y y y y
tistics, and machine learning. Instead, data mining involves an integration, rather than a
y y y y y y y y y y y y y y
ysimple
transformation, of techniques from multiple disciplines such as database technology, statistics, ma- y y y y y y y y y y y
chine learning, high-performance computing, pattern recognition, neural networks, data visualization,
y y y y y y y y y
information retrieval, image and signal processing, and spatial data analysis.
y y y y y y y y y y
(c) Explain how the evolution of database technology led to data mining.
y y y y y y y y y y
Database technology began with the development of data collection and database creation mechanisms
y y y y y y y y y y y y
that led to the development of effective mechanisms for data management including data storage and
y y y y y y y y y y y y y y y
retrieval, and query and transaction processing. The large number of database systems offering query and
y y y y y y y y y y y y y y y
transaction processing eventually and naturally led to the need for data analysis and understanding. Hence,
y y y y y y y y y y y y y y y
data mining began its development out of this necessity.
y y y y y y y y y
(d) Describe the steps involved in data mining when viewed as a process of knowledge discovery.
y y y y y y y y y y y y y y
The steps involved in data mining when viewed as a process of knowledge discovery are as follows:
y y y y y y y y y y y y y y y y
• Data cleaning, a process that removes or transforms noise and inconsistent data
y y y y y y y y y y y
• Data integration, where multiple data sources may be combined y y y y y y y y
3
, 4 CHAPTER 1. INTRODUCTION y y y
• Data selection, where data relevant to the analysis task are retrieved from the database
y y y y y y y y y y y y y
• Data transformation, where data are transformed or consolidated into forms appropriate for
y y y y y y y y y y y
mining y
• Data mining, an essential process where intelligent and efficient methods are applied in order to
y y y y y y y y y y y y y y
extract patterns y y
• Pattern evaluation, a process that identifies the truly interesting patterns representing
y y y y y y y y y y
knowl- edge based on some interestingness measures
y y y y y y y
• Knowledge presentation, where visualization and knowledge representation techniques are used y y y y y y y y y
to present the mined knowledge to the user
y y y y y y y y
1.2. Present an example where data mining is crucial to the success of a business. What data mining functions does
y y y y y y y y y y y y y y y y y y
ythis business need? Can they be performed alternatively by data query processing or simple statistical analysis?
y y y y y y y y y y y y y y y
Answer:
A department store, for example, can use data mining to assist with its target marketing mail campaign. Using
y y y y y y y y y y y y y y y y y
data mining functions such as association, the store can use the mined strong association rules to determine
y y y y y y y y y y y y y y y y y
which products bought by one group of customers are likely to lead to the buying of certain other products.
y y y y y y y y y y y y y y y y y y y
yWith this information, the store can then mail marketing materials only to those kinds of customers who
y y y y y y y y y y y y y y y y
exhibit a high likelihood of purchasing additional products. Data query processing is used for data or
y y y y y y y y y y y y y y y y
information retrieval and does not have the means for finding association rules. Similarly, simple statistical
y y y y y y y y y y y y y y y
analysis cannot handle large amounts of data such as those of customer records in a department store.
y y y y y y y y y y y y y y y y y
1.3. Suppose your task as a software engineer at Big-University is to design a data mining system to examine their
y y y y y y y y y y y y y y y y y y
yuniversity course database, which contains the following information: the name, address, and status (e.g.,
y y y y y y y y y y y y y
yundergraduate or graduate) of each student, the courses taken, and their cumulative grade point average
y y y y y y y y y y y y y y
y(GPA). Describe the architecture you would choose. What is the purpose of each component of this
y y y y y y y y y y y y y y y
yarchitecture?
Answer:
A data mining architecture that can be used for this application would consist of the following major
y y y y y y y y y y y y y y y y
components:
y
• A database, data warehouse, or other information repository, which consists of the set of databases,
y y y y y y y y y y y y y y
data warehouses, spreadsheets, or other kinds of information repositories containing the student and
y y y y y y y y y y y y y
course information.
y y
• A database or data warehouse server, which fetches the relevant data based on the users’ data mining
y y y y y y y y y y y y y y y y
requests.
y
• A knowledge base that contains the domain knowledge used to guide the search or to evaluate the
y y y y y y y y y y y y y y y y
interestingness of resulting patterns. For example, the knowledge base may contain concept hierarchies
y y y y y y y y y y y y y
and metadata (e.g., describing data from multiple heterogeneous sources).
y y y y y y y y y
• A data mining engine, which consists of a set of functional modules for tasks such as classification,
y y y y y y y y y y y y y y y y
association, classification, cluster analysis, and evolution and deviation analysis.
y y y y y y y y y
• A pattern evaluation module that works in tandem with the data mining modules by employing
y y y y y y y y y y y y y y
interestingness measures to help focus the search towards interesting patterns.
y y y y y y y y y y
• A graphical user interface that provides the user with an interactive approach to the data mining
y y y y y y y y y y y y y y y
system.
y