100% de satisfacción garantizada Inmediatamente disponible después del pago Tanto en línea como en PDF No estas atado a nada 4.2 TrustPilot
logo-home
Examen

DTSA 5504 - DATA MINING PIPELINE EXAM QUESTIONS AND ANSWERS

Puntuación
-
Vendido
-
Páginas
8
Subido en
26-03-2025
Escrito en
2024/2025

DTSA 5504 - DATA MINING PIPELINE EXAM QUESTIONS AND ANSWERS

Institución
DATA MINING
Grado
DATA MINING









Ups! No podemos cargar tu documento ahora. Inténtalo de nuevo o contacta con soporte.

Escuela, estudio y materia

Institución
DATA MINING
Grado
DATA MINING

Información del documento

Subido en
26 de marzo de 2025
Número de páginas
8
Escrito en
2024/2025
Tipo
Examen
Contiene
Desconocido

Temas

Vista previa del contenido

DTSA 5504 - DATA MINING PIPELINE
EXAM QUESTIONS AND ANSWERS
What are Two Types of Data Attributes? - Answer-1.) Categorical (nominal, binary,
ordinal)

2.) Numeric (discrete, continuous)

What are some kinds of Data Statistics? - Answer-Categorical: % of each value,
Numeric: central tendency, dispersion

What elements make up Central Tendency? - Answer-Mean, Median, Mode,
Midrange

What elements make up Dispersion? - Answer-Range (max - min),
Quartiles(Q1:25%, Q3:75%), IQR (Q3-Q1), Variance, Standard Deviation

What are some examples of plot types for data visualization? - Answer-Boxplots,
histograms, scatterplots, pie, line, heatmap, word cloud, network, area, bubble

Object Similarity - Answer-n objects x p attributes

Object Dissimilarity - Answer-n objects x n objects

Nominal Similarity - Answer-s=1 if x=y, otherwise s=0

Nominal Dissimilarity - Answer-d=0 if x=y, otherwise d=1

Binary Symmetry - Answer-Equal chance of Y or N

Binary Asymmetry - Answer-Y is less likely than N

Symmetric Variables Equation - Answer-((r + s) / (q + r + s + t)) = d(i,j)

Asymmetric Variables Equation - Answer-(q / (q+r+s) or 1 - d(i,j)) = sim(i,j) or Jaccard
coefficient ; d(i,j) = (r + s)/(q + r + s)

Jaccard coefficient - Answer-(q / (q+r+s))

Ordinal Attributes - Answer-for all r(if) in {1,...,Mf}, z(if) = (r(if) - 1)/(Mf - 1)

Numeric Object Dissimilarity - Answer-Usually measured by distance with Minkowski
distance (I_p norm)

Minkowski Distance - Answer-d(i,j) = (abs(xi1, xj1)**p + ... + abs(xin, xjn)***p)**(1/p),
where p=1 (Manhattan Distance) or p=2 (Euclidean Distance)

, Distance Measure Properties - Answer-d(i,j) <= d(i,k) + d(k,j), triangular inequality

cosine similarity - Answer-cos(A,B) = (A*B) / ||A||||B|| = (A*B) / (sum(A)^2 *
sum(B)^2)

What operations are involved with sequential data and time series? - Answer-
Euclidean matching, dynamic time warping, minimum jump cost

Mixed Attribute Types - Answer-Weighted sum across attributes. d(i,j)=(sum(dij,
dij))/sum(dij)

When to use Euclidean/Manhattan processes? - Answer-Dense, continuous data

When to ignore null/null cases? - Answer-asymmetric attributes

When to use cosine similarity or Jaccard similarity? - Answer-sparse data

When to use seasonal patterns or subgroups? - Answer-Subset data

In a boxplot, what does the IQR represent? - Answer-The height of the bar in the
boxplot

In what ways can one transform data? - Answer-Smoothing, aggregation,
generalization, normalization, discretization, attribute construction

Formula for min-max normalization - Answer-v' = (v-min)/(max-min) * (max' - min') +
min'

Formula for mean normalization - Answer-v' = (v-mean)/(max-min)

Formula for standardized normalization - Answer-v' = (v-mean)/stdev

What does discretization involve? - Answer-Continuous->intervals, Split or merge,
Supervised or unsupervised labels

Methods for Unsupervised Discretization - Answer-Binning/Histogram Analysis,
Clustering Analysis, Intuitive partitioning

Properties for Supervised Discretization - Answer-Pre-determined class labels,
entropy-based interval splitting, X^2 analysis-based interval merging

Properties of Data Reduction - Answer-Dimensionality reduction = attributes,
numerosity reduction = objects

Properties of Attribute Selection - Answer-Forward selection, Backward elimination,
Feature engineering

Feature engineering - Answer-The process of determining which features might be
useful in training a model, and then converting raw data from log files and other
sources into said features. In TensorFlow, feature engineering often means
13,55 €
Accede al documento completo:

100% de satisfacción garantizada
Inmediatamente disponible después del pago
Tanto en línea como en PDF
No estas atado a nada


Documento también disponible en un lote

Conoce al vendedor

Seller avatar
Los indicadores de reputación están sujetos a la cantidad de artículos vendidos por una tarifa y las reseñas que ha recibido por esos documentos. Hay tres niveles: Bronce, Plata y Oro. Cuanto mayor reputación, más podrás confiar en la calidad del trabajo del vendedor.
biggdreamer Havard School
Seguir Necesitas iniciar sesión para seguir a otros usuarios o asignaturas
Vendido
248
Miembro desde
2 año
Número de seguidores
68
Documentos
17956
Última venta
6 días hace

4,0

38 reseñas

5
22
4
4
3
6
2
2
1
4

Recientemente visto por ti

Por qué los estudiantes eligen Stuvia

Creado por compañeros estudiantes, verificado por reseñas

Calidad en la que puedes confiar: escrito por estudiantes que aprobaron y evaluado por otros que han usado estos resúmenes.

¿No estás satisfecho? Elige otro documento

¡No te preocupes! Puedes elegir directamente otro documento que se ajuste mejor a lo que buscas.

Paga como quieras, empieza a estudiar al instante

Sin suscripción, sin compromisos. Paga como estés acostumbrado con tarjeta de crédito y descarga tu documento PDF inmediatamente.

Student with book image

“Comprado, descargado y aprobado. Así de fácil puede ser.”

Alisha Student

Preguntas frecuentes