Postgrado al que pertenece: Máster Universitario en Inteligencia Artificial
Denominación de la asignatura: Técnicas de Aprendizaje Automático
Contenido: BLOQUE 4. Modelos de ensamble
Guía de Estudio: TEMA 10. Aprendizaje supervisado. Regresión y clasificación con random
forests
Introducción
El aprendizaje supervisado es una subcategoría del aprendizaje automático que se basa en el
uso de datos etiquetados para entrenar modelos que pueden hacer predicciones o clasificaciones.
Dentro de este contexto, los modelos de ensemble, como los random forests, son técnicas
avanzadas que combinan múltiples modelos individuales para mejorar la precisión y la robustez
de las predicciones. Este documento abordará en detalle el uso de random forests tanto para
tareas de regresión como de clasificación, proporcionando una guía técnica y avanzada para su
aplicación.
Definición
Random Forests son un tipo de modelo de ensemble que utiliza una colección de árboles de
decisión entrenados de manera independiente sobre diferentes subconjuntos del conjunto de
datos. La predicción final se obtiene a través de la agregación de las predicciones individuales de
estos árboles, ya sea mediante promediación (en el caso de la regresión) o votación mayoritaria
(en el caso de la clasificación).
Características
1. Bootstrap Aggregation (Bagging): Los random forests utilizan el método de bagging,
donde cada árbol se entrena con una muestra aleatoria con reemplazo del conjunto de
datos original.
2. Selección Aleatoria de Características: En cada nodo de un árbol, se selecciona un
subconjunto aleatorio de características en lugar de considerar todas las características, lo
que introduce una mayor diversidad en los modelos.
3. Reducción del Overfitting: La combinación de múltiples árboles reduce la varianza del
modelo y, por ende, el riesgo de sobreajuste.
Ventajas
1. Robustez y Precisión: Los random forests son menos propensos a sobreajustarse en
comparación con los árboles de decisión individuales y suelen ofrecer una mayor precisión.
2. Manejo de Datos Faltantes: Pueden manejar datos faltantes y mantener una buena
precisión sin necesidad de imputación previa.
3. Escalabilidad: Son escalables y pueden manejar grandes conjuntos de datos y un gran
número de características.
Desventajas
1. Complejidad Computacional: El entrenamiento de múltiples árboles puede ser
computacionalmente costoso y consumir tiempo y recursos.