Métodos de ensemble – Visión general, categorías, tipos principales

Qué son los métodos de ensamblaje?

Los métodos de ensamblaje son técnicas cuyo objetivo es mejorar la precisión de los resultados de los modelos mediante la combinación de múltiples modelos en lugar de utilizar un único modelo. Los modelos combinados aumentan la precisión de los resultados de forma significativa. Esto ha impulsado la popularidad de los métodos de conjunto en el aprendizaje automático.

Resumen

    Categorías de Métodos Ensemble

    Los métodos de ensemble se dividen en dos grandes categorías, i.e., técnicas de ensemble secuencial y técnicas de ensemble paralelo. Técnicas de ensemble secuencial generar aprendices de base en una secuencia, e.g., Boosting adaptativo (AdaBoost). La generación secuencial de los aprendices base promueve la dependencia entre los aprendices base. El rendimiento del modelo se mejora asignando mayores pesos a los aprendices previamente mal representados.

    En técnicas de conjuntos paralelos, los aprendices base se generan en un formato paralelo, e.g., bosque aleatorioEl bosque aleatorio es una técnica utilizada en la predicción de modelos y el análisis del comportamiento y se basa en árboles de decisión. Un bosque aleatorio contiene muchos árboles de decisión. Los métodos paralelos utilizan la generación paralela de aprendices base para fomentar la independencia entre los aprendices base. La independencia de los aprendices de base reduce significativamente el error debido a la aplicación de medias.

    La mayoría de las técnicas de conjunto aplican un único algoritmo en el aprendizaje de base, lo que da lugar a una homogeneidad en todos los aprendices de base. Los aprendices de base homogéneos se refieren a aprendices de base del mismo tipo, con cualidades similares. Otros métodos aplican aprendices de base heterogéneos, dando lugar a conjuntos heterogéneos. Los aprendices de base heterogéneos son aprendices de distintos tipos.

    Principales tipos de métodos de ensemble

    1. Bagging

    Bagging, la forma abreviada de agregación bootstrap, se aplica principalmente en la clasificación y la regresiónAnálisis de regresiónEl análisis de regresión es un conjunto de métodos estadísticos utilizados para estimar las relaciones entre una variable dependiente y una o más variables independientes.. Aumenta la precisión de los modelos mediante árboles de decisión, lo que reduce en gran medida la varianza. La reducción de la varianza aumenta la precisión, eliminando el sobreajuste, que es un reto para muchos modelos predictivos.

    El ensemble se clasifica en dos tipos, i.e., bootstrapping y agregación. Bootstrapping es una técnica de muestreo en la que las muestras se obtienen de toda la población (conjunto) mediante el procedimiento de sustitución. El método de muestreo con reemplazo ayuda a que el procedimiento de selección sea aleatorio. El algoritmo de aprendizaje de base se ejecuta en las muestras para completar el procedimiento.

    Agregación en el bagging se hace para incorporar todos los posibles resultados de la predicción y aleatorizar el resultado. Sin la agregación, las predicciones no serán precisas porque no se tienen en cuenta todos los resultados. Por lo tanto, la agregación se basa en los procedimientos de bootstrapping probabilístico o en la base de todos los resultados de los modelos de predicción.

    El ensamblaje es ventajoso porque los aprendices de base débil se combinan para formar un único aprendiz fuerte que es más estable que los aprendices individuales. También elimina cualquier varianza, reduciendo así el sobreajuste de los modelos. Una de las limitaciones del bagging es que es caro desde el punto de vista informático. Por tanto, puede dar lugar a un mayor sesgo en los modelos cuando se ignora el procedimiento adecuado de bagging.

    2. Boosting

    El refuerzo es una técnica de conjunto que aprende de los errores de los predictores anteriores para hacer mejores predicciones en el futuro. La técnica combina varios aprendices base débiles para formar un aprendiz fuerte, lo que mejora significativamente la predictibilidad de los modelos. El refuerzo funciona organizando los alumnos débiles en una secuencia, de forma que los alumnos débiles aprenden del siguiente alumno de la secuencia para crear mejores modelos de predicción.

    El refuerzo adopta muchas formas, como el refuerzo por gradiente, el refuerzo adaptativo (AdaBoost) y el XGBoost (refuerzo por gradiente extremo). AdaBoost utiliza aprendices débiles en forma de árboles de decisión, que en su mayoría incluyen una división que se conoce popularmente como muñones de decisión. AdaBoost’El árbol de decisión principal de XGBoost comprende observaciones con pesos similares.

    Gradient BoostingGradient BoostingEl Gradient Boosting es una técnica utilizada para crear modelos de predicción. La técnica se utiliza sobre todo en procedimientos de regresión y clasificación. añade predictores secuencialmente al conjunto, donde los predictores precedentes corrigen a sus sucesores, aumentando así el modelo’La exactitud de los resultados. Se ajustan nuevos predictores para contrarrestar los efectos de los errores de los predictores anteriores. El gradiente de descenso ayuda al reforzador de gradiente a identificar problemas en los aprendices’ predicciones y contrarrestarlas en consecuencia.

    XGBoost utiliza árboles de decisión con gradiente reforzado, lo que mejora la velocidad y el rendimiento. Depende en gran medida de la velocidad de cálculo y del rendimiento del modelo objetivo. El entrenamiento del modelo debe seguir una secuencia, lo que hace que la implementación de las máquinas de impulso de gradiente sea lenta.

    3. Apilamiento

    El apilamiento, otro método de ensemble, suele denominarse generalización apilada. Esta técnica funciona permitiendo que un algoritmo de entrenamiento ensamble varias predicciones de otros algoritmos de aprendizaje similares. El apilamiento se ha aplicado con éxito en regresión, estimaciones de densidad, aprendizaje a distancia y clasificaciones. También puede utilizarse para medir la tasa de error durante el ensacado.

    Reducción de la varianza

    Los métodos de ensemble son ideales para reducir la varianza de los modelos, aumentando así la precisión de las predicciones. La varianza se elimina cuando se combinan varios modelos para formar una única predicción que se elige entre todas las posibles predicciones de los modelos combinados. Un conjunto de modelos combina varios modelos para garantizar que la predicción resultante sea la mejor posible, basándose en la consideración de todas las predicciones.

    Recursos adicionales

    Para seguir avanzando en su carrera, los recursos adicionales de nuestro sitio web que aparecen a continuación le serán útiles:

      Deja un comentario