Qué es el Bagging (agregación de Bootstrap)?
El aprendizaje automático conjunto puede clasificarse principalmente en bagging y boosting. La técnica de bagging es útil tanto para la regresión como para la clasificación estadística. El bagging se utiliza con los árboles de decisión, donde aumenta significativamente la estabilidad de los modelos en la mejora de la precisión y la reducción de la varianza, lo que elimina el reto del sobreajuste.
Figura 1. Flujo de Bagging (Agregación de Bootstrap). Fuente
El bagging en el aprendizaje automático por conjuntos toma varios modelos débiles, agregando las predicciones para seleccionar la mejor predicción. Los modelos débiles se especializan en distintas secciones del espacio de características, lo que permite que el bagging aproveche las predicciones procedentes de cada modelo para alcanzar el máximo propósito.
Summary
Qué es el Bootstrapping?
El ensemble se compone de dos partes: la agregación y el bootstrapping. El Bootstrapping es un método de muestreo en el que se elige una muestra de un conjunto, utilizando el método de reemplazo. El algoritmo de aprendizaje se ejecuta sobre las muestras seleccionadas.
La técnica de bootstrapping utiliza el muestreo con reemplazos para que el procedimiento de selección sea completamente aleatorio. Cuando se selecciona una muestra sin reemplazo, las selecciones posteriores de las variables siempre dependen de las selecciones anteriores, lo que hace que los criterios no sean aleatorios.
Qué es la agregación?
Las predicciones de los modelos se someten a una agregación para combinarlas en la predicción final y considerar todos los resultados posibles. La agregación puede realizarse en función del número total de resultados o de la probabilidad de predicción derivada del bootstrapping de cada modelo del procedimiento.
Qué es un método de ensemble?
Tanto el bagging como el boosting constituyen las técnicas de ensemble más destacadas. Un método ensemble es una plataforma de aprendizaje automático que ayuda a múltiples modelos en el entrenamiento utilizando el mismo algoritmo de aprendizaje. El método ensemble es un participante de un grupo mayor de multiclasificadores.
Los multiclasificadores son un grupo de múltiples aprendices, que se cuentan por miles, con un objetivo común que pueden fusionar y resolver un problema común. Otra categoría de multiclasificadores son los métodos híbridos. Los métodos híbridos utilizan un conjunto de aprendices, pero pueden utilizar métodos de aprendizaje distintos, a diferencia de los multiclasificadores.
El aprendizaje se enfrenta a múltiples retos, como los errores que se deben principalmente al sesgo, el ruido y la varianza. La precisión y la estabilidad del aprendizaje automático están garantizadas por métodos de conjunto como el bagging y el boosting. Las combinaciones de clasificadores múltiples reducen la varianza, especialmente cuando los clasificadores son inestables, y son importantes para presentar resultados más fiables que un solo clasificador.
La aplicación del bagging o del boosting requiere la selección de un algoritmo de aprendizaje base. Por ejemplo, si se elige un árbol de clasificación, entonces boosting y bagging serían un conjunto de árboles con un tamaño igual al del usuario’La preferencia del consumidor.
Ventajas y desventajas del bagging
Random forestRandom ForestEl bosque aleatorio es una técnica utilizada en la predicción de modelos y el análisis del comportamiento y se basa en los árboles de decisión. Un bosque aleatorio que contiene muchos árboles de decisión es uno de los algoritmos de ensacado más populares. El ensacado ofrece la ventaja de permitir que muchos aprendices débiles combinen sus esfuerzos para superar a un único aprendiz fuerte. También ayuda a reducir la varianza, eliminando así el exceso de ajusteOverfittingOverfitting es un término utilizado en estadística que se refiere a un error de modelización que se produce cuando una función se corresponde demasiado con un conjunto particular de datos. de los modelos en el procedimiento.
Una de las desventajas del bagging es que introduce una pérdida de interpretabilidad de un modelo. El modelo resultante puede experimentar muchos sesgos cuando se ignora el procedimiento adecuado. A pesar de su gran precisión, el cálculo puede ser costoso, lo que puede desaconsejar su uso en algunos casos.
Ensacado frente a. Impulsar
La mejor técnica a utilizar entre el embolsado y el refuerzo depende de los datos disponibles, la simulación y las circunstancias existentes en ese momento. Una estimación’La varianza de los clasificadores se reduce significativamente mediante técnicas de bagging y boosting durante el procedimiento de combinación, aumentando así la precisión. Por lo tanto, los resultados obtenidos demuestran una mayor estabilidad que los resultados individuales.
Cuando un evento presenta el reto de un bajo rendimiento, la técnica de bagging no dará lugar a un mejor sesgo. Sin embargo, la técnica de boosting genera un modelo unificado con menores errores, ya que se concentra en optimizar las ventajas y reducir los defectos en un único modelo.
Cuando el reto en un modelo único es el sobreajuste, el método de bagging funciona mejor que la técnica de boosting. Boosting se enfrenta al reto de manejar el sobreajuste, ya que viene con un sobreajuste en sí mismo.
Lecturas relacionadas
Para seguir aprendiendo y desarrollando su base de conocimientos, explore los recursos adicionales pertinentes de nuestro sitio web que figuran a continuación: