Gradient Boosting - Visión general, tamaños de árbol, regularización

Qué es el refuerzo del gradiente?

El gradient boosting es una técnica utilizada en la creación de modelos para la predicción. La técnica se utiliza sobre todo en procedimientos de regresión y clasificación. Los modelos de predicción se presentan a menudo como árboles de decisiónÁrbol de decisiónUn árbol de decisión es una herramienta de apoyo con una estructura en forma de árbol que modela los resultados probables, el coste de los recursos, las utilidades y las posibles consecuencias. para elegir la mejor predicción. El refuerzo de gradiente presenta la construcción del modelo en etapas, al igual que otros métodos de refuerzo, al tiempo que permite la generalización y optimización de funciones de pérdida diferenciables.

El concepto de gradient boosting tiene su origen en el estadístico estadounidense Leo Breiman, que descubrió que la técnica podía aplicarse a funciones de coste adecuadas como algoritmo de optimización. El método se ha desarrollado aún más para optimizar las funciones de coste eligiendo iterativamente hipótesis débiles o una función con gradiente negativo.

Resumen

Tamaños de árbol

Tome j como parámetro en el refuerzo de gradiente que denota el número de nodos terminales del árbol. El parámetro j es ajustable, dependiendo de los datos que se manejen, y controla el número de veces que las variables interactúan en un modelo. Cuando los muñones de decisión son dos, i.e., j=2, no se permiten las interacciones entre las variables del modelo.

Cuando la decisión se eleva a tres, i.e., j=3, los efectos de interacción permitidos son de hasta dos variables solamente. La tendencia continúa así, dependiendo del número de muñones de decisión.

Sin embargo, el número de tocones de decisión más adecuado es entre cuatro y ocho tocones de decisión. Los tocones de decisión inferiores a cuatro son insuficientes para la mayoría de las aplicaciones, mientras que los tocones de decisión superiores a ocho son demasiado numerosos e innecesarios.

Regularización de Gradient Boosting

Cuando los conjuntos de entrenamiento se ajustan demasiado, tienden a degradar su capacidad de generalizar un modelo. Las técnicas de regularización se utilizan para reducir el sobreajusteEl sobreajuste es un término utilizado en estadística que se refiere a un error de modelización que se produce cuando una función se corresponde demasiado con un conjunto de datos determinado. efecto, eliminando la degradación al asegurar que el procedimiento de ajuste está restringido.

Un parámetro de regularización popular es M, que denota el número de iteraciones del refuerzo de gradiente. M representa el número de árboles de decisión en todo el modelo cuando el árbol de decisión es el aprendiz base.

Un mayor número de iteraciones de refuerzo de gradiente reduce los errores del conjunto de entrenamiento. Aumentar el número de iteraciones de refuerzo de gradientes demasiado alto aumenta el sobreajuste. El control del error de predicción de un conjunto de datos de validación distinto puede ayudar a elegir el valor óptimo del número de iteraciones de boosting de gradientes.

Además de utilizar el número de iteraciones de refuerzo de gradientes como parámetro de regularización, se puede utilizar la profundidad de los árboles como parámetro de regularización eficiente. Cuando la profundidad de los árboles aumenta, es probable que el modelo se ajuste en exceso a los datos de entrenamiento.

Reducción del refuerzo por gradiente

El encogimiento es un procedimiento de regularización del refuerzo por gradiente que ayuda a modificar la regla de actualización, que se ayuda de un parámetro conocido como tasa de aprendizaje. El uso de tasas de aprendizaje inferiores a 0.1 produce mejoras que son significativas en la generalización de un modelo.

Las mejoras drásticas pueden observarse en el refuerzo de gradiente sin contracción, donde el parámetro de la tasa de aprendizaje es igual a 1. Sin embargo, se eleva el tiempo de cálculo, que es más caro durante la consulta y el entrenamiento. Esto se debe a que cuando la tasa de aprendizaje es baja, el número de iteraciones necesarias aumentará.

Impulso de gradiente estocástico

Friedman propuso una mejora del algoritmo de refuerzo de gradiente mediante la técnica de agregación bootstrap o baggingBagging (Bootstrap Aggregation)El aprendizaje automático conjunto puede clasificarse principalmente en bagging y boosting. La técnica del bagging es útil para la regresión y la clasificación estadística. por Breiman. Friedman propuso que el algoritmo podía ser mejorado por los aprendices de base’ Las iteraciones se ajustan a las respectivas submuestras y el conjunto de entrenamiento se puede muestrear aleatoriamente sin reemplazo. La modificación de Friedman’La perspectiva de Friedman mejoró el algoritmo’La precisión de j es significativamente mayor que la de los árboles de decisión.

El tamaño de una submuestra es una fracción constante del tamaño del conjunto de entrenamiento. Cuando la submuestra es igual a 1, el algoritmo se vuelve determinista. Cuando los valores de la submuestra son pequeños, el algoritmo experimenta aleatoriedad, lo que reduce las posibilidades de sobreajuste. También actúa como un procedimiento de regularización conocido como refuerzo de gradiente estocástico.

El algoritmo de refuerzo de gradiente estocástico es más rápido que el procedimiento de refuerzo de gradiente convencional. El algoritmo es más rápido porque los árboles de regresión requieren ahora encajar conjuntos de datos más pequeños en cada iteración, a diferencia de los conjuntos de datos más grandes en el procedimiento convencional.

El submuestreo es similar al bagging, que permite definir los errores fuera de la bolsa para mejorar el rendimiento de la predicción. Al evaluar las predicciones anteriores, los aprendices de base pueden corregir las deficiencias para mejorar la predicción en cuestión. Estimar los errores fuera de bolsa ayuda a evitar la validación de conjuntos de datos de forma independiente.

Penalización de la complejidad del árbol

Otro método de regularización por gradiente consiste en penalizar la complejidad de los árboles. La complejidad de un modelo puede definirse como el número de hojas proporcionales del árbol. La optimización del modelo puede realizarse mediante la poda de los árboles para reducir la pérdida del modelo’El submuestreo es similar al muestreo de bolsas’no alcanzan el umbral’s loss.

Recursos adicionales

Gracias por leer nuestra guía del sitio web’s a Gradient Boosting. Para seguir avanzando en su carrera, los recursos adicionales de nuestro sitio web que aparecen a continuación le serán útiles:

Gradient Boosting – Visión general, tamaños de árbol, regularización