Qué es Random Forest?
El bosque aleatorio es una técnica utilizada en el modelado de predicciones y análisis de comportamiento y se construye sobre árboles de decisión. Contiene muchos árboles de decisión que representan una instancia distinta de la clasificación de los datos introducidos en el bosque aleatorio. La técnica del bosque aleatorio considera las instancias individualmente, tomando la que tiene la mayoría de votos como la predicción seleccionada.
Cada árbol de las clasificaciones toma información de las muestras del conjunto de datos inicial. A continuación, se seleccionan aleatoriamente las características que se utilizan en el crecimiento del árbol en cada nodo. Cada árbol del bosque no debe ser podado hasta el final del ejercicio, cuando la predicción se alcanza de forma decisiva. De este modo, el bosque aleatorio permite que cualquier clasificador con correlaciones débiles cree un clasificador fuerte.
Resumen
Modelado de predicciones
El método de bosque aleatorio puede construir modelos de predicción utilizando árboles de regresión de bosque aleatorio, que normalmente no se podan para dar predicciones fuertes. El método de muestreo bootstrap se utiliza en los árboles de regresión, que no deben ser podados. Los nodos óptimos se muestrean del total de nodos del árbol para formar la característica de división óptima.
La técnica de muestreo aleatorio utilizada para seleccionar la característica de división óptima reduce la correlación y, por tanto, la varianza de los árboles de regresión. Mejora la capacidad de predicción de los distintos árboles del bosque. El muestreo mediante bootstrap también aumenta la independencia entre los árboles individuales.
Importancia de las variables
Las variables (características) son importantes para el bosque aleatorio ya que’s difícil interpretar los modelos, especialmente desde el punto de vista biológico. El naïl enfoque muestra la importancia de las variables asignando importancia a una variable en función de la frecuencia de su inclusión en la muestra por parte de todos los árboles. Puede lograrse fácilmente, pero supone un reto, ya que los efectos sobre la reducción de costes y el aumento de la precisión son redundantes.
La importancia de la permutación es una medida que rastrea la precisión de la predicción cuando las variables se permutan aleatoriamente a partir de muestras fuera de la bolsa. El enfoque de importancia de la permutación funciona mejor que el enfoque naïvamente, pero tiende a ser más caro.
Debido a los retos del bosque aleatorio de no ser capaz de interpretar las predicciones lo suficientemente bien desde las perspectivas biológicas, la técnica se basa en el naïvo, la impureza de disminución de la media y los enfoques de importancia de la permutación para darles una interpretación directa a los retos. Los tres enfoques admiten las variables predictoras con múltiples categorías.
En el caso de las variables predictoras continuas con un número similar de categorías, sin embargo, tanto el enfoque de importancia por permutación como el de impureza por disminución de la media no presentan sesgosSesgo de minería de datosSesgo de minería de datos se refiere a una suposición de importancia que un operador asigna a un suceso en el mercado que en realidad fue resultado del azar. La selección de variables a menudo viene acompañada de un sesgo. Para evitarlo, se debe realizar un submuestreo sin reemplazo y, cuando se utilice la inferencia condicional, se debe aplicar la técnica del bosque aleatorio.
Bosques aleatorios oblicuos
Los bosques aleatorios oblicuos son únicos porque utilizan divisiones oblicuas para las decisiones en lugar de las divisiones de decisión convencionales en los nodos. Los bosques oblicuos muestran mucha superioridad al presentar las siguientes cualidades.
En primer lugar, pueden separar las distribuciones en los ejes de coordenadas utilizando una única división multivariable que incluiría las divisiones alineadas con los ejes profundos que se necesitan convencionalmente. En segundo lugar, permiten disminuir el sesgo de los árboles de decisión para las restricciones trazadas. Las divisiones convencionales alineadas con el eje requerirían dos niveles más de anidamiento al separar clases similares con las divisiones oblicuas, lo que hace más fácil y eficiente su uso.
Clasificador de bosque aleatorio
El clasificador de bosque aleatorio es una colección de árboles de predicción. Cada árbol depende de vectores aleatorios muestreados de forma independiente, con una distribución similar a la de los demás árboles del bosque aleatorio.
Diseñado originalmente para el aprendizaje automático, el clasificador ha ganado popularidad en la comunidad de la teledetección, donde se aplica en la clasificación de imágenes de teledetección debido a su alta precisión. También consigue la velocidad adecuada requerida y una parametrización eficiente en el proceso. El clasificador de bosque aleatorio realiza un muestreo aleatorio en el que se selecciona la predicción más votada de todos los árboles.
La individualidad de los árboles es importante en todo el proceso. La individualidad de cada árbol está garantizada gracias a las siguientes cualidades. En primer lugar, cada árbol de entrenamiento de la muestra utiliza subconjuntos aleatorios de las muestras de entrenamiento iniciales. En segundo lugar, se elige la división óptima entre los nodos del árbol no podados’ características de la selección aleatoria. En tercer lugar, cada árbol crece sin límites y no debe ser podado en absoluto.
Ventajas de los bosques aleatorios
Los bosques aleatorios presentan estimaciones de la importancia de las variables, i.e., redes neuronales. También ofrecen un método superior para trabajar con datos perdidos. Los valores perdidos se sustituyen por la variable que más aparece en un nodo concreto. Entre todos los métodos de clasificación disponibles, los bosques aleatorios proporcionan la mayor precisión.
La técnica del bosque aleatorio también puede manejar grandes datos con numerosas variables que se cuentan por miles. Puede equilibrar automáticamente los conjuntos de datos cuando una clase es más infrecuente que otras clases en los datos. El método también maneja las variables con rapidez, lo que lo hace adecuado para tareas complicadas.
Más recursos
Gracias por leer nuestro sitio web’Guía de Random Forest. Para seguir aprendiendo y desarrollando su base de conocimientos, explore los recursos adicionales relevantes de nuestro sitio web que aparecen a continuación: