LASSO – Visión general, usos, estimación y geometría

¿Cuál es el objetivo de LASSO?

LASSO, abreviatura de Least Absolute Shrinkage and Selection Operator, es una fórmula estadística cuyo objetivo principal es la selección de características y la regularización de modelos de datos. El método fue introducido por primera vez en 1996 por el profesor de estadística Robert Tibshirani. LASSO introduce parámetros en la suma de un modelo, dándole un límite superior que actúa como una restricción para que la suma incluya parámetros absolutos dentro de un rango permitido.

El método LASSO regulariza los parámetros del modelo encogiendo los coeficientes de regresión, reduciendo algunos de ellos a cero. La fase de selección de características se produce después de la contracción, en la que se seleccionan todos los valores distintos de cero para utilizarlos en el modelo. Este método es significativo en la minimización de los errores de predicción que son comunes en los modelos estadísticosAnálisis cuantitativoEl análisis cuantitativo es el proceso de recopilación y evaluación de datos medibles y verificables para comprender el comportamiento y el rendimiento de una empresa..

LASSO ofrece modelos con alta precisión de predicción. La precisión aumenta ya que el método incluye la contracción de los coeficientes, lo que reduce la varianza y minimiza el sesgo. Funciona mejor cuando el número de observaciones es bajo y el número de características es alto. Se basa en gran medida en los parámetros λ, que es el factor de control de la contracción. Cuanto más grande λ se convierte, entonces, en el mayor número de coeficientes que se ven obligados a ser cero.

Cuando λ es igual a cero, entonces el modelo se convierte en la regresión por mínimos cuadrados ordinarios. En consecuencia, cuando λ aumenta, la varianza disminuye significativamente y el sesgo del resultado también aumenta. Lasso también es una herramienta útil para eliminar todas las variables irrelevantes que no están relacionadas con la variable de respuesta.

LASSO en los modelos lineales estadísticos

Un modelo estadístico es una representación matemática real de un problema. El modelo debe expresar el problema de la forma más cercana posible al mundo real y, al mismo tiempo, hacerlo sencillo y fácil de entender. Un modelo se compone de variables explicativas y de respuesta.

El variable explicativa es una variable independiente que queda a discreción del investigador. Las variables independientes son los insumos del modelo que pueden ser medidos por el investigador para determinar su efecto en los resultados del modelo.

El variable de respuesta es una variable dependienteVariable dependienteUna variable dependiente es una variable cuyo valor cambiará en función del valor de otra variable, llamada variable independiente. que forma el foco principal del experimento. Forma el resultado del experimento, que puede ser un único resultado en el caso de los modelos univariantes, o, en el caso de los modelos multivariantes, múltiples resultados.

LASSO forma parte del proceso de construcción del modelo, especialmente mediante la selección de características. La fase de selección de características ayuda a seleccionar las variables explicativas, que son las variables independientes y, por tanto, las variables de entrada en el modelo.

Las variables de entrada son elementos importantes que determinan el modelo’y ayuda a medir su efecto sobre las variables de respuesta. La elección de las variables adecuadas determina la precisión del modelo. La fase de selección de características de LASSO ayuda a la selección adecuada de las variables.

Estimación con LASSO

Los modelos estadísticos se basan en LASSO para la selección precisa de variables y la regularización. Por ejemplo, en la regresión lineal, LASSO introduce un límite superior para la suma de los cuadrados, con lo que se minimizan los errores presentes en el modelo. El estimador LASSO depende del parámetro λ.

El parámetro λ controla la fuerza de la contracción, donde un aumento de λ resultados en un aumento de la contracción. El límite superior de la suma de todos los coeficientes es inversamente proporcional al parámetro λ. Cuando el límite superior aumenta su valor, el parámetro λ disminuye. Cuando el límite superior disminuye, el parámetro λ aumenta simultáneamente.

A medida que el límite superior aumenta hacia el infinito, el parámetro λ se acerca a cero, convirtiendo el experimento en un Mínimo Cuadrado Ordinario, donde el parámetro λ es siempre igual a cero. Cuando los coeficientes del límite superior se acercan a cero, el valor del parámetro λ aumenta hacia el infinito.

Geometría LASSO

LASSO forma un diamante en el gráfico para su región de restricción, como se muestra en la imagen anterior. La forma de diamante incluye esquinas, a diferencia de la forma circular formada por la regresión de cresta. La proximidad del primer punto a la esquina muestra que el modelo viene con un coeficiente, que es igual a cero.

La región de las restricciones de la regresión de cresta forma un círculo que no incluye esquinas, similar a la región de las restricciones de LASSO cuando se traza. Por lo tanto, los coeficientes de la regresión de cresta no pueden ser iguales a cero.

LASSO ponderado

El LASSO ponderado es el resultado de un investigador que penaliza los coeficientes de regresión de forma aislada. Esto significa que en lugar de penalizar un parámetro común λ a todos los coeficientes, los coeficientes se penalizan individualmente, utilizando diferentes parámetros.

Las ponderaciones pueden determinarse utilizando un algoritmo LASSO para asignar las ponderaciones de forma adecuada para una modelización precisa. Una ponderación similar de los coeficientes de regresión es el LASSO cooperativo, donde los coeficientes se penalizan en grupos que se consideran similares.

Recursos adicionales

Para seguir aprendiendo y desarrollando sus conocimientos de inteligencia empresarial, le recomendamos encarecidamente los recursos adicionales de nuestro sitio web que se indican a continuación:

    Deja un comentario