Qué es un Ridge?
La regresión Ridge es el método utilizado para el análisis de la multicolinealidad en los datos de regresión múltiple. Es más adecuado cuando un conjunto de datos contiene un número de variables predictoras mayor que el número de observaciones. El segundo mejor escenario es cuando se experimenta multicolinealidad en un conjunto.
La multicolinealidad se produce cuando las variables predictoras presentan una correlación entre sí. La regresión de cresta pretende reducir el error estándar añadiendo algún sesgo en las estimaciones de la regresiónAnálisis de regresiónEl análisis de regresión es un conjunto de métodos estadísticos utilizados para estimar las relaciones entre una variable dependiente y una o más variables independientes.. La reducción del error estándar en las estimaciones de regresión aumenta significativamente la fiabilidad de las estimaciones.
Resumen
Estandarización de las variables en la regresión Ridge
La normalización de las variables es el procedimiento inicial en la regresión ridge. Tanto las variables independientes como las dependientes requieren una estandarización mediante la sustracción de sus medias y una división del resultado con las desviaciones estándar. Es una práctica habitual anotar en una fórmula si las variables que contiene están estandarizadas o no.
Por lo tanto, todos los cálculos de regresión de cresta utilizan variables estandarizadas para evitar las anotaciones sobre si las variables individuales han sido estandarizadas. Los coeficientes pueden revertirse al final a sus escalas originales.
Regresión Ridge frente a. Mínimos cuadrados
La regresión Ridge es mejor que la regresión por mínimos cuadrados cuando las variables predictoras son más que las observaciones. El método de mínimos cuadrados no puede distinguir entre las variables predictoras más útiles y las menos útiles e incluye todos los predictores al desarrollar un modelo. Reduce la precisión del modelo, lo que provoca un exceso de ajuste y redundancia.
La regresión de cresta resuelve todos los problemas anteriores. La regresión Ridge tiene la ventaja de no requerir estimadores insesgados – más bien, añade un sesgo a los estimadores para reducir el error estándar. Añade el sesgo suficiente para que las estimaciones sean una representación fiable de la población de datos.
Contracción y regularización
Un estimador de cresta es una herramienta de contracción utilizada en la regresión de cresta. Un estimador de contracción es un parámetro que produce nuevos estimadores que han sido reducidos para dar un valor más cercano a los parámetros reales de la población. Una estimación de mínimos cuadrados puede reducirse utilizando un estimador de cresta para mejorar la estimación, especialmente cuando hay multicolinealidad en los datos.
La regularización en la regresión Ridge incluye la aplicación de una penalización a los coeficientes. La contracción implica la aplicación del mismo factor sobre los coeficientes. Significa que no se omitirá ningún coeficiente al construir el modelo.
Multicolinealidad
La multicolinealidad es la existencia de una correlación entre variables independientesVariable independienteUna variable independiente es un insumo, un supuesto o un impulsor que se modifica para evaluar su impacto en una variable dependiente (el resultado). en los datos modelados. Puede provocar imprecisiones en las estimaciones de los coeficientes de regresión. También puede magnificar los errores estándar de los coeficientes de regresión y reducir la eficacia de cualquier prueba t. Puede producir resultados y valores p engañosos y aumentar la redundancia de un modelo, haciendo que su predictibilidad sea ineficiente y menos fiable.
La multicolinealidad puede introducirse en los datos a partir de varias fuentes, como durante la recogida de datos, a partir de las restricciones de la población o del modelo lineal, o de un modelo excesivamente definido, de valores atípicos, o de la especificación o elección del modelo.
La recogida de datos puede provocar multicolinealidad cuando se obtiene mediante un procedimiento de muestreo inadecuado. Los datos pueden proceder de un subconjunto más pequeño de lo esperado – por lo tanto, el efecto. Las restricciones de la población o del modelo causan multicolinealidad debido a restricciones físicas, legales o políticas, que son naturales, independientemente del tipo de método de muestreo utilizado.
Definir en exceso un modelo también provocará multicolinealidad debido a la existencia de más variables que observaciones. Se puede evitar durante el desarrollo de un modelo. El modelo’La elección o la especificación de la regresión también puede provocar multicolinealidad debido al uso de variables independientes que interactúan previamente en el conjunto de variables inicial. Los valores atípicos son valores extremos de las variables que pueden causar multicolinealidad. La multicolinealidad puede revertirse mediante la eliminación de los valores atípicos antes de aplicar la regresión Ridge.
Detección y corrección de la multicolinealidad
La detección de la multicolinealidad es clave para la reducción de los errores estándar en los modelos para la eficiencia de la predictibilidad. En primer lugar, se puede detectar mediante la investigación de las variables independientes la correlación en los gráficos de dispersión por pares. Las altas correlaciones entre pares de variables independientes pueden significar la presencia de multicolinealidad.
En segundo lugar, se puede detectar la multicolinealidad mediante la consideración de los Factores de Inflación de la Varianza (VIF). Una puntuación VIF de 10 o más muestra que las variables son colineales. En tercer lugar, se puede detectar la multicolinealidad comprobando si los valores propios de la matriz de correlación son cercanos a cero. Hay que utilizar los números de condición, en lugar de utilizar los tamaños numéricos de los valores propios. Cuanto mayor sea el número de condiciones, mayor será la multicolinealidad.
La corrección de la multicolinealidad depende de la causa. Cuando la fuente de colinealidad es la recogida de datos, por ejemplo, la corrección implicará la recogida de datos adicionales de la subpoblación adecuada. Si la causa es la elección del modelo lineal, la corrección incluirá la simplificación del modelo mediante los métodos adecuados de selección de variables. Si las causas de la multicolinealidad son ciertas observaciones, elimine las observaciones. La regresión Ridge también es un eficaz eliminador de la multicolinealidad.
Recursos adicionales
Para seguir avanzando en su carrera, los recursos adicionales de nuestro sitio web que aparecen a continuación le serán útiles: