Qué es la heteroscedasticidad?
La heteroscedasticidad se refiere a situaciones en las que la varianza de los residuos es desigual en un rango de valores medidos. Cuando se realiza un análisis de regresión, la heteroscedasticidad da lugar a una dispersión desigual de los residuos (también conocida como término de error).
Al observar un gráfico de los residuos, una forma de abanico o de cono indica la presencia de heteroscedasticidad. En estadísticaLa estadística es un término que deriva de la palabra latina status, que significa un grupo de cifras que se utilizan para representar información sobre, la heteroscedasticidad se considera un problema porque las regresiones que implican mínimos cuadrados ordinarios (MCO) suponen que los residuos se extraen de una población con varianza constante.
Si hay una dispersión desigual de los residuos, la población utilizada en la regresión contiene una varianza desigual y, por tanto, los resultados del análisis pueden ser inválidos.
Resumen
Análisis adicional de la heteroscedasticidad
Para buscar la heteroscedasticidad’Es necesario realizar primero una regresión y analizar los residuos. Una de las formas más comunes de comprobar la heteroscedasticidad es trazar un gráfico de los residuos.
Visualmente, si el gráfico de los residuos tiene forma de abanico o de cono, indica la presencia de heteroscedasticidad. Además, las regresiones con heterocedasticidad muestran un patrón en el que la varianza de los residuos aumenta junto con los valores ajustados.
Cuando existe heteroskedasticidad en una regresión, puede clasificarse en dos tipos: heteroskedasticidad pura e impura:
Causas de la heteroscedasticidad
Hay muchas razones por las que la heteroscedasticidad puede aparecer en los modelos de regresión, pero normalmente implica problemas con el conjunto de datos. Se ha demostrado que los modelos que incluyen un amplio rango de valores son más propensos a la heteroscedasticidad porque las diferencias entre los valores más pequeños y los más grandes son muy significativas.
Por ejemplo, supongamos que un conjunto de datos contiene valores que van de 1.000 a 1.000.000. Un aumento del 10% en 1.000 es sólo del 100. Sin embargo, un aumento del 10% en 1.000.000 es 100.000. Por lo tanto, cabría esperar que los residuos más grandes estuvieran asociados a valores más altos. Esto provocaría una varianza desigual de los residuos y, por lo tanto, daría lugar a una heteroscedasticidad.
El concepto puede aplicarse a muchos tipos de conjuntos de datos en los que se espera una amplia gama de valores. Un ejemplo serían los conjuntos de datos de series temporales, sobre todo en situaciones en las que las variables cambian drásticamente con el tiempo.
Por ejemplo, si se analizan las ventas del comercio electrónico al por menor de los últimos 30 años, el número de ventas de los últimos 10 años sería significativamente mayor debido a la reciente prevalencia de las compras en línea. Podría sesgar los residuos y dar lugar a la heteroscedasticidad.
Los conjuntos de datos transversales también son propensos a la heteroscedasticidad, ya que incluyen una amplia gama de valores. Por ejemplo, si se analizan los ingresos de todos los trabajadores de la comida rápida de Toronto, el rango de valores podría ser muy amplio’no se desvían demasiado, ya que la mayoría de los trabajadores de la comida rápida ganan cerca del salario mínimoSalario mínimoEl salario mínimo es el salario más bajo que las empresas están obligadas a pagar a sus empleados por el trabajo realizado durante un periodo determinado. Es el salario legal que.
Sin embargo, si se analizaran los ingresos de todos los trabajadores de Toronto, habría una amplia gama de valores debido a todas las diferencias salariales. Daría lugar a una distribución desigual de los valores y aumentaría las posibilidades de heteroscedasticidad.
Heteroskedasticidad vs. Homoscedasticidad
Al analizar los resultados de la regresión’Es importante garantizar que los residuos tengan una varianza constante. Cuando se observa que los residuos tienen una varianza desigual, indica la presencia de heteroscedasticidad.
Sin embargo, cuando los residuos tienen una varianza constante, se habla de homocedasticidad. La homocedasticidad se refiere a situaciones en las que los residuos son iguales en todas las variables independientes.
Si un modelo es homoscedástico, podemos suponer que los residuos se extraen de una población con varianza constante. Cumpliría uno de los supuestos de la regresión OLS y garantizaría que el modelo es más preciso.
Ejemplo del mundo real
Un ejemplo común de heteroscedasticidad es la relación entre los gastos de alimentación y los ingresos. En el caso de las personas con menos ingresos, su gasto en alimentos suele estar restringido en función de su presupuesto.
A medida que aumentan los ingresos, las personas tienden a gastar más en comida, ya que tienen más opciones y menos restricciones presupuestarias. Para las personas más ricas, pueden acceder a una variedad de alimentos con muy pocas restricciones presupuestarias.
Por lo tanto, hay una mayor varianza en el gasto en alimentos de las personas más ricas en relación con las de menores ingresos. En esta situación, la varianza de los residuos es desigual en la variable independiente (ingresos). Si se realizara una regresión con este conjunto de datos, se encontraría la presencia de heteroscedasticidad.
Recursos adicionales
nuestro sitio web es el proveedor oficial de la Inteligencia Empresarial & Analista de datos (BIDA)®Conviértase en un experto en inteligencia empresarial & Analista de datos (BIDA)™De Power BI a SQL & El aprendizaje automático, la certificación de inteligencia empresarial de nuestro sitio web (BIDA) le ayudará a dominar sus superpoderes analíticos. programa de certificación, diseñado para transformar a cualquier persona en un analista de clase mundial.
Para ayudarle a convertirse en un analista de categoría mundial y a avanzar en su carrera hasta alcanzar su máximo potencial, estos recursos adicionales le serán muy útiles: