Regresión lineal


Regresión lineal
Ejemplo de una regresión lineal con una variable dependiente y una variable independiente.

En estadística la regresión lineal o ajuste lineal es un método matemático que modeliza la relación entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:

Y = \beta_0  + \beta_1 X_1 + \beta_2 X_2 +  \cdots +\beta_p X_p + \varepsilon

donde β0 es la intersección o término "constante", las \beta_i \ (i > 0) son los parámetros respectivos a cada variable independiente, y p es el número de parámetros independientes a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal.

Contenido

Historia

La primera forma de regresiones lineales documentada fue el método de los mínimos cuadrados, el cual fue publicado por Legendre en 1805,[1] y en dónde se incluía una versión del teorema de Gauss-Márkov.

Etimología

El término regresión se utilizó por primera vez en el estudio de variables antropométricas: al comparar la estatura de padres e hijos, resultó que los hijos cuyos padres tenían una estatura muy superior al valor medio tendían a igualarse a éste, mientras que aquellos cuyos padres eran muy bajos tendían a reducir su diferencia respecto a la estatura media; es decir, "regresaban" al promedio.[2] La constatación empírica de esta propiedad se vio reforzada más tarde con la justificación teórica de ese fenómeno.

El término lineal se emplea para distinguirlo del resto de técnicas de regresión, que emplean modelos basados en cualquier clase de función matemática. Los modelos lineales son una explicación simplificada de la realidad, mucho más ágil y con un soporte teórico por parte de la matemática y la estadística mucho más extenso.

Pero bien, como se ha dicho, podemos usar el término lineal para distinguir modelos basados en cualquier clase de aplicación.

El modelo de regresión lineal

El modelo lineal relaciona la variable dependiente Y con K variables explicativas Xk (k = 1,...K), o cualquier transformación de éstas, que generan un hiperplano de parámetros βk desconocidos:

(2)  Y = \sum \beta_k X_k + \varepsilon

donde  \varepsilon es la perturbación aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carácter estocástico. En el caso más sencillo, con una sola variable explicativa, el hiperplano es una recta:

(3) Y = β1 + β2X2 + ε

El problema de la regresión consiste en elegir unos valores determinados para los parámetros desconocidos βk, de modo que la ecuación quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una observación cualquiera i-ésima (i= 1,... I) se registra el comportamiento simultáneo de la variable dependiente y las variables explicativas (las perturbaciones aleatorias se suponen no observables).

(4)  Y_i = \sum \beta_k X_{ki} + \varepsilon_i

Los valores escogidos como estimadores de los parámetros, \hat{\beta_k}, son los coeficientes de regresión, sin que se pueda garantizar que coinciden con parámetros reales del proceso generador. Por tanto, en

(5)  Y_i = \sum \hat{\beta_k} X_{ki} + \hat{\varepsilon_i}

Los valores  \hat{\varepsilon_i} son por su parte estimaciones de la perturbación aleatoria o errores.

Supuestos del modelo de regresión lineal

Para poder crear un modelo de regresión lineal, es necesario que se cumpla con los siguientes supuestos:[3]

  1. La relación entre las variables es lineal.
  2. Los errores en la medición de las variables explicativas son independientes entre sí.
  3. Los errores tienen varianza constante. (Homocedasticidad)
  4. Los errores tienen una esperanza matemática igual a cero (los errores de una misma magnitud y distinto signo son equiprobables).
  5. El error total es la suma de todos los errores.

Tipos de modelos de regresión lineal

Existen diferentes tipos de regresión lineal que se clasifican de acuerdo a sus parámetros:

Regresión lineal simple

Sólo se maneja una variable independiente, por lo que sólo cuenta con dos parámetros. Son de la forma:[4]

(6) Yi = β0 + β1Xi + εi

donde εi es el error asociado a la medición del valor Xi y siguen los supuestos de modo que εiN(0,σ2) (media cero, varianza constante e igual a un σ y \varepsilon_i \perp \varepsilon_j con i\neq j).

Análisis

Dado el modelo de regresión simple, si se calcula la esperanza (valor esperado) del valor Y, se obtiene:[5]

(7) E(y_i) = \hat{y_i}=E(\beta_0) + E(\beta_1 x_i) + E(\varepsilon_i)


Derivando respecto a \hat{\beta}_0 y \hat{\beta}_1 e igualando a cero, se obtiene:[5]

(9) \frac{\partial \sum (y_i - \hat{y_i})^2 }{\partial \hat{\beta}_0} = 0

(10) \frac{\partial \sum (y_i - \hat{y_i})^2 }{\partial \hat{\beta}_1} = 0

Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solución para ambos parámetros:[4]

(11)  \hat{\beta_1} = \frac { \sum x \sum y - n \sum xy } { \left ( \sum x \right ) ^ 2 - n \sum x^2 } = \frac{ \sum (x-\bar{x})(y-\bar{y} ) }{\sum ( x - \bar{x})^2 }

(12)  \hat{\beta_0} = \frac { \sum y - \hat{\beta}_1 \sum x } { n } = \bar{y} - \hat{\beta_1} \bar{x}

La interpretación del parámetro β1 es que un incremento en Xi de una unidad, Yi incrementará en β1

Regresión lineal múltiple

La regresion lineal nos permite trabajar con una variable a nivel de intervalo o razón, así también se puede comprender la relación de dos o más variables y nos permitirá relacionar mediante ecuaciones, una variable en relación a otras variables llamándose Regresión múltiple. Constantemente en la práctica de la investigación estadística, se encuentran variables que de alguna manera están relacionados entre si, por lo que es posible que una de las variables puedan relacionarse matemáticamente en función de otra u otras variables.

Maneja varias variables independientes. Cuenta con varios parámetros. Se expresan de la forma:[6]

(13)  Y_i = \beta_0 + \sum \beta_i X_{ip} + \varepsilon_i

donde εi es el error asociado a la medición i del valor Xip y siguen los supuestos de modo que εiN(0,σ2) (media cero, varianza constante e igual a un σ y \varepsilon_i \perp \varepsilon_j con i\neq j).

Rectas de regresión

Las rectas de regresión son las rectas que mejor se ajustan a la nube de puntos (o también llamado diagrama de dispersión) generada por una distribución binomial. Matemáticamente, son posibles dos rectas de máximo ajuste:[7]

  • La recta de regresión de Y sobre X:

(14) y = \bar{y} + \frac{\sigma_{xy}}{\sigma_{x}^2}(x - \bar{x})

  • La recta de regresión de X sobre Y:

(15) x = \bar{x} + \frac{\sigma_{xy}}{\sigma_{y}^2}(y - \bar{y})

La correlación ("r") de las rectas determinará la calidad del ajuste. Si r es cercano o igual a 1, el ajuste será bueno y las predicciones realizadas a partir del modelo obtenido serán muy fiables (el modelo obtenido resulta verdaderamente representativo); si r es cercano o igual a 0, se tratará de un ajuste malo en el que las predicciones que se realicen a partir del modelo obtenido no serán fiables (el modelo obtenido no resulta representativo de la realidad). Ambas rectas de regresión se intersecan en un punto llamado centro de gravedad de la distribución.

Aplicaciones de la regresión lineal

Líneas de tendencia

Véase también: Tendencia

Una línea de tendencia representa una tendencia en una serie de datos obtenidos a través de un largo período. Este tipo de líneas puede decirnos si un conjunto de datos en particular (como por ejemplo, el PBI, el precio del petróleo o el valor de las acciones) han aumentado o decrementado en un determinado período.[8] Se puede dibujar una línea de tendencia a simple vista fácilmente a partir de un grupo de puntos, pero su posición y pendiente se calcula de manera más precisa utilizando técnicas estadísticas como las regresiones lineales. Las líneas de tendencia son generalmente líneas rectas, aunque algunas variaciones utilizan polinomios de mayor grado dependiendo de la curvatura deseada en la línea.

Medicina

En medicina, las primeras evidencias relacionando la mortalidad con el fumar tabaco[9] vinieron de estudios que utilizaban la regresión lineal. Los investigadores incluyen una gran cantidad de variables en su análisis de regresión en un esfuerzo por eliminar factores que pudieran producir correlaciones espurias. En el caso del tabaquismo, los investigadores incluyeron el estado socio-económico para asegurarse que los efectos de mortalidad por tabaquismo no sean un efecto de su educación o posición económica. No obstante, es imposible incluir todas las variables posibles en un estudio de regresión.[10] [11] En el ejemplo del tabaquismo, un hipotético gen podría aumentar la mortalidad y aumentar la propensión a adquirir enfermedades relacionadas con el consumo de tabaco. Por esta razón, en la actualidad las pruebas controladas aleatorias son consideradas mucho más confiables que los análisis de regresión.

Véase también

Referencias

  1. C.F. Gauss. Theoria combinationis observationum erroribus minimis obnoxiae. (1821/1823)
  2. Introduction to linear regression Curvefit.com (en inglés)
  3. "Análisis de regresión lineal", Universidad Complutense de Madrid
  4. a b "Fórmulas", Probabilidad y Estadística. Cs. Básicas. U.D.B. Matemática. Universidad Tecnológica Nacional, Facultad Regional Buenos Aires. Editorial CEIT-FRBA. (Código BM2BT2)
  5. a b Modelo de regresión lineal simple. EinsteinNet.
  6. Técnicas de regresión: Regresión Lineal Múltiple. Pértega Díaz, S., Pita Fernández, S. Unidad de Epidemiología Clínica y Bioestadística. Complejo Hospitalario de La Coruña (España)
  7. Apunte sobre Rectas de regresión. Ministerio de Educación y Ciencia. Gobierno de España.
  8. Utilización de las líneas de tendencia, Paritech (en inglés)
  9. Doll R, Peto r, Wheatley K, Gray R et al. Mortality in relation to smoking: 40 years' observations on male British doctors .BMJ 1994;309:901-911 (8 de octubre]
  10. "Environmental Tobacco Smoke and Adult Asthma" Division of Pulmonary and Critical Care Medicine, Division of Occupational and Environmental Medicine; Department of Medicine, Institute for Health Policy Studies; and Department of Epidemiology and Biostatistics, Universidad de California, San Francisco, California. (en inglés)
  11. Efecto del tabaquismo, los síntomas respiratorios y el asma sobre la espirometría de adultos de la Ciudad de México, Justino Regalado-Pineda; Alejandro Gómez-Gómez; Javier Ramírez-Acosta; Juan Carlos Vázquez-García

Bibliografía

  • Devore, Jay L.; Probabilidad y Estadística para Ingeniería y Ciencias. International Thomson Editores. México. ISBN-10: 9706864571.
  • Walpole, Ronald E.; Raymond H.; Myers, Sharon L.; Probabilidad y Estadística para Ingenieros. Pretice-Hall Hispanoamericana, S.A. México. ISBN-10: 9701702646.
  • Canavos, George C.; Probabilidad y Estadística. Aplicaciones y Métodos. McGraw-Hill. México. ISBN-10: 9684518560.

Enlaces externos


Wikimedia foundation. 2010.

Mira otros diccionarios:

  • regresión lineal — Método estadístico en el que se marca una línea recta en torno a una serie de datos, la que mejor representa la relación entre dos subgrupos o métodos. Diccionario Mosby Medicina, Enfermería y Ciencias de la Salud, Ediciones Hancourt, S.A. 1999 …   Diccionario médico

  • Regresión no lineal — Saltar a navegación, búsqueda En estadística, la regresión no lineal es un problema de inferencia para un modelo tipo: basado en datos multidimensionales x,y, donde f es alguna función no lineal respecto a algunos parámetros desconocidos θ. Como… …   Wikipedia Español

  • Regresión — Saltar a navegación, búsqueda El término regresión puede hacer referencia a: Regresión (estadística): la regresión estadística o regresión a la media es la tendencia de una medición extrema a presentarse más cercana a la media en una segunda… …   Wikipedia Español

  • Regresión — (Del lat. regressio, onis.) ► sustantivo femenino 1 Acción de volver hacia atrás: ■ se ha notado una regresión en los sueldos. SINÓNIMO retroceso 2 BIOLOGÍA Disminución del rendimiento funcional de un órgano o tejido. 3 ESTADÍSTICA Método de… …   Enciclopedia Universal

  • Regresión logística — Saltar a navegación, búsqueda En estadística, la regresión logística es un modelo de regresión para variables dependientes o de respuesta binomialmente distribuidas. Es útil para modelar la probabilidad de un evento ocurriendo como función de… …   Wikipedia Español

  • Regresión de Poisson — Saltar a navegación, búsqueda En Estadística, una Regresión de Poisson es una forma de regresión usada para modelar datos de conteo y tablas de contingencia. Este tipo de regresión asume que la variable de respuesta tiene una distribución de… …   Wikipedia Español

  • Análisis de la regresión — Saltar a navegación, búsqueda La regresión estadística o regresión a la media es la tendencia de una medición extrema a presentarse más cercana a la media en una segunda medición. La regresión se utiliza para predecir una medida basándonos en el… …   Wikipedia Español

  • Modelo lineal generalizado — En estadística, el modelo lineal generalizado (MLG) es una flexible generalización de la regresión de mínimos cuadrados ordinaria. Relaciona la distribución aleatoria de la variable dependiente en el experimento (la «función de distribución») con …   Wikipedia Español

  • Modelos de regresión múltiple postulados y no postulados — En estadística un modelo de regresión múltiple no postulado es uno de los métodos de regresión lineal. Contenido 1 Modelo 2 Modelo postulado 3 El problema de la selección de las variables explicativas …   Wikipedia Español

  • Función lineal — Se ha sugerido que Transformación lineal de intervalos sea fusionado en este artículo o sección (discusión). Una vez que hayas realizado la fusión de artículos, pide la fusión de historiales aquí. Para la función entre dos espacios vectoriales… …   Wikipedia Español