Regresión logística

Regresión logística

Regresión logística

En estadística, la regresión logística es un modelo de regresión para variables dependientes o de respuesta binomialmente distribuidas. Es útil para modelar la probabilidad de un evento ocurriendo como función de otros factores. Es un modelo lineal generalizado que usa como función de enlace la función logit.

La regresión logística es usada extensamente en las ciencias médicas y sociales. Otros nombres para regresión logística usados en varias áreas de aplicación incluyen modelo logístico, modelo logit, y clasificador de máxima entropía.

Contenido

Resumen

La regresión logística analiza datos distribuidos binomialmente de la forma

Y_i \ \sim  B(p_i,n_i),\text{ for }i = 1, \dots , m,

donde los números de ensayos Bernoulli ni son conocidos y las probabilidades de éxito pi son desconocidas. Un ejemplo de esta distribución es el porcentaje de semillas (pi) que germinan después de que ni son plantadas.

El modelo es entonces obtenido en base a lo que cada ensayo (valor de i) y el conjunto de variables explicativas/independientes pueda informar acerca de la probabilidad final. Estas variables explicativas pueden pensarse como un vector Xi k-dimensional y el modelo toma entonces la forma

p_i = \operatorname{E}\left(\left.\frac{Y_i}{n_{i}}\right|X_i \right). \,\!

Los logits de las probabilidades binomiales desconocidas (i.e., los logaritmos de los odds) son modeladas como una función lineal de los Xi.

\operatorname{logit}(p_i)=\ln\left(\frac{p_i}{1-p_i}\right) = \beta_0 + \beta_1 x_{1,i} + \cdots + \beta_k x_{k,i}.

Note que un elemento particular de Xi puede ser ajustado a 1 para todo i obteniéndose un intercepto en el modelo. Los parámetros desconocidos βj son usualmente estimados a través de máxima verosimilitud.

La interpretación de los estimados del parámetro βj es como los efectos aditivos en el log odds ratio para una unidad de cambio en la jésima variable explicativa. En el caso de una variable explicativa dicotómica, por ejemplo género, eβ es la estimación del odds ratio de tener el resultado para, por decir algo, hombres comparados con mujeres.

El modelo tiene una formulación equivalente dada por

p_i = \frac{1}{1+e^{-(\beta_0 + \beta_1 x_{1,i} + \cdots + \beta_k x_{k,i})}}. \,\!

Esta forma funcional es comúnmente identificada como un "perceptrón" de una capa simple or red neuronal artificial de una sola capa. Una red neuronal de una sola capa calcula una salida continua en lugar de una función por pedazos. La derivada de pi con respecto a X = x1...xk es calculada de la forma general:

y = \frac{1}{1+e^{-f(X)}}

donde f(X) es una función analítica en X. Con esta escogencia, la red de capa simple es idéntica al modelo de regresión logística. Esta función tiene una derivada continua, la cual permite ser usada en propagación hacia atrás. Esta función también es preferida pues su derivada es fácilmente calculable:

y' = y(1-y)\frac{\mathrm{d}f}{\mathrm{d}X}\,\!

Extensiones

Algunas extensiones del modelo existen para tratar variables dependientes multicategóricas y/o ordinales, tales como la regresión politómica. La clasificación en varias clases por regresión logística es conocida como logit multinomial. Una extensión del modelo logístico para ajustar conjuntos de variables independientes es el campo aleatorio condicional.

Ejemplo

Sea p(x) la probabilidad de éxito cuando el valor de la variable predictora es x. Entonces sea

p(x) = \frac{1}{1+e^{-(B_0+B_1x)}} = \frac{e^{B_0 + B_1x}}{1+e^{B_0+B_1x}}.

Después de algún álgebra se prueba que

\frac{p(x)}{1-p(x)} = e^{B_0+B_1x},

donde \frac{p(x)}{1-p(x)} son los odds en favor de éxito.

Si tomamos un valor de ejemplo, digamos p(50) = 2/3, entonces

\frac{p(50)}{1-p(50)} = \frac{\frac{2}{3}}{1-\frac{2}{3}} = 2.

Cuando x = 50, un éxito es dos veces tan probable como una falla. Es decir, se puede decir simplemente que los odds son 2$ a 1.

Véase también

Enlaces externos

Referencias

  • Agresti, Alan. (2002). Categorical Data Analysis. New York: Wiley-Interscience. ISBN 0-471-36093-7.
  • Amemiya, T. (1985). Advanced Econometrics. Harvard University Press. ISBN 0-674-00560-0.
  • Balakrishnan, N. (1991). Handbook of the Logistic Distribution. Marcel Dekker, Inc.. ISBN 978-0824785871.
  • Green, William H. (2003). Econometric Analysis, fifth edition. Prentice Hall. ISBN 0-13-066189-9.
  • Hosmer, David W.; Stanley Lemeshow (2000). Applied Logistic Regression, 2nd ed.. New York; Chichester, Wiley. ISBN 0-471-35632-8.
Obtenido de "Regresi%C3%B3n log%C3%ADstica"

Wikimedia foundation. 2010.

См. также в других словарях:

  • Regresión no lineal — Saltar a navegación, búsqueda En estadística, la regresión no lineal es un problema de inferencia para un modelo tipo: basado en datos multidimensionales x,y, donde f es alguna función no lineal respecto a algunos parámetros desconocidos θ. Como… …   Wikipedia Español

  • Regresión — Saltar a navegación, búsqueda El término regresión puede hacer referencia a: Regresión (estadística): la regresión estadística o regresión a la media es la tendencia de una medición extrema a presentarse más cercana a la media en una segunda… …   Wikipedia Español

  • Regresión lineal — Ejemplo de una regresión lineal con una variable dependiente y una variable independiente. En estadística la …   Wikipedia Español

  • Estadística multivariante — Saltar a navegación, búsqueda Los métodos estadísticos multivariantes y el análisis multivariante son herramientas estadísticas que estudian el comportamiento de tres o más variables al mismo tiempo. Se usan principalmente para buscar las… …   Wikipedia Español

  • Logit — La función logit es una parte importante de la regresión logística: para más información, por favor ver ese artículo. En matemáticas, especialmente aquellas aplicadas en estadística, el logit de un número p entre 0 y 1 es (La base de la función… …   Wikipedia Español

  • Función probit — En probabilidad y estadística se llama función probit a la inversa de la función de distribución o función cuantil asociada con la distribución normal estándar. La función tiene aplicaciones en gráficos estadísticos exploratorios y modelos probit …   Wikipedia Español

  • Función sigmoide — La curva logística. Muchos procesos naturales y curvas de aprendizaje de sistemas complejos muestran una progresión temporal desde unos niveles bajos al inicio, hasta acercarse a un clímax transcurrido un cierto tiempo; la transición se produce… …   Wikipedia Español

  • Modelo lineal generalizado — En estadística, el modelo lineal generalizado (MLG) es una flexible generalización de la regresión de mínimos cuadrados ordinaria. Relaciona la distribución aleatoria de la variable dependiente en el experimento (la «función de distribución») con …   Wikipedia Español

  • Anexo:Episodios de Numb3rs — La siguiente es una lista de episodios de la serie norteamericana NUMB3RS. Contenido 1 Estrenos y Lanzamientos en DVD 2 Primera temporada (2005) 3 Segunda temporada (2005 2006) …   Wikipedia Español

  • Menopausia — La menopausia (del griego mens, que significa mensualmente , y pausi, que significa cese ) se define como el cese permanente de la menstruación y tiene correlaciones fisiológicas, con la declinación de la secreción de estrógenos por pérdida de la …   Wikipedia Español


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»