Modelos de regresión múltiple postulados y no postulados


Modelos de regresión múltiple postulados y no postulados

En estadística un modelo de regresión múltiple no postulado es uno de los métodos de regresión lineal.

Contenido

Modelo

Un modelo relaciona una o varias variables que hay que explicar Y a unas variables explicativas X, por una relación funcional Y = F (X)

  • Un modelo físico es un modelo explicativo sostenido por una teoría.
  • Un modelo estadístico, al contrario, es un modelo empírico nacido de datos disponibles, sin conocimientos a priori sobre los mecanismos en juego. Podemos sin embargo integrar en eso ecuaciones físicas (en el momento del pretratamiento de datos).

Disponemos de n de observaciones (i = 1,…, n ) de p variables. La ecuación de regresión se escribe:

 y_i=a_o + a_{1} x_{i,1} + \cdots +  a_p x_{i,p} +\epsilon_i \qquad i=1 \cdots n \,

donde

  • εi es el error del modelo;
  • a0, a1, …, ap son los coeficientes del modelo que hay que estimar.

El cálculo de los coeficientes a j y del error del modelo, a partir de las observaciones, es un problema bien dominado (ver Regresión lineal).

Más delicado es la elección de las variables que entran en este modelo. Puede ser postulado o no postulado.

Modelo postulado

Sólo los coeficientes del modelo precedente de regresión son dirigidos por los datos, la estructura polinómica del modelo es impuesta por el utilizador (según su peritaje del problema), que postula a priori:

  • El tipo de modelo: lineal o polinómico, y el grado del polinomio,
  • las variables que entrarán en el modelo.

Ejemplo de modelo polinómico con dos variables explicativas:  y_i=a_o + a_{1} x_{i,1} +  a_{2} x_{i,2}    + a_{3}  x_{i,1} x_{i,2}+ a_{4}  x_{i,1}^2     +  a_{5}  x_{i,1}^2   +\epsilon_i \qquad i=1 \cdots n \,

El problema de la selección de las variables explicativas

Cuando el número de variables explicativas es grande, puede hacerse que ciertas variables sean correladas. En este caso hay que eliminar los doblones. El software utiliza para hacerlo métodos de selección paso a paso (ascendientes, descendentes o mixtos).

Sin embargo la calidad del modelo final repone en gran parte en la elección de las variables, y del grado del polinomio.

Modelo no postulado

El modelo no postulado es al contrario totalmente dirigido por los datos , tanto su estructura matemática como sus coeficientes. La selección de las variables explicativas no pide conocimiento a priori sobre el modelo: se efectua entre un conjunto muy grande de variables, comprendiendo:

  • Variables explicativas simples: A, B, C, (propuestas por los expertos del campo considerado y cuyo número p puede ser superior a n
  • Interacciones o acoplamiento de estas variables, por ejemplo « A*B » (producido cruzado sobre variables centradas reducidas), pero también « interacciones lógicas » tal « A y B », « A o B », « A y B medios », « A si B es fuerte »,« A si B es medio », « A si B es débil », etc.;
  • Funciones de estas variables': por ejemplo cos (A) o cualquier función sinusoidal amortiguada o ampliada, función periódica no sinusoidal, efecto de umbral, etc.


La selección se produce antes del cálculo de los coeficientes de la regresión según el principio siguiente:

Buscamos el factor o la interacción o la función mejor correlada a la respuesta. Habiéndolo encontrado, buscamos el factor o la interacción mejor correlada al residuo no explicado por la correlación precedente; etc. Este método pretende no contar dos veces la misma influencia, cuando los factores son correlados, y a ordenarlos por importancia decreciente.

La lista por orden de importancia decreciente encontrada y clasificada, no puede contar más términos que desconocidas (n). Si se guarda sólo un término en el modelo, deberá ser la primera de la lista. Si se guarda dos, serán ambos primeros, etc.

En efecto ya que cada uno de los términos de la lista explica el residuo no explicado por los precedentes, los últimos explican posiblemente sólo el ruido. ¿ Cuál criterio de parada escoger?

El número de términos conservados en el modelo puede ser, por ejemplo, el que minimiza el error estándar de predicción SEP (Standard error of Prediction), o el que maximiza el F de Fisher. Este número de término puede también ser escogido por el utilizador a partir de consideraciones físicas.


Ejemplo: suponemos que el conjunto de las « variables explicativas » candidatas es {A,B,C,D,E,F,G}, y que el modelo obtenido es :
Y = constante + a.A + b.(« E et G ») + c.(« D y F medios »)
Observamos que:
* las variables B y C, no pertinentes, no figuran en el modelo
* la variable A apareció como término simple
* las variables E y G de una parte, y D y F, por otra parte, aparecen sólo como « interacciones lógicas ».


Este modelo « parsimonioso », es decir conteniendo pocos términos (aquí tres), contrata 5 variables, y estará pegado mejor a la realidad física que un modelo polinomico. En efecto la conjunción « E y G » que significa « E y G fuertes simultáneamente » es encontrado más a menudo en la realidad física (ejemplo: la catálisis en química) que un término polinomico de tipo E.G.

Descomposición armónica

Un modelo no postulado será también eficaz en la descomposición armónica de las series.

En efecto, el principio se aplica también bien en caso de muestreo irregular (donde los métodos de tipo media móvil, ARIMA o Box y Jenkins son hechos caer en falta) que en los casos no estacionarios (donde Análisis armónico no se aplica). Permite descubrir y desenredar las interferencias de ciclos diversos y estacionalidad con roturas de tendencias en escalón, en V, roturas logísticas, motivos periódicos, y acontecimientos accidentales tales como picos aislados o pedazos de ondas.

Referencias

[1] Lesty M. (1999) Une nouvelle approche dans le choix des régresseurs de la régression multiple en présence d’interactions et de colinéarités. La revue de Modulad, n°22, janvier 1999, pp. 41-77

[2] Lesty M. (2002) La recherche des harmoniques, une nouvelle fonction du logiciel CORICO. La revue de Modulad, n°29, juin 2002, pp. 39-77


Wikimedia foundation. 2010.

Mira otros diccionarios:

  • Regresión logística — Saltar a navegación, búsqueda En estadística, la regresión logística es un modelo de regresión para variables dependientes o de respuesta binomialmente distribuidas. Es útil para modelar la probabilidad de un evento ocurriendo como función de… …   Wikipedia Español

  • Regresión lineal — Ejemplo de una regresión lineal con una variable dependiente y una variable independiente. En estadística la …   Wikipedia Español

  • Ajuste de curvas — El ajuste de curvas consiste en encontrar una curva que contenga una serie de puntos y que posiblemente cumpla una serie de restricciones adicionales. Esta sección es una introducción tanto a la interpolación (cuando se espera un ajuste exacto a… …   Wikipedia Español

  • Análisis armónico — Saltar a navegación, búsqueda El análisis armónico o análisis de Fourier es la rama de las matemáticas que estudia la representación de funciones o señales como superposición de ondas básicas , de base , de las que podemos decir que la función o… …   Wikipedia Español

  • Interpolación polinómica — En análisis numérico, la interpolación polinómica es una técnica de interpolación de un conjunto de datos o de una función por un polinomio. Es decir, dado cierto número de puntos obtenidos por muestreo o a partir de un experimento se pretende… …   Wikipedia Español

  • Interpolación trigonométrica — En matemática, la interpolación trigonométrica es una interpolación con polinomios trigonométricos. La interpolación es el método por el cual se encuentra una función a partir de un conjunto de puntos. Para la interpolación trigonométrica, esta… …   Wikipedia Español

  • Aprendizaje automático — Este artículo o sección necesita referencias que aparezcan en una publicación acreditada, como revistas especializadas, monografías, prensa diaria o páginas de Internet fidedignas. Puedes añadirlas así o avisar …   Wikipedia Español

  • Interacción lógica — La noción matemática de «  interacción lógica  », concebida como generalización de la de «  interacción », nacido del Diseño de Experimentos, ha sido introducida a finales de los años 1990. Primero utilizada en análisis de los …   Wikipedia Español

  • Navaja de Ockham — La navaja de Ockham (a veces escrito Occam u Ockam), principio de economía o principio de parsimonia (lex parsimonia), es un principio metodológico y filosófico atribuido a Guillermo de Ockham (1280 1349), según el cual cuando dos teorías en… …   Wikipedia Español