Cota de Cramér-Rao


Cota de Cramér-Rao

Cota de Cramér-Rao

En estadística, la cota de Cramér-Rao (abreviada CRB por sus siglas del inglés) o cota inferior de Cramér-Rao (CRLB), llamada así en honor a Harald Cramér y Calyampudi Radhakrishna Rao, expresa una cota inferior para la varianza de un estimador insesgado, basado en la información de Fisher.

Establece que la inversa multiplicativa de la información de Fisher de un parámetro θ, \mathcal{I}(\theta), es una cota inferior para la varianza de un estimador insesgado del parámetro (denotado mediante \widehat{\theta}).


\mathrm{var} \left(\widehat{\theta}\right)
\geq
\frac{1}{\mathcal{I}(\theta)}
=
\frac{1}
{
 \mathrm{E}
 \left[
  \left[
   \frac{\partial}{\partial \theta} \log f(X;\theta)
  \right]^2
 \right]
}

En algunos casos, no existe un estimador insesgado que alcance la cota inferior.

A esta cota se la conoce también como la desigualdad de Cramér-Rao o como la desigualdad de información.

Contenido

Condiciones de regularidad

La cota depende de dos condiciones de regularidad débiles de la función de densidad de probabilidad, f(x;θ), y del estimador T(X):

  • La información de Fisher siempre está definida; en otras palabras, para todo x tal que f(x;θ) > 0,
 \frac{\partial}{\partial\theta} \ln f(x;\theta)
es finito.
  • Las operaciones de integración con respecto a x y de diferenciación con respecto a θ pueden intercambiarse en la esperanza de T; es decir,

 \frac{\partial}{\partial\theta}
 \left[
  \int T(x) f(x;\theta) \,dx
 \right]
 =
 \int T(x)
  \left[
   \frac{\partial}{\partial\theta} f(x;\theta)
  \right]
 \,dx
siempre que el miembro derecho de la ecuación sea finito.

En algunos casos, un estimador sesgado puede tener tanto varianza como error cuadrático medio por debajo de la cota inferior de Cramér-Rao (la cota inferior se aplica solo a estimadores insesgados).

Si se extiende la segunda condición de regularidad a la segunda derivada, entonces se puede usar una forma alternativa de la información de Fisher para obtener una nueva desigualdad de Cramér-Rao


\mathrm{var} \left(\widehat{\theta}\right)
\geq
\frac{1}{\mathcal{I}(\theta)}
=
\frac{1}
{
 -\mathrm{E}
 \left[
  \frac{d^2}{d\theta^2} \log f(X;\theta)
 \right]
}

En algunos casos puede resultar más sencillo tomar la esperanza con respecto a la segunda derivada que tomarla respecto del cuadrado de la primera derivada.

Parámetros múltiples

Extendiendo la cota de Cramér-Rao para múltiples parámetros, defínase el vector columna de parámetros

\boldsymbol{\theta} = \left[ \theta_1, \theta_2, \dots, \theta_d \right]^T \in \mathbb{R}^d

con función de densidad de probabilidad f(x; \boldsymbol{\theta}) que satisface las dos condiciones de regularidad definidad anteriormente.

La matriz de información de Fisher es una matriz de dimensión d \times d con elementos \mathcal{I}_{m, k} definidos según


\mathcal{I}_{m, k}
=
\mathrm{E}
\left[
 \frac{d}{d\theta_m} \log f\left(x; \boldsymbol{\theta}\right)
 \frac{d}{d\theta_k} \log f\left(x; \boldsymbol{\theta}\right)
\right]

entonces, la cota de Cramér-Rao bound es


\mathrm{cov}_{\boldsymbol{\theta}}\left(\boldsymbol{T}(X)\right)
\geq
\frac
 {\partial \boldsymbol{\psi} \left(\boldsymbol{\theta}\right)}
 {\partial \boldsymbol{\theta}^T}
\mathcal{I}\left(\boldsymbol{\theta}\right)^{-1}
\frac
 {\partial \boldsymbol{\psi}\left(\boldsymbol{\theta}\right)^T}
 {\partial \boldsymbol{\theta}}

donde

  • 
\boldsymbol{T}(X) = \begin{bmatrix} T_1(X) & T_2(X) & \cdots & T_d(X) \end{bmatrix}^T
  • 
\boldsymbol{\psi}
=
\mathrm{E}\left[\boldsymbol{T}(X)\right]
=
\begin{bmatrix} \psi_1\left(\boldsymbol{\theta}\right) &
 \psi_2\left(\boldsymbol{\theta}\right) &
 \cdots &
 \psi_d\left(\boldsymbol{\theta}\right)
\end{bmatrix}^T


  • \frac{\partial \boldsymbol{\psi}\left(\boldsymbol{\theta}\right)}{\partial \boldsymbol{\theta}^T}
=
\begin{bmatrix}
 \psi_1 \left(\boldsymbol{\theta}\right) \\
 \psi_2 \left(\boldsymbol{\theta}\right) \\
 \vdots \\  \\
 \psi_d \left(\boldsymbol{\theta}\right)
\end{bmatrix}
\begin{bmatrix}
 \frac{\partial}{\partial \theta_1} &
 \frac{\partial}{\partial \theta_2} &
 \cdots &
 \frac{\partial}{\partial \theta_d}
\end{bmatrix}
=
\begin{bmatrix}
 \frac{\partial \psi_1 \left(\boldsymbol{\theta}\right)}{\partial \theta_1} &
 \frac{\partial \psi_1 \left(\boldsymbol{\theta}\right)}{\partial \theta_2} &
 \cdots &
 \frac{\partial \psi_1 \left(\boldsymbol{\theta}\right)}{\partial \theta_d} \\  \\
 \frac{\partial \psi_2 \left(\boldsymbol{\theta}\right)}{\partial \theta_1} &
 \frac{\partial \psi_2 \left(\boldsymbol{\theta}\right)}{\partial \theta_2} &
 \cdots &
 \frac{\partial \psi_2 \left(\boldsymbol{\theta}\right)}{\partial \theta_d} \\  \\
 \vdots &
 \vdots &
 \ddots &
 \vdots \\  \\
 \frac{\partial \psi_d \left(\boldsymbol{\theta}\right)}{\partial \theta_1} &
 \frac{\partial \psi_d \left(\boldsymbol{\theta}\right)}{\partial \theta_2} &
 \cdots &
 \frac{\partial \psi_d \left(\boldsymbol{\theta}\right)}{\partial \theta_d}
\end{bmatrix}


  • 
\frac{\partial \boldsymbol{\psi}\left(\boldsymbol{\theta}\right)^T}{\partial \boldsymbol{\theta}}
=
\begin{bmatrix}
 \frac{\partial}{\partial \theta_1} \\
 \frac{\partial}{\partial \theta_2} \\
 \vdots \\
 \frac{\partial}{\partial \theta_d}
\end{bmatrix}
\begin{bmatrix}
 \psi_1 \left(\boldsymbol{\theta}\right) &
 \psi_2 \left(\boldsymbol{\theta}\right) &
 \cdots &
 \psi_d \left(\boldsymbol{\theta}\right)
\end{bmatrix}
=
\begin{bmatrix}
 \frac{\partial \psi_1 \left(\boldsymbol{\theta}\right)}{\partial \theta_1} &
 \frac{\partial \psi_2 \left(\boldsymbol{\theta}\right)}{\partial \theta_1} &
 \cdots &
 \frac{\partial \psi_d \left(\boldsymbol{\theta}\right)}{\partial \theta_1} \\  \\
 \frac{\partial \psi_1 \left(\boldsymbol{\theta}\right)}{\partial \theta_2} &
 \frac{\partial \psi_2 \left(\boldsymbol{\theta}\right)}{\partial \theta_2} &
 \cdots &
 \frac{\partial \psi_d \left(\boldsymbol{\theta}\right)}{\partial \theta_2} \\  \\
 \vdots &
 \vdots &
 \ddots &
 \vdots \\  \\
 \frac{\partial \psi_1 \left(\boldsymbol{\theta}\right)}{\partial \theta_d} &
 \frac{\partial \psi_2 \left(\boldsymbol{\theta}\right)}{\partial \theta_d} &
 \cdots &
 \frac{\partial \psi_d \left(\boldsymbol{\theta}\right)}{\partial \theta_d}
\end{bmatrix}

Y \mathrm{cov}_{\boldsymbol{\theta}} \left( \boldsymbol{T}(X) \right) es una matriz semi-definida positiva, es decir

 x^{T} \mathrm{cov}_{\boldsymbol{\theta}} \left( \boldsymbol{T}(X) \right) x \geq 0 \quad \forall x \in \mathbb{R}^d

Si \boldsymbol{T}(X) = \begin{bmatrix} T_1(X) & T_2(X) & \cdots & T_d(X) \end{bmatrix}^T es un estimador insesgado (es decir, \boldsymbol{\psi}\left(\boldsymbol{\theta}\right) = \boldsymbol{\theta}) entonces la cota de Cramér-Rao es


\mathrm{cov}_{\boldsymbol{\theta}}\left(\boldsymbol{T}(X)\right)
\geq
\mathcal{I}\left(\boldsymbol{\theta}\right)^{-1}

Ejemplos

Distribución normal multivariada

Para el caso de una distribución normal multivariada de dimensión d


\boldsymbol{x}
\sim
N_d
\left(
 \boldsymbol{\mu} \left( \boldsymbol{\theta} \right)
 ,
 C \left( \boldsymbol{\theta} \right)
\right)

con función de densidad de probabilidad


f\left( \boldsymbol{x}; \boldsymbol{\theta} \right)
=
\frac{1}{\sqrt{ (2\pi)^d \left| C \right| }}
\exp
\left(
 -\frac{1}{2}
 \left(
  \boldsymbol{x} - \boldsymbol{\mu}
 \right)^{T}
 C^{-1}
 \left(
  \boldsymbol{x} - \boldsymbol{\mu}
 \right)
\right).

La matriz de información de Fisher tiene elementos


\mathcal{I}_{m, k}
=
\frac{\partial \boldsymbol{\mu}^T}{\partial \theta_m}
C^{-1}
\frac{\partial \boldsymbol{\mu}}{\partial \theta_k}
+
\frac{1}{2}
\mathrm{tr}
\left(
 C^{-1}
 \frac{\partial C}{\partial \theta_m}
 C^{-1}
 \frac{\partial C}{\partial \theta_k}
\right)

donde "tr" se refiere a la traza de una matriz.

Sea w[n] ruido blanco gaussiano (una muestra de N observaciones independientes) con varianza σ2

w[n] \sim \mathbb{N}_N \left(\boldsymbol{\mu}(\theta), \sigma^2 {\mathcal I} \right).

Donde


\boldsymbol{\mu}(\theta)_i = \theta = \text{mean},

y \boldsymbol{\mu}(\theta) tiene N (el número de observaciones independientes) términos.

Entonces la matriz de información de Fisher es de dimensión 1 × 1


\mathcal{I}(\theta)
=
\left(\frac{\partial\boldsymbol{\mu}(\theta)}{\partial\theta_m}\right)^TC^{-1}\left(\frac{\partial\boldsymbol{\mu}(\theta)}{\partial\theta_k}\right) = \sum^N_{i=0}\frac{1}{\sigma^2} = \frac{N}{\sigma^2},

y por lo tanto la cota de Cramér-Rao es


\mathrm{var}\left(\theta\right)
\geq
\frac{\sigma^2}{N}.
Obtenido de "Cota de Cram%C3%A9r-Rao"

Wikimedia foundation. 2010.

Mira otros diccionarios:

  • Calyampudi Radhakrishna Rao — Saltar a navegación, búsqueda Calyampudi Radhakrishna Rao (nacido el 10 de septiembre de 1920) es un estadístico nacido en India, actual Profesor emérito de la Universidad de Pennsylvania. Nacío en Hadagali, en el estado de Karnataka, en India.… …   Wikipedia Español

  • Harald Cramér — Este artículo o sección necesita referencias que aparezcan en una publicación acreditada, como revistas especializadas, monografías, prensa diaria o páginas de Internet fidedignas. Puedes añadirlas así o avisar …   Wikipedia Español

  • Estimación estadística — Saltar a navegación, búsqueda En inferencia estadística se llama estimación al conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una población a partir de los datos proporcionados por una muestra. Por ejemplo, una… …   Wikipedia Español

  • Estimador — Saltar a navegación, búsqueda En estadística, un estimador es un estadístico (esto es, una función de la muestra) usado para estimar un parámetro desconocido de la población. Por ejemplo, si se desea conocer el precio medio de un artículo (el… …   Wikipedia Español