ISTI - 08 - Teoria degli Stimatori II
1 Informazioni Lezione
Data:
2 Statistiche Sufficienti
Nella ricerca degli stimatori vogliamo lo stimatore "migliore", ovvero quello non-distorto con varianza minima. Notiamo però che dato un campione \(X_1, ..., X_n\) con densità \(f(x|\theta)\), non dobbiamo cercare il nostro stimatore tra tute le possibili statistiche \(t(X_1, ..., X_n)\), ma possiamo ridurre lo spazio delle possibilità. A tale fine introduciamo la seguente definizione.
Definizione: Una statistica \(t(X_1, X_2, ..., X_n)\) di un campione \(X_1, X_2, ..., X_n\) con densità \(f(x|\theta)\) è detta statistica sufficiente se la legge \(L(X_1, X_2, ..., X_n \; | \; t)\) è indipendente dal valore di \(\theta\), per ogni \(\theta \in \Theta\).
Al fine di chiarire tale definizione, proponiamo il seguente esempio
Esempio: Supponiamo di avere \(X_1, ..., X_n \sim Poiss(\theta)\) e consideriamo la seguente funzione del campione
\[t := X_1 + X_2 + ... + X_n = \sum_i X_i\]
Andiamo adesso a calcolare la legge degli \(X_i\) condizionati al valore di \(t\), ovvero l'evento \((X_1 = a_1, X_2 = a_2, ..., X_n = a_n | t = S)\). Notiamo che se \(a_1 + a_2 + ... + a_n \neq S\), allora la probabilità dell'evento è \(0\).
Sia quindi \(S = a_1 + ... + a_n\), e consideriamo la seguente inclusione di eventi
\[(X_1 = a_1, X_2 = a_2, ..., X_n = a_n) \subseteq (t = a_1 + a_2 + ... + a_n)\]
utilizzando la formula per il calcolo delle probabilità condizionate troviamo
\[\begin{split} P(X_1 = a_1, ..., X_n = a_n \,\,|\,\, t = a_1 + ... + a_n) &= \frac{P(X_1 = a_1, ..., X_n = a_n \,\,,\,\, t = a_1 + ... + a_n)}{P(t = a_1 + ... + a_n)} \\ &= \frac{P(X_1 = a_1, ..., X_n = a_n)}{P(t = a_1 + ... + a_n)} \end{split}\]
Infine, notando che le \(X_i\) sono indipendenti e che la somma di \(n\) Poisson di parametro \(\theta\) è una Poisson di parametro \(n\theta\) troviamo la seguente espressione
\[\begin{split} P(X_1 = a_1, ..., X_n = a_n \,\,|\,\, t = a_1 + ... + a_n) &= \frac{P(X_1 = a_1, \ldots, X_n = a_n)}{P(t = a_1 + \ldots + a_n)} \\ &= \frac{ \frac{\theta^{a_1}}{a_1!}e^{-\theta} \cdot \frac{\theta^{a_2}}{a_2!}e^{-\theta} \cdot \,\, \ldots \,\, \cdot \frac{\theta^{a_n}}{a_n!}e^{-\theta}}{ \frac{(n\theta)^{a_1 + ... + a_n}}{(a_1 + ... + a_n)!} e^{-n\theta}} \\ &= \frac{(a_1 + ... + a_n)!}{a_1!...a_n!} \cdot \frac{\theta^{a_1 + ... + a_n} e^{-n\theta}}{(n\theta)^{a_1 + ... + a_n} e^{-n\theta}} \\ &= \binom{a_1 + ... + a_n}{\underline{a}} \cdot \Big(\frac{1}{n}\Big)^{a_1 + ... + a_n} \end{split}\]
Notiamo che l'espressione trovata non dipende più dal parametro \(\theta\). Possiamo quindi dire che la somma delle \(X_i\) è una statistica sufficiente per la distribuzione Poisson.
Osservazione: Osserviamo l'ultima espressione ottenuta nel precedente esempio è la densità discreta della distribuzione multinomiale. La distribuzione multinomiale può essere utilizzata per modellare il seguente esperimento: abbiamo \(S\) palline e \(n\) scatole, e le palline cadono con probabilità uniforme nelle varie scatole. La probabilità di avere \(a_i\) palline nella \(i\) -esima scatola per \(i=1,...,n\) è quindi data dalla seguente espressione
\[\displaystyle{\binom{a_1 + ... + a_n}{\underline{a}} \cdot \Big(\frac{1}{n}\Big)^{\displaystyle{a_1 + \ldots + a_n}}}\]
Tale distribuzione è rappresentata dal simbolo \(Multi(S, {1/n, 1/n, ..., 1/n})\).
2.1 Come Trovare Statistiche Sufficienti
Supponiamo di avere un campione \(X_1, X_2, ..., X_n\) con densità \(f(x | \theta)\). Se riusciamo a scomporre la densità congiunta nel seguente modo
\[f(\underline{x} | \theta) = a(\theta) \cdot b(\theta, t(\underline{x})) \cdot c(\underline{x})\]
allora \(t(\underline{x})\) è una statistica sufficiente.
Esempio: Nel caso di un campione \(X_1, ..., X_n\) i.i.d. preso dalla normale, \(X_i \sim \mathcal{N}(\mu, \sigma^2)\), abbiamo che la densità congiunta può essere scritta nel seguente modo
\[\begin{split} f(\underline{x} | \theta) &= \frac{1}{\sigma^n (2\pi)^{n/2}} \cdot e^{\displaystyle{-\frac{1}{2\sigma^2}\sum_i(x_i - \mu)^2}} \\ &= \frac{1}{\sigma^2 (2\pi)^{n/2}} \cdot e^{\displaystyle{-\frac{1}{2\sigma^2}\sum_i(x_i^2 - 2x_i\mu + \mu^2)}} \\ &= \frac{1}{\sigma^2 (2\pi)^{n/2}} e^{-\frac{\mu^2}{2\sigma^2}} \cdot e^{\displaystyle{-\frac{1}{2}(\frac{\sum x_i^2}{\sigma^2} - \frac{2\mu \sum x_i}{\sigma^2})}} \end{split}\]
e quindi la statistica sufficiente è data da
\[t = \Big( \sum_i X_i, \sum_i X_i^2 \Big)\]
2.2 Statistica Sufficiente Minima
3 Teorema di Rao-Blackwell
Andiamo adesso a presentare un risultato che unisce i concetti di stimatore e statistica sufficiente.
Teorema: Consideriamo un campione \(X_1, ..., X_n\) i.i.d. con \(X_i \sim f(x | \theta)\), e supponiamo di avere uno stimatore non distorto \(S(X_1, ..., X_n)\) e una statistica sufficiente \(t(X_1, ..., X_n)\). Allora lo stimatore
\[S^*(t) := \mathbb{E}[S \,\,|\,\, t]\]
è uno stimatore tale che, \(\forall \theta \in \Theta\)
Lo stimatore \(S^*\) non è distorto, ovvero
\[\mathbb{E}_\theta[S^*]= \theta\]
La varianza di \(S^*\) è più piccola di quella di \(S\)
\[Var_{\theta}(S^*) \leq Var_{\theta}(S)\]
Al fine di dimostrare il risultato consideriamo la la media condizionata \(\mathbb{E}[X|Y]\) come una funzione della \(Y\), \(g(Y) = \mathbb{E}[X|Y]\). Utilizziamo quindi i seguenti risultati
Lemma 1: \(\mathbb{E}[\mathbb{E}[X|Y]] = \mathbb{E}[g(Y)] = \mathbb{E}[X]\)
Dimostrazione:
\[\begin{split} \mathbb{E}[\mathbb{E}[X|Y]] &= \int \bigg( \int x \cdot f(x | y) \,\, dx \bigg) \cdot f(y) dy \\ &= \int \int x \cdot f(x|y) \cdot f(y) \,\, dx \, dy \\ &= \int \int x \cdot \frac{f(x, y)}{f(y)} \cdot f(y) \,\, dx \, dy \\ &= \int \bigg( x f(x, y) \,\, dy \bigg) \,\, dx \\ &= \int x f(x) dx \\ &= \mathbb{E}[X] \\ \end{split}\]
\[\tag*{$\blacksquare$}\]
Lemma 2: \(\mathbb{E}[Var[X|Y]] + Var[\mathbb{E}[X|Y]] = Var[X]\)
Dimostrazione: TODO.
Possiamo quindi procedere con la dimostrazione del teorema.
Dimostrazione: Dato che \(t\) è una statistica sufficiente, abbiamo che \((S \,\,|\,\, t)\) non dipende da \(\theta\). Ma allora neanche \(S^* = \mathbb{E}[S \,\,|\,\, t]\) dipende da \(\theta\). Notiamo poi che dalle proprietà viste prima, e dal fatto che \(S\) è uno stimatore non distorto, il suo valore atteso è pari a
\[\mathbb{E}[S^*] = \mathbb{E}[\mathbb{E}[S \,\,|\,\, t]] = \mathbb{E}[S] = \theta\]
La varianza di \(S^*\) invece è data da
\[Var[S] = \mathbb{E}[Var[S \,\,|\,\, t]] + Var[\mathbb{E}[S \,\,|\,\, t]] = \mathbb{E}[Var[S \,\,|\,\, t]] + Var[S^*]\]
e dato che \(\mathbb{E}[Var[S \,\,|\,\, t]] \geq 0\) ne segue che \(Var[S^*] \leq Var[S]\).
\[\tag*{$\blacksquare$}\]
Il teorema di Rao-Blackwell ci permette di trovare uno stimatore migliore, a patto di conoscere una statitica sufficiente e uno stimatore non disorto. Andiamo adesso a vedere un esempio di utilizzo di questo risultato
3.1 Esempio
Consideriamo un campione \(X_1, X_2, ..., X_n\) i.i.d. generato da una Poisson(\(\theta\)). Come stimatore unbiased possiamo utilizzare la prima osservazione \(S := X_1\). Come statistica sufficiente invece trovo \(t := X_1 + X_2 + ... + X_n\). Per poter applicare il Teorema di Rao-Blackwell dobbiamo calcolare il valore \(\mathbb{E}[X_1 \,\,|\,\, X_1 + ... + X_n]\). Abbiamo già visto in un esempio precedente che
\[L(X_1, ..., X_n \,\,|\,\, X_1 + ... + X_n = S) \sim Multi(S, \{1/n, ..., 1/n\}\]
notando poi che la densità marginale di \(X_1\) in una multinomiale è una binomiale di parametri \(Bin(S, 1/n)\), troviamo il seguente stimatore
\[S^* = \mathbb{E}[X_1 \,\,|\,\, X_1 + ... + X_n] = \frac{S}{n} = \frac{X_1 + ... + X_n}{n} = \bar{X}\]
con media \(\theta\) e varianza \(\displaystyle{\frac{\theta}{n} \leq \theta}\).
4 Bound di Cramér-Rao
Andiamo adesso a discutere un lower bound alla varianza di uno stimatore non distorto.
Teorema: \(X_1, X_2, ..., X_n\) un campione i.i.d. con \(X_i \sim f(x \,\,|\,\, \theta)\), e sia \(S\) uno stimatore non distorto di \(\theta\). Sotto "opportune condizioni", che veranno discusse a seguire, si ha che
\[Var[S] \geq \frac{1}{n \cdot I(\theta)}\]
dove la quantità \(I(\theta)\) è chiamata informazione di Fisher ed è definita come segue
\[I(\theta) = Var\Big[\; \frac{d}{d \theta}\; \ln{f(x|\theta)}\;\Big]\]
Osservazione 1: Se \(f\) è abbastanza "regolare" l'informazione di fisher può essere calcolata anche nel seguente modo
\[I(\theta) = -\mathbb{E}\Big[\; \frac{\partial^2}{\partial \theta^2}\; \ln{f(x|\theta)}\;\Big]\]
Osservazione 2: Più alta è l'informazione di Fisher e più piccola è la varianza.
4.1 Dimostrazione
La condizione richiesta per applicare il limite di Cramér-Rao è che sia possibile scambiare l'ordine delle operazioni tra derivata e integrale. In particolare quindi deve valere la seguente uguaglianza
\[\frac{d}{d \theta} \bigg( \int f(x|\theta) \,\, dx \bigg) = \int \bigg( \frac{d}{d \theta} \,\, f(x|\theta) \bigg) \,\, dx\]
Notiamo che se vale tale uguaglianza abbiamo che
\(\mathbb{E}_{\theta}\Big[ \frac{d}{d \theta}\,\, \ln{f(x \,\,|\,\, \theta)} \Big] = 0\), in quanto
\[\forall \theta: \,\, \int f(x \,\,|\,\, \theta) \,\, dx = 1 \implies \frac{d}{d \theta} \Big(\int f(x \,\,|\,\, \theta) \,\, dx \Big) = 0\]
e quindi,
\[\begin{split} 0 &= \frac{d}{d \theta} \Big(\int f(x \,\,|\,\, \theta) \,\, dx \Big) \\ &= \int \frac{d}{d \theta} \Big[ f(x \,\,|\,\, \theta) \Big] \,\, dx \\ &= \int \frac{\frac{d}{d \theta} \Big[ f(x \,\,|\,\, \theta) \Big]}{f(x \,\,|\,\, \theta)} \cdot f(x \,\,|\,\, \theta) \,\, dx \\ &= \int \frac{d}{d \theta} \Big[\ln{ f(x \,\,|\,\, \theta)} \Big] \cdot f(x \,\,|\,\, \theta) \,\, dx \\ &= \mathbb{E}_{\theta}\Big[ \frac{d}{d \theta}\,\, \ln{f(x \,\,|\,\, \theta)} \Big] \\ \end{split}\]
\(\mathbb{E}_{\theta} \Big[ t \cdot \frac{d}{d \theta} \ln{f} \Big] = 1\). Infatti,
\[\begin{split} \int t \cdot f(x \,\,|\,\, \theta) \,\, dx = \theta &\iff \int t f_{\theta}^{'} \,\, dx = 1 \\ &\iff \int t \cdot \frac{f_{\theta}^{'}}{f} \cdot f \,\, dx = 1 \\ &\iff \int t \cdot \frac{d}{d \theta} [ \ln f] \cdot f \,\, dx = 1 \\ &\iff \mathbb{E}_{\theta} \Big[ t \cdot \frac{d}{d \theta} \ln f \Big] = 1\\ \end{split}\]
A questo punto ci basta ricordare le seguenti formule
\(Cov(X, Y) = \mathbb{E}[X \cdot Y] - \mathbb{E}[X] \cdot \mathbb{E}[Y]\)
\(Cov(X, Y)^2 \leq Var(X) \cdot Var(Y)\)
per ottenere
\[\begin{split} &\quad \quad \quad \quad 1 = Cov\Big(t, \,\, \frac{d}{d \theta} \ln f(x \,\, | \,\, \theta)\Big)^2 \leq Var(t) \cdot Var\Big( \frac{d}{d \theta} \ln f\Big) \\ &\iff \\ &\quad \quad \quad \quad Var(t) \geq \frac{1}{Var\Big( \frac{d}{d \theta} \ln f\Big)} \\ \end{split}\]
infine, dalle ipotesi di indipendenza, segue che
\[Var\Big( \frac{d}{d \theta} \,\, \ln f\Big) = \sum\limits_{i = 1}^n Var \Big(\frac{d}{d \theta} \,\, \ln f \Big) = n \cdot I(\theta)\]
Mettendo tutto assieme, concludiamo troviando che
\[Var(t) \geq \frac{1}{n \cdot I(\theta)}\]
\[\tag*{$\blacksquare$}\]
Osservazione: La formula \(Cov(X, Y)^2 \leq Var(X) \cdot Var(Y)\) può essere dimostrata considerando la seguente equazione
\[Var(x + \lambda y) = \lambda^2 \cdot Var(y) + 2 \lambda \cdot Cov(x, y) + Var(x)\]
Notiamo che tale equazione, se vista in funzione di \(\lambda \in [0, 1]\), è un polinomio di secondo grado, ovvero una parabola. Sapendo poi che la varianza è sempre positiva, possiamo concludere che tale parabola si trova sopra l'asse \(\lambda\). Graficamente quindi troviamo
Utilizzando poi il fatto che se \(f(x) = ax^2 + bx + c\) è un polinomio di secondo grado generico, allora il punto di minimo (o massimo), si trova nelle coordinate \((x_v, y_v)\) con
\(\displaystyle{x_v = -\frac{b}{2a}}\)
\(\displaystyle{y_v = \frac{-ab^2 + c4a^2}{4a^2}}\)
e che il punto di minimo è \(\geq 0\) se e solo se
\[\begin{split} y_v \geq 0 &\iff \frac{-ab^2 + c4a^2}{4a^2} \geq 0 \\ &\iff c \cdot a \geq \frac{b^2}{4} \\ \end{split}\]
otteniamo che nel nostro caso particolare si ha
\[\begin{cases} a = Var(y) \\ b = 2 \cdot Cov(x, y) \\ c = Var(x) \end{cases} \implies \Bigg[a \cdot c \geq \frac{b^2}{4} \iff Var(x) \cdot Var(y) \geq Cov(x, y)^2\Bigg]\]
\[\tag*{$\blacksquare$}\]
4.2 Esempio 1: \(X_i \sim Poiss(\theta)\)
Consideriamo una \(X \sim Poiss(\theta)\). Ricordiamo che \(f(x \,\, | \,\, \theta) = \frac{\theta^x}{x!}e^{- \theta}\). Procediamo quindi calcolando l'informazione di fisher di \(\theta\)
\[\begin{split} I(\theta) = Var\Big[\frac{d}{d \theta} \ln{f(x \,\,|\,\, \theta)} \Big] &= Var\Big[\frac{d}{d \theta} \,\, -\theta + x \cdot \ln{\theta} \,\, \Big] \\ &= Var\Big[ -1 + \frac{x}{\theta} \Big] \\ &= Var\Big[ \frac{x}{\theta} \Big] \\ &= \frac{1}{\theta^2} \cdot Var \Big[ x \Big] \\ &= \frac{1}{\theta^2} \cdot \theta \\ &= \frac{1}{\theta} \end{split}\]
dunque nel caso di una poisson abbiamo che \(I(\theta) = 1/\theta\).
4.3 Esempio 2: \(X_i \sim U[0, \theta]\)
Notiamo che non sempre è possibile utilizzare il bound di Cramér-Rao. Consideriamo un sample \(X_1, X_2, ..., X_n\), i.i.d. con \(X_i \sim U[0, \theta]\), con
\[f(x \,\,|\,\,\theta) = \begin{cases} \displaystyle{\frac{1}{\theta}} \,\,\,&,\,\,\, 0 \leq x \leq \theta \\ \\ 0 \,\,\,&,\,\,\, \text{ altrimenti } \\ \end{cases}\]
Siamo interessati a stimare \(\theta\). Procediamo quindi stimando \(\theta\) in due modi diversi
Iniziamo utilizzando il metodo dei momenti per trovare il seguente stimatore
\[\overline{X} := \mathbb{E}[X] = \frac{\theta}{2} \implies \hat{\theta} = 2 \cdot \overline{X}\]
tale stimatore ha varianza
\[Var(\hat{\theta}) = 4 \cdot Var(\overline{X}) = 4 \cdot \frac{Var(X)}{n} = \frac{4}{n} \cdot \frac{\theta^2}{12} = \frac{\theta^2}{3n}\]
Andiamo adesso ad utilizzare il seguente stimatore. A tale fine consideriamo il massimo delle v.a.
\[M(X_1, X_2, ..., X_n) = \max X_i\]
notiamo che \(\mathbb{E}[M] = \frac{n}{n+1} \cdot \theta\). Dunque, per avere uno stimatore non distorto scegliamo
\[\hat{\theta} = \frac{n+1}{n} \cdot \max X_i\]
Notiamo che la varianza di questo nuovo stimatore è
\[Var(\hat{\theta}) = Var\Big(\frac{n+1}{n}\Big) \cdot M = \Big(\frac{n+1}{n}\Big)^2 \cdot Var(M)\]
calcoliamo adesso la varianza del massimo delle uniformi
\[\begin{split} Var[M] &= \mathbb{E}[M^2] - \mathbb{E}[M]^2 \\ &= \frac{n}{n+2} \cdot \theta^2 - \frac{n^2}{(n+1)^2} \cdot \theta^2 \\ &= \theta^2 \cdot \frac{n}{(n+2)(n+1)^2} \\ \end{split}\]
mettendo tutto assieme, otteniamo
\[Var(\hat{\theta}) = \Big(\frac{n+1}{n}\Big)^2 \cdot \theta^2 \cdot \frac{n}{(n+2)(n+1)^2} = \frac{\theta}{n(n+2)}\]
Notiamo che il secondo stimatore non rispetta il bound di Cramér-Rao. Questo deriva dal fatto che per lo stimatore scelto non è possibile scambiare derivata e integrale, in quanto il parametro \(\theta\) appare come limite di integrazione. In altre parole, abbiamo che
\[\begin{split} \frac{d}{d \theta} \Big[\int\limits_0^{\theta} n \cdot \frac{x^{n-1}}{\theta^n} \,\, dx \Big] &= \frac{d}{d \theta} 1 = 0 \\ \int\limits_0^{\theta} \,\, \frac{d}{d \theta} \Big[ n \cdot \frac{x^{n-1}}{\theta^n} \Big] \,\, dx &= \int\limits_0^{\theta} -n^2 \cdot \frac{x^{n-1}}{\theta^{n+1}} \,\, dx = -\frac{n}{\theta} \neq 0\\ \end{split}\]