ISTI - 07 - Teoria degli Stimatori I
1 Informazioni Lezione
Data:
In questa lezione abbiamo iniziato la teoria degli stimatori, discutendo di cosa sono, e di quale caratteristiche possono avere, e mostrandone il calcolo particolare nel caso si è interessati a stimare i parametri di una normale \(\mathcal{N}(\mu, \sigma^2)\). La lezione è stata terminata introducendo due metodi generali per il calcolo degli stimatori.
2 Stimatori
Consideriamo \(n\) v.a. \(X_1, X_2, ..., X_n\) i.i.d. aventi densità \(f(x, \theta)\), dove con \(\theta\) indichiamo i parametri della densità (notiamo che \(\theta\) potrebbe essere un vettore). Il nostro compito è quello di utilizzare il campione \(X_1, ..., X_n\) per stimare i parametri \(\theta\) della densità di \(f\). A tale fine introduciamo il concetto di stimatore, che non è altro che una funzione calcolabile sui dati \(g(\underline{X})\).
Una volta calcolato uno stimatore, siamo interessati a capire quanto lo stimatore \(g(\underline{X})\) si avvicina al vero valore del parametro da stimare. Stimatori diversi possono avere diverse proprietà. Al fine di confrontare stimatori diversi per stabilire qual'è quello più appropriato da utilizzare nel contesto in cui ci troviamo introduciamo le seguenti proprietà. In particolare un dato stimatore \(g(\underline{X})\) può
Essere non distorto (unbiased), ovvero
\[\mathbb{E}_{\theta_0}[g(\underline{X})] = \theta_0, \;\; \forall \theta_0 \in \Theta\]
dove \(\Theta\) rappresenta lo spazio in cui variano i possibili valori assunti dai parametri.
Minimizzare la varianza
\[Var_{\theta_0}[g(\underline{X})]\]
Minimizzare la seguente quantità
\[\mathbb{E}_{\theta_0}[(g(\underline{X}) - \theta_0)^2]\]
chiamata anche errore quadratico dello stimatore.
2.1 Errore Quadratico
Notiamo che l'errore quadratico dello stimatore può essere espresso nel seguente modo
\[\begin{split} \mathbb{E}_{\theta_0} \Big[ (g(\underline{X}) - \theta_0)^2 \Big] &= \mathbb{E}_{\theta_0}\Big[\Big(g(\underline{X}) -\mathbb{E}[g(\underline{X})] + \mathbb{E}[g(\underline{X})] - \theta_0\Big)^2\Big] \\ &= \mathbb{E}_{\theta_0}\Big[\Big(\big(g(\underline{X}) -\mathbb{E}[g(\underline{X})]\big) + (\mathbb{E}[g(\underline{X})] - \theta_0)\Big)^2\Big] \\ &= \mathbb{E}_{\theta_0}\Big[\Big(g(\underline{X}) - \mathbb{E}[g(\underline{X})]\Big)^2 + 2 \Big(g(\underline{X}) -\mathbb{E}[g(\underline{X})]\Big) \cdot \Big(\mathbb{E}[g(\underline{X})] - \theta_0\Big)+ \Big(\mathbb{E}[g(\underline{X})] - \theta_0\Big)^2 \Big] \\ &= \mathbb{E}_{\theta_0} \Big[\Big(g(\underline{X}) - \mathbb{E}[g(\underline{X})]\Big)^2\Big] + \mathbb{E}_{\theta_0}\Big[\Big(\mathbb{E}[g(\underline{X})] - \theta_0\Big)^2\Big] + 2\mathbb{E}_{\theta_0}\Big[\Big(g(\underline{X}) -\mathbb{E}[g(\underline{X})]\Big) \cdot \Big( \mathbb{E}[g(\underline{X})] - \theta_0\Big) \Big] \\ \end{split}\]
A questo punto notiamo che l'ultimo addendo è sempre uguale a \(0\). Infatti, per qualsiasi v.a. \(X\) vale che
\[\mathbb{E}[X - \mathbb{E}[X]] = \mathbb{E}[X] - \mathbb{E}[\mathbb{E}[X]] = \mathbb{E}[X] - \mathbb{E}[X] = 0\]
e quindi, dato che \(\big(\mathbb{E}[g(\underline{X})] - \theta_0\big)\) è una costante, possiamo semplificare l'ultimo addendo nel seguente modo
\[\begin{split} 2\mathbb{E}_{\theta_0}\Big[\Big(g(\underline{X}) -\mathbb{E}[g(\underline{X})]\Big) \cdot \Big(\mathbb{E}[g(\underline{X})] - \theta_0\Big)\Big] &= 2\Big(\mathbb{E}[g(\underline{X})] - \theta_0\Big) \cdot \mathbb{E}_{\theta_0}\Big[g(\underline{X}) -\mathbb{E}[g(\underline{X})]\Big] \\ &= 2\Big(\mathbb{E}[g(\underline{X})] - \theta_0\Big) \cdot 0 \\ &= 0 \\ \end{split}\]
Mettendo tutto insieme troviamo quindi la seguente formula per l'errore quadratico dello stimatore \(g\) (omettiamo il campione \(\underline{X}\) per semplificare la notazione)
\[\begin{split} \mathbb{E}_{\theta_0}\Big[(g - \theta_0)^2\Big] &= \underbrace{\mathbb{E}_{\theta_0} \Big[\Big(g(\underline{X}) - \mathbb{E}[g(\underline{X})]\Big)^2\Big]}_{\displaystyle{Var_{\theta_0}(g)}} + \underbrace{\Big(\mathbb{E}[g(\underline{X})] - \theta_0\Big)^2}_{\displaystyle{bias_{\theta_0}^2(g)}} \\ \end{split}\]
Dalla formula appena ottenuta possiamo vedere che, per minimizzare lo scarto quadratico, dobbiamo scegliere se minimizzare il bias oppure la varianza.
3 Stimatori per Distribuzione Normale
Supponiamo di avere il campione \(X_1, ..., X_n\) di v.a. i.i.d. con \(X_i \sim \mathcal{N}(\mu, \sigma^2)\). Al fine di stimare \(\mu\) e \(\sigma^2\) utilizziamo i seguenti stimatori
\[\begin{split} \hat{\mu} &= \bar{X} = \frac{X_1 + ... + X_n}{n} \\ \hat{\sigma}^2 &= S^2 = \frac{1}{n-1} \cdot \sum_{i = 1}^n (X_i - \bar{X})^2 \end{split}\]
3.1 Distribuzione di \(\hat{\mu} \sim \mathcal{N}(\mu, \frac{\sigma}{n})\)
Andiamo adesso a calcolare la distribuzione dello stimatore della media \(\hat{\mu}\). Dal TLC segue che se \(S_n := X_1 + X_2 + ... + X_n\) allora
\[S_n \sim \mathcal{N}(n \cdot \mu, \,\, n \cdot \sigma)\]
Notando che \(\hat{\mu} = \frac{S_n}{n}\) possiamo concludere che anche \(\hat{\mu}\) è distribuita normalmente con i seguenti parametri
\[\mathbb{E}[\hat{\mu}] = \frac{\mathbb{E}[S_n]}{n} = \frac{\mu \cdot n}{n} = \mu\]
\[Var[\hat{\mu}] = Var\Big[\frac{S_n}{n}\Big] = \frac{Var[S_n]}{n^2} = \frac{n \cdot \sigma}{n^2} = \frac{\sigma}{n}\]
dunque \(\hat{\mu} \sim \mathcal{N}(\mu, \frac{\sigma}{n})\).
3.2 Distribuzione di \(S^2 \sim \frac{\sigma^2 \chi^2(n-1)}{n-1}\)
Al fine di calcolare la media e la varianza di \(S^2\), andiamo ad analizzare la ragione per la quale nell'espressione di \(S^2\) c'è quel fattore \(n-1\). A tale fine definiamo il seguente stimatore
\[S^* := \frac{1}{n} \sum_{i = 1}^n (X_i - \bar{X})^2\]
e notiamo che
\[\begin{split} S^* &= \frac{1}{n} \sum_{i = 1}^n \big(X_i - \bar{X}\big)^2 \\ &= \frac{1}{n} \sum_{i = 1}^n \big(X_i^2 - 2X_i\bar{X} - \bar{X}^2\big) \\ &= \frac{1}{n} \sum_{i = 1}^n X_i^2 - 2\bar{X}\cdot \frac{1}{n}\sum_{i = 1}^n X_i + \bar{X}^2 \\ &= \frac{1}{n} \sum_{i = 1}^n X_i^2 - \bar{X}^2 \\ &= \frac{1}{n} \sum_{i = 1}^n X_i^2 - \Big(\frac{1}{n}\sum_{i = 1}^n X_i \Big)^2 \\ \end{split}\]
3.2.1 Calcolo del Valore Atteso \((\mathbb{E}[S^2] = \sigma^2)\)
da questo e dal fatto che le \(X_i\) sono i.i.d. segue che
\[\begin{split} \mathbb{E}[S^*] &= \mathbb{E}\Bigg[\frac{1}{n} \sum_{i = 1}^n X_i^2 - \Big(\frac{1}{n}\sum_{i = 1}^n X_i \Big)^2 \Bigg] \\ &= \mathbb{E}\Bigg[\frac{1}{n} \sum_{i = 1}^n X_i^2\Bigg] - \mathbb{E}\Bigg[\Big(\frac{1}{n}\sum_{i = 1}^n X_i \Big)^2 \Bigg] \\ &= \frac{1}{n} \cdot n \cdot \mathbb{E}[X_1^2] - \mathbb{E}[\bar{X}^2]\\ \end{split}\]
Infine, utilizzando la formula della varianza \(\sigma_X^2 = \mathbb{E}[X^2] - \mathbb{E}[X]^2\) e il fatto che \(\hat{\mu} = \bar{X} \sim \mathcal{N}(\mu, \,\, \sigma^2/n)\), troviamo
\(\begin{cases} \mathbb{E}[X_i^2] &= \displaystyle{\sigma_{X_i}^2 + \mathbb{E}[X_i]^2 = \sigma^2 + \mu^2} \\ \\ \mathbb{E}[\bar{X}^2] &= \displaystyle{\sigma_{\bar{X}}^2 + \mathbb{E}[\bar{X}]^2 = \frac{\sigma^2}{n} + \mu^2} \\ \end{cases}\)
mettendo tutto assieme siamo in grado di calcolare il valore atteso di \(S^*\), che è pari a
\[\begin{split} \mathbb{E}[S^*] &= \mathbb{E}[X_i^2] - \mathbb{E}[\bar{X}^2] \\ &= (\sigma^2 + \mu^2) - \Big(\frac{\sigma^2}{n} + \mu^2\Big) \\ &= \sigma^2 \cdot \Big(1 - \frac{1}{n}\Big) \\ &= \sigma^2 \cdot \Big(\frac{n - 1}{n}\Big) \\ \end{split}\]
Ora, dato che \(S^2 = n/n-1 \cdot S^*\), sapendo calcolare il valore atteso di \(S^*\) siamo anche in grado di calcolare il valore atteso di \(S\). Troviamo infatti la seguente espressione
\[\mathbb{E}[S^2] = \frac{n}{n-1} \cdot \mathbb{E}[S^*] = \frac{n}{n-1} \cdot \frac{n-1}{n} \cdot \sigma^2 = \sigma^2\]
3.2.2 Calcolo della Varianza \((Var[S^2] = \frac{2 \sigma^2}{n-1})\)
Per quanto riguarda la varianza, possiamo utilizzare un risultato dell'algebra lineare che ci dice che, nel caso in cui il campione \(X_1, X_2, ..., X_n\), viene generato da una distribuzione normale, allora \(\bar{X}\) e \(S^2\) sono indipendenti, dove
\(\bar{X} \sim \mathcal{N}(\mu, \sigma^2/n)\)
\(\displaystyle{S^2 \sim \frac{\sigma^2\chi^2(n-1)}{n-1}}\)
dove \(\chi^2(n-1)\) è la distribuzione chi quadro con \(n-1\) gradi di libertà
\[\begin{split} Var[S^2] &= \Big(\frac{\sigma^2}{n-1}\Big)^2 \cdot Var\Big[\chi^2(n-1)\Big] \\ &= \Big(\frac{\sigma^2}{n-1}\Big)^2 \cdot 2(n-1) \\ &= \frac{2\sigma^4}{n-1} \end{split}\]
3.3 Gli stimatori non-distorti sono sempre meglio?
Notiamo che \(S^*\) è uno stimatore distorto in quanto il suo valore atteso è diverso dal valore che vogliamo stimare. Consideriamo ora la seguente domanda: è sempre meglio avere uno stimatore non-distorto? In altre parole, è sempre meglio utilizzare \(S^2\) al posto di \(S^*\)? Al fine di rispondere a questa domanda nel caso particolare degli stimatori dei parametri di una normale andiamo a calcolare e confrontare gli errori quadratici di \(S^*\) e \(S^2\).
Per quanto riguarda \(S^*\), troviamo il seguente errore quadratico
\[\begin{split} \mathbb{E}[\big(S^* - \sigma^2\big)^2] &= Var[S^*] + bias(S^*)^2 \\ &= \Big(\frac{n-1}{n}\Big)^2 \cdot Var[S^2] + \Big(\frac{1}{n} \cdot \sigma^2\Big)^2 \\ &= \frac{2\sigma^4(n-1)}{n^2} + \frac{\sigma^4}{n^2} \\ &= \frac{\sigma^4(2n - 1)}{n^2} \end{split}\]
Invece per quanto riguarda \(S^2\) troviamo il seguente errore quadratico
\[\begin{split} \mathbb{E}[(S^2 - \sigma^2)^2] &= Var[S^2] - bias(S^2)^2 \\ &= \frac{2\sigma^4}{n-1} \end{split}\]
Confrontando i due errori quadratici troviamo che
\[\begin{split} \frac{2}{n-1} > \frac{2n - 1}{n^2} &\iff 2n^2 > (2n-1)(n-1) \\ &\iff 2n^2 > 2n^2 - 3n + 1 \\ &\iff 0 > -3n + 1 \\ &\iff n \geq 1 \end{split}\]
Dunque anche se \(S^*\) è uno stimatore distorto ha comunque un errore quadratico complessivo minore di quello di \(S^2\). Questo ci fa vedere come non sempre è meglio utilizzare uno stimatore non distorto.
4 Calcolo degli Stimatori
Andiamo adesso a descrivere due metodi che ci permettono di eseguire il calcolo degli stimatori.
4.1 Metodo dei Momenti
Dati \(X_1, ..., X_n\) i.i.d. con densità \(f(x, \theta)\), abbiamo che
\[\mathbb{E}[\bar{X}] = \mathbb{E}[X] = m_1(\theta)\]
dove con \(m_1(\theta)\) indichiamo il primo momento della densità \(f(x, \theta)\). Se \(\theta\) è unidimensionale, possiamo impostare la seguente equazione per ottenere
\[\bar{X} := m_1(\theta) \implies \theta = m_1^{-1}(\bar{X})\]
4.1.1 Esempio 1: \(Exp(\lambda)\)
Dato un campione \(X_1, ..., X_n\) i.i.d., con \(X_i \sim Exp(\lambda)\), vogliamo stimare il parametro \(\lambda\). A tale fine procediamo impostando la seguente equazione
\[\bar{X} := m_1(\lambda) = \frac{1}{\lambda} \iff \lambda = \frac{1}{\bar{X}}\]
e quindi lo stimatore che cerco sarà dato dall'inverso della media. In formula,
\[\hat{\lambda} := \frac{1}{\bar{X}}\]
4.1.2 Esempio 2: \(\mathcal{N}(\mu, \,\, \sigma^2)\)
Se invece ho più parametri, come ad esempio nel caso in cui devo stimare i parametri di una normale \(\mathcal{N}(\mu, \sigma^2)\), allora devo impostare il seguente sistema di equazioni
\[\begin{cases} \bar{X} &:= m_1(\theta) \\ \bar{X}^2 &:= m_2(\theta) \end{cases} \iff \begin{cases} \bar{X} = \mu \\ \displaystyle{\frac{\sum X_i^2}{n} = \sigma^2 + \mu^2} \end{cases}\]
notiamo che dalla seconda equazione otteniamo
\[\sigma^2 = \frac{\sum X_i^2}{n} - \mu^2 = \frac{\sum X_i^2}{n} - \bar{X}^2 = S^*\]
quindi gli stimatori saranno
\(\begin{cases} \hat{\mu} &:= \bar{X} = \frac{1}{n} \cdot \sum\limits_i X_i \\ \hat{\sigma}^2 &:= S^* = \frac{1}{n} \cdot \sum\limits_i \Big(X_i - \bar{X}\Big)^2 \\ \end{cases}\)
Notiamo che in questo caso l'applicazione del metodo dei momenti ci ha fornito uno stimatore distorto. In ogni caso, lo stimatore che abbiamo ottenuto, anche se è distorto, è comunque consistente, ovvero funziona "bene" per grandi valori di \(n\).
4.1.3 Esempio 3: \(\Gamma(k, \,\, \lambda)\)
Sia \(X_1, X_2, \ldots, X_n\) un campione i.i.d., con \(X_i \sim \Gamma(k, \lambda)\). Allora abbiamo che \(\mathbb{E}[X] = k/\lambda\), e \(\mathbb{E}[X^2] = k(k+1)/\lambda^2\). Al fine di utilizzare il metodo dei momenti impostiamo il seguente sistema
\[\begin{cases} \displaystyle{\frac{1}{n}\sum_i X_i := \frac{k}{\lambda}} \\ \displaystyle{\frac{1}{n}\sum_i X_i^2 := \frac{k(k+1)}{\lambda^2}} \\ \end{cases}\]
che andandolo a risolvere ci da i seguenti stimatori
\[\hat{\lambda} := \frac{\bar{X}}{S_x} \;\; , \;\; \hat{k} := \frac{\bar{X}^2}{S_x}\]
dove con \(S_x\) intendiamo la varianza campionaria, ovvero il valore
\[S_x = \frac{1}{n} \sum_i {(X_i - \bar{X})^2}\]
4.2 Metodo della Massima Verosimiglianza
Siano \(X_1, X_2, ..., X_n\) i.i.d. con densità \(f(x, \theta)\). Dalle ipotesi di i.i.d. segue che la loro densità congiunta è data da
\[f(\underline{X}, \theta) = f_1(X_1, \theta) \cdot f_2(X_2, \theta) \cdot ... \cdot f_n(X_n, \theta)\]
A questo punto introduciamo il simbolo \(L(\theta | \underline{X})\) per indicare la funzione \(f(\underline{X}, \theta)\) quando viene vista come una funzione di \(\theta\) piuttosto che di \(\underline{X}\). La funzione \(L(\theta | \underline{X})\) prende il nome di funzione di verosimiglianza di \(\theta\).
Il metodo di massima verosimiglianza consiste nello scegliere come stimatori i valori dei parametri che massimizzano la funzione di verosimiglianza. Intuitivamente quindi si cercano i valori dei parametri che massimizzano la probabilità di vedere esattamente il sample \(X_1, X_2, \ldots, X_n\).
Per semplificare i calcoli, al posto di lavorare con la funzione \(L(\theta | \underline{X})\), la cui derivatà può essere molto complessa da studiare, possiamo semplificare il tutto prendendo il logaritmo della funzione e analizzando quindi \(\log{L(\theta | \underline{X})}\). Notiamo infatti che il logaritmo è una funzione concava, e quindi l'argmax non viene perso quando si prende il logaritmo.
4.2.1 Esempio 1: \(X \sim Bin(n, p)\)
Sia \(X \sim Bin(n, p)\) con \(n\) noto e \(p\) da stimare. In questo caso la la funzione di verosimiglianza di \(p\) è data da
\[L(p|x) = \binom{n}{x} p^x (1 - p)^{n-x}\]
Notiamo che tale funzione ha \(3\) andamenti diversi, a seconda del valore di \(x\). Andiamo adesso a calcolare il logaritmo della funzione.
\[\ln(L(\theta|x)) = \ln{\binom{n}{x}} + x \ln{p} + (n-x)\ln{(1 - p)}\]
Al fine di calcolare il punto di massimo procediamo derivando l'espressione appena trovata
\[\begin{split} \frac{d}{d \theta}\Big[\ln{(L(\theta|x))}\Big] &= \frac{x}{p} - \frac{n-x}{1-p} \\ &= \frac{x -xp -np +xp}{p(1-p)} \\ &= \frac{x -np}{p(1-p)} \end{split}\]
Trovo quindi che la derivata si annulla per
\[x - np = 0 \iff p = \frac{x}{n}\]
notiamo come questo punto è un punto di massimo, in quanto prima di azzerarsi la funzione è positiva, e dopo essersi azzerata la funzione diventa negativa. Dunque, nel caso della binomiale, abbiamo che il parametro calcolato è
\[\hat{p} = \frac{x}{n}\]
4.2.2 Esempio 2: \(X_i \sim \Gamma(k, \lambda)\)
Siano \(X_1, ..., X_n\) i.i.d. con distribuzione \(\Gamma(k ,\lambda)\). La densità congiunta di \(\underline{X}\) è data da
\[L(\theta | \underline{X}) = \displaystyle{\frac{\lambda^{kn}(X_1 + ... + X_n)^{k-1} e^{-\lambda(X_1 + ... + X_n)}}{\Gamma(k)^n}}\]
Dato che in questo caso \(L\) è una funzione a due variabili, per trovare i parametri \((k, \lambda)\) che massimizzano la funzione bisogna stare più attenti e bisogna porre una particolare enfasi per i punti di bordo e i punti in cui la derivata è \(0\). Logaritmando troviamo la seguente espressione
\[\ln{L(\theta | \underline{X})} = kn\ln{\lambda} + (k-1)\ln{X_1\cdot...\cdot X_n} - \lambda(X_1 + ... + X_n) - n\ln{\Gamma(k)}\]
Calcolando il gradiente troviamo
\[\begin{split} \frac{\partial L(\theta | \underline{X})}{\partial \lambda} = 0 &\iff \frac{kn}{\lambda} - (X_1 + ... + X_n) = 0 \iff \lambda = \frac{kn}{X_1 + X_2 + ... + X_n} \\ \\ \frac{\partial L(\theta | \underline{X})}{\partial k} = 0 &\iff n\ln{y} + \ln{X_1 + X_2 + ... + X_n} - x\frac{\Gamma^{'}(k)}{\Gamma(k)} \\ &\iff \frac{\Gamma^{'}(k)}{\Gamma(k)} - \ln{k} = \frac{\ln{X_1\cdot ... \cdot X_n}}{n} - \ln{\bar{X}} \end{split}\]
In questo caso, anche se riesco a trovare l'espressione per \(\hat{\lambda}\), non riesco comunque a trovare una formula analitica elementare per il parametro \(k\). Dunque, analiticamente, non sono in grado di stimare i parametri della distribuzione gamma tramite l'utilizzo del metodo di massima verosimiglianza. Detto questo, è sempre possibile utilizzare metodi numerici per calcolare \(\hat{k}\).
Osservazione: Come ci ha mostrato l'ultimo esempio, non è sempre possibile trovare l'espressione analitica che massimizza \(L(\theta | \underline{X})\). In questi casi bisogna quindi procedere utilizzando dei metodi numerici di approssimazione.