ISTI - 08 - Teoria degli Stimatori II
1 Informazioni Lezione
Data:
2 Statistiche Sufficienti
Nella ricerca degli stimatori vogliamo lo stimatore "migliore", ovvero quello non-distorto con varianza minima. Notiamo però che dato un campione X1,...,Xn con densità f(x|θ), non dobbiamo cercare il nostro stimatore tra tute le possibili statistiche t(X1,...,Xn), ma possiamo ridurre lo spazio delle possibilità. A tale fine introduciamo la seguente definizione.
Definizione: Una statistica t(X1,X2,...,Xn) di un campione X1,X2,...,Xn con densità f(x|θ) è detta statistica sufficiente se la legge L(X1,X2,...,Xn|t) è indipendente dal valore di θ, per ogni θ∈Θ.
Al fine di chiarire tale definizione, proponiamo il seguente esempio
Esempio: Supponiamo di avere X1,...,Xn∼Poiss(θ) e consideriamo la seguente funzione del campione
t:=X1+X2+...+Xn=∑iXi
Andiamo adesso a calcolare la legge degli Xi condizionati al valore di t, ovvero l'evento (X1=a1,X2=a2,...,Xn=an|t=S). Notiamo che se a1+a2+...+an≠S, allora la probabilità dell'evento è 0.
Sia quindi S=a1+...+an, e consideriamo la seguente inclusione di eventi
(X1=a1,X2=a2,...,Xn=an)⊆(t=a1+a2+...+an)
utilizzando la formula per il calcolo delle probabilità condizionate troviamo
P(X1=a1,...,Xn=an|t=a1+...+an)=P(X1=a1,...,Xn=an,t=a1+...+an)P(t=a1+...+an)=P(X1=a1,...,Xn=an)P(t=a1+...+an)
Infine, notando che le Xi sono indipendenti e che la somma di n Poisson di parametro θ è una Poisson di parametro nθ troviamo la seguente espressione
P(X1=a1,...,Xn=an|t=a1+...+an)=P(X1=a1,…,Xn=an)P(t=a1+…+an)=θa1a1!e−θ⋅θa2a2!e−θ⋅…⋅θanan!e−θ(nθ)a1+...+an(a1+...+an)!e−nθ=(a1+...+an)!a1!...an!⋅θa1+...+ane−nθ(nθ)a1+...+ane−nθ=(a1+...+ana_)⋅(1n)a1+...+an
Notiamo che l'espressione trovata non dipende più dal parametro θ. Possiamo quindi dire che la somma delle Xi è una statistica sufficiente per la distribuzione Poisson.
Osservazione: Osserviamo l'ultima espressione ottenuta nel precedente esempio è la densità discreta della distribuzione multinomiale. La distribuzione multinomiale può essere utilizzata per modellare il seguente esperimento: abbiamo S palline e n scatole, e le palline cadono con probabilità uniforme nelle varie scatole. La probabilità di avere ai palline nella i -esima scatola per i=1,...,n è quindi data dalla seguente espressione
(a1+...+ana_)⋅(1n)a1+…+an
Tale distribuzione è rappresentata dal simbolo Multi(S,1/n,1/n,...,1/n).
2.1 Come Trovare Statistiche Sufficienti
Supponiamo di avere un campione X1,X2,...,Xn con densità f(x|θ). Se riusciamo a scomporre la densità congiunta nel seguente modo
f(x_|θ)=a(θ)⋅b(θ,t(x_))⋅c(x_)
allora t(x_) è una statistica sufficiente.
Esempio: Nel caso di un campione X1,...,Xn i.i.d. preso dalla normale, Xi∼N(μ,σ2), abbiamo che la densità congiunta può essere scritta nel seguente modo
f(x_|θ)=1σn(2π)n/2⋅e−12σ2∑i(xi−μ)2=1σ2(2π)n/2⋅e−12σ2∑i(x2i−2xiμ+μ2)=1σ2(2π)n/2e−μ22σ2⋅e−12(∑x2iσ2−2μ∑xiσ2)
e quindi la statistica sufficiente è data da
t=(∑iXi,∑iX2i)
2.2 Statistica Sufficiente Minima
3 Teorema di Rao-Blackwell
Andiamo adesso a presentare un risultato che unisce i concetti di stimatore e statistica sufficiente.
Teorema: Consideriamo un campione X1,...,Xn i.i.d. con Xi∼f(x|θ), e supponiamo di avere uno stimatore non distorto S(X1,...,Xn) e una statistica sufficiente t(X1,...,Xn). Allora lo stimatore
S∗(t):=E[S|t]
è uno stimatore tale che, ∀θ∈Θ
Lo stimatore S∗ non è distorto, ovvero
Eθ[S∗]=θ
La varianza di S∗ è più piccola di quella di S
Varθ(S∗)≤Varθ(S)
Al fine di dimostrare il risultato consideriamo la la media condizionata E[X|Y] come una funzione della Y, g(Y)=E[X|Y]. Utilizziamo quindi i seguenti risultati
Lemma 1: E[E[X|Y]]=E[g(Y)]=E[X]
Dimostrazione:
E[E[X|Y]]=∫(∫x⋅f(x|y)dx)⋅f(y)dy=∫∫x⋅f(x|y)⋅f(y)dxdy=∫∫x⋅f(x,y)f(y)⋅f(y)dxdy=∫(xf(x,y)dy)dx=∫xf(x)dx=E[X]
Lemma 2: E[Var[X|Y]]+Var[E[X|Y]]=Var[X]
Dimostrazione: TODO.
Possiamo quindi procedere con la dimostrazione del teorema.
Dimostrazione: Dato che t è una statistica sufficiente, abbiamo che (S|t) non dipende da θ. Ma allora neanche S∗=E[S|t] dipende da θ. Notiamo poi che dalle proprietà viste prima, e dal fatto che S è uno stimatore non distorto, il suo valore atteso è pari a
E[S∗]=E[E[S|t]]=E[S]=θ
La varianza di S∗ invece è data da
Var[S]=E[Var[S|t]]+Var[E[S|t]]=E[Var[S|t]]+Var[S∗]
e dato che E[Var[S|t]]≥0 ne segue che Var[S∗]≤Var[S].
Il teorema di Rao-Blackwell ci permette di trovare uno stimatore migliore, a patto di conoscere una statitica sufficiente e uno stimatore non disorto. Andiamo adesso a vedere un esempio di utilizzo di questo risultato
3.1 Esempio
Consideriamo un campione X1,X2,...,Xn i.i.d. generato da una Poisson(θ). Come stimatore unbiased possiamo utilizzare la prima osservazione S:=X1. Come statistica sufficiente invece trovo t:=X1+X2+...+Xn. Per poter applicare il Teorema di Rao-Blackwell dobbiamo calcolare il valore E[X1|X1+...+Xn]. Abbiamo già visto in un esempio precedente che
L(X1,...,Xn|X1+...+Xn=S)∼Multi(S,{1/n,...,1/n}
notando poi che la densità marginale di X1 in una multinomiale è una binomiale di parametri Bin(S,1/n), troviamo il seguente stimatore
S∗=E[X1|X1+...+Xn]=Sn=X1+...+Xnn=ˉX
con media θ e varianza θn≤θ.
4 Bound di Cramér-Rao
Andiamo adesso a discutere un lower bound alla varianza di uno stimatore non distorto.
Teorema: X1,X2,...,Xn un campione i.i.d. con Xi∼f(x|θ), e sia S uno stimatore non distorto di θ. Sotto "opportune condizioni", che veranno discusse a seguire, si ha che
Var[S]≥1n⋅I(θ)
dove la quantità I(θ) è chiamata informazione di Fisher ed è definita come segue
I(θ)=Var[ddθlnf(x|θ)]
Osservazione 1: Se f è abbastanza "regolare" l'informazione di fisher può essere calcolata anche nel seguente modo
I(θ)=−E[∂2∂θ2lnf(x|θ)]
Osservazione 2: Più alta è l'informazione di Fisher e più piccola è la varianza.
4.1 Dimostrazione
La condizione richiesta per applicare il limite di Cramér-Rao è che sia possibile scambiare l'ordine delle operazioni tra derivata e integrale. In particolare quindi deve valere la seguente uguaglianza
ddθ(∫f(x|θ)dx)=∫(ddθf(x|θ))dx
Notiamo che se vale tale uguaglianza abbiamo che
Eθ[ddθlnf(x|θ)]=0, in quanto
∀θ:∫f(x|θ)dx=1⟹ddθ(∫f(x|θ)dx)=0
e quindi,
0=ddθ(∫f(x|θ)dx)=∫ddθ[f(x|θ)]dx=∫ddθ[f(x|θ)]f(x|θ)⋅f(x|θ)dx=∫ddθ[lnf(x|θ)]⋅f(x|θ)dx=Eθ[ddθlnf(x|θ)]
Eθ[t⋅ddθlnf]=1. Infatti,
∫t⋅f(x|θ)dx=θ⟺∫tf′θdx=1⟺∫t⋅f′θf⋅fdx=1⟺∫t⋅ddθ[lnf]⋅fdx=1⟺Eθ[t⋅ddθlnf]=1
A questo punto ci basta ricordare le seguenti formule
Cov(X,Y)=E[X⋅Y]−E[X]⋅E[Y]
Cov(X,Y)2≤Var(X)⋅Var(Y)
per ottenere
1=Cov(t,ddθlnf(x|θ))2≤Var(t)⋅Var(ddθlnf)⟺Var(t)≥1Var(ddθlnf)
infine, dalle ipotesi di indipendenza, segue che
Var(ddθlnf)=n∑i=1Var(ddθlnf)=n⋅I(θ)
Mettendo tutto assieme, concludiamo troviando che
Var(t)≥1n⋅I(θ)
Osservazione: La formula Cov(X,Y)2≤Var(X)⋅Var(Y) può essere dimostrata considerando la seguente equazione
Var(x+λy)=λ2⋅Var(y)+2λ⋅Cov(x,y)+Var(x)
Notiamo che tale equazione, se vista in funzione di λ∈[0,1], è un polinomio di secondo grado, ovvero una parabola. Sapendo poi che la varianza è sempre positiva, possiamo concludere che tale parabola si trova sopra l'asse λ. Graficamente quindi troviamo
Utilizzando poi il fatto che se f(x)=ax2+bx+c è un polinomio di secondo grado generico, allora il punto di minimo (o massimo), si trova nelle coordinate (xv,yv) con
xv=−b2a
yv=−ab2+c4a24a2
e che il punto di minimo è ≥0 se e solo se
yv≥0⟺−ab2+c4a24a2≥0⟺c⋅a≥b24
otteniamo che nel nostro caso particolare si ha
{a=Var(y)b=2⋅Cov(x,y)c=Var(x)⟹[a⋅c≥b24⟺Var(x)⋅Var(y)≥Cov(x,y)2]
4.2 Esempio 1: Xi∼Poiss(θ)
Consideriamo una X∼Poiss(θ). Ricordiamo che f(x|θ)=θxx!e−θ. Procediamo quindi calcolando l'informazione di fisher di θ
I(θ)=Var[ddθlnf(x|θ)]=Var[ddθ−θ+x⋅lnθ]=Var[−1+xθ]=Var[xθ]=1θ2⋅Var[x]=1θ2⋅θ=1θ
dunque nel caso di una poisson abbiamo che I(θ)=1/θ.
4.3 Esempio 2: Xi∼U[0,θ]
Notiamo che non sempre è possibile utilizzare il bound di Cramér-Rao. Consideriamo un sample X1,X2,...,Xn, i.i.d. con Xi∼U[0,θ], con
f(x|θ)={1θ,0≤x≤θ0, altrimenti
Siamo interessati a stimare θ. Procediamo quindi stimando θ in due modi diversi
Iniziamo utilizzando il metodo dei momenti per trovare il seguente stimatore
¯X:=E[X]=θ2⟹ˆθ=2⋅¯X
tale stimatore ha varianza
Var(ˆθ)=4⋅Var(¯X)=4⋅Var(X)n=4n⋅θ212=θ23n
Andiamo adesso ad utilizzare il seguente stimatore. A tale fine consideriamo il massimo delle v.a.
M(X1,X2,...,Xn)=max
notiamo che \mathbb{E}[M] = \frac{n}{n+1} \cdot \theta. Dunque, per avere uno stimatore non distorto scegliamo
\hat{\theta} = \frac{n+1}{n} \cdot \max X_i
Notiamo che la varianza di questo nuovo stimatore è
Var(\hat{\theta}) = Var\Big(\frac{n+1}{n}\Big) \cdot M = \Big(\frac{n+1}{n}\Big)^2 \cdot Var(M)
calcoliamo adesso la varianza del massimo delle uniformi
\begin{split} Var[M] &= \mathbb{E}[M^2] - \mathbb{E}[M]^2 \\ &= \frac{n}{n+2} \cdot \theta^2 - \frac{n^2}{(n+1)^2} \cdot \theta^2 \\ &= \theta^2 \cdot \frac{n}{(n+2)(n+1)^2} \\ \end{split}
mettendo tutto assieme, otteniamo
Var(\hat{\theta}) = \Big(\frac{n+1}{n}\Big)^2 \cdot \theta^2 \cdot \frac{n}{(n+2)(n+1)^2} = \frac{\theta}{n(n+2)}
Notiamo che il secondo stimatore non rispetta il bound di Cramér-Rao. Questo deriva dal fatto che per lo stimatore scelto non è possibile scambiare derivata e integrale, in quanto il parametro \theta appare come limite di integrazione. In altre parole, abbiamo che
\begin{split} \frac{d}{d \theta} \Big[\int\limits_0^{\theta} n \cdot \frac{x^{n-1}}{\theta^n} \,\, dx \Big] &= \frac{d}{d \theta} 1 = 0 \\ \int\limits_0^{\theta} \,\, \frac{d}{d \theta} \Big[ n \cdot \frac{x^{n-1}}{\theta^n} \Big] \,\, dx &= \int\limits_0^{\theta} -n^2 \cdot \frac{x^{n-1}}{\theta^{n+1}} \,\, dx = -\frac{n}{\theta} \neq 0\\ \end{split}