ISTI - 08 - Teoria degli Stimatori II


1 Informazioni Lezione

Data: [2019-05-02 gio]


2 Statistiche Sufficienti

Nella ricerca degli stimatori vogliamo lo stimatore "migliore", ovvero quello non-distorto con varianza minima. Notiamo però che dato un campione X1,...,Xn con densità f(x|θ), non dobbiamo cercare il nostro stimatore tra tute le possibili statistiche t(X1,...,Xn), ma possiamo ridurre lo spazio delle possibilità. A tale fine introduciamo la seguente definizione.

Definizione: Una statistica t(X1,X2,...,Xn) di un campione X1,X2,...,Xn con densità f(x|θ) è detta statistica sufficiente se la legge L(X1,X2,...,Xn|t) è indipendente dal valore di θ, per ogni θΘ.

Al fine di chiarire tale definizione, proponiamo il seguente esempio

Esempio: Supponiamo di avere X1,...,XnPoiss(θ) e consideriamo la seguente funzione del campione

t:=X1+X2+...+Xn=iXi

Andiamo adesso a calcolare la legge degli Xi condizionati al valore di t, ovvero l'evento (X1=a1,X2=a2,...,Xn=an|t=S). Notiamo che se a1+a2+...+anS, allora la probabilità dell'evento è 0.

Sia quindi S=a1+...+an, e consideriamo la seguente inclusione di eventi

(X1=a1,X2=a2,...,Xn=an)(t=a1+a2+...+an)

utilizzando la formula per il calcolo delle probabilità condizionate troviamo

P(X1=a1,...,Xn=an|t=a1+...+an)=P(X1=a1,...,Xn=an,t=a1+...+an)P(t=a1+...+an)=P(X1=a1,...,Xn=an)P(t=a1+...+an)

Infine, notando che le Xi sono indipendenti e che la somma di n Poisson di parametro θ è una Poisson di parametro nθ troviamo la seguente espressione

P(X1=a1,...,Xn=an|t=a1+...+an)=P(X1=a1,,Xn=an)P(t=a1++an)=θa1a1!eθθa2a2!eθθanan!eθ(nθ)a1+...+an(a1+...+an)!enθ=(a1+...+an)!a1!...an!θa1+...+anenθ(nθ)a1+...+anenθ=(a1+...+ana_)(1n)a1+...+an

Notiamo che l'espressione trovata non dipende più dal parametro θ. Possiamo quindi dire che la somma delle Xi è una statistica sufficiente per la distribuzione Poisson.


Osservazione: Osserviamo l'ultima espressione ottenuta nel precedente esempio è la densità discreta della distribuzione multinomiale. La distribuzione multinomiale può essere utilizzata per modellare il seguente esperimento: abbiamo S palline e n scatole, e le palline cadono con probabilità uniforme nelle varie scatole. La probabilità di avere ai palline nella i -esima scatola per i=1,...,n è quindi data dalla seguente espressione

(a1+...+ana_)(1n)a1++an

Tale distribuzione è rappresentata dal simbolo Multi(S,1/n,1/n,...,1/n).



2.1 Come Trovare Statistiche Sufficienti

Supponiamo di avere un campione X1,X2,...,Xn con densità f(x|θ). Se riusciamo a scomporre la densità congiunta nel seguente modo

f(x_|θ)=a(θ)b(θ,t(x_))c(x_)

allora t(x_) è una statistica sufficiente.

Esempio: Nel caso di un campione X1,...,Xn i.i.d. preso dalla normale, XiN(μ,σ2), abbiamo che la densità congiunta può essere scritta nel seguente modo

f(x_|θ)=1σn(2π)n/2e12σ2i(xiμ)2=1σ2(2π)n/2e12σ2i(x2i2xiμ+μ2)=1σ2(2π)n/2eμ22σ2e12(x2iσ22μxiσ2)

e quindi la statistica sufficiente è data da

t=(iXi,iX2i)


2.2 Statistica Sufficiente Minima

3 Teorema di Rao-Blackwell

Andiamo adesso a presentare un risultato che unisce i concetti di stimatore e statistica sufficiente.

Teorema: Consideriamo un campione X1,...,Xn i.i.d. con Xif(x|θ), e supponiamo di avere uno stimatore non distorto S(X1,...,Xn) e una statistica sufficiente t(X1,...,Xn). Allora lo stimatore

S(t):=E[S|t]

è uno stimatore tale che, θΘ

  • Lo stimatore S non è distorto, ovvero

    Eθ[S]=θ

  • La varianza di S è più piccola di quella di S

    Varθ(S)Varθ(S)

Al fine di dimostrare il risultato consideriamo la la media condizionata E[X|Y] come una funzione della Y, g(Y)=E[X|Y]. Utilizziamo quindi i seguenti risultati


Lemma 1: E[E[X|Y]]=E[g(Y)]=E[X]

Dimostrazione:

E[E[X|Y]]=(xf(x|y)dx)f(y)dy=xf(x|y)f(y)dxdy=xf(x,y)f(y)f(y)dxdy=(xf(x,y)dy)dx=xf(x)dx=E[X]


Lemma 2: E[Var[X|Y]]+Var[E[X|Y]]=Var[X]

Dimostrazione: TODO.


Possiamo quindi procedere con la dimostrazione del teorema.

Dimostrazione: Dato che t è una statistica sufficiente, abbiamo che (S|t) non dipende da θ. Ma allora neanche S=E[S|t] dipende da θ. Notiamo poi che dalle proprietà viste prima, e dal fatto che S è uno stimatore non distorto, il suo valore atteso è pari a

E[S]=E[E[S|t]]=E[S]=θ

La varianza di S invece è data da

Var[S]=E[Var[S|t]]+Var[E[S|t]]=E[Var[S|t]]+Var[S]

e dato che E[Var[S|t]]0 ne segue che Var[S]Var[S].


Il teorema di Rao-Blackwell ci permette di trovare uno stimatore migliore, a patto di conoscere una statitica sufficiente e uno stimatore non disorto. Andiamo adesso a vedere un esempio di utilizzo di questo risultato


3.1 Esempio

Consideriamo un campione X1,X2,...,Xn i.i.d. generato da una Poisson(θ). Come stimatore unbiased possiamo utilizzare la prima osservazione S:=X1. Come statistica sufficiente invece trovo t:=X1+X2+...+Xn. Per poter applicare il Teorema di Rao-Blackwell dobbiamo calcolare il valore E[X1|X1+...+Xn]. Abbiamo già visto in un esempio precedente che

L(X1,...,Xn|X1+...+Xn=S)Multi(S,{1/n,...,1/n}

notando poi che la densità marginale di X1 in una multinomiale è una binomiale di parametri Bin(S,1/n), troviamo il seguente stimatore

S=E[X1|X1+...+Xn]=Sn=X1+...+Xnn=ˉX

con media θ e varianza θnθ.

4 Bound di Cramér-Rao

Andiamo adesso a discutere un lower bound alla varianza di uno stimatore non distorto.

Teorema: X1,X2,...,Xn un campione i.i.d. con Xif(x|θ), e sia S uno stimatore non distorto di θ. Sotto "opportune condizioni", che veranno discusse a seguire, si ha che

Var[S]1nI(θ)

dove la quantità I(θ) è chiamata informazione di Fisher ed è definita come segue

I(θ)=Var[ddθlnf(x|θ)]

Osservazione 1: Se f è abbastanza "regolare" l'informazione di fisher può essere calcolata anche nel seguente modo

I(θ)=E[2θ2lnf(x|θ)]

Osservazione 2: Più alta è l'informazione di Fisher e più piccola è la varianza.


4.1 Dimostrazione

La condizione richiesta per applicare il limite di Cramér-Rao è che sia possibile scambiare l'ordine delle operazioni tra derivata e integrale. In particolare quindi deve valere la seguente uguaglianza

ddθ(f(x|θ)dx)=(ddθf(x|θ))dx

Notiamo che se vale tale uguaglianza abbiamo che

  • Eθ[ddθlnf(x|θ)]=0, in quanto

    θ:f(x|θ)dx=1ddθ(f(x|θ)dx)=0

    e quindi,

    0=ddθ(f(x|θ)dx)=ddθ[f(x|θ)]dx=ddθ[f(x|θ)]f(x|θ)f(x|θ)dx=ddθ[lnf(x|θ)]f(x|θ)dx=Eθ[ddθlnf(x|θ)]

  • Eθ[tddθlnf]=1. Infatti,

    tf(x|θ)dx=θtfθdx=1tfθffdx=1tddθ[lnf]fdx=1Eθ[tddθlnf]=1

A questo punto ci basta ricordare le seguenti formule

  • Cov(X,Y)=E[XY]E[X]E[Y]

  • Cov(X,Y)2Var(X)Var(Y)

per ottenere

1=Cov(t,ddθlnf(x|θ))2Var(t)Var(ddθlnf)Var(t)1Var(ddθlnf)

infine, dalle ipotesi di indipendenza, segue che

Var(ddθlnf)=ni=1Var(ddθlnf)=nI(θ)

Mettendo tutto assieme, concludiamo troviando che

Var(t)1nI(θ)


Osservazione: La formula Cov(X,Y)2Var(X)Var(Y) può essere dimostrata considerando la seguente equazione

Var(x+λy)=λ2Var(y)+2λCov(x,y)+Var(x)

Notiamo che tale equazione, se vista in funzione di λ[0,1], è un polinomio di secondo grado, ovvero una parabola. Sapendo poi che la varianza è sempre positiva, possiamo concludere che tale parabola si trova sopra l'asse λ. Graficamente quindi troviamo

Utilizzando poi il fatto che se f(x)=ax2+bx+c è un polinomio di secondo grado generico, allora il punto di minimo (o massimo), si trova nelle coordinate (xv,yv) con

  • xv=b2a

  • yv=ab2+c4a24a2

e che il punto di minimo è 0 se e solo se

yv0ab2+c4a24a20cab24

otteniamo che nel nostro caso particolare si ha

{a=Var(y)b=2Cov(x,y)c=Var(x)[acb24Var(x)Var(y)Cov(x,y)2]



4.2 Esempio 1: XiPoiss(θ)

Consideriamo una XPoiss(θ). Ricordiamo che f(x|θ)=θxx!eθ. Procediamo quindi calcolando l'informazione di fisher di θ

I(θ)=Var[ddθlnf(x|θ)]=Var[ddθθ+xlnθ]=Var[1+xθ]=Var[xθ]=1θ2Var[x]=1θ2θ=1θ

dunque nel caso di una poisson abbiamo che I(θ)=1/θ.


4.3 Esempio 2: XiU[0,θ]

Notiamo che non sempre è possibile utilizzare il bound di Cramér-Rao. Consideriamo un sample X1,X2,...,Xn, i.i.d. con XiU[0,θ], con

f(x|θ)={1θ,0xθ0, altrimenti 

Siamo interessati a stimare θ. Procediamo quindi stimando θ in due modi diversi

  • Iniziamo utilizzando il metodo dei momenti per trovare il seguente stimatore

    ¯X:=E[X]=θ2ˆθ=2¯X

    tale stimatore ha varianza

    Var(ˆθ)=4Var(¯X)=4Var(X)n=4nθ212=θ23n

  • Andiamo adesso ad utilizzare il seguente stimatore. A tale fine consideriamo il massimo delle v.a.

    M(X1,X2,...,Xn)=max

    notiamo che \mathbb{E}[M] = \frac{n}{n+1} \cdot \theta. Dunque, per avere uno stimatore non distorto scegliamo

    \hat{\theta} = \frac{n+1}{n} \cdot \max X_i

    Notiamo che la varianza di questo nuovo stimatore è

    Var(\hat{\theta}) = Var\Big(\frac{n+1}{n}\Big) \cdot M = \Big(\frac{n+1}{n}\Big)^2 \cdot Var(M)

    calcoliamo adesso la varianza del massimo delle uniformi

    \begin{split} Var[M] &= \mathbb{E}[M^2] - \mathbb{E}[M]^2 \\ &= \frac{n}{n+2} \cdot \theta^2 - \frac{n^2}{(n+1)^2} \cdot \theta^2 \\ &= \theta^2 \cdot \frac{n}{(n+2)(n+1)^2} \\ \end{split}

    mettendo tutto assieme, otteniamo

    Var(\hat{\theta}) = \Big(\frac{n+1}{n}\Big)^2 \cdot \theta^2 \cdot \frac{n}{(n+2)(n+1)^2} = \frac{\theta}{n(n+2)}

Notiamo che il secondo stimatore non rispetta il bound di Cramér-Rao. Questo deriva dal fatto che per lo stimatore scelto non è possibile scambiare derivata e integrale, in quanto il parametro \theta appare come limite di integrazione. In altre parole, abbiamo che

\begin{split} \frac{d}{d \theta} \Big[\int\limits_0^{\theta} n \cdot \frac{x^{n-1}}{\theta^n} \,\, dx \Big] &= \frac{d}{d \theta} 1 = 0 \\ \int\limits_0^{\theta} \,\, \frac{d}{d \theta} \Big[ n \cdot \frac{x^{n-1}}{\theta^n} \Big] \,\, dx &= \int\limits_0^{\theta} -n^2 \cdot \frac{x^{n-1}}{\theta^{n+1}} \,\, dx = -\frac{n}{\theta} \neq 0\\ \end{split}