ISTI - 09 - Statistica Bayesiana
1 Informazioni Lezione
Data:
In questa lezione abbiamo introdotto l'approccio Bayesiano alla statistica.
2 Probabilità Condizionate
Riportiamo a seguire delle formule utili nel calcolo delle probabilità condizionate, sia nel caso continuo che nel caso discreto.
\(f_X(X | Y) = \frac{f(X, Y)}{f_Y(Y)}\)
\(\mathbb{E}_Y[\mathbb{E}[X|Y]] = \mathbb{E}[X]\)
\(Var[X] = \mathbb{E}[Var[X|Y]] + Var[\mathbb{E}[X|Y]]\)
3 Distribuzioni a Priori Coniugate
L'approccio Bayesiano per la stima dei parametri si basa sull'applicazione della formula di Bayes, riportata a seguire
\[P(\theta | X) = \frac{P(X | \theta) \cdot P(\theta)}{P(X)}\]
La statistica Bayesian interpreta tale formula nel seguente modo: si rappresenta l'incertezza che si ha sul valore del parametro \(\theta\) tramite una distribuzione di probabilità, chiamata distribuzione a priori, denotata da \(P(\theta)\). Utilizzando la particolare osservazione \(X\) si è poi in grado di aggiornare la distribuzione a priori ottenendo una nuova distribuzione, detta distribuzione a posteriori, e rappresentata dal simbolo \(P(\theta \,\,|\,\, X)\).
Notiamo che per applicare la formula di Bayes e aggiornare la distribuzione a priori in quella a posteriori è necessario il calcolo di \(P(X)\), il che potrebbe non essere così facile da eseguire. Per alcune famiglie di distribuzioni però esistono casi particolare in cui, se si assume che il parametro da stimare ha una certa distribuzione, allora la distribuzione a priori \(P(\theta)\) e quella a posteriori \(P(\theta \,\,|\,\, X)\) fanno parte della stessa famiglia di distribuzioni. Questo fatto permette di semplificare i calcoli, in quanto l'unica cosa che bisogna aggiornare nel passaggio tra la distribuzione a priori e quella a posteriori sono i valori dei parametri. Quando succede questo la distribuzioni a priori è detta distribuzione a priori coniugata.
Andiamo adesso a vedere qualche esempio di famiglie per cui esistono delle distribuzioni a priori coniugate.
3.1 Beta coniugata Binomiale
Se \(X \sim Bin(n, p)\), allora la densità di \(X\) dato il parametro \(p\) è data dalla funzione
\[P(X \,\,|\,\, p) = \binom{n}{x} p^x (1-p)^{n-x}\]
Consideriamo adesso la densità discreta di \(X\) come una funzione di \(p\), e supponiamo che il parametro \(p\) è distribuito come una \(Beta(a, b)\), ovvero che \(p \sim Beta(a, b)\), con \(a, b >0\). Allora la densità di \(p\) è descritta dalla seguente formula
\[f(p) = C_{a, b} \cdot p^{a-1}(1-p)^{b-1}\]
Dove \(C_{a, b}\) è la costante necessaria per integrare a \(1\). Ricordando la seguente identità, dimostrata nell'esercizio 04
\[\int_{0}^1 x^{a-1}(1-x)^{b-1} dx = \frac{\Gamma(a)\Gamma(b)}{\Gamma({a + b})}\]
notiamo che il valore della costante deve necessariamente essere \(C_{a, b} = \frac{\Gamma({a + b})}{\Gamma(a)\Gamma(b)}\).
Andiamo adesso calcolare la distribuzione a posteriori di \(p\) data l'osservazione \(X\). Troviamo che
\[\begin{split} P(p \,\,|\,\, X) &= \frac{P(X \,\,|\,\, p) \cdot P(p)}{P(X)} \\ &= \frac{\Big(\binom{n}{x}p^x(1-p)^{n-x}\Big) \cdot \Big(\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \cdot p^{a-1}(1-p)^{b-1}\Big)}{P(X)} \\ &= C \cdot p^{x+a-1}(1-p)^{n-x+b-1} \\ \end{split}\]
dove \(C\) è una costante necessaria ad integrare ad \(1\). Inoltre, notando che \(p\,\,|\,\,X\) ha il nucleo di una Beta di parametri \(Beta(a+x, n-x+b)\), abbiamo che la costante \(C\) è pari a
\[C = \frac{\Gamma(n+a+b)}{\Gamma(x+a)\Gamma(n-x+b)}\]
Riassumendo, abbiamo dimostrato che
\[\begin{cases} X &\sim Bin(n, p) \\ p &\sim Beta(a, b) \end{cases} \,\,\, \implies \,\,\, p | X \sim Beta(a + x, \,\,b + n - x)\]
e dato che \(p\) e \(p\,\,|\,\,X\) sono entrambe Beta, esse sono dette coniugate, e la distribuzione a priori di \(p\), ovvero la Beta, è detta distribuzione a priori coniugata della distribuzione binomiale.
Osservazione: Notiamo che se assumiamo che \(p \sim Beta(a, p)\), allora, se \(a, b \in \mathbb{N}\), il valore atteso di \(p\) è pari a
\[\begin{split} \mathbb{E}[p] &= \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \cdot \int_0^1 p \cdot p^{a-1}(1-p)^{b-1} dp \\ &= \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \cdot \int_0^1 p^{a}(1-p)^{b-1} dp \\ &= \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \cdot \frac{\Gamma(a+1)\Gamma(b)}{\Gamma(a+1+b)} \\ &= \frac{a}{a + b} \\ \end{split}\]
Abbiamo quindi due stime diverse, a seconda del punto di vista:
Se utilizziamo un punto di vista frequentista, abbiamo la solita stima di \(\hat{p} = X/n\).
Se invece utilizziamo un punto di vista bayesiano, abbiamo la seguente stima \(\mathbb{E}[p|X] = \frac{X + a}{n + (a + b)}\).
3.2 Gamma coniugata Poisson
Consideriamo una v.a. \(X \sim Poiss(\lambda)\), \(\lambda > 0\) con una densità \(f(x) = \frac{\lambda^x}{x!}e^{-\lambda}\) e assumiamo che \(\lambda \sim \Gamma(a, b)\), e quindi che la densità a priori di \(\lambda\) è
\[f(\lambda) = \frac{b^{a} \lambda^{a-1} e^{-\lambda b}}{\Gamma(a)}\]
Andiamo adesso a calcolare la densità a posteriori di \(\lambda\) per trovare
\[\begin{split} P(\lambda \,\,|\,\, X) &= \frac{P(X \,\,|\,\, \lambda) \cdot P(\lambda)}{P(X)} \\ &= \frac{\Big(\frac{\lambda^x}{x!}e^{-\lambda}\Big) \cdot \Big(\frac{b^{a} \lambda^{a-1} e^{-\lambda b}}{\Gamma(a)}\Big)}{P(X)} \\ &= C \cdot \lambda^{a-1+x}e^{-\lambda(b+1)} \\ \end{split}\]
dove \(C\) è la costante necessaria per avere una densità.
Notiamo che il nucleo di \(P(\lambda \,\,|\,\, X)\) è quello di una gamma \(\Gamma(a+x, b+1)\). Nuovamente quindi, la distribuzione a posteriori e quella a priori fanno parte della stessa famiglia di distribuzioni, e l'unica cosa che cambia è la costante. In questo caso possiamo interpretare \(b\) come il numero degli esperimenti fatti e \(a\) come la somma del risulato degli esperimenti fatti.
3.3 Normale coniugata Normale
Consideriamo un campione \(X_1, X_2, ..., X_n\) i.i.d. con \(X_i \sim \mathcal{N}(\mu, \sigma^2)\) e supponiamo che \(\mu \sim \mathcal{N}(a, b^2)\).
Andiamo a calcolare la distribuzione a posteriori del parametro \(\mu\) per trovare che
\[P(\mu \;\; | \;\; (X_1, ..., X_n)) = \frac{ ((\frac{1}{\sigma \sqrt{2\pi}})^n \cdot e^{-\frac{1}{2\sigma^2} \sum_i (x_i - \mu)^2 }) \cdot ( \frac{1}{b\sqrt{2\pi}}e^{-\frac{1}{2b^2}(\mu - a)^2}) }{P(\underline{X})}\]
Notiamo che tale distribuzione è nuovamente una normale \(\mathcal{N}(\cdot, \cdot)\). Per andare a calcolare i parametri di questa normale procediamo come segue
\[\begin{split} \frac{\sum(X_i - \mu)^2}{2\sigma^2} + \frac{(\mu - a)^2}{2b^2} &= \sum_{i}^n \frac{X_i^2 -2X_i\mu + \mu^2}{2\sigma^2} + \frac{\mu^2 - 2a\mu + a^2}{2b^2} \\ &= \frac{\sum X_i^2 - 2\mu\sum X_i + n\mu^2}{2\sigma^2} + \frac{\mu^2 - 2a\mu + a^2}{2b^2} \\ &= \mu^2 \cdot \Big(\frac{n}{2\sigma^2} + \frac{1}{2b^2}\Big) - 2\mu \cdot \Big(\frac{\sum X_i}{2\sigma^2} \frac{a}{2b^2}\Big) + \Big(\frac{\sum X_i^2}{2\sigma^2} \frac{a^2}{2b^2}\Big) \end{split}\]
Al fine di "matchare" tale espressione con una normale \(\mathcal{N}(m, \nu^2)\), troviamo che
\[\begin{split} \mu^2 \cdot \Big(\frac{n}{2\sigma^2} + \frac{1}{2b^2}\Big) = \frac{\mu^2}{2\nu^2} &\iff \nu^2 = \frac{1}{\frac{n}{2\sigma^2} + \frac{1}{2b^2}} \\ \\ -2\mu \cdot \Big(\frac{\sum X_i}{2\sigma^2} \frac{a}{2b^2}\Big) = \frac{-2\mu \cdot m}{2\nu^2} &\iff m = \frac{ \frac{\sum X_i}{\sigma^2} + \frac{a}{b^2}}{ \frac{n}{\sigma^2} \frac{1}{b^2}} \end{split}\]
Notiamo che il valore della media \(m\) della distribuzione a posteriori del parametro \(\mu\) è una media pesata tra quello che pensavamo prima e la media che ho visto, pesando ogni fattore con la propria precisione. Infine osserviamo che, per \(n \to \infty\), si ha che \(\mu \sim \mathcal{N}(\bar{X}, \frac{\sigma^2}{n})\).
Terminologia: Se \(X \sim \mathcal{N}(\mu, \sigma^2)\), allora la quantità \(1/\sigma^2\) è detta la precisione di \(X\).
4 Estendere il Metodo Bayesiano
Abbiamo visto che nel caso in cui la distribuzioni a priori ha una coniugata, allora l'applicazione del metodo di Bayes risulta semplice e intuitiva. In ogni caso, molte volte la distribuzione del parametro scelta non ha un rispetto coniugato, e quindi calcolare la costante \(P(X)\) nella formula di Bayes può risultare molto faticoso e difficile. Al fine di risolvere questo problema possono essere utilizzati vari approcci, tra cui i seguenti
Nel caso unidimensionale, ovvero quando dobbiamo stimare un solo parametro, se dobbiamo simulare una \(X\) con una funzione di ripartizione \(F_X\) possiamo calcolare l'inversa di \(F_X\) e simulare \(X\) tramite una uniforme \(U[0,1]\), ovvero calcolando \(F_X^{-1}(Y)\), con \(Y \sim U[0,1]\).
Sempre nel caso unidimensionale, un altro modo è il rejection-acceptance method, che consiste nel circondare la densità che vogliamo simulare con un rettangolo. Successivamente si generano dei punti \((X, Y)\) i.i.d. in modo uniforme all'interno del rettangolo. Se il punto ricade sotto la curva, allora si prende \(X\) come valore simulato, altrimenti si scarta \(X\) e si procede con un altro punto. Questo metodo viene utilizzando quando non voglio calcolare l'inversa della funzione di ripartizione da simulare, e funziona abbastanza bene in quanto la probabilità di accettare un \(X\) è proporzionale al valore della densità \(f(X)\).
Markov Chain Monte Carlo (M.C.M.C.)