ML - 04 - Bayesian Statistics
Date:
Lecturer: Giorgio Gambosi
Slides: (ml_02_probstat-slides.pdf)
Table of contents:
In questa lezione abbiamo ripassato i concetti fondamentali della statistica bayesiana che verranno poi utilizzati durante il corso.
La statistica può essere interpretata in due modi concettualmente diversi tra loro. Questi sono,
Classical (frequentist) statistics: Nell'approccio frequentista la probabilità è intesa come la frequenza con cui avviene un evento rispetto ad una sequenza sufficientemente lunga (e tendenzialmente infinita) di esperimenti. In questo caso i parametri che si vogliono stimare sono considerati come costanti sconosciuti da determinare.
Bayesian statistics: Nell'approccio bayesiano invece la probabilità è intesa come degree of belief, ovvero come una misura di quanto ragionevole possa essere l'avvenimento di un determinato evento. Troviamo dunque una interpretazione più soggettiva della probabilità se confrontata con l'approccio frequentista. Nell'approccio bayesiano i parametri che si vogliono stimare sono modellati come delle variabili aleatorie con una propria distribuzione.
Notiamo che l'approccio bayesiano ci permette di affrontare una serie di situazioni in cui l'approccio frequentista non funziona bene, come ad esempio quando vogliamo stimare la probabilità che domani ci sia il sole.
La statistica bayesiana è basata sulla regola di Bayes
\[P(X = x | \Theta = \theta) = \frac{P(\Theta = \theta | X = x) P(X = x)}{P(\Theta = \theta)}\]
dove \(X\) e \(\Theta\) sono due variabili aleatorie.
Questa regola viene utilizzata nell'ambito dell'inferenza Bayesiana nel modo seguente: consideriamo un dataset \(X\) e una famiglia di distribuzioni di probabilità \(P(x|\Theta)\) con parametro \(\Theta\). Il nostro obiettivo è quello di trovare il valore del parametro \(\Theta\) che ci permetta di descrivere nel modo migliore possibile l'outcome \(X\) rispetto al nostro modello.
L'idea del framework Bayesiano è quella di utilizzare il dataset \(X\) per aggiornare la distribuzione di probabilità del parametro \(\Theta\). In particolare quindi noi iniziamo con \(P(\Theta)\), vediamo \(X\), e tramite la regola di Bayes otteniamo la distribuzione "aggiornata"
\[p(\Theta | X) = \frac{P(X|\Theta) P(\Theta)}{P(X)}\]
Ciascun termine nella precedente equazione è così interpretato:
\(P(\Theta)\) rappresenta la conoscenza che abbiamo su \(\Theta\) prima di osservare \(X\), ed è quindi chiamata la prior distribution, o distribuzione a priori.
\(P(\Theta | X)\) rappresenta la connoscenza che abbiamo su \(\Theta\) aggiornata al fatto che conosciamo \(X\), ed è per questo chiamata la posterior distribution, o distribuzioni a posteriori.
\(P(X|\Theta)\) è la probabilità di osservare \(X\) assumendo un certo valore per il parametro \(\Theta\), ed è chiamata likelihood (o versomiglianza dei dati rispetto al modello). Più alta è la likelihood e più i dati osservati ci portano a pensare che il valore del parametro sia proprio \(\Theta\).
\(P(X)\) è la probabilità di osservare \(X\) ed è chiamata evidence (o evidenza). Questo valore può essere calcolata facendo la media rispetto a tutti i possibili valori del parametro \(\Theta\), ovver
\[P(X) = \sum\limits_{\Theta^{'}} P(X|\Theta^{'}) P(\Theta^{'})\]
Notiamo che l'unica quantità che non dipende da \(\Theta\) è l'evidence, ovvero \(P(X)\).
Un concetto importante nella statistica bayesiana è quello delle distribuzioni coniugate (conjugate distributions).
Def: Data una likelihood function \(P(x|y)\), una distribuzione a priori \(P(y)\) è una conjucate (coniugata) a \(P(x|y)\) se la distribuzione a posteriori \(P(y|x)\) è dello stesso "tipo" di \(P(y)\).
Come conseguenza, quando lavoriamo con distribuzioni coniugate siamo in grado di esprimere la nuova conoscenza \(P(y|x)\) in funzione della vecchia conoscenza \(P(y)\).
Andiamo adesso a vedere qualche esempio.
La distribuzione Beta è coniugata alla distribuzione Bernoulli.
Supponiamo infatti che \(y \in [0, 1]\) è una v.a. di tipo \(Beta(\alpha, \beta)\) e \(x \in \{0, 1\}\) è una v.a. di tipo Bernoulli di parametro \(y\). Allora abbiamo che
\[\begin{split} P(y | \alpha, \beta) &= \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) \Gamma(\beta)} y^{\alpha -1}(1 - y)^{\beta -1} \\ \\ P(x | y) &= y^x(1-y)^{1-x} \\ \end{split}\]
Allora la distribuzione a posteriori del parametro \(y\) una volta visto \(x\) è data da
\[P(y|x) = \frac{1}{Z}y^{\alpha - 1}(1 - y)^{\beta - 1}y^x(1 - y)^{1-x} \sim Beta(\alpha + x - 1, \beta - x)\]
dove \(Z\) è il coefficiente costante di normalizazione della beta
\[Z = \int_0^1 y^{\alpha + x - 1}(1 - y)^{\beta - x} dy = \frac{\Gamma(\alpha + \beta + 1)}{\Gamma(\alpha + x) \Gamma(\beta - x + 1)}\]
Notiamo quindi che sia la distribuzione a priori di \(y\) sia quella a posteriori sono entrambe distribuite come una beta. L'unica differenza sta nei parametri della distribuzione, che in quella a posteriori vengono aggiornati rispetto al valore osservato \(x\).
Un'altra coppia interessante sono la Beta-Binomial.
In particolare, se abbiamo una distribuzione Binomiale il cui parametro \(y\) è distribuito come una Beta, allora anche la distribuzione a posteriori del parametro \(y\) sarà distribuito come una Beta. Sia quindi \(y \in [0, 1]\), \(x \in \{0, 1\}\), se
\[\begin{split} P(y | \alpha, \beta) &= \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) \Gamma(\beta)} y^{\alpha -1}(1 - y)^{\beta -1} \\ \\ P(k | y, N) &= \binom{N}{k}y^k (1 - y)^{N-k} = \frac{N!}{(N - k)! k!}y^N (1 - y)^{N - k} \end{split}\]
allora,
\[P(y | k, N, \alpha, \beta) = \frac{1}{Z} y^{\alpha - 1}(1 - y)^{\beta - 1}y^k(1 - y)^{N - k} \sim Beta(\alpha + k - 1, \beta + N - k - 1)\]
dove \(Z\) è l'analogo del coefficiente di normalizazione visto prima.
Stessa cosa vale per la coppia dirichlet-multinomial.
Un primo contesto in cui è possibile applicare questi concetti è quello della modellazione statistica dei testi.
Consideriamo ad esempo il modello unigramma (unigram model) e supponiamo di avere una collezione \(\mathbf{W}\) di \(N\) occorrenze di termini. Possiamo vedere la collezione \(\mathbf{W}\) come \(N\) osservazioni della stessa variabile aleatoria che segue una distribuzione multinomiale su un dizinario \(\mathbf{V}\) di taglia \(V\). In questo modello il valore di probabilità per l'i-esimo termine del dizionario sarà \(\phi_i\), che nella collezione \(\mathbf{W}\) appare \(N_i\) volte. Dato un certo vettore di probabilità \(\phi\) abbiamo che la probabilità di avere la collezione \(\mathbf{W}\) è data da
\[P(\mathbf{W}| \phi) = L(\phi | \mathbf{W}) = \prod\limits_{i = 1}^V \phi_i^{N_i}\]
Questo modello assume che i termini sia indipendenti tra loro, e quindi l'occorrenza di un termine in un dato momento non dipende dai termini che sono venuti prima.
Con la formula di prima sono in grado di calcolare la probabilità di avere una collezione \(\mathbf{W}\) partendo dal vettore \(\phi\). Supponiamo adesso di andare nella direzione opposta, ovvero di avere la collezione \(\mathbf{W}\) a disposizione e di voler stimare le probabilità di occorrenza del vettore \(\phi\). Volendo seguire un approccio Bayesiano, assumiamo che i valori delle frequenze di $siano regolati dalla distribuzione di Dirichlet.
\[P(\phi | \alpha) = Dir(\phi | \alpha)\]
Dato che la distribuzione Dirichlet è coniugata alla multinomiale, otteniamo che la distribuzione a posteriori delle frequenze ottenuta osservando la collezione \(\mathbf{W}\) è nuovamente una Dirichlet.
\[P(\phi | \mathbf{W}, \alpha) = \ldots = Dir(\alpha | \alpha + N)\]