ML - 12 - Probabilistic Classification II
Lecture Info
Date:
Lecturer: Giorgio Gambosi
Slides: (ml_06_probclass-slides.pdf)
In questa lezione abbiamo parlato dei generalized linear models, facendo vedere come molte tipologie di regressione già viste sono istanze particolari di questo modello generale.
1 With Discrete Featues
Assumiamo questa volta di lavorare con \(d\) features che assumono un valore binario.
Assumendo che per ogni classe \(C_k\) il valore della \(i\) esima feature viene ottenuto facendo sampling da una distribuzione Bernoulliana di parametro \(p_{ki}\), dall'ipotesi di indipendenza condizionale otteniamo che
\[P(x|C_k) = \prod\limits_{i = 1}^d p_{ki}^{x_i}(1 - p_{ki})^{1 - x_i}\]
Dove le probabilità \(P_{k_i} = P(x_i = 1 | C_k)\) possono essere stimate tramite lo stimatore ML esattamente come avevamo fatto per i modelli di linguaggio.
Date queste stime possiamo quindi definire le funzioni \(a_k(x)\) nel seguente modo
\[\begin{split} a_k(x) &= \log{\Big(P(x|C_k)P(C_k)\Big)} \\ &= \sum\limits_{i = 1}^D \Big(x_i \log{P_{ki}} + (1- x_i)\log{(1 - p_{k_i})} \Big) + \log{P(C_k)} \\ \end{split}\]
anche in questo caso ottengo una funzione rispetto a \(x\).
Osservazione: Le stesse considerazioni possono essere effetutate nel caso in cui le features non sono binarie ma discrete. Ad esempio se abbiamo valori di conteggio possiamo assumere che per ogni classe \(C_k\) la \(i\) esima feature viene ottenuta facendo sampling da una distribuzione di Poisson.
1.1 Exponential Family
Il fatto che \(P(C_k|x)\) è un modello lineare generalizzato con funzione di attivazione sigmoid (caso binario) e softmax(caso multiclasse) non dipende strettamente dal fatto che si assume che \(P(x|C_k)\) sia gaussiana o bernoulliana, ma vale un risultato più generale.
Se infatti assumiamo che la probabilità condizionata rispetto a \(C_k\) appartiene alla famiglia delle distribuzioni esponenziali (exponential family), ovvero può essere scritta nella seguente forma
\[P(x|\mathbf{\Theta}_k) = g(\mathbf{\Theta}_k)f(x)e^{\phi(\mathbf{\Theta}_k)^T x}\]
Allora ne deriva che sia nel caso binario che nel caso multiclasse le superfici di separazione saranno superfici lineari. In particolare:
Nel caso di una classificazione binaria troviamo che \(a(x)\) è una funzione lineare
\[\begin{split} a(x) &= \log{\frac{P(x|\mathbf{\theta}_1)P(\theta_1)}{P(x|\theta_2) P(\theta_2)}} \\ &= \ldots \\ &= \Big(\phi(\theta_1) - \phi(\theta_2)\Big)^T x + \log{g(\theta_1)} - \log{g(\theta_2)} + \log{P(\theta_1)} - \log{P(\theta_2)} \\ \end{split}\]
In modo analogo per il caso multiclasse troviamo per ogni \(k\).
\[a_k(x) = \phi(\theta_k)^T x + \log{g(\theta_k)} + P(\theta_k)\]
2 Generalized Linear Models
Nei casi considerati in precedenza le distribuzioni delle classi a posteriori \(P(C_k|x)\) erano della forma sigmoidale (caso binario) o softmax (caso multiclass) con argomento una combinazione lineare delle features dell'elemento da classificare \(x\). Questi casi sono esempi particolari di generalized linear models.
Un generalized linear model (GLM) è una funzione della forma
\[y(x) = f(\mathbf{w}^T x + w_0)\]
dove \(f\) è in generale una funzione non lineare chiamata activation function (funzione di attivazione).
Osservazione: Il caso in cui \(f()\) è la funzione identità corrisponde al caso in cui \(y(x) = \mathbf{w}^T + w_0\), e quindi il problema della classificazione si riduce ad un problema di regressione lineare.
In un modello linear generalizzato ogni iso-surface di \(y(x)\), ovvero ogni insieme di punti tali che \(y(x) = c\) per qualche costante \(c\) sono tali che
\[f(\mathbf{w}^T x + w_0) = c\]
e quindi
\[\mathbf{w}^T x + w_0 = f^{-1}(y) = c'\]
con \(c'\) costante. Ovvero ogni iso-superficie di un GLM è un iperpiano. La conseguenza di questo è il fatto che anche se i modelli non sono lineari, le superfici di superazioni tra le regioni individuate sono sempre lineari.
2.1 Hypothesis
Consideriamo il problema di predirre il valore di una variabile random \(y\) in funzione di un insieme di diverse variabili random \(\mathbf{x}\). Per definizione, un modello di predizione è un GLM se valgono le seguenti ipotesi:
La probabilità condizionata di \(y\) dato \(\mathbf{x}\) appartiene alla famiglia di distribuzioni esponenziali, ovvero può essere scritta nel seguente modo
\[P(y|\mathbf{x}) = g(\mathbf{x}) f(y) e^{\theta(\mathbf{x})^T u(y)}\]
per determinati \(g, f, \theta, u\).
Per un qualunque \(\mathbf{x}\), la predizione che effettuiamo è il valore atteso di \(u(y)\) dato \(\mathbf{x}\), ovvero \(\mathbb{E}[y(u)|x]\).
Il valore \(\theta(\mathbf{x})\), che prende il nome di natural parameter (parametro naturale), è una combinazione lineare delle features, ovvero
\[\theta(\mathbf{x}) = \mathbf{w}^T \overline{x}\]
Anche se queste tre condizioni sembrano buttate così in modo abbastanza arbitrario, andiamo adesso a vedere che in realtà molte situazioni di regressione già viste le presentano, e che quindi queste condizioni forniscono una struttura concettuale e astratta più generale dei singoli modelli di regressione.
2.2 GLM and Normal
Dato \(y \in \mathbb{R}\) assumiamo che la probabilità condizionata \(P(y|\mathbf{x})\) sia ormale con media \(\mu(\mathbf{x})\) e varianza costante \(\sigma^2\). Ovvero che
\[P(y|\mathbf{x}) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\Big(\frac{y - \mu(\mathbf{x})}{\sigma}\Big)^2}\]
Notiamo che tutte le condizioni menzionate prima sono verificate, in quanto:
È possibile verificare che per ottenere la forma esponenziale basta imporre
\[\begin{split} \theta(x) &= \begin{pmatrix} \theta_1(x) \\ \theta_2 \end{pmatrix} = \begin{pmatrix} \frac{\mu(x)}{\sigma^2} \\ -\frac{1}{2 \sigma^2} \\ \end{pmatrix} \\ \\ u(y) &= y \\ \end{split}\]
Il valore che vogliamo predirre è proprio \(y(\mathbf{x}) = \mathbb{E}[y|\mathbf{x}] = \mathbb{E}[u(y)|\mathbf{x}]\), che è pari a
\[y(\mathbf{x}) = \mu(\mathbf{x}) = \sigma^2 \theta_1(\mathbf{x})\]
Infine, assumiamo che esiste un \(\mathbf{w}\) tale che \(\theta_1(\mathbf{x}) = \mathbf{w}_1^T \overline{x}\).
Mettendo insieme queste cose otteniamo che
\[y(x) = \sigma^2 \theta_1(\mathbf{x}) = \sigma^2 \mathbf{w}^T \overline{x}\]
ovvero che in un modello lineare generalizzato la predizione che effettuiamo a partire da una distribuzione predittiva di tipo gaussiana è una regressione lineare.
2.3 GLM and Bernoulli
In questo caso \(y \in \{0, 1\}\) e assumiamo che la distribuzione condizionale \(P(y|\mathbf{x})\) sia una bernoulliana di parametro \(\pi(\mathbf{x})\), ovvero
\[P(y|\mathbf{x}) = \pi(\mathbf{x})^y(1 - \pi(\mathbf{x}))^{1-y}\]
Nuovamente, anche in questo caso troviamo che le condizioni vengono rispettate
Per ottenere la forma esponenziale basta imporre
\[\begin{split} \theta(\mathbf{x}) &= \log{\frac{\pi(\mathbf{x})}{1 - \pi(\mathbf{x})}} \\ \\ u(y) &= y \\ \end{split}\]
Noi vogliamo predirre il valore di \(y(\mathbf{x}) = \mathbb{E}[y|\mathbf{x}] = \mathbb{E}[u(y)|\mathbf{x}] = P(y=1|\mathbf{x})\) che vale
\[P(y=1|\mathbf{x}) = \pi(\mathbf{x}) = \frac{1}{1 + e^{-\theta(\mathbf{x})}}\]
Assumiamo che esista un \(\mathbf{w}\) tale che \(\theta(\mathbf{x}) = \mathbf{w}^T \overline{x}\).
Mettendo tutto insieme otteniamo quindi il seguente tipo di predizione
\[y(\mathbf{x}) = \frac{1}{1 + e^{-\mathbf{w}^T \overline{x}}}\]
Questo tipo di regressione prende il nome di regressione logistica.
2.4 GLM and Categorial
Assumiamo adesso \(y \in \{1, \ldots, K\}\) e che \(P(y|\mathbf{x})\) segua una distribuzione categoria descritta nel seguente modo
\[P(y|\mathbf{x}) = \prod\limits_{i = 1}^K \pi_i(\mathbf{x})^{y_i}\]
dove \(y_i = 1\) se \(y = 1\) e \(y_i = 0\) altrimenti. I parametri della nostra distribuzione sono quindi \(\pi_1(\mathbf{x}), \ldots, \pi_K(\mathbf{x})\).
Nuovamente, anche in questo caso troviamo che le condizioni vengono rispettate
Per ottenere la forma esponenziale basta imporre
\[\begin{split} \theta(x) &= \Big( \theta_1(x), \ldots, \theta_k(x)\Big)^T \\ \\ \theta_i(x) &= \log{\frac{\pi_i(x)}{\pi_K(x)}} = \log{\frac{\pi_i(x)}{1 - \sum\limits_{j = 1}^{K-1} \pi_j(x)}} \\ \\ u(y) = (y_1, \ldots, y_K)^T \end{split}\]
dove \(u(y)\) è la rappresentazione 1-to-K di \(y\).
Vogliamo predirre i valori attesi \(y_i(x) = \mathbb{E}[u_i(y)|x] = P(y=i|x)\) nel seguente modo
\[P(y=i|x) = \mathbb{E}[u_i(y)|x] = \pi_i(x) = \pi_K(x)e^{\theta_i(x)}\]
Dato poi che \(\sum_{i = 1}^K \pi_i(x) = 1\), di conseguenza ne deriva che
\[\begin{split} \pi_K(x) &= \frac{1}{\sum_{i = 1}^K e^{\theta_i(x)}} \\ \\ \pi_i(x) &= \frac{e^{\theta_i(x)}}{\sum_{i = 1}^K e^{\theta_i(x)}} \\ \end{split}\]
Assumiamo infine che esistono \(\mathbf{w}_1, \ldots, \mathbf{w}_K\) tali che \(\theta_i(\mathbf{x}) = \mathbf{w}_i^T \overline{x}\).
Mettendo tutto insieme otteniamo una softmax regression, che è l'estensione multiclasse della logistic regression.
\[\begin{split} y_i(\mathbf{x} &= \frac{e^{\mathbf{w}_i^T \overline{x}}}{\sum_{j = 1}^K e^{\mathbf{w}_j^T \overline{x}}} \;\;\;\;\;\;\;, i \neq K \\ \\ y_i(x) &= \frac{1}{\sum_{j = 1}^K e^{\mathbf{w}_j^T \overline{x}}} \\ \end{split}\]
2.5 Additional Regressions
Altri tipi di regressione possono essere ottenuti consideranti diversi tipi di modelli per \(P(y|x)\).
2.5.1 Poisson
Ad esempio (poisson).
2.5.2 Exponential
Ad esempio (esponenziale).