ISTI - 03 - Distribuzione Normale
1 Lecture Info
Date:
In questa lezione abbiamo analizzato la distribuzione di una somma di v.a. e abbiamo descritto alcune idee e concetti collegati alla distribuzione normale. Verso la fine della lezione abbiamo esteso la distribuzione normale al caso multivariato, introducendo varie cose, tra cui la matrice di covarianza.
2 Somma di due variabili aleatorie
Lo scopo di questa sezione è analizzare cosa succede quando sommiamo due variabili aleatorie. Per effettuare una analisi dettagliata dobbiamo quindi distinguere il caso discreto da quello continuo.
2.1 Caso Discreto
Siano \(D_1, D_2\) due v.a. i.i.d. che rappresentano l'outcome del lancio di due dadi, e sia \(S := D_1 + D_2\). Dalla definizione di densità segue che
\[P(S = k) = \sum_i P(D_1 = i, D_2 = k - i)\]
notando comunque che l'indice su cui \(i\) varia dipende dai dadi lanciati. Se poi \(D_1\) e \(D_2\) sono indipendenti tra loro, allora la formula si semplifica e diventa
\[P(S = k) = \sum_i P(D_1 = i) \cdot P(D_2 = k - i)\]
2.2 Caso Continuo: Convoluzione di Funzioni
Siano adesso \(X\) e \(Y\) due v.a. i.i.d. con densità \(f(\cdot)\), e definiamo \(S := X + Y\).
Notiamo che è possibile calcolare la funzione di ripartizione di \(S\), ovvero la probabilità che \(P(X + Y \leq t)\), utilizzando la densità congiunta di \(X\) e \(Y\), \(f(x, y)\), e integrando nel dominio \(x + y \leq t\), trovando così facendo il seguente integrale
\[\underset{x + y \, \leq \, t}{\int \int} f(x, y) \, dy \, dx\]
Se poi \(X\) e \(Y\) sono indipendenti, la densità congiunta si può spezzare nel prodotto delle densità marginali
\[\begin{split} \underset{x + y \, \leq \, t}{\int \int} f(x, y) \, dy \, dx &= \underset{x + y \, \leq \, t}{\int \int} f(x) \cdot f(y) \, dy \, dx \\ &= \int_{-\infty}^{\infty} \int_{y = -\infty}^{t - x} f(x) \cdot f(y) \, dy \, dx \\ % TODO: can I do this manipulation? &= \int_{-\infty}^{\infty} f(x) \cdot \left( \int_{y = -\infty}^{t - x} \cdot f(y) \, dy \right) \, dx \\ &= \int_{-\infty}^{\infty} f(x) \cdot F(t - x) \, dx \\ \end{split}\]
Notiamo che questo risultato vale anche quando \(X\) e \(Y\) hanno delle distribuzioni diverse. Infatti, il risultato più generale è il seguente
\[F_{x+y}(t) = \int_{-\infty}^{\infty} f_X(x) \cdot F_Y(t - x) \, dx\]
Al fine di ottenere la densità della somma, posso derivare la funzione di ripartizione e utilizzare un risultato classico dell'Analisi che dice come derivare all'interno di un integrale, per ottenere la seguente cosa
\[\begin{split} f_S(t) = \frac{d}{d t} F_{x+y}(t) &= \frac{d}{d t} \int_{-\infty}^{\infty} f_X(x) \cdot F_Y(t - x) \, dx \\ &= \int_{-\infty}^{\infty} f_X(x) \cdot f_Y(t - x) \, dx \;\;\; \\ \end{split}\]
L'ultimo integrale trovato è molto comune nelle trasformate di funzioni, prende il nome di convoluzione di \(f_X\) e \(f_Y\) ed è denotato da \(f_X * f_Y\).
3 Distribuzione Normale
Come abbiamo già detto, la distribuzione normale standard \(\mathcal{N}(0, 1)\) è quella distribuzione con densità
\[\phi(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}}\]
Osservazione: Il modo in cui scriviamo la v.a. può essere diverso a seconda della particolare notazione utilizzata. Ad esempio una normale standard può essere scritta in almeno due modi diversi, descritti a seguire
\(\mathcal{N}(\mu, \sigma^2)\), con \(\sigma^2\) che indica la varianza della v.a. (metodo preferito durante il corso).
\(\mathcal{N}(\mu, \sigma)\), con \(\sigma\) che indica la deviazione standard della v.a.
Andiamo adesso a riportare alcune idee e risultati utili legati alla distribuzione normale.
3.1 La Somma di due Normali è una Normale
Siano \(X\) e \(Y\) due v.a. normali, con \(X \sim \mathcal{N}(\mu_X, \sigma^2_X)\), e \(Y \sim \mathcal{N}(\mu_Y, \sigma^2_Y)\). Dalla definizione di normale non standard segue che possiamo esprimere \(X\) e \(Y\) nel seguente modo
\[X = \mu_x + \sigma_x Z_1 \;\;,\;\; Y = \mu_y + \sigma_y Z_2\]
con \(Z_1, Z_2 \sim \mathcal{N}(0, 1)\) normali standard. Mettendo le due identità insieme troviamo
\[X + Y = \mu_x + \mu_y + \sigma_x(Z_1 + \frac{\sigma_y}{\sigma_x} Z_2)\]
Il fatto che \(X+Y\) è una v.a. con distribuzione normale, ovvero che la somma di due normali è una normale, segue quindi dal seguente risultato.
Proposizione: Se \(Z_1\) e \(Z_2\) sono normali standard, allora dato \(a > 0\) anche \(Z_1 + a Z_2\) è una normale (non standard).
Notiamo infatti che da questa proposizione segue che \(Z_1 + \frac{\sigma_y}{\sigma_x} Z_2 = \mu + \sigma Z\), con \(Z \sim \mathcal{N}(0, 1)\), e quindi
\[\begin{split} X + Y &= \mu_x + \mu_y + \sigma_x(Z_1 + \frac{\sigma_y}{\sigma_x} Z_2) \\ &=\mu_x + \mu_y + \sigma_x(\mu + \sigma Z) \\ &=(\mu_x + \mu_y + \sigma_x\mu) + (\sigma_x \sigma) Z \\ \end{split}\]
ovvero \(X+Y\) è una normale con media \(\mu_x + \mu_y + \sigma_x\mu\) e varianza \((\sigma_x \sigma)^2\). Andiamo adeso a dimostrare tale proposizione.
Dimostrazione: Dato che \(Z_1, Z_2 \sim \mathcal{N}(0, 1)\) sono indipendenti tra loro, la loro densità congiunta è data da
\[\begin{split} \phi(x, y) &= \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} \cdot \frac{1}{\sqrt{2\pi}}e^{-\frac{y^2}{2}} \\ &= \frac{1}{2\pi}e^{-\frac{(x^2 + y^2)}{2}} \end{split}\]
Per calcolare la distribuzione di \(X + a \cdot Y\), dobbiamo quindi integrare la densità \(\phi(x, y)\) nei punti del piano cartesiano \((x, y)\) tali che \(x + a y \leq t\). Notiamo a questo punto che la funzione da integrare, ovvero \(f(x,y)\), è radialmente simmetrica. Dunque, se ruotiamo il piano in modo che la retta \(y = (t - x)/a\) sia verticale, la funzione che stiamo integrando, ovvero \(f(x, y)\), assume i medesimi valori.
Dopo aver ruotato la retta, il calcolo dell'integrale si riduce al calcolo di \(P(X \leq D) = \Phi(D)\), dove con \(D\) indichiamo la coordinata in cui la retta tocca il piano delle \(x\). Tale coordinata è uguale alla distanza (modificata col segno) dall'origine della retta \(y = (t - x)/a\) e, tramite un calcolo noto che omettiamo, ed è pari a
\[D = \frac{t}{\sqrt{a^2 + 1}}\]
Ma allora la funzione di ripartizione da noi ricercata è pari a
\[P(Z_1 + aZ_2 \leq t) = \Phi(D) = \Phi(\frac{t - 0}{\sqrt{a^2 + 1}})\]
e quindi \(Z_1 + aZ_2 \sim \mathcal{N}(0, 1 + a^2)\).
\[\tag*{$\blacksquare$}\]
Ricapitolando, appena dimostrato il seguente risultato fondamentale che vale per una coppia di v.a. normali
\[\begin{cases} X \sim \mathcal{N}(\mu_x, \sigma_x^2) \\ Y \sim \mathcal{N}(\mu_y, \sigma_y^2) \\ X \perp\!\!\!\!\perp Y \end{cases} \implies X + Y \sim \mathcal{N}(\mu_x + \mu_y, \sigma_x^2 + \sigma_y^2)\]
3.2 La Densità della Normale Standard fa \(1\)
Consideriamo la densità di una normale \(\phi(x)\). Per potersi chiamare densità, necessitiamo che valga il seguente risultato
\[I := \int_{-\infty}^{\infty} \phi(x) = \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} \, dx = 1\]
Per andare a dimostrare questo risultato non possiamo calcolare direttamente l'integrale in questione, in quanto non esiste una primitiva di \(\phi(x)\). Quello che si fa piuttosto è utilizzare due v.a. normali standard \(X\) e \(Y\) indipendenti tra loro. In particolare, andando ad integrare la loro densità congiunta su tutto \(\mathbb{R}\) otteniamo
\[\begin{split} \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \frac{1}{2\pi}e^{-\frac{x^2+y^2}{2}} \, dx \, dy &= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \phi(x) \cdot \phi(y) \, dx \, dy \\ &= \int_{-\infty}^{\infty} \phi(x) \, dx \, \cdot \int_{-\infty}^{\infty} \phi(y) \, dy \\ &= I \cdot I \\ &= I^2 \\ \end{split}\]
Andando ad utilizzare la trasformazione in coordinate polari in modo analogo a quanto visto per la trasformazione di Box-Muller, descritta in una lezione precedente, otteniamo la seguente densità congiunta
\[f(r, \theta) = \frac{1}{2\pi}e^{-\frac{r^2}{2}}r\]
mentre il dominio di integrazione diventa \(\mathbb{R}^+ \times [0, 2\pi]\). Così facendo possiamo calcolare il valore dell'integrale, che risulta essere
\[\begin{split} I^2 &= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \frac{1}{2\pi}e^{-\frac{x^2+y^2}{2}} \, dx \, dy \\ &= \int_{0}^{\infty} \int_{0}^{2\pi} \frac{1}{2\pi}e^{-\frac{r^2}{2}}r \, d\theta \, dr \\ &= \int_0^{\infty} e^{-\frac{r^2}{2}}r \left( \int_0^{2\pi} \frac{1}{2\pi} \, d\theta \right) \, dr \\ &= \int_0^{\infty} e^{-\frac{r^2}{2}}r \cdot 1 \, dr \\ &= 1 \end{split}\]
e quindi
\[I = \int_{-\infty}^{\infty} \phi(x) = 1\]
che era proprio il risultato che volevamo ottenere.
3.3 Relazione tra Normale e Binomiale
La distribuzione normale fu inizialmente studiata da Laplace e de Moivre per approssimare la distribuzione binomiale. Infatti, se \(X \sim Bin(n, p)\), allora vale il seguente risultato
\[P(a \leq x \leq b) = \sum_{k = a}^b \binom{n}{k}p^k(1-p)^{n-k} \approx \int_A^B \phi(x) \, dx\]
dove i limiti di integrazione \(A\) e \(B\) sono ottenuti standardizzando nel seguente modo
\[A := \frac{a - np}{\sqrt{np(1-p)}} \leq \frac{x - np}{\sqrt{np(1-p)}} \leq \frac{b - np}{\sqrt{np(1-p)}} =: B\]
Tale risultato di approssimazione vale per quasi ogni valore di \(p\), tranne che per i valori limite in cui \(p \in \{0, 1\}\). Inoltre tale risultato migliora all'aumentare di \(n\).
3.4 Teorema Limite Centrale (TLC)
Dopo 200 anni dal risultato di approssimazione di Laplace e de Moivre, si è scoperto il seguente risultato, più generale del precedente. Siano \(X_1, ..., X_n\) v.a. i.i.d. con \(\mathbb{E}[X_i] = \mu\), \(Var[X_i] = \sigma^2\), e definiamo \(S_n := X_1 + ... + X_n\). Allora vale
\[P(\dfrac{S_n - n\mu}{\sqrt{n \sigma^2 }} \leq t) \to \Phi(t) \;\; \text{, per } n \to \infty\]
Questo risultato ci dice che la somma di v.a. indipendenti e aventi la stessa distribuzione, indipendentemente dalla particolare distribuzione iniziale, si comporta, al limite, come una normale. In particolare notiamo che \(n\mu\) è la media di \(S_n\), mentre \(\sqrt{n\sigma^2}\) è la deviazione standard di \(S_n\). Questo risutlato prende il nome di Teorema Limite Centrale, abbreviato con TLC.
Dunque, considerando quanto detto prima sulle normali, dal TLC segue che
\[S_n \sim \mathcal{N}(n\mu, n\sigma^2) \iff \frac{S_n - n\mu}{\sqrt{n\sigma^2}} \sim \mathcal{N}(0,1)\]
Esistono varie formulazioni di questo risultato. A noi in particolare interessa la formulazione che richiama la media delle variabili aleatorie prese in considerazione. Data la prima formulazione infatti è possibile ottenere la seguente forma
\[\begin{split} P\Big(\frac{S_n - n\mu}{\sqrt{n\sigma^2}} \leq t\Big) &\iff P\Big(\frac{n}{n} \cdot \frac{S_n - n\mu}{\sqrt{n\sigma^2}} \leq t\Big) \\ &\iff P\Big(n \cdot \frac{\frac{S_n}{n} - \mu}{\sqrt{n\sigma^2}} \leq t\Big) \\ &\iff P\Big(\sqrt{n} \cdot \frac{\bar{X_n} - \mu}{\sigma} \leq t\Big) \end{split}\]
dove con \(\bar{X_n}\) si intende la media delle \(n\) v.a., ovvero \(\bar{X_n} := \frac{X_1 + X_2 + ... + X_n}{n}\). Notiamo che dall'equivalenza appena dimostrata segue che, per \(n \to \infty\), vale
\[P(\frac{\sqrt{n} \cdot (\bar{X_n} - \mu) - 0}{\sigma} \leq t) \to \Phi(t) \iff \sqrt{n}(S_n - \mu) \sim \mathcal{N}(0, \sigma^2)\]
4 Distribuzione Multivariata di Normali
Consideriamo un vettore formato da \(k\) v.a. con distribuzione normale standard \(\mathcal{N}(0,1)\)
\[\begin{pmatrix} Z_1 \\ \vdots \\ Z_k \end{pmatrix}\]
con \(Z_i \sim \mathcal{N}(0, 1)\) e indipendenti tra loro. Sia poi \(M\) una matrice \(n \times k\), e sia \(\underline{a}\) un vettore di \(\mathbb{R}^n\). Calcoliamo quindi il seguente vettore
\[\begin{pmatrix} X_1 \\ \vdots \\ X_n \end{pmatrix} = M \cdot \begin{pmatrix} Z_1 \\ \vdots \\ Z_k \end{pmatrix} + \underline{a}\]
Tale vettore ha una distribuzione che prende il nome di distribuzione multivariata di normali. La particolare scelta del vettore \(\underline{a}\) e della matrice \(M\) ci fa ottenere una specifica distribuzione dalla famiglia delle distribuzioni multivariate normali.
Notiamo poi che dalla definizione appena data segue che qualsiasi combinazione lineari delle v.a. \(X_1, ..., X_n\) ci fa sempre e comunque restare all'interno della famiglia delle multivariate normali.
4.1 Valore Atteso, Varianza e Matrice di Covarianza
Per quanto riguarda il valore atteso, vale la seguente definizione, che mantiene le stesse proprietà presenti nel caso di v.a. singole.
\[ \mathbb{E}[ \begin{pmatrix} X_1 \\ \vdots \\ X_n \end{pmatrix} := \begin{pmatrix} \mathbb{E}[X_1] \\ \vdots \\ \mathbb{E}[X_n] \end{pmatrix}\]
Invece, per quanto riguarda la varianza e la covarianza, si definisce la matrice di covarianza nel seguente modo
\[Cov(\underline{X}) := (Cov(X_i, X_j))_{i,j}\]
con
\[Cov(X_i, X_j) := \mathbb{E}[(X_i - \mathbb{E}[X_i])(X_j - \mathbb{E}[X_j))] = \mathbb{E}[X_iX_j] - \mathbb{E}[X_i]\mathbb{E}[X_j]\]
La matrice di covarianza esprime le dipendenze lineari tra i componenti del vettore \(\underline{X}\). Notiamo che tale matrice è una matrice simmetrica in quanto \(Cov(X_i, X_j) = Cov(X_j, X_i)\), e contiene anche tutte le informazioni sulle varianze delle v.a. nella diagonale, in quanto \(Var[X_i] = Cov(X_i, X_i)\). Notiamo poi che la matrice di covarianza è una matrice positivamente semi-definita, ovvero tale che
\[\underline{X}^T M \underline{X} \geq 0 \;\;, \forall \underline{x} \in \mathbb{R}^n\]
Osservazione: Torna utile ricordare che, se \(M\) è una una matrice definita positiva, allora la possiamo fattorizzare nel seguente modo
\[M = \sqrt{M} \cdot \sqrt{M}^T\]
dove con \(\sqrt{M}\) intendiamo un'altra matrice, chiamata intuitivamente la "radice quadrata" di \(M\). Tale matrice può essere calcolata utilizzando gli autovalori della matrice \(M\).
Per concludere, ricordiamo che se \(M\) è definita positiva, allora \(M\) è di rango pieno, e dunque è invertibile.
4.2 La Matrice di Covarianza è Semi-Definita Positiva
Poniamoci ora la seguente domanda: come cambia la matrice di covarianza \(Cov(\underline{X})\) se moltiplichiamo il vettore \(\underline{X}\) con un vettore \(A\) qualsiasi? Notiamo che utilizzando la definizione di covarianza, è possibile ottenere la seguente relazione
\[Cov(\underline{X}) = \mathbb{E}[(\underline{X} - \underline{\mu})(\underline{X} - \underline{\mu})^T]\]
Ma allora se moltiplichiamo \(A\) con \(\underline{X}\) otteniamo la seguente matrice di covarianza
\[\begin{split} Cov(A \cdot \underline{X}) &= \mathbb{E}[A(\underline{X} - \underline{\mu})(A(\underline{X} - \underline{\mu}))^T] \\ &= \mathbb{E}[A(\underline{X} - \underline{\mu})(\underline{X} - \underline{\mu})^TA^T] \\ &= A \cdot Cov(\underline{X}) \cdot A^T \\ \end{split}\]
Notiamo che questo fatto ha una conseguenza fondamentale. In particolare, se consideriamo come vettore \(A\) il vettore \(A := \begin{pmatrix} a_1, & a_2, & \dots, & a_n \end{pmatrix}\), allora abbiamo che la forma quadratica \(A \cdot Cov(\underline{X}) \cdot A^T\) è uguale a \(Cov(A \underline{X})\), che per definizione è
\[Cov(A \underline{X}) = Var[a_1 x_1 + a_2 x_2 + ... + a_n x_n]\]
Ora, dato che la varianza è sempre una quantità positiva, abbiamo che anche \(A \cdot Cov(\underline{X}) \cdot A^T\) è una quantità positiva. Ma questo vale per ogni vettore riga \(A\) scelto in \(\mathbb{R}^n\). Segue dunque che la matrice di covarianza è sempre una matrice semi definita positiva, e dunque tutti i risultati generali per le matrici semi definite positive possono essere applicati anche alla matrice di covarianza.
4.3 Densità Multivariata
Un vettore multivariato normale \(\underline{X} = M \cdot \underline{Z} + \underline{\mu}\) ha una media pari a \(\mathbb{E}[\underline{X}] = \underline{\mu}\) e una covarianza pari a \(Cov(\underline{X}) = M \cdot M^T\). Per convenzione si utilizza il simbolo \(\Sigma\) per rappresentare la matrice di covarianza del vettore \(\underline{X}\).
Una densità multivariatà è una espressione della forma
\[\frac{1}{(2\pi)^{n/2} \cdot det(\Sigma^{1/2})} \cdot e^{\displaystyle{-\frac{1}{2}(\underline{X} - \underline{\mu})\Sigma^{-1}(\underline{X} - \underline{\mu})}}\]
dove con \(\underline{X} = \begin{pmatrix} X_1, & \dots &, X_n\end{pmatrix}\) intendiamo il vettore delle v.a e la matrice \(\Sigma^{-1}\) è detta matrice di precisione.