ISTI - 06 - Overview della Statistica
1 Informazioni Lezione
Data:
In questa lezione abbiamo introdotto le tematiche principali affrontate dal campo della statistica, dando una overview generale del campo.
2 Cosa studia la Statistica
Anche se nella statistica le domande affrontate possono essere molto diverse ed eterogenee tra loro, il nucleo che accomuna tutti i problemi affrontati dalla statistica è l'approccio utilizzato. La statistica infatti si basa sull'osservazione di un fenomeno al fine di provarlo a spiegaretramite l'utilizzo di modelli matematici, e in particolare di modelli probabilistici.
Tra i vari campi di studio della statistica troviamo in particolare i seguenti:
Il campionamento: Il campionamento ci permette di utilizzare dati specifici al fine di inferire informazioni di carattere più generale.
Il calcolo degli stimatori: I metodi per calcolare gli stimatori ci permettono ottenere delle approssimazioni dei parametri delle distribuzioni a cui siamo interessati.
I test di significatività: I test di significatività ci permettono di definire delle procedure e dei metodi per effettuare delle decisioni in vari contesti.
2.1 Il calcolo degli Stimatori
Supponiamo di voler studiare un esperimento modellato con una distribuzione binomiale \(Bin(n, p)\) di cui sappiamo preventivamente il parametro \(n\). In questo caso, come molto spesso succede, l'unica cosa che dobbiamo scoprire per avere un modello completo dell'esperimento è il parametro \(p\) della distribuzione. Siamo quindi interessati a trovare un modo per utilizzare le osservazioni ottenute dall'esperimento al fine di stimare il valore parametro \(p\). Questo problema nella statistica classica è affrontato tramite il calcolo degli stimatori.
Intuitivamente uno stimatore è un metodo, o un calcolo, tramite il quale trasformo ciò che ho visto in una stima del parametro di interesse.
Esempio: È possibile dimostrare che se ho un campione i.i.d. \(X_1, X_2, ..., X_n\), con \(X_i \sim Bin(n, p)\), un buon stimatore del parametro \(p\) è il rapporto tra il numero di successi e il numero di tentativi totali, ovvero
\[\hat{p} = \frac{X}{n}\]
dove con \(\hat{p}\) indiciamo appunto il valore dello stimatore del parametro \(p\).
2.1.1 Caratteristiche di uno Stimatore
Dato che a priori ci potrebbero essere più metodi per stimare il valore di un parametro per una data distribuzione, al fine di scegliere qual'è il "migliore" stimatore sarà necessario introdurre dei vari criteri che ci possono aiutare in questa scelta.
In particolare, sempre consideriando il caso di uno stimatore per il parameto \(p\) di una binomiale \(Bin(n, p)\), abbiamo i due seguenti criteri:
Uno stimatore \(\hat{p}(x)\) è detto unbiased, o non distorto, quando
\[\mathbb{E}_{p}[\hat{p}(x)] = p, \;\; \forall p \in [0,1]\]
dove con \(\mathbb{E}_{p}\) intendiamo la media di \(\hat{p}(x)\) assumendo che il corretto valore del parametro sia proprio \(p\).
Una ulteriore richiesta che possiamo imporre ad uno stimatore è quella di minimizzare la varianza \(Var_p[\hat{p}(x)]\).
Osserviamo fin da subito che non esiste uno stimatore \(\hat{p}(x)\) che minimizza la varianza rispetto a tutti i \(p \in [0,1]\). Infatti, se \(\hat{p} = 1/2\), allora nel caso in cui \(p = 1/2\) si ha che \(Var[\hat{p}(x)] = 0\), e quindi non esiste uno stimatore che ha una varianza più piccola di tutti gli altri stimatori. Notiamo però che lo stimatore \(\hat{p} = 1/2\) non è unbiased. Un risultato classico della statistica ci dice che se ci restringiamo alla classe degli stimatori unbiased, allora esiste uno stimatore (unbiased) che minimizza la varianza rispetto a tutti gli altri stimatori (unbiased).
2.1.2 Precisione di uno Stimatore
Se lo stimatore \(\hat{p}(x)\) non assume un valore specifico ma bensì assume dei valori possibili attorno al valore che mi interessa (in questo caso \(p\)), possiamo utilizzare la varianza \(Var[\hat{p}(x)]\) per misurare la precisione dello stimatore.
A tale fine si definisce \(\sqrt{Var[\hat{p}(x)]}\) come lo standard error dello stimatore.
Utilizzando lo standard error e la stima calcolata si possono definire degli intervalli di confidenza (confidence intervals). Dato un valore da stimare \(X\), un intervallo di confidenza di \(X\) è un intervallo \([a(X), b(X)]\) in cui \(X\) si trova con "alta probabilità".
Possiamo quindi avere intervalli di confidenza acon vari livelli di precisioni (i maggiori usati danno una probabilità del \(95\%\), \(98\%\) fino al \(99\%\)). In ogni caso, dato che non conosco il parametro \(p\), non potrò mai sapere con certezza se quello che ho stimato è effettivamente il parametro giusto.
Osservazione: L'interpretazione più corretta degli intervalli di confidenza è la seguente: quando diciamo che un intervallo di confidenza ha una precisione del \(95\%\), stiamo dicendo che il metodo utilizzato per calcolare l'intervallo di confidenza in questione genera degli intervalli che contengono il parametro vero il \(95\%\) delle volte. Dunque non è corretto dire che il valore effettivo per parametro è contenuto con \(95\%\) di probabilità all'interno dell'intervallo di confidenza. Questa differenza è sottile ma cruciale da capire.
2.2 Test di Significatività
I test di significatività sono test rivolti principalmente all'aspetto decisionistico di un problema. Ad esempio un testo di significatività si può porre la seguente domanda: come faccio a capire se una moneta è bilanciata oppure no? L'idea è quella di definire delle procedure e dei metodi matematici per effettuare tali decisioni.
In generale in un test di ipotesi considero una ipotesi iniziale e cerco di capire se tale ipotesi è vera oppure no. A tale fine quindi devo decidere una regola che mi permette di stabilire, con una data precisione, quando devo rifiutare e quando devo accettare l'ipotesi.
2.3 Campionamento
Non sempre campionare risulta facile come problema da risolvere. Ci sono infatti svariate problematiche che nascono durante il campionamento. A seguire alcune discussioni legate al problema del campionamento.
2.3.1 Problema del size bias
2.3.2 Come effettuare interviste delicate?
2.3.3 Inferire sulla Distribuzione tramite un Campione
Supponiamo di avere un campione aleatorio formato da \(n\) v.a. \(X_1, X_2, ..., X_n\), aventi una distribuzione continua con densità \(f(x)\). L'idea è quella di utilizzare \(X_1, X_2, ..., X_n\) per inferire qualcosa sulla densità \(f(x)\). Inizialmente, per semplicità, le v.a. \(X_i\) si possono assumere i.i.d. Queste ipotesi possono poi essere diminuite gradualmente, per ottenere modelli sempre più complessi e potenti.
Seguono qualche considerazioni generali su tale tematica
Come primo approccio l'utilizzo di un istogramma con un campione grande può essere molto utile per intuire la forma della densità \(f(x)\). Questa proprietà segue dal fatto che, in media, ogni pilastro dell'istogramma ha l'altezza giusta rispetto alla distribuzione teorica. Dunque, se non sappiamo nulla sulla distribuzione, è sempre utile iniziare con un istogramma. Ulteriori approfondamenti sul modello matematico dell'istogramma sono disponibili nel seguente link ITDM - Lezione 08 Data Mining II.
Se invece sappiamo qualcosa sulla forma teoria di \(f(X)\), ad esempio se sappiamo che \(X_i \sim \mathcal{N}(\mu, \sigma^2)\), allora l'unica cosa che ci resta da stimare sono i parametri \(\mu\) e \(\sigma^2\). Notiamo che dare una forma teorica alla densità che vogliamo studiare è una ipotesi molto forte. Nel caso di una normale \(\mathcal{N}(\mu, \sigma^2)\) possiamo poi utilizzare i seguenti stimatori
\[\begin{cases} \hat{\mu} &:= \displaystyle{\frac{X_1 + X_2 + ... + X_n}{n}} \\ \\ \hat{\sigma^2} &:= S^2 = \displaystyle{\frac{1}{n - 1} \sum\limits_{i = 1}^n (X_i - \bar{X})^2} \\ \end{cases}\]
Se invece ho un campione \(X_1, ..., X_n\) i.i.d. preso dalla distribuzione uniforme \(X_i \sim U[0, \theta]\) di cui non conosco il parametro \(\theta\), un metodo classico utilizzato per stimare \(\theta\) è chiamato il metodo della massima verosimiglianza, in inglese il metodo della \textit{Maximum Likelihood} (\textbf{M.L.}).
Osservazione: Gran parte dei metodi utilizzati in statistica danno degli ottimi risultati per \(n \to \infty\). In generale se si ha pochi dato è molto difficile dire qualcosa di significativo. Al fine di risolvere questa problematica e ottenere molti dati in modi sostenibili viene estensivamente utilizzata la simulazione.
3 Statistica Frequentia e Statistica Bayesiana
I problemi appena visti possono essere affrontati in modi diversi. In particolare ci sono due scuole di pensiero nel campo della statistica, che sono
La statistica frequentista studia metodi che presentano delle "buone proprietà" e, come il nome suggerisce, è basata sulla frequenza delle osservazioni e dalle proprietà dei metodi utilizzati sulle osservazioni raccolte.
La statistica bayesiana invece assume che posso esprimere ciò che non conosco e che voglio studiare tramite una distribuzione di probabilità sui possibili valori. In questo approccio quindi si parte da una distribuzione fissata (la distribuzioni a priori), e si utilizzano le osservazioni raccolte per modificare questa distribuzione, andando ad aggiungere nuove informazioni in modo da delineare più chiaramente il valore che voglio conoscere.
La differenza principale tra questi due approcci è che mentre dal punto di vista della statistica frequentista il parametro da stimare ha un valore fissato ma ignoto, in quella bayesiana si assume che quel poco che so sul mio parametro lo posso esprimere tramite una distribuzione di probabilità sui possibili valori assumibili dal parametro. Da un punto di vista filosofico bisogna quindi riflettere sul seguente quesito : qual'é la differenza tra dire "un parametro è fisso ma ignoto", e dire "quello poco che so sul parametro lo posso esprimere tramite una distribuzione di probabilità sui possibili valori assunti dal parametro"?
Osservazione: Nel calcolo delle probabilità c'é stata anche una scuola di pensiero, chiamata probabiltià soggettivista, che ha cercato di interpretare che cos'è la probabilità. Uno degli esponenti di questo pensiero è stato Bruno De Finetti, che ha utilizzato il gioco d'azzardo come contesto nel quale dare significato alla probabilità.
3.1 Critiche all'approccio Bayesiano
Una critica nota all'approccio bayesiano è che non sembra essere sempre possibile rappresentare una conoscenza parziale di un parametro tramite una distribuzione di probabilità.
Un'altra critica è che, nei casi di massima ignoranza, non sapendo nulla sui valori delle probabilità, è difficile mettersi d'accordo per definire una distribuzione a priori.