Formulario - Riassunto e breve spiegazione formule di Probabilità e Statistica PDF

Title	Formulario - Riassunto e breve spiegazione formule di Probabilità e Statistica
Author	francesca city
Course	Probabilità e statistica
Institution	Università degli Studi di Trento
Pages	10
File Size	580.1 KB
File Type	PDF
Total Downloads	416
Total Views	619

Preview

CLICK TO PREVIEW PDF

Summary

Warning: TT: undefined function: 32INTRODUZIONE CALCOLO PROBABILITÀ (PPT2):Esperimento casuale: esperimento che può essere ripetuto nelle medesime condizioni per un numero indefinito di volte, che ha un esito non conosciuto, ma prevedibile con certezza e che riguarda entità concrete (es. lancio mone...

Description

INTRODUZIONE CALCOLO PROBABILITÀ (PPT2): Esperimento casuale: esperimento che può essere ripetuto nelle medesime condizioni per un numero indefinito di volte, che ha un esito non conosciuto, ma prevedibile con certezza e che riguarda entità concrete (es. lancio moneta). Esperimento deterministico: esperimento in cui il risultato ottenuto è sempre lo stesso (es. tempo impiegato da un oggetto a raggiungere il suolo) Esperimento composto: esperimento costituito da un numero finito (o infinito) di repliche dell’esperimento E (es. lancio di una moneta) Spazio campione: insieme costituito da tutti gli eventi elementari (punto campionario) che costituiscono i risultati possibili di un esperimento casuale →finito →discreto →infinito numerabile (a ogni punto campione è associabile un num naturale) →infinito non numerabile (fissati due punti campione è sempre possibile determinarne almeno un terzo intermedio)→continuo Evento: insieme costituito da uno o più dei possibili risultati di un esperimento casuale →elementare: costituiti da uno solo dei possibili risultati di un esperimento casuale (E) →complessi: costituiti da più di uno dei possibili risultati di un esperimento casuale. Eventi mutuamente esclusivi (incompatibili): ogni qualvolta un esperimento viene eseguito e può essere osservato uno e un solo evento semplice per volta (es. se il lancio del dado produce l’esito 5 non è possibile osservare allo stesso tempo l’esito 6)→rappresentati da insiemi disgiunti (E) Frequenza relativa: numero di volte che si verifica un determinato evento (risultato) sulla base di N 𝑁𝐴 ripetizioni dell’esperimento 𝑁 Interpretazione frequentista della probabilità: limite a cui tende la frequenza relativa delle prove in cui l’evento si verifica, quando il numero di prove tende all’infinito 𝑁 lim 𝑁𝐴 = 𝑃 (𝐴)→ probabilità empirica 𝑥→∞ Distribuzione uniforma: P(A)

=

𝑁𝐴 𝑁

NA: numero di elementi in A per A ⊆  N: numero di elementi in 

ASSIOMI DI KOLMOGOROV: Assioma 1: P(A) ≥ 0 (frequenze relative negative non hanno senso) 𝑚

Assioma 2: 𝑃(𝐴1 ⋃ 𝐴2 ⋃ … ⋃ 𝐴𝑚 ) = ∑ 𝑖=1P(𝐴𝑖 ) con 𝐴1 , 𝐴2 , … , 𝐴𝑚 mutuam. esclusivi (indipendenti) La frequenza relativa dell’unione di due o più eventi mutuamente esclusivi è uguale alla somma delle rispettive frequenze relative Assioma 3: 𝑃(Ω) = 𝑃(𝐸1 ⋃ 𝐸2 ⋃ … ⋃ 𝐸𝑛 ) = 1

La somma delle frequenze relative di tutti gli eventi elementari dello spazio campione deve essere uguale a 1. Prove bernoulliane: repliche indipendenti di un esperimento casuale avente solamente 2 esiti possibili. Prove multinomiali: repliche indipendenti di un esperimento che produce k esiti possibili.

PROBABILITÀ CONDIZIONATA (PPT 3): Evento congiunto: A ∩ B, evento complesso costituito da un insieme di eventi elementari, ciascuno dei quali appartiene sia all’insieme A che all’insieme B. Ptot = somma di tutte le P degli eventi elementari che lo compongono P(A ∩ B) = numero di eventi elementari in A ∩ B numero totale di eventi elementari A ∩ C Tutti gli eventi elementari in A e non in B AC ∩  Tutti gli eventi elementari in B e non in A AC ∩ c Tutti gli eventi elementari che non sono né in A né in B P(A ∩ B) + P(A ∩ BC) = P(A)

P(A ∩ B) + P(AC ∩ B) = P(B)

P(AC ∩ B) + P(AC ∩ BC ) = P(AC)

P(A ∩ BC) + P(AC ∩ BC) = P(BC)

PROBABILITÀ CONDIZIONATA: 𝑃 (𝐴|𝐵) = 𝑃 (𝐵|𝐴) =

P (A ∩ B) P(B)

P (A ∩ B) P(A)

CASI SPECIALI: Se A ∩ B =  qual è la probabilità che l'evento  si verifichi sapendo che ha avuto luogo l'evento B? (A e B sono insiemi disgiunti) 𝑃 (𝐴|𝐵) =

P (A ∩ B) P(B)

=0

Se B ⸦ A, qual è la probabilità che l’evento A si verifichi sapendo che ha avuto luogo l’evento B? (B è sott’insieme di A) A∩ B=B 𝑃 (𝐴|𝐵) =

P (A ∩ B) P(B)

=

P (B) P(B)

=1

Se A ⸦ B, qual è la probabilità che l’evento A si verifichi sapendo che ha avuto luogo l’evento B? (A è sott’insieme di B) A∩ B=A 𝑃 (𝐴|𝐵) =

P (A ∩ B) P(B)

=

P (A) P(B)

LEGGI DELLA PROBABILITÀ → Legge del prodotto: la probabilità dell’evento congiunto A ∩ B è 𝑃(A ∩ B) = 𝑃(𝐴) ∗ 𝑃(𝐵|𝐴) 𝑃(A ∩ B) = 𝑃(𝐵) ∗ 𝑃(𝐴|𝐵) A e B si dicono statisticamente indipendenti se 𝑃 (𝐴|𝐵) = P (A) e 𝑃 (𝐵|𝐴) = P (B). In tal caso: 𝑃(A ∩ B) = 𝑃(𝐴) ∗ 𝑃(𝐵)

→ Legge della somma: la probabilità dell’unione di due eventi A e B è 𝑃 (A ⋃ B) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(A ∩ B) Se A e B sono mutuamente esclusivi (incompatibili), allora P(A ∩ B) = 0 𝑃 (A ⋃ B) = 𝑃(𝐴) + 𝑃(𝐵) TEOREMA DI BAYES: 𝑷(𝑨|𝑩) =

𝑷(𝑩|𝑨)∗𝑷(𝑨) 𝑷(𝑩)

VARIABILI CASUALI (PPT 6): Variabile casuale: funzione numerica di E (esperimento casuale) avente come dominio  e come codominio l’insieme dei numeri reali, essa assegna un numero (mediante una determinata regola) a ciascun punto (risultato) dello spazio campione→ X(E) →discreta: può assumere solo un numero finito o infinito numerabile di valori →continua: può assumere tutti gli infiniti valori dei numeri reali o di un loro intervallo [a,b] N. B. Le variabili casuali sono indicate con le lettere maiuscole, mentre gli specifici valori che assumono vengono indicati dalle lettere minuscole. (es. Y=y) Distribuzione di probabilità di una variabile casuale discreta: p (y) Proprietà: )   𝑝 (𝑦𝑖 ) ≥ 0 2) ∑𝑖 𝑝(𝑦𝑖 ) = 1 Valore atteso di una variabile casuale discreta: (valore medio o speranza matematica) E (Y) = ∑𝑦 𝑦𝑝(𝑦) Proprietà: →Teorema 1: - Somma di due variabili casuali Il valore atteso della somma di due variabili casuali discrete X e Y è uguale a: 𝐸 (𝑋 + 𝑌) = 𝐸 (𝑋) + 𝐸 (𝑌) Proprietà: 1) 𝐸 (𝑎) = 𝑎 2) 𝐸 (𝑎𝑋) = 𝑎𝐸 (𝑋) 3) 𝐸 (𝑎𝑋 + 𝑏𝑋) = 𝑎𝐸 (𝑋) + 𝑏𝐸 (𝑋) 4) 𝐸 (𝑋 − 𝑌) = 𝐸 (𝑋) − 𝐸 (𝑌) -

Prodotto di due variabili casuali

(con a = valore costante)

𝐸 (𝑋 ∗ 𝑌) ≠ 𝐸 (𝑋) ∗ 𝐸 (𝑌) Varianza di una variabile casuale discreta: valore atteso di (𝑋 − μ)2 𝑉𝑎𝑟(𝑋) = σ2 (𝑋) = 𝐸[(𝑋 − 𝐸(𝑋))2 ] 𝑉𝑎𝑟(𝑋) = 𝐸(𝑋2 ) − [𝐸(𝑋)]2 𝑉𝑎𝑟(𝑋) = ∑(𝑥 − 𝐸(𝑋))2 𝑝(𝑥) 𝑥

σ2 (𝑋) = ∑(𝑥 − 𝐸(𝑋))2 𝑝(𝑥) 𝑥

Proprietà: 1) σ2 (𝑎𝑋) = 𝑎2 σ2 (𝑋) →la varianza di una variabile discreta X moltiplicata per una costante è uguale alla varianza della variabile casuale moltiplicata per la costante al quadrato 2) σ2 (𝑎𝑋) = 𝑎2 σ2 (𝑋) →la varianza di una variabile discreta X non cambia se a ciascun valore x viene sommata una costante a Deviazione standard: σ(X) = √σ2 (𝑋) →Teorema 2: se X e Y sono due variabili casuali indipendenti, allora: σ2 (𝑋 + 𝑌) = σ2 (𝑋) + σ2 (𝑌) σ2 (𝑋 − 𝑌) = σ2 (𝑋) − σ2 (𝑌)

DISTRIBUZIONE BINOMIALE (PPT 7): Processo bernoulliano: sequenza di n prove di un esperimento casuale tali per cui - Ciascuna prova ha solo due esiti possibili (successo/insuccesso) - La probabilità p di un successo in ciascuna prova è la stessa per tutte le prove - La probabilità p di un successo in ciascuna prova non è influenzata dagli esiti precedenti (le prove sono indipendenti) - La probabilità di un insuccesso è: 𝑞= 1 − 𝑝 Eventi indipendenti: prove che costituiscono una sequenza di S e I →Come si calcola la probabilità di ottenere x successi in n prove? (p = probabilità di successo q = probabilità di insuccesso) 𝑛

𝑃(𝑋 = 𝑥) = 𝑝(𝑥) = (𝑥 ) 𝑝 𝑥 𝑞 𝑛 − 𝑥

Distribuzione binomiale: insieme costituito da tutti i possibili numeri di successi che si possono ottenere in n prove di un processo bernoulliano, insieme alle relative probabilità

Valore atteso della distribuzione binomiale: →valore atteso di una singola prova 𝐸(𝑋𝑖 ) = 1𝑝 + 0 (1 − 𝑝) = 𝑝 →valore atteso di una variabile casuale (es. Sn) 𝐸(𝑆𝑛 ) = 𝑛𝑝 Varianza della distribuzione binomiale: →varianza di una singola prova 2 𝑉(𝑋𝑖 ) = 𝐸(𝑋𝑖2 ) − (𝐸 (𝑋𝑖 )) = 𝑝 − 𝑝 2 = 𝑝(1 − 𝑝) = 𝑝 ∗ 𝑞 →varianza di una variabile casuale (es. Sn) 𝑉(𝑆𝑛 ) = 𝑛𝑝𝑞

VARIABILI CASUALI DISCRETE (PPT 8): •

Distribuzione uniforme discreta: ai possibili risultati, viene assegnata la stessa probabilità quindi, se i risultati possibili (distinti) sono n la distribuzione di 1 probabilità sarà data da 𝑝(𝑥) = 𝑛

•

Distribuzione di Poisson: distribuzione di Poisson con parametro 𝛌 𝑒 −𝛌𝛌𝑥 𝑃(𝑋 = 𝑥) = 𝑝(𝑥) = 𝑥! 𝛌> 𝟎 x = 0, 1, 2…. Caratteristiche -sempre asimmetrica positiva -al crescere della media tende a concentrarsi in una zona intorno alla media

Variabile casuale di Poisson: viene utilizzata per eventi che avvengono in un tempo fissato o in uno spazio definito →media = 𝛌 →varianza = 𝛌

DISTRIBUZIONI CONTINUE (PPT 9):

Variabile casuale continua: funzioni a valori reali che assegna ad ogni evento E, contenuto in Ω di uno spazio di probabilità continuo un qualsiasi numero reale x appartenente ad R

→probabilità 𝒙 𝑷(𝑿𝟎 ≤ 𝑿 ≤ 𝑿𝟏 ) = 𝑷(𝑿 ≤ 𝒙𝟏 ) − 𝑷(𝑿 ≤ 𝒙𝟎 ) = 𝑭(𝒙𝟏 ) − 𝑭(𝒙𝟎 ) = ∫𝒙 𝟏 𝒇(𝒕)𝒅𝒕 𝟎

Valore atteso di una variabile ca𝝅𝜋 suale: →discreta 𝑬(𝑿) = ∑𝒊 𝒙𝒊 ∗ 𝒑𝒊 →continua 𝑬(𝑿) = ∫

+∞

−∞

𝒙 ∗ 𝒇(𝒙)𝒅𝒙

Varianza di una variabile casuale: →discreta 𝒗𝒂𝒓(𝑿) = ∑𝒊[𝒙𝒊 − 𝑬(𝑿)]𝟐 ∗ 𝒑𝒊 →continua +∞ 𝒗𝒂𝒓(𝑿) = ∫−∞ [𝒙 − 𝑬(𝑿)]𝟐 ∗ 𝒇(𝒙)𝒅𝒙

DISTRIBUZIONI NORMALE (o Gaossiana) (PPT 10): Distribuzione normale: modello teorico che approssima la distribuzione di frequenze (relative) di molte variabili empiriche 𝑓(𝑥) = Per -∞ e +∞ e=2.771828 (costante)

1

σ√2𝜋

1 𝑥−μ 2 ( )

𝑒 −2

σ

Proprietà: 1) forma a campana simmetrica 2)media, mediana e moda coincidono 3)ha un max per x = μ 4)ha due flessi in μ – σ e μ + σ 5) -∞ < X < +∞ In un grafico rappresentante la distribuzione normale, tanto più è alta e concentrata la curva, tanto minore è la deviazione standard della curva stessa; quanto più la curva è bassa e distribuita, tanto è maggiore la sua deviazione. N (μ, σ2 ) → distribuzione normale con media μ e varianza σ2 L’area sottesa alla curva in un qualunque intervallo della variabile casuale può essere interpretata come una probabilità. L’area totale sottesa all’intera curva è uguale a 1 per qualunque valore dei parametri μ e σ Probabilità cumulativa: probabilità che la variabile casuale assuma un valore compreso tra -∞ e 𝑎 e quindi anche un valore compreso all’interno di un qualsiasi intervallo di valori. 𝐹(𝑎) = 𝑃(𝑋 ≤ 𝑎) Operazione di standardizzazione: X→ 𝑍 =

𝑋 −μ σ

𝑓(𝑧) =

1

√2𝜋

1 2 𝑧

𝑒 −2

𝐹(−𝑧) = 1 − 𝐹(𝑧)

N. B. : Il valore z va sottratto ad 1 solo quando si cerca la probabilità che sia superiore ad un certo numero, altrimenti si mantiene z (?). Distribuzione t di Student: 𝐸(𝑡) = 0 𝑉𝑎𝑟(𝑡) =

v

v−2

Una variabile casuale che segue la distribuzione t di Student ha quindi lo stesso valore atteso di una variabile normale standardizzata, ma una varianza maggiore di 1 per v maggiore di 2 (al crescere dei gradi di libertà, la distribuzione t si approssima sempre più alla distribuzione normale).

MEDIA CAMPIONARIA (PPT 11): Parametri e statistiche: -parametro: valore che descrive la popolazione. Di solito è incognito in quanto non è possibile esaminare l’intera popolazione -statistica: numero calcolato direttamente sulla base dei dati campionari a nostra disposizione. Di solito viene usato per la stima di parametri di cui non si conosce il valore.

Media campionaria: media delle media, ovvero media calcolata su di un campione, stimatore non distorto della vera media = variabile casuale dotata di una media e una varianza →distribuzione campionaria: a partire dai parametri della popolazione (media e deviazione standard) è possibile determinare a proprio la probabilità di estrarre un campione con una certa media (proporzione) →la varianza di tutte le possibili medie campionarie calcolate su campioni di dimensione n è inversamente proporzionale alla dimensione del campione (per dimezzare la deviazione standard della media campionaria, ovvero l’errore standard, occorre quadruplicare la dimensione del campione) ! Formule utili per esercizi con campioni aventi distribuzione normale: 𝑉𝑎𝑟(𝑥) = σ2 /μ

𝐸𝑟𝑟𝑜𝑟𝑒/𝑑𝑒𝑣𝑖𝑎𝑧𝑖𝑜𝑛𝑒 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑 =

σ

√𝑛

N.B. La grandezza dell’errore standard è, parzialmente sotto il controllo del ricercatore; al crescere di n, l’errore standard diminuirà fino a diventare quasi zero.

INTERVALLI DI CONFIDENZA (PPT 12): Inferenza statistica: a partire dalle statistiche del campione (media campionaria o proporzione campionaria) capire quale possa essere la media (o la proporzione) della popolazione Media campionaria:

𝒏

 = ∑𝒊=𝟏 𝑿𝒊 𝑿 𝒏

Caratteristiche: 1) specifico valore che coincide “raramente” con il parametro della popolazione 2)Campioni diversi forniscono stime puntuali diverse 3)Non tiene conto della numerosità delle unità campionate

Teorema del limite centrale: indipendentemente dalla forma della distribuzione della variabile nella popolazione, la distribuzione della media campionaria dei campioni di ampiezza n estraibili dalla popolazione tende alla Normale all’aumentare di n e l’approssimazione è buona per n ≥ 30. La distribuzione Normale a cui tende è centrale sulla media della distribuzione campionaria che coincide con la media della popolazione μ𝑿 = μ All’aumentare dell’ampiezza campionaria di n la variabilità della distribuzione della media campionaria diminuisce e se n tende all’infinito, l’errore standard della media campionaria σ𝑿 = var𝑿 =

σ2 𝑛

σ

√𝑛

𝑑𝑒𝑣𝑖𝑎𝑧𝑖𝑜𝑛𝑒 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑 𝑑𝑒𝑙𝑙𝑎 𝑚𝑒𝑑𝑖𝑎 𝑐𝑎𝑚𝑝𝑖𝑜𝑛𝑎𝑟𝑖𝑎

varianza della media campionaria lim

σ

𝑛→∞ √𝑛

= 0

Intervallo di confidenza della media: due valori che individuano un intervallo comprendente l’area sottesa alla distribuzione di probabilità pari a (1 − α) Standardizzare: 𝑧 = Livello di confidenza 𝛂

𝒁𝛂⁄

𝟐

 −μ 𝑿 σ √𝑛

(+ z e - z rappresentano limite superiore e inferiore)

90% 0,10

95% 0,05

98% 0,02

99% 0,01

1,645

1,96

2,33

2,58

(Per trovare il valore di Z si utilizza il p-value e si cercano i valori corrispondenti all’interno della tabella)  − 𝑧 ∗ Intervallo di confidenza: 𝑿

σ √𝑛

 + 𝑧 ∗ < μ< 𝑿

σ √𝑛

Ampiezza intervallo = Limite superiore – Limite inferiore

La distribuzione t: Proprietà: 1. 2. 3. 4. 5. 6. 7. 8. 9.

Forma a campana Simmetrica attorno alla media Media ≡ Mediana Unimodale Media ≡ Moda Asintotica L’area sotto la curva è pari a 1 Definita da gdl = n – 1 (gdl: gradi di ibertà) Media = 0 Dev. Standard = gdl / (gdl – 2) Dev. Standard > 1 Code più “pesanti”

(I valori estremi sono più probabili rispetto alla Normale) Intervallo di confidenza per la media della popolazione (varianza non nota): 𝑧=

 −μ 𝑿

𝑠=√

s

√𝑛

∑(𝑿𝒊 − 𝑿 )𝟐 (s è valore della stima, non distorta, della dev. standard della popolazione) 𝑛−1

 e viene calcolata con la seguente formula: La media campionaria si indica con 𝑿 𝑿 ∼ 𝑁 (μ,

σ2 ) 𝑛

La formula della deviazione standard è:

σ

√𝑛

e rappresenta ciò che viene chiamato errore standard, ovvero la

differenza media fra la media di un campione casuale e la media della popolazione stessa

Verifica delle ipotesi: procedura statistica che utilizza i dati di un campione per valutare un’ipotesi relativa ad un parametro della popolazione

VERIFICA DELLE IPOTESI (PPT 13): Popolazione e campione: gli studi di statistica inferenziale si effettuano solitamente su un campione della popolazione (non è perfettamente rappresentativo)

Media campionaria: variabile casuale che segue una distribuzione normale con valore atteso la media della popolazione e varianza la varianza della popolazione diviso la numerosità del campione...