Riassunto statistica descrittiva PDF

Title Riassunto statistica descrittiva
Author Luca Carta
Course Statistica
Institution Università Ca' Foscari Venezia
Pages 14
File Size 373.6 KB
File Type PDF
Total Downloads 27
Total Views 158

Summary

Download Riassunto statistica descrittiva PDF


Description

INTRODUZIONE E RACCOLTA DI DATI Cap 1 Statistica descrittiva: riguarda la raccolta, la sintesi, la presentazione e l’analisi di insiemi di dati. Statistica inferenziale: trarre conclusioni applicabili a popolazioni generali partendo dall’elaborazione dei dati relativi a piccoli gruppi, scelti come campioni. Variabili: sono l’oggetto delle analisi statistiche e sono la trasposizione matematica delle caratteristiche di persone e di insiemi di oggetti. La variabile è una caratteristica di un individuo o di un oggetto. Popolazione: tutti gli oggetti o individui (unità statistiche) da cui si vogliono ottenere informazioni. Campione: parte selezionata della popolazione per lo studio. Parametro: misura numerica che descrive una caratteristica di una popolazione. Statistica: misura numerica che descrive una caratteristica di un campione. Tipi di variabili qualitative: danno luogo a risposte che possono essere ricondotte a categorie qualitative o modalità, non numeriche (si, no) quantitative: assumono valori che indicano una quantità - Discrete: derivano da processi di conteggio (5 riviste) - Continue: assumono valori derivanti da processi di misurazione (5,45 metri) PRESENTAZIONE DEI DATI: GRAFICI E TABELLE Cap 2 Distribuzione di frequenza in classi: è una tabella in cui i dati sono divisi in opportune classi e a ogni classe è associato il numero di unità statistiche appartenenti a quella classe. Una distribuzione di frequenza in classi dovrebbe avere da un minimo di 5 a un massimo di 15 classi. Se si decide di avere classi di uguale ampiezza, è agevole determinare la lunghezza di ciascun intervallo.

ampiezza dell' intervallo=

campo di variazione numero delle classi

È infine necessario stabilire quali siano gli estremi delle classi, in modo tale da evitare sovrapposizioni, cosicché ciascun valore appartenga a una e una sola classe. Variazioni nella distribuzione delle frequenze si possono verificare anche quando, lasciando invariata l’ampiezza delle classi, vengono modificati gli estremi inferiori e superiori delle classi stesse; fortunatamente, all’aumentare della numerosità campionaria, cambiamenti di questo tipo influiscono sempre meno sulla distribuzione delle frequenze e sulle conclusioni che da essa si possono trarre. Molto spesso è la distribuzione delle frequenze relative o la distribuzione delle percentuali è preferibile alla distribuzione delle frequenze.

proporzione=frequenza relativa=

frequenza delle classi numero delle osservazioni

Distribuzione delle frequenze cumulate: fornisce informazioni circa il valore delle percentuali fino a un certo valore, ovvero la percentuale di dati che risultano minori di un determinato valore. Il punto di partenza è la distribuzione delle percentuali.

Istogramma: sorta di diagramma a barre in cui le frequenze o la percentuale di ciascuna classe sono rappresentate come singole barre verticali fra cui, però,

non ci sono spazi vuoti. I valori della variabile oggetto di analisi sono posti sull’asse orizzontale, mentre sull’asse verticali si pongono le frequenze o le percentuali di ciascuna classe. STATISTICA DESCRITTIVA: INDICI DI POSIZIONE E DI VARIABILITA’ Cap 3 Tendenza centrale: valore tipico intorno a cui tutti i dati si raggruppano e si concentrano. Variabilità: rappresenta l’attitudine di una variabile ad assumere valori differenti e a disperdersi intorno al valore centrale. Forma: rappresenta l’andamento di una distribuzione dal valore più basso a quello più alto. Media campionaria: indice di posizione e rappresenta il baricentro di un insieme di dati.

Xbarrato=

somma dei valori numerosità dei valori

Quando si hanno valori estremi, si dovrebbe evitare di utilizzare la media come misura della tendenza centrale, si dice quindi che la media è un indice non robusto e affetto dalla presenza di valori anomali. Mediana: valore che si colloca al centro di una successione ordinata di dati, dal più piccolo al più grande.

mediana=valore che occupa il posto

n+1 nella serieordinata 2

Se la numerosità campionaria è un numero dispari, la mediana è il valore centrale, mentre se è pari, la mediana è data dalla media tra i due valori centrali. È un indice non influenzato da valori estremi. Moda: è il valore che appare più frequentemente in una serie di dati, ovvero che ha la frequenza più alta. Non è influenzata dalla presenza di valori estremi. Variabilità: misura la dispersione dei valori in una serie di dati. Una semplice misura di variabilità è il campo di variazione o range, ossia la differenza tra il valore più grande e quello più piccolo di un insieme di dati.

range=X più grande −X più piccolo Il campo di variazione non indica se i valori sono distribuiti uniformemente in tutta la serie di dati, e quindi se siano raggruppati vicino al centro, o nei pressi di uno o entrambi gli estremi. Varianza e scarto quadratico medio: sono misure di variabilità che consentono di capire come sono distribuiti tutti i valori dell’insieme dei dati. Misurano la dispersione dei valori intorno alla loro media, come i valori più grandi fluttuano al di sopra di essa e in che modo i valori più piccoli fluttuano al di sotto di essa. La varianza si costruisce come la somma delle differenze al quadrato (per ottenere solo valori positivi) tra ciascun valore e la media, mentre lo scarto quadratico medio è la sua radice quadrata. n

2 varianza ( S ) =

2 ∑ ( X i− Xbarrato) i=1

n−1



scarto quadratico medio ( S ) =

n

(X i−Xbarrato)2 ∑ i=1 n−1

Si usa molto più frequentemente l’SQM in quanto non è una quantità al quadrato, ma espressa nella stessa unità di misura dei dati; aiuta a capire come un insieme di dati si concentra o disperde intorno alla sua media. Conoscere media e SQM di solito è necessario per definire l’intervallo in cui si concentra la maggioranza dei dati. Devianza: procedura meno complicata della varianza ma che porta allo stesso risultato. Dimostra infatti che la somma degli scarti al quadrato della media è uguale alla somma dei quadrati delle osservazioni meno il quadrato delle media moltiplicato per il numero delle osservazioni.

n

n

i=1

i=1

2 devianza ∑ ( X i− Xbarrato) =∑ X i2−nXbarrato2

Coefficiente di variazione: è una misura di variabilità relativa, espressa quindi in percentuale e non nell’unità di misura dei dati. Misura la dispersione dei dati in relazione all’entità della media.

( SX ) x 100 %

CV =

punteggi Z (Z score): differenza tra il valore e la media, divisa per lo scarto quadratico medio; rappresenta quanto un dato valore è distante dalla media rispetto alla variabilità della distribuzione. Poiché un valore estremo o outlier è un valore posizionato molto lontano dalla media, i punteggi Z sono utili per la loro identificazione.

Z=

X−Xbaarrato S

Forma di una distribuzione: si dice simmetrica se i valori al di sotto della media sono distribuiti esattamente come i valori al di sopra della media. In questo caso, i dati a destra e a sinistra della media si bilanciano. In una distribuzione asimmetrica, i valori non sono simmetrici intorno alla media. Questa simmetria è originata da uno squilibrio tra valori bassi e alti. Se la distribuzione è simmetrica, la media, la mediana e la moda sono pressochè uguali, mentre: � Media < mediana: asimmetria a sx, o negativa; � Media = mediana: simmetria, o asimmetria 0; � Media > mediana: asimmetria a destra, o positiva. STATISTICHE DESCRITTIVE PER LA POPOLAZIONE Media della popolazione: somma dei valori della popolazione divisa per la dimensione della popolazione N N

μ=

Xi ∑ i=1 N

Varianza della popolazione: somma degli scarti al quadrato rispetto alla media della popolazione divisa per la dimensione della popolazione N. N

σ2=

(X i−μ)2 ∑ i=1 N

SQM popolazione: radice quadrata della varianza della popolazione. Quartili, sintesi a 5 e boxplot sono strumenti per analizzare i dati quantitativi contraddistinti come analisi esplorativa dei dati. Primo quartile (Q1) è il valore tale che il 25,0% dei dati è minore o uguale e il 75% dei valori maggiore o uguale a Q1.

Q1=

n+1 esima osservazionenei dati ordinati 4

Q3=

3(n+1) esima osservazionenei dati ordinati 4

regola 1: se la posizione del quartile è un numero intero, allora il quartile è uguale all’osservazione che corrisponde a quella posizione. Regola2: se la posizione è un numero con una cifra decimale 5, allora il quartile è uguale alla media delle osservazioni a cavallo di quelle posizioni.

Regola3: se la posizione è un numero con due cifre decimali uguali a 25 o 75 allora la posizione del quartile si può approssimare, per eccesso o per difetto, all’intero più vicino. Campo di variazione interquartile: (o range) è la differenza tra il terzo e il primo quartile. Sintesi a 5: è uno strumento per poter riassumere l’intera distribuzione, analizzarne la variabilità e la forma attraverso soli 5 numeri: Xmin, Q1, mediana, Q3, Xmax. Boxplot (diagramma scatola): fornisce una rappresentazione grafica della sintesi a 5. La linea verticale disegnata all’interno della scatola rappresenta la mediana; la linea verticale sul lato sx indica Q1, mentre sul lato destro Q3. Pertanto la scatola rappresenta graficamente il 50% centrale delle osservazioni della distribuzione. Il 25% dei dati con i valori più piccoli, è rappresentato dal baffo sinistro, e viceversa dal destro per il 25% dei valori più elevati. Covarianza e coefficiente di correlazione sono indici utili per misurare l’intensità e il verso della relazione tra due variabili. La covarianza misura quanto due variabili quantitative variano insieme.

Xi n

∑ (¿− Xbarrato)(Y i −Ybarrato) i=1

n−1 COV ( X , Y )=¿ il coefficiente di correlazione si ottiene dividendo la covarianza di X e di Y per il relativi SQM; in questo modo si eliminano sia le due unità di misura delle due variabili, sia le grandezze relative, ottenendo un numero puro, cioè privo di unità di misura, e normalizzato, ovvero con un campo di variazione ben specificato. Il CDC misura la forza relativa di un legame lineare tra due variabili quantitative. È rappresentato dalla lettera greca . Una forte correlazione indica che le due variabili variano congiuntamente in un verso o nell’altro. Il nesso di casualità implica correlazione, ma la sola correlazione non implica causazione. Quando si hanno dati campionari, si deve calcolare il coefficiente di correlazione campionario r.

r=

COV ( X ,Y ) Sx S y

in conclusione, il coefficiente di correlazione è un indice utile a misurare il nesso e la forza della relazione lineare, l’associazione tra due variabili quantitative. Quando il coefficiente è vicino a 0 vi è poca o nessuna relazione lineare tra le due variabili. Fondamenti di calcolo delle probabilità Cap 4 Il calcolo delle probabilità funge da ponte fra la statistica descrittiva e quella inferenziale. La probabilità è un valore numerico che rappresenta la possibilità che un particolare evento accada; è una proporzione o una frazione i cui valori variano tra 0 e 1, inclusi. L’evento impossibile ha probabilità 0, quello certo, 1. Nella concezione classica, la probabilità del successo è basata su una conoscenza a priori del processo in questione. Probabilità di un evento: è il rapporto tra il numero di casi nei quali l’evento si verifica e il numero totale di risultati possibili.

probevento=

X T

Quando tali assunzioni non sono possibili, si può occorrere all’approccio della probabilità empirica, in cui le probabilità sono basate sui dati osservati; diventa quindi necessario ricorrere a indagini. Il terzo approccio alla probabilità è invece quella soggettiva, basata su una combinazione dell’esperienza passata dell’individuo, dell’opinione personale e dell’analisi di una particolare situazione.

Evento: ogni possibile risultato di un esperimento il cui esito è casuale. Un evento semplice è descritto da una singola caratteristica. Evento congiunto: evento con due o più caratteristiche. Complemento: il complemento di A (A’) include tutti gli eventi che non sono parte di A. Spazio campionario: Collezione di tutti i possibili eventi. Probabilità marginale: si può calcolare sulla base di un insieme di probabilità congiunte. Se B è formato da due eventi, allora la probabilità dell’evento A si può ottenere come somma delle probabilità congiunte dell’evento A con ognuno degli eventi B.

PROBABILITA MARGINALE P ( A ) =P ( A e B1 ) +. . . .+P ( A e B n ) dove gli eventi B sono mutualmente esclusivi e collettivamente esaustivi, definiti come segue: due eventi sono mutualmente esclusivi o incompatibili se non possono verificarsi contemporaneamente. Un insieme di eventi è collettivamente esaustivo se almeno uno degli eventi deve verificarsi. Gli eventi si dicono in questo caso necessari. Regola del calcolo della probabilità dell’unione di due eventi: la probabilità di A o B è uguale alla probabilità di A più la probabilità di B meno la probabilità di A e B.

P ( A o B ) =P ( A )+ P ( B ) −P ( A e B ) Probabilità condizionata: spesso alcune informazioni sugli eventi sono già note e modificano il modo in cui si determina le probabilità; la probabilità condizionata è quindi la probabilità di un evento A data l’informazione sul verificarsi di un altro evento B.

P ( A |B ¿=

P( Ae B) P( B )

Indipendenza: quando l’esito di un evento non modifica la probabilità di verificarsi di un alto evento. Due eventi A e B si dicono indipendenti se e solo se P ( A |B ¿=P( A) Regola per il calcolo della probabilità dell’intersezione di due eventi: la probabilità di A e B è uguale alla probabilità di A dato B per la probabilità di B. P ( A e B ) =P ( A |B ) P ( B ) Mentre se sono indipendenti: P ( A e B ) =P( A ) P ( B ) Teorema di Bayes: è usato per modificare e rivedere le probabilità precedentemente calcolate sulla base di una nuova informazione; è un’estensione di quanto detto sulla probabilità condizionata.

P ( A|Bi P ( A|B1

P ( Bi| A ¿=¿ P(Bi) ¿ P ( B 1) + .. . . + P( A| B k ¿ P(Bk )¿ ¿ dove tutti i k elementi B sono mutualmente esclusivi e necessari. Per rappresentarlo è conveniente utilizzare l’albero decisionale.

DISTRIBUZIONI DI PROBABILITA’ DI VARIABILI CASUALI DISCRETE Cap 5

Le variabili quantitative discrete producono dati che provengono da un processo di conteggio; la distribuzione di probabilità di una variabile casuale discreta è un elenco mutualmente esclusivo di tutti i

possibili risultati numerici che la variabile casuale può assumere unitamente alla probabilità del verificarsi di ciascun risultato. Il valore medio ( ) di una distribuzione di probabilità è il valore atteso della variabile casuale; si ottiene moltiplicando ogni possibile risultato, X, per la sua corrispondente probabilità, P(X), e quindi sommando questi prodotti. N

¿ E ( X )=∑ X i P ( X i) i=1

la varianza di una distribuzione di probabilità si calcola moltiplicando ogni possibile differenza al quadrato per la sua probabilità corrispondente e sommando i relativi prodotti. N

σ 2 =∑ X i−E ( X )2 P ( X i) i=1

e lo scarto quadratico medio risulta essere

√ σ2 .

La distribuzione binomiale viene utilizzata quando la variabile casuale discreta rappresenta il numero di eventi di interesse (successi) in un campione di n osservazioni (prove); serve come modello probabilistico in tutti quei casi in cui si è interessati al numero di volte in cui un certo evento (successo) si verifica in n prove fra loro indipendenti. Quattro caratteristiche fondamentali: - Il campione è composto ad un numero dato di osservazioni n; - Ogni osservazione è classificata in una delle due categorie incompatibili ed esaustive, successo e insuccesso; - La probabilità che si verifichi un successo π , è costante in ogni prova, come anche la probabilità che si verifichi un insuccesso, 1- π ; - Il risultato di una qualsiasi prova è indipendente dal risultato di qualsiasi altra prova. La variabile casuale binomiale ha un campo di variazione compreso tra 0 e n. per trovare poi il numero di combinazioni, ovvero di modi in cui è possibile disporre X oggetti in n prove senza tenere conto dell’ordine, bisogna utilizzare il coefficiente binomiale:

n CX=

n! X ! (n− X ) !

La distribuzione binomiale è quindi una formula generale per calcolare qualsiasi probabilità di una distribuzione binomiale per il numero di eventi di interesse (successi), X, dati i valori di n e π . non è altro che il prodotto tra la probabilità di una particolare sequenza e il numero di sequenze possibile con il medesimo numero di successi e prove. n−X

1−π ¿ n! P (X )= πx¿ X !( n− X ) ! La forma di una distribuzione di probabilità binomiale dipende dai parametri (n e π ¿ della variabile casuale binomiale. Quando π =0.5 la distribuzione è simmetrica, a prescindere da quanto grande sia il valore di n. Quando π 0.5 , la distribuzione è tanto più asimmetrica quanto il valore di n è piccolo. La media (o valore atteso) della distribuzione binomiale è uguale al prodotto di n per π . Mentre lo sqm è √ nπ (1−π ) . La distribuzione di Poisson è utilizzata per il conteggio del tempo necessario affinchè un evento si verifichi in un’area di opportunità data. Un’area di opportunità è un’unità continua o intervallo di tempo, di volume, o qualsiasi area fisica nel quale un evento può verificarsi più di una volta. La distribuzione di Poisson necessita che siano soddisfatte le seguenti proprietà:

-

Si è interessati a contare il numero di volte che un particolare evento si verifichi in una data area di opportunità; - La probabilità che un evento si verifichi in una data area di opportunità è la stessa per tutte le aree di opportunità; - Il numero di eventi che si verificano in un’area di opportunità è indipendente dal numero di eventi che si verificano in qualsiasi altra area di opportunità; - La probabilità che due o più eventi si verifichino in un’area di opportunità si avvicina allo zero se l’area di opportunità diventa più piccola. La distribuzione di Poisson è caratterizzata da un parametro, λ , che è la media o il valore atteso, ma anche la varianza, di eventi per unità di tempo o spazio. Il numero di eventi, X, della variabile casuale di Poisson varia da 0 a ∞ . −λ X e λ ( ) = P X X!

LA DISTRIBUZIONE NORMALE Cap 6 È la variabile più utilizzata in statistica, per le seguenti ragioni: - Molti fenomeni descrivibili mediante variabili continue hanno una distribuzione approssimativamente normale; - Può essere utilizzata anche per approssimare una serie di variabili casuali discrete; - Una variabile casuale normale fornisce le basi per l’inferenza statistica classica attraverso il teorema limite centrale. In una distribuzione normale si può calcolare la probabilità di osservare dei valori di un dato intervallo, ma non la probabilità che si verifichi esattamente un particolare valore. Tale probabilità, infatti nelle distribuzioni continue come la normale, è pari a zero. Proprietà della variabile casuale normale: � È simmetrica; � Ha una forma a campana; � Il campo di variazione interquartile è pari a 1,33 volte lo scarto quadratico medio, pertanto il 50% dei valori è contenuto in un intervallo pari a 2/3 dello scarto quadratico medio sopra e sotto il valore medio; � Ha un campo di variazione infinito. L’espressione matematica con cui si definisce una funzione di densità di probabilità per una variabile casuale continua si denota con il simbolo f(X). Le probabilità della variabile casuale X dipendono esclusivamente dai parametri della distribuzione normale: il valore medio μ e lo sqm σ . L’espressione matematica è complessa e per il calcolo delle probabilità sarebbe necessario l’uso degli integrali. Fortunatamente, ...


Similar Free PDFs