RIASSUNTI di Statistica x l\'esame PDF

$RIASSUNTI di Statistica x l\'esame$

Title	RIASSUNTI di Statistica x l\'esame
Author	Lucia Lo Medico
Course	Statistica
Institution	Libera Università Maria Santissima Assunta
Pages	33
File Size	1.8 MB
File Type	PDF
Total Downloads	55
Total Views	130

Preview

CLICK TO PREVIEW PDF

Summary

RIASSUNTI ben dettagliati di Statistica x l'esame (LUMSA)...

Description

STATISTICA L’informazione statistica può essere concentrata o sintetizzata attraverso dei singoli valori. Se i valori sono concentrati a destra e a sinistra della distribuzione, ci sarà asimmetria. Se i valori sono concentrati al centro della distribuzione ci sarà simmetria. Possiamo sintetizzare le informazioni in 3 modi: 1. Moda: utilizzabile solo per misure qualitative e quantitative (indica la massima frequenza). 2. Mediana: utilizzabile per misure ordinabili (divide in due la distribuzione) 3. Media: utilizzabile per misure quantitative (rappresenta il centro dei dati) Possiamo utilizzare diversi tipi di MEDIA in altri casi: 1. Media aritmetica ponderata: utilizzata per distribuzioni di frequenza (utilizzata quando le osservazioni sono indipendenti) 2. Media aritmetica troncata: utilizzata per valori estremi (si hanno perdite di informazioni). 3. Media geometrica: utilizzata quando le osservazioni sono dipendenti

4. Media armonica: rappresenta il valore medio dato dal reciproco della somma dei reciproci (dove elevo per la frequenza)

La media armonica per le frequenze relative cambia nel seguente modo (elevando per l’inverso della frequenza):

1

PROPIETA’ DELLE MEDIE • Internalità: la media deve essere un valore compreso tra il min e il MAX • Omogeneità: se moltiplico i termini di una serie di valori (X e Y) per una costante (a) anche la media risulta moltiplicata per la costante. • Associativa: se un collettivo è diviso in gruppi di cui conosciamo le medie, la media totale è data dalla somma delle singole medie dei gruppi. • Lineare: sommando una costante (c) ai termini di una serie di valori, anche la stessa costante è aggiunta alla serie di valori Y= a+bX Proprietà di mantenimento ed equidistribuzione del totale: se tutte le osservazioni avessero un valore simile quello sarebbe certamente il valore medio. Scarto o deviazione: rappresenta la differenza tra ciascun valore xi e la media X. Questi valori possono essere positivi o negativi e la loro somma nulla. Proprietà di annullamento degli scarti

Scarto semplice (rappresenta una perdita di informazioni che deve essere la più piccola possibile).

2

Esistono altri indicatori sintetici detti percentili, ma abbiamo anche quartili e decili. Questi indicatori sintetici vengono rappresentati nel box-plot, è una rappresentazione grafica utilizzata per descrivere la distribuzione di un campione attraverso indici di dispersione e di posizione.

Per la costruzione del box-plot abbiamo diversi passaggi: • Per prima cosa dobbiamo costruire una tabella dove indichiamo i valori osservati, la loro frequenza, la loro frequenza relativa e le frequenze relative cumulate. • Il secondo passaggio consiste nel trovare i quartili che sono Q1= 0,25, Q2= 0,50 e Q3=0,75. • Successivamente andremo ad individuare nelle frequenze relative cumulate quel valore che supera 0,25 e che quindi rappresenta il primo quartile e proseguiamo così anche per il secondo e terzo quartile. • Successivamente trovo la differenza interquantilica nel seguente modo: QUARTILE SUPERIORE - QUARTILE INFERIORE= DIFFERENZA INTERQUARTILICA • Successivamente devo trovare gli estremi che sono R1 e R2 nel seguente modo: Per individuare i dati anomali faccio la differenza tra gli estremi r1 e r2:

α= 1,5 SEMPRE perchè i valori che ricadono al di fuori possono essere potenziali errori. L’analisi parametrica ci dice come i valori si distribuiscono tra le osservazioni. Il modo in cui i valori si distribuiscono o si concentrano è detta variabilità. La variabilità è l’attitudine di un fenomeno quantitativo a manifestarsi sulle n unità con modalità diverse e distanti. Si possono sintetizzare i dati che si presentano in modo differente tra le unità: 1. Confrontando tra di loro le modalità e si parlerà di mutua variabilità. 2. Confrontando le modalità rispetto ad un centro, si parlerà di dispersione. INDICI DI MISURA DELLA VARIABILITA’ Le misure più usate sono: • Varianza • Devianza • Deviazione standard Queste sono le misure utilizzare rispetto alla media. Abbiamo poi tra le misure: • Range o campo di variazione • Differenza interquantilica. La devianza è la somma dei quadrati degli scarti della media.

Se dividiamo la devianza per il numero delle osservazioni, otteniamo la varianza. La varianza è un indice di dispersione e ci dice quanto i singoli valori sono distanti dalla media e serve a sapere se la media è un buon indicatore statistico per il fenomeno che cerchiamo di misurare.

La deviazione standard è un’altro indice di dispersione e rappresenta la curva a campana di Gauss.

La deviazione standard è anche detto scarto quadratico medio e fornisce misure della stessa variazione della stessa scala originaria di dati. Abbiamo poi il range, dato dalla differenza tra valore minimo e valore massimo e avremo: Xmax-Xmin La variabilità può essere interpretata tramite 2 indicatori: 1. Scostamento semplice della media

2. Scostamento semplice della mediana

Nel caso di dati che vengono raggruppati per frequenza la formula della varianza cambierà nel seguente modo:

5

Nel caso di frequenze relative la formula della varianza sarà la seguente:

Coefficiente di variazione di Pearson che serve a valutare la correlazione lineare tra due variabili e viene utilizzato per variabili quantitative. Bisogna verificare che la relazione tra le due variabili sia di tipo lineare. Non ci devono essere casi all’interno del del campione con caratteristiche diverse rispetto al resto.

Il tipo di relazione del coefficiente di variazione di Pearson può essere: • Lineare: se rappresentata su assi cartesiani si avvicina alla forma di una retta. • Non lineare: se rappresentata su assi ha un andamento curvilineo (parabola o iperbole). In merito alla direzione si può dire che se essa è: • Positiva: all’aumentare di una variabile aumenta anche l’altra. • Negativa: se all’aumentare di una variabile diminuisce l’altra. Gli indici di mutua variabilità permettono di fare confronti coppie tra le modalità assunte dall’unità del collettivo. Tra gli indici di mutua variabilità possiamo distinguere: 1. Differenza media semplice

2. Differenza media semplice con ripetizione

Questi due indici sono legati dalla seguente relazione:

• D e Dr assumono valore 0 (zero) quando tutti i dati sono uguali. • D e Dr assumono valore massimo quando (n-1) valori sono uguali a 0 (zero) tranne l’ennesimo. Eterogeneità: è riferita ai caratteri qualitativi quando si presentano con diverse modalità (es: occhi verdi, blu o marroni), devono quindi avere diversa frequenza. Omogeneità: è riferita ai caratteri con diverse modalità, ma stessa frequenza. L’omogeneità può essere: • Assoluta: riferita alle frequenze assolute

Valore massimo = 1 quando le frequenze sono sulle stesse modalità. Valore minimo =1/k quando le frequenze sono uguali. • Relativa: riferita alle frequenze relative.

Assume valore = 1 quando le osservazioni sono concentrate in un’unica modalità o quando le modalità hanno uguale frequenza.

7

Indice di eterogeneità del Gini: misura la dispersione della distribuzione delle frequenze. La condizione è che 0 < G < k-1/k Dove: 0 (zero) è la perfetta omogeneità e k-1/k è la frequenza massima.

• Maggiore è questo indice più i dati saranno distribuiti in maniera eterogenea tra le k. • Minore è G più i dati tenderanno a distribuirsi in maniera non equa tra le k modalità. Se: • G= 0 (abbiamo minima eterogeneità) e i dati sono distribuiti su un’unica modalità. • G= K-1/K (abbiamo massima eterogeneità) e i dati sono distribuiti equamente su tutte le modalità. Entropia: misura l’eterogeneità di un sistema e si riduce se il contenuto dell’informazione aumenta. L’entropia presenta 3 formulazioni e sono le seguenti:

8

VARIAZIONI E INCREMENTI Le variazioni aggiungono delle informazioni significative e si calcolo in termini: • Assoluti: Va = xt - xt-1 • Relativi: Vr = xt-xt-1/ xt-1 = Va/ xt-1 x100 Queste due variazioni si possono sintetizzare in: • Variazione media globale (media aritmetica). • Variazione media annua (media geometrica). Gli incrementi ci danno la stessa informazione della variazione solo che vi è un rapporto dove: I = xt/xt-1 x 100 I numeri indici mettono a confronto intensità di uno stesso fenomeno. Essi possono essere: • Semplici: se confrontano intensità di un unico fenomeno o carattere. • Complessi: quando si valutano più grandezze insieme. Possono essere classificati in base al tipo di denominatore base in: • Fissa: quando il denominatore è sempre lo stesso. • Mobile: quando il denominatore cambia. Questi indici hanno delle proprietà: 1.Proprietà di identità: se confrontiamo due intensità uguali il numero indice è sempre 1. 2.Proprietà di reversibilità delle basi: mi permette di passare da una base all’altra. 3. Proprietà circolare: consente di applicare il cambiamento di base. Il cambiamento della base si ha dividendo il N.I. (numero indice) della vecchia base con il N.I. della nuova base. Per passare da una base fissa ad una base mobile basta divide il N.I. precedente e moltiplicare x 100.

9

Tramite la proprietà della reversibilità delle basi si fa il seguente procedimento: • Fisso la nuova base e la pongo = 100 • Moltiplico il N.I. successivo e divido x 100 • Per i precedenti divido il corrispettivo a base mobile e moltiplico x 100 Per i numeri indici complessi le fasi sono diversi sono le seguenti: • Scelgo gli indicatori da sintetizzare • Scelgo la base • Scelgo il criterio di ponderazione • Scelgo i criteri di sintesi I rapporti statistici ci danno una relazione tra le grandezze e abbiamo i seguenti rapporti: • Rapporti di composizione: (es: tasso di occupazione) dividendo l’intensità di frequenza di una parte del fenomeno con l’intensità globale. • Rapporti di coesistenza (es: indici di vecchiaia): rapporti in cui i termini non sono legati da un rapporto di causa-effetto. • Rapporti di derivazione (es: misure natalità e mortalità): sono reazioni in cui c’è un legame causa-effetto. Le relazioni statistiche sono reazioni tra più variabili e in questo caso si parla di analisi bivariata o tra più di due, si parlerà di analisi multivariata. Possiamo dividere le relazioni statistiche in: 1. Simmetriche: quando la connessione tra due variabili è bidirezionale, cioè ci dice se è connessa e come è connessa. 2. Asimmetrica: quando la connessione va in una sola direzione è la misura ci informi su come una variabile o distribuzione spieghi un'altra variabile o distribuzione. Le relazioni possono essere lineari o non lineari. Spiegare una variabile significa metterla in relazioni con un’altra variabile, le variabili saranno due, una: • Dipendente: detta variabile risposta. • Indipendente: detta variabile esplicativa. Queste variabile possono essere sia di tipo quantitativo che qualitativo (o ordinale).

10

La tabella a doppia entrata: serve a studiare in modo congiunto la distribuzione di due variabili.

Le somme per righe e per colonne ci restituiscono le distribuzioni di partenza X e Y, queste distribuzioni sono dette marginali. Nelle celle abbiamo le distribuzioni congiunte delle due variabili X e Y e nij rappresenta la frequenza congiunta di Xi e Yi. Ai bordi della tabella vi sono le distribuzioni marginali, esse danno le informazioni sulle singole variabili e le guardiamo indipendentemente l’una dall’altra. In merito alla tabella possiamo dire che: • ni. = marginale di riga che è relativa alla distribuzione x. • n.j = marginale di colonna relativa alla distribuzione y. • n.. = distribuzione congiunta X e Y. Il punto indica che le modalità variano. Osservare congiuntamente due distribuzioni serve a capire come sono connesse due variabili. Dobbiamo fissare un punto di vista, cioè una modalità di X e Y che chiameremo condizionante, che ci permetterà di osservare un'altra variabile che chiameremo condizionata. Le distribuzioni condizionate sono espresse in termini relativi. Sei una tabella doppia entrata è costituita in riferimento a due variabili qualitative o ordinali parleremo di tabella di contingenza.

11

L'indipendenza statistica a che fare con la connessione tra due distribuzioni statistiche. Si dice indipendente se la variazione di una non comporta la variazione dell’altra. L'indipendenza statistica è simmetrica se X è statisticamente indipendente da Y allora di conseguenza anche Y sarà indipendente da X. MODELLO DI INDIPENDENZA E NOZIONE DI CONTINGENZA L'indipendenza statistica definisce un modello teorico di indipendenza. In questo modello si ipotizza il caso in cui due variabili siano indipendenti anche quando non lo sono effettivamente. Questo modello permette di fare un confronto tra la distribuzione vera quella citata, chiamata contingenza. La contingenza è una misura che si ricava come differenza tra le frequenze effettivamente osservate e quelle teoriche. Se: • Contingenza = 0 (zero): non c'è relazione tra le due variabili. Ma mano che cresce, aumenta la relazione tra due. Quando la connessione tra due variabili è forte, diremo che c'è un’associazione. Gli indici di associazione sono i seguenti:

12

TETRACORICHE La riduzione della complessità dei dati producono variabili dicotomiche o dicotomizzate. Le dico atomizzate studiate congiuntamente definiscono tabelle 2 × 2 dette anche tetracoriche.

I prodotti diagonali tra le celle vengono detti prodotti incrociati. Abbiamo infatti: • axd : diagonale principale. • bxc : diagonale secondaria. Abbiamo associazione massima quando il prodotto della diagonale secondaria è nullo. Abbiamo repulsione massima quando il prodotto della diagonale principale è nullo. In merito alle tabelle tetracoriche dobbiamo analizzare l’indice di Yule:

13

MISURE DI CONCORDANZA E TABELLA DI CONTINGENZA Quando ci troviamo di fronte ad una tabella di contingenza e abbiamo variabili ordinali e qualitative, ci serve sapere se le modalità sono concordanti o discordanti tra loro. Abbiamo concordanza se le modalità di ordine più elevato alla X si associano più frequentemente a modalità di ordine elevato della Y, mentre modalità di ordine basso della X si associano più frequentemente con modalità di ordine basso della Y. Abbiamo discordanza sulle modalità di ordine elevato alla X e si associano più frequentemente con modalità di ordine basso la Y, mentre le modalità di ordine passerella ex si associano le modalità di ordine elevato della Y. Le misure della concordanza sono simmetriche e sono: • Indice gamma di Goodman e Kruskal —— GAMMA

• Indice di Kendal ——- TAU

Sappiamo che: • Ns = numero di coppie concordanti. • Nd = numero di coppie discordanti. • Tx e Ty = numero delle coppie che presentano rispettivamente uguali modalità rispetto alla X e alla Y. • N = numerosità.

14

MISURE DI COGRADUAZIONE Quando i caratteri della tabella doppia entrata sono caratteri quantitativi ma vengono trattati come ordinali parleremo di misure di cograduazione tra posizioni e ranghi all'interno della graduatoria. Tra questi indici abbiamo l’indice di Rho di Spaerman

Dove: • d= differenza osservata tra le posizioni (proprio perché si tratti di carattere ordinali). La condizioni principale è che -1...