Nuova Dispensa Statistica PDF

Title Nuova Dispensa Statistica
Course Statistica
Institution Università degli Studi della Campania Luigi Vanvitelli
Pages 154
File Size 4.7 MB
File Type PDF
Total Downloads 249
Total Views 376

Summary

Nuova Dispensa Statistica 1 LA RILEVAZIONE STATISTICA La statistica la disciplina che ha come fine lo studio quantitativo e qualitativo di un particolare fenomeno. Studia i modi (descritti sotto formule matematiche) in cui una fenomenica, limitatamente ai fenomeni collettivi, essere sintetizzata e q...


Description

Nuova

Dispensa Statistica

1

LA RILEVAZIONE STATISTICA La statistica è la disciplina che ha come fine lo studio quantitativo e qualitativo di un particolare fenomeno. Studia i modi (descritti sotto formule matematiche) in cui una realtà fenomenica, limitatamente ai fenomeni collettivi, può essere sintetizzata e quindi compresa. La scienza statistica è comunemente suddivisa in due branche principali: -

La statistica descrittiva: ha lo scopo di sintetizzare i dati attraverso i suoi strumenti grafici e indici che descrivono gli aspetti salienti dei dati osservati. La statistica inferenziale: che ha come obiettivo quello di stabilire le caratteristiche dei dati e dei comportamenti delle misure rilevate con possibilità di errore predeterminato. La statistica inferenziale è fortemente legata alla teoria delle probabilità. Sotto questo aspetto descrive in termini probabilistici o statistici un fenomeno aleatorio nel tempo, caratterizzabile dunque da una variabile aleatoria (casuale) vuol dire descriverlo in termini di densità di distribuzione di probabilità e dei suoi parametri di medio o valore atteso e varianza.

Allo stesso tempo possiamo suddividere la statistica descrittiva in: - Univariata, dove vi è un’unica variabile - Bivariata, dove vi sono due variabili e si studia il nesso tra le due. Oggetto della statistica è lo studio delle unità statistiche ovvero quegli elementi sui quali viene effettuata la rivelazione e la misurazione di uno o più fenomeni, oggetti dell’indagine. Tali unità statistiche vengono studiate attraverso uno specifico CARATTERE (o variabile). Il carattere è uno degli aspetti delle unità statistiche oggetto di studio. Di ogni unità interessa rilevare uno o più caratteri; se si considerano i ragazzi iscritti alla facoltà di ingegneria, sono esempi di carattere il sesso, l’età, l’anno di corso, il tipo di auto posseduta etc. Ogni carattere (o variabile), deve essere inquadrato in una delle seguenti categorie. Può essere infatti: - Quantitativo, qualora esprima un dato numericamente associabile; si pensi al voto in statistica come in qualsiasi materia, questo può essere 18, 19, 20 e così via. - Qualitativo, qualora esprima un dato numericamente non associabile; si pensi ai colori dell’arcobaleno (blu, giallo etc.) oppure come vengono divisi i territori geografici (nord, sud, centro) Le variabili o i caratteri qualitativi si dividono inoltre in: - Ordinali, ovvero in merito ad unità che posseggono naturalmente un ordine - Nominali, ovvero per unità che non hanno ordine naturale (le malattie ad esempio) Ogni carattere viene indicato con una lettera maiuscola dell’alfabeto. Ad esempio X = “Voto in statistica”. Naturalmente il voto in statistica, come un qualsiasi altro carattere, si può manifestare in diversi modi: può essere un qualsiasi valore da 18 a 30. Introduciamo quindi un ulteriore concetto base della statistica: la MODALITA’. 2

La modalità, come si può facilmente intuire, rappresenta i diversi modi in cui si può manifestare il carattere. Ad esempio il carattere X “lancio della moneta” si può manifestare come testa o croce. Testa e croce rappresenteranno ciascuna una modalità del carattere suddetto. Il carattere sesso ha modalità “maschio” e “femmina” e così via per ciascun carattere. La modalità viene indicata con la stessa lettera con cui si indica il carattere, in formato minuscolo, aggiungendo alla fine una lettera “i” come pedice. Tenendo conto dei carattere precedenti, le loro modalità si indicheranno come segue:

𝐱𝐢

Dopo la raccolta dei singoli dati del carattere cui siamo interessati si passa ad una loro catalogazione, attraverso un processo che prende il nome di DISTRIBUZIONE con la quale le diverse modalità del carattere si distribuiscono nelle unità statistiche che compongono il collettivo oggetto di studio. Capita spesso che durante uno studio una singola modalità di verifichi più volte. Si pensi alla prima sessione d’esame di statistica, ci saranno stati diversi voti pari a 18. Per non catalogare ogni singolo voto che è stato conseguito all’esame per ciascuna persona (si dovrebbe segnare su un foglio tanti 18 quante sono le persone che hanno preso questo voto; ciò vorrebbe dire scrivere decine di volte diciotto) si fa ricorso ad un ulteriore elemento: la FREQUENZA. La frequenza mi indica infatti il numero delle volte che la modalità si è frequentata ovvero verificata. Si indica con 𝐧𝐢

𝐱𝐢 𝐧𝐢 Prendiamo ad esempio alcuni dei voti dell’esame di statistica. Indichiamo quindi ciascuna 18 10 20 15 25 19

modalità e frequenza. Questa tabella ci dice che il voto 18 si è verificato dieci volte, il voto 20 quindici volte e il voto 25 diciannove volte. Quella riportata qui di fianco è un esempio di DISTRIBUZIONE PER FREQUENZE, in quanto ad ogni modalità ricolleghiamo una determinata frequenza.

Se la variabile statistica presenta numerose modalità è conveniente un accorpamento delle stesse, si opera quindi una DISTRIBUZIONE IN CLASSI. Si pensi alle possibili altezze di un uomo, queste possono essere diversi valori che difficilmente, qualora si faccia uno studio su un determinato quantitativo di persone, si ripeteranno per più volte. Per procedere quindi alle analisi statistiche si preferisce creare una classe di valori, ovvero un intervallo tra due valori possibili cui si manifesti il carattere. Nel caso delle altezze una classe potrebbe essere 1,30m – 1,50m nella cui classe cadranno tutti quei soggetti che hanno un’altezza compresa tra 1,30m e 1,50m. I valori che definiscono la classe presa in considerazione vengono separati per un piccolo contrassegno al quale spesso si accompagna ad una delle due estremità dello stesso una sbarra. Tale sbarra sta a significare che quel valore al suo fianco non viene preso in considerazione

3

Una possibile distribuzione in classi potrebbe essere la seguente, nella quale indichiamo come carattere il peso rilevato in un determinato collettivo di persone prese in studio:

𝐱𝐢

𝐧𝐢

50 -ǀ 55 55 -ǀ 60 60 -ǀ 65

5 6 4

Leggiamo quindi che 5 tra le persone studiate presentano un peso compreso tra 50 e 55 kg (con 55 escluso, in quanto abbiamo la sbarra di cui abbiamo parlato sopra), 6 persone hanno un peso compreso tra 55 e 60 (con 60 escluso) mentre 4 persone hanno un peso compreso tra 60 e 65 (con 65 escluso). Nel momento in cui si stia studiando una distribuzione in classi è necessario anche riportare per

ciascuna classe la corrispettiva AMPIEZZA (hi ). Questa è semplicemente data dalla differenza tra il limite superiore e il limite inferiore della classe di riferimento. Si prenda ad esempio la prima classe della tabella precedente; la sua ampiezza è data dalla differenza tra 55 e 50 quindi ha un’ampiezza pari a 5. Questo concetto ci servirà in seguito.

Ritornando alla frequenze per ogni distribuzione che si incontrerà è sempre opportuno segnare al

termine della colonna delle frequenze ni il totale di frequenze che indicheremo semplicemente con “n”, questo dato ci farà saltare immediatamente all’occhio quante persone o dati sono stati rilevati. Riprendendo la distribuzione in classi precedenti si scriverà quindi:

𝐱𝐢

𝐧𝐢

50 -ǀ 55 55 -ǀ 60 60 -ǀ 65

5 6 4 n =15

Il dato n=15 ci dice quindi che sono stati rilevati in toto 15 dati. Un’ultima precisazione n merito alle frequenze. Quelle che finora abbiamo indicato con ni rappresentano le FREQUENZE ASSOLUTE. Si rilevano oltre a queste, in una qualsivoglia

distribuzione, ulteriori frequenze, prime fra tutte le FREQUENZE RELATIVE, indicate con fi . Queste nascono dall’utilità di dividere ciascuna frequenza assoluta per il numero totale delle unità statistiche n. Ogni frequenza relativa è quindi data da una semplice divisione, basti dividere ogni singola frequenza assoluta per il totale di frequenze.

fi =

ni

n

con 0 ≤ fi ≤1

∑ fi = 1( )

(1) Ricordarsi che la sommatoria delle singole frequenze relative è sempre 1.

4

1

Si considerino poi le FREQUENZE RELATIVE CUMULATE, indicate con Fi . La frequenza relativa cumulata, come suggerisce lo stesso verbo “cumulare, sinonimo di “addizionare” nasce dalla somma della frequenza relativa di riferimento e di quelle che la precedono. Tali concetti risulteranno più chiari presentando un esempio. Si studi ad esempio il carattere X “altezza delle persone”. Nello studio che si è operato si è deciso di dividere le singole altezze rilevate per classi e si sono rilevate le relative frequenze:

𝐱𝐢

1.50 -ǀ 1.60 1.60 -ǀ 1.70 1.70 -ǀ 1.80

𝐧𝐢

5 6 4 n =15

𝐟𝐢

5/15 = 0.33 6/15 = 0.4 4/15 = 0.26 1

𝐅𝐢

0.33+0 = 0.33 0.33+0.4 = 0.73 1

𝐡𝐢

0.1 0.1 0.1

La frequenza relativa per ciascuna modalità è data semplicemente dalla frequenza assoluta corrispondente divisa per il totale di frequenze. Al termine della colonna nella quale si epilogano le frequenze relative è necessario controllare che la somma delle stesse sia pari ad 1 in quanto è una condizione assolutamente necessaria (anche se la somma delle varie frequenze relative non fosse esattamente 1 come in questo caso, lo si scriva lo stesso. Se tuttavia avessimo constatato che la somma delle frequenze relative non dava un valore pari ad 1 o un valore almeno prossimo ad 1 allora era assolutamente necessario andare a ricontrollare i calcoli per ciascuna frequenza relativa). Le frequenze relative cumulate non sono altro che la somma della frequenza relativa corrispondente e di tutte quelle che la precedono. Nel caso della classe 1.50 -ǀ 1.60, ad esempio, dobbiamo sommare la frequenza relativa 0.33 con le frequenze relative precedenti; ovviamente non ci sono frequenze relative prima di questa e quindi si ha una frequenza relativa cumulata uguale alla frequenza relativa (per la prima modalità questa condizione si deve verificare sempre). Inoltre all’ultima modalità si rileva una frequenza relativa cumulata pari ad 1; anche questa è una condizione che si deve necessariamente verificare, in quanto l’ultima frequenza relativa cumulata sta ad indicare la somma dell’ultima frequenza relativa e di tutte quelle che la precedono, il che sta a significare, sommare tutte le frequenze relative, la cui operazione deve darci un risultato necessariamente pari ad 1. Poiché si sta trattando una distribuzione per classi, è necessario anche definire le singole ampiezze. Queste, si ricordi, sono date dalla differenza tra l’estremo superiore e l’estremo inferiore di ogni classe. Quindi, considerando la prima classe, la corrispettiva ampiezza è data da 1.60 – 1.50 = 0.1

5

LE MEDIE Primo fra gli indici statistici è la MEDIA. Questa si può distinguere in: -

Media razionale o algebrica: ovvero quelle che risultano dal concorso di tutti i valori assunti dalla variabile statistica mediante un’espressione algebrica e sono le medie di potenza. Medie posizionali: sono quelle che risultano da particolari elementi della distribuzione, esse sono: la moda, la mediana e i quartili.

Le prime risentono della numerosità del collettivo e le seconde no. Per media si intende quella quantità 𝐱 che se sostituita a ciascun termine lascia inalterato il risultato delle operazioni f eseguite. Se f è la somma di termini, nel caso in cui le unità n statistiche sono disposte in una distribuzione per unità, la media è data da:

𝐱=

2 ∑K

i=1 xi

n

=M

Tale valore è la media aritmetica e viene indicato con M o anche con (x) . La media aritmetica è il rapporto tra l’ammontare totale del carattere e il totale delle modalità. Nel caso di una distribuzione di frequenze, con ni il numero di volte che il termine xi si ripete nel collettivo, l’ammontare totale del carattere X si può ottenere secondo i prodotti della modalità e delle relative frequenze. In questo caso, se si tratta una distribuzione di frequenze la media, che prende il nome tecnico di media ponderata, sarà data da:

𝐱=

3 ∑K i=1 xi ∙ni ( )

n

Con n si indica il totale delle frequenze.

Nella MEDIA PONDERATA (media pesata) i singoli valori prima di essere sommati vengono moltiplicati per il peso a loro assegnato. Il peso generalmente è la frequenza ma può significare anche l’importanza che il singolo valore riveste nella distribuzione. Ad esempio all’università di economia è naturale che rivesta un peso maggiore l’esame di economia aziendale piuttosto che quello di lingua francese, allora sarà naturale assegnare ai voti ottenuti un peso maggiore all’esame di Economia Aziendale. In questo modo se anche si è preso un 25 a francese e 30 ad Economia Aziendale la media si avvicinerà di più al voto con maggiore importanza, in questo caso economia aziendale, poiché pesa maggiori crediti. (2) Tale simbolo matematico viene letto”sommatoria per i che va da 1 a k”. Vuol dire che bisogna sommare tutte le modalità da quella indicata con Xi fino a Xn, ovvero dalla prima all’ultima. (3) Nella distribuzione per frequenze come si può desumere ogni modalità ha una propria frequenza e quindi ogni modalità viene moltiplicato per la frequenza associata, per poi dividere la sommatoria per il totale delle frequenze.

6

Prendiamo la seguente distribuzione:

𝐱𝐢

𝐧𝐢

18 20 22

5 3 1 n=9

Come calcoliamo la media di questa distribuzione? Seguendo la formula precedente basti sommare i singoli prodotti tra singole modalità e corrispettive frequenze per poi dividere il tutto per il totale di frequenze. Quindi avremo: x =

x =

18∗5+20∗3+22∗1 9

90+60+22 9

=

172 9

= 19.11

La MEDIA ARMONICA è il reciproco della media aritmetica dei reciproci dei termini. È particolarmente utile per qualche tipo di variabili come ad esempio per calcolare la velocità media lungo un percorso. n 4

Ma( ) =

n ∑ki=1 i

xi

Quando si ha quindi a che fare con modalità che rappresentano delle velocità, che vengono quindi misurate in km/h è necessario utilizzare questo tipo di media e non quella aritmetica, in quanto le singole modalità sono espresse in un’unità di misura che rappresenta un rapporto tra due singole misure: i chilometri e le ore. Ad esempio, si voglia calcolare la media delle seguenti prestazioni offerte da una macchina: 80km/h 90km/h e 100km/h. Seguendo la formula precedente porremo al numeratore il numero totale di frequenze e al denominatore la sommatoria dei rapporti tra frequenze e modalità. Ponendo tutto in tabella abbiamo:

𝐱𝐢 𝐧𝐢

80km/h 1

90kn/h 1

100km/h 1

n=3

Ogni singola modalità del carattere X “velocità della macchina” si verifica una singola volta. Questo è un esempio di quella che viene definita DISTRIBUZIONE PER UNITA’ in quanto tutte le modalità si verificano una sola volta.

(4) È nient’altro che il reciproco della media normale. Si prenda infatti l’equazione alla nota 3 e si capovolga ogni termine.

7

Seguendo la formula avremo:

Ma =

3

1 1 1 + + 80 90 100

= 89.25 km/h

La MEDIA GEOMETRICA avviene in caso di una f operazione di prodotto di termini, ad esempio i tassi di crescita (inflazione, interessi, infatti ogni tasso è ricavato da un tasso precedente e quindi la formazione di un tasso è legato a quello precedente e così via)

Mg =

n(5)

√∏ ki=1 xi ∙ ni

Il simbolo matematico Π (pi-greco) sta per “produttoria”. Come per il simbolo di sommatoria si intendeva sommare tutti i singoli prodotti delle modalità per le rispettive frequenze, in questo caso, è necessario moltiplicarli l’uno con l’altro. Si eseguano quindi prima di tutto le moltiplicazioni tra modalità e frequenza e si moltiplichino poi tutti i valori, eseguendo in questo modo la produttoria. ESERCIZIO: Negli ultimi cinque anni sono stati rilevati i seguenti tassi d’inflazione: 3.2% per il 1997, 2.7% per il 1998, 2.8% per il 1999, 2.2% per il 2000, 3.2% per il 2001 Trattandosi di valori percentuali dividiamo per 100 e sommiamo 1. Otteniamo così 1.032; 1.027; 1.028; 1.022; 1.032 5(6)

Quindi: ∏𝑖=1 𝑋𝑖 = 1.032*1.027*1.028*1.022*1.032=1.149142 Estraendo la radice quinta: Mg = √1.1491 = 1.0281 5

A questo punto si sottragga al valore 1 precedentemente addizionato e si moltiplichi per 100. Il tasso d’inflazione medio sarà quindi pari a 2.81%

(5) N è la somma di tutte le frequenze (6) L’estremo superiore è 5, e il simbolo pi greco sta a dire che bisogna moltiplicare tutte le modalità fino alla quinta che qui è 1.032

8

LA MEDIA QUADRATICA è il particolare tipo di operazione che viene eseguita per calcolare il valore medio di modalità che sono espresse in un’unità di misura al quadrato come ad esempio il metro quadrato (m2 ).

Mq = √

∑ x2i ∙ni n

Quando si ha quindi a che fare con modalità espresse in unità di misura al quadrato si utilizzi questa particolare formula. ESEMPIO: Tizio ha due campi quadrati, uno di lato 1km il secondo di 2km. Vuole avere due campi di uguale estensione, ovvero avere due campi quadrati che abbiano lo stesso lato. Si ragioni, non basta fare la semplice media aritmetica tra 1 e 2. Infatti operando in questo modo avremo un lato di 1.5km. Calcoliamo ora l’area di un campo quadrato con questo lato; questa sarà data da 1.52 ovvero 2.25km2 . Considerando che Tizio possiede due campo di questo lato, avrebbe in totale un campo di 5.5km2 . Questa operazione non è corretta in quanto Tizio possiede un’area totale di 12 + 22 = 5 km2 . Si ricorre quindi per calcolare la lunghezza del lato del campo quadrato alla formula della media quadratica: Mq = √

12 + 22 2

= 1.58 km

Elevando infatti 1.582 avremo l’area di un singolo campo. Poiché Tizio ne possiede due con lo stesso lato, basti moltiplicare l’area precedentemente calcolata per 2. Si noti quindi che si raggiunge l’area totale a disposizione del nostro soggetto ovvero 5 km2 . SIA BEN CHIARO! LE MEDIE SI APPLICANO PER VARIABILI QUANTITATIVE E NON QUALITATIVE.

9

PROPRIETA’ DELLA MEDIA ARITMETICA SEMPLICE E PONDERATA -

Internalità: considerata una distribuzione in senso non decrescente, x1 ≤ ……≤ xi ≤……. ≤ xn la media aritmetica deve essere necessariamente interna alla distribuzione: x1 ≤ M ≤ xn

Si pensi ad esempio ai seguenti valori: 1, 2 e 3. La media aritmetica (x) è pari a 2. Si può quindi vedere che la proprietà dell’internalità è rispettata in quanto 2 è un valore compreso tra l’estremo superiore e l’estremo inferiore della distribuzione, rispettivamente 1 e 3. -

Omogeneità: Moltiplicando (o dividendo) per una costante c appartenente all’insieme dei numeri R i termini della distribuzione, la media risulta moltiplicata (o divisa) per la stessa costante c. Si faccia un esempio: xi: 7 10 13 Mx: 10 c: 2 yi : 14 20 26 My: 20 = Mx * c

Si può quindi osservare che moltiplicando le modalità della distribuzione X , per la cui distribuzione la media è pari a 10, per una costante pari a 2, giungiamo ad una nuova distribuzione che indichiamo con la lettera Y. Questa distribuzione risulterà quindi con una nuova media che, rispettando la legge dell’omogeneità risulta essere la media vecchia per la costante. -

Traslatività: Sommando (sottraendo) una costante c appartenente all’insieme dei numeri R ai termini di una distribuzione la stessa costante è aggiunta (sottratta) alla media aritmetica.

Riprendiamo la distribuzione precedente e aggiungiamo ai termini della distribuzione una costante c = 2: xi: 7 10 13 Mx: 10 c: 2 Sommando questa costante a tutti i termini della distribuzione arriviamo...


Similar Free PDFs