Title | Statistica DI BASE per svolgimento esame PDF |
---|---|
Course | Istituzioni di statistica |
Institution | Università degli Studi Gabriele d'Annunzio - Chieti e Pescara |
Pages | 52 |
File Size | 2.9 MB |
File Type | |
Total Downloads | 782 |
Total Views | 1,031 |
LEZIONE 1|CHE COS’È LA STATISTICA Non è una branca della Matematica.Utilizza strumenti matematici al fine di studiare e descrivere i fenomeni reali nei loro aspetti quantitativi.La Statistica è uno strumento della ricerca scientifica basata sull’osservazione di fenomeni che possono manifestarsi nell...
1 di 52
LEZIONE 1 ! |! CHE COS’È LA STATISTICA!
Non è una branca della Matematica.! " Utilizza strumenti matematici al fine di studiare e descrivere i fenomeni reali nei loro aspetti quantitativi. " La Statistica è uno strumento della ricerca scientifica basata sull’osservazione di fenomeni che possono manifestarsi nelle forme più varie.! " La Statistica interviene in tutte le situazioni nelle quali occorre assumere decisioni in condizioni di incertezza.! " In tutti gli ambiti, scienze naturali, sociali, economiche, un fenomeno per essere compreso deve essere affrontato partendo dall’analisi dei dati empirici.! " La Statistica analizza in termini quantitativi i fenomeni collettivi.! " DEFINIZIONI E OBIETTIVI DELLA STATISTICA STATISTICA: strumento conoscitivo atto ad analizzare in termini quantitativi un fenomeno collettivo; insieme di tecniche finalizzate alla raccolta e all’analisi dei dati. | Per quanto riguarda la Statistica c’è anche bisogno di: PROGETTARE: pianificare come devono essere raccolti i dati necessari per le ricerche (indagini campionarie) ! DESCRIVERE: sintetizzare i dati (statistica descrittiva ) " INFERIRE: formulare previsioni basate sui dati raccolti (statistica " inferenziale) " Il termine PROGETTARE è riferito a come saranno selezionati gli individui da intervistare e come dovrà essere strutturato il questionario; $ $ $ $ $ $ $ $ $ $ $ $ $ $ La Statistica DESCRITTIVA comprende metodi grafici e numerici che sono usati per sintetizzare ed elaborare i dati in modo da trasformarli in informazioni; $ $ $ $ $ $ $ $ $ $ $ $ $ $ La Statistica INFERENZIALE fornisce basi per le previsioni e per le stime che consentono di trasformare le informazioni in conoscenza: permette di trasferire le informazioni ottenute su un campione all’intera popolazione!
$ $
$ $
$ $
$ $
$ $
$ $
$ $
$ $
$ $
$ $
$ $
$ $
$ $
$ $
2 di 52 LA RACCOLTA DEI DATI La raccolta di informazione è il cuore della scienza, attraverso essa vengono ottenute le osservazioni utilizzate per l’Analisi Statistica $ $ $ $ $ $ $ $ $ $ $ $ $ Le Rilevazioni Statistiche | CENSIMENTO: si osserva la totalità dei fenomeni / popolazione oggetto di interesse (pregi: ricchezza, accuratezza) (difetti: costi elevati, tempi lunghi)$ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ INDAGINI CAMPIONARIE che si dividono in:$ $ $ $ $ $ $ Studi Sperimentali: caratterizzati dall’intervento attivo nel ricercatore $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ Studi Osservazionali: caratterizzati dall’esperienza di intervento attivo da parte dei ricercatori, che si limitano ad osservare il fenomeno. $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ STATISTICA DESCRITTIVA Descrizione sintetica di un fenomeno collettivo. La Statistica Descrittiva permette di ottenere una sintesi relativa alle caratteristiche dell’intera popolazione. Dai dati grezzi si passa a grafici, tabelle e sintesi numeriche. La descrizione e la sintesi avvengono in termini quantitativi al fine di renderle oggettive.$$ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ STATISTICA INFERENZIALE Le tecniche inferenziali sono in grado di prevedere valori caratteristici di grandi popolazioni attraverso analisi condotte su campioni di dimensioni relativamente ridotte. L’obiettivo dell’inferenza statistica non è quello di conoscere la verità assoluta (obiettivo impossibile!) ma fornire metodologie per ridurre le possibilità di errore. | ESEMPIO STATISTICA INFERENZIALE: fabbrica di proiettili Abbiamo una partita di proiettili. Prima di distribuirli vogliamo controllarne la qualità. I: CONTROLLO È DISTRUTTIVO$ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ Ne controlliamo solo alcuni (un campione) $ $ $ $ $ $ $ Problema: come traggo conclusioni sull’intera partita sulla base dei risultati osservati sul campione? $ $ $ $ $ $ $ $ $ $ $ $ $ Soluzione: inferenza statistica!
3 di 52 POPOLAZIONE, CAMPIONE, PARAMETRO, STATISTICA$ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ La POPOLAZIONE è l’insieme completo di tutte le unità oggetto di studio " (esempi di popolazioni: tutti gli iscritti nelle liste elettorali dell’Italia, tutti gli studenti di un’università)$$ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ Il CAMPIONE è il sottoinsieme delle unità osservate nella popolazione " (esempio: si possono intervistare a caso 50 studenti sulla soddisfazione dei servizi offerti dall’università)$ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ Un PARAMETRO è una misura di sintesi numerica che descrive una caratteristica dell’intera popolazione (Sempre ignoto a meno che si tratti di un censimento) $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ Una STATISTICA è una misura di sintesi numerica che descrive una caratteristica del campione !
COMPONENTI FONDAMENTALI DELLA STATISTICA DESCRITTIVA$ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ UNITÀ STATISTICA: entità elementare oggetto della rilevazione a cui è possibile riferire in modo univoco l’informazione raccolta (La sua definizione dipende dal fenomeno che si sta analizzando) $ $ $ $ $ $ $ $ $ $ $ COLLETTIVO STATISTICO o POPOLAZIONE: l'insieme delle unità statistiche omogenee rispetto a una o più caratteristiche e/o circostanze; " VARIABILE o CARATTERE: caratteristica che assume diversi valori tra le diverse unità statistiche;" MODALITÀ: modo in cui la variabile si manifesta in una particolare unità statistica. ( È il valore che la variabile assume ) !
I dati grezzi Codice Sesso intervista
Età in anni compiuti
Stato civile
Provincia di residenza
Titolo di studio
1 2 3 4
F F M F
29 40 38 42
Nubile Nubile Coniugato Coniugata
RM FR LT FR
Laurea Diploma Laurea Laurea
5
M
48
Celibe
RI
Laurea
6 7
M M
59 70
Coniugata Celibe
RM RM
8 9
F F
25 35
Nubile Coniugata
FR FR
Diploma Lic. Media Laurea Laurea
10 11 12 13 14
M F F F F
46 67 44 28 79
Celibe Coniugata Coniugata Nubile Coniugato
RM RM RI LT LT
15
M
35
Coniugato
RM
16
M
27
Celibe
RM
Laurea Diploma Diploma Laurea Lic. Media Lic. Media Laurea
17 18 19 20
F M F F
65 78 56 46
Nubile Coniugato Coniugata Coniugata
RM LT RM LT
Diploma Diploma Laurea Laurea
Unità statistiche
Professione
n. comp. Famiglia oltre l’intervis tato) Impiegato 1 Disoccupato 3 Impiegato 4 Libero 3 professionista Libero 1 professionista Casalinga 4 Pensionato 5
variabili Reddito lordo annuo (migl. lire) 35000 10000 40000 90000 90000 15000 30000
Disoccupato Libero professionista Pensionato Impiegato Casalinga Impiegato Pensionato
3 3
20000 50000
2 4 5 4 2
70000 25000 13000 37000 30000
Impiegato
6
30000
Libero professionista Pensionato Pensionato Casalinga Impiegato
3
51000
1 2 3 4
35000 34000 11000 39000
Modalità della Variabile professione
13
4 di 52 Nel grafico prendiamo in analisi 20 individui infatti ci sono 20 righe (parte rossa che indica le Unità Statistiche) in questi individui andiamo ad osservare diversi caratteri infatti ci sono 8 colonne (parte blu che indica le Variabili); quindi ognuno di questi 20 individui, viene analizzato secondo diversi caratteri (in questo caso sono 8) ogni individuo per quanto riguarda i caratteri sotto cui Vine analizzata presenta delle modalità diverse dagli altri (le modalità vengono indicate dalla parte verde Modalità della Variabile) $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ LA CLASSIFICAZIONE DEI DATI | TIPI DI DATI: CLASSIFICAZIONE DEI CARATTERI | La classificazione dei caratteri, ossia la classificazione del tipo di informazione raccolta sulle unità è fondamentale, perché fa da guida alle elaborazioni possibili sui dati. In particolare la rappresentazione grafica dei dati e le sintesi da utilizzare dipendono dal tipo di carattere. $$ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ QUALITATIVE, se le modalità esprimono un attributo, una qualità dell'unità (nomi, categorie, aggettivi); $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ QUANTITATIVE, se le modalità sono numeri che esprimono una misura o una quantità.$ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ I caratteri QUANTITATIVI, si dividono in: – DISCRETE se le modalità sono numeri interi e in numero finito (es: numero di figli avuti, numero di componenti di una famiglia, numero di addetti); - Le modalità sono il frutto di un conteggio." $ $ $ $ $ $ $ $ $ $ $ $ $ $ – CONTINUE se possono assumere come modalità un qualsiasi numero reale (es: altezza, peso). - Le modalità sono il frutto di una misurazione; $ $ $ $ $ $ $ - Occorre però considerare lo strumento di misura e il suo livello di precisione: se la bilancia esprime valori in ettogrammi, il carattere in natura continuo assumerà un numero finito di modalità. $ $ $ $ $ $ $ $ $ $ $ $ $ Quantitativi: 1) scala intervalli; 2) scala rapporti: – %1) latitudine del luogo di residenza, temperatura; " – %2) età, statura, peso, numero componenti della famiglia, reddito, tasso di disoccupazione, tasso di mortalità, nati, investimenti, numero addetti, ore lavorative. " I caratteri QUALITATIVI, si dividono in: Qualitativi SCONNESSI: Scala NOMINALE" – Mezzo di trasporto utilizzato per andare a lavoro (auto, " bus, metro, treno, bicicletta, a piedi, altro) " Qualitativi ORDINABILI: Scala ORDINALE – %Titolo di studio (licenza elementare, licenza media, diploma e laurea) – %Soddisfazione del cliente (alta, media, bassa) "
5 di 52 SCALE DI MISURAZIONE SCALA NOMINALE: le categorie non rispettano alcun ordinamento " SCALA ORDINALE: le categorie hanno un ordinamento naturale " SCALA DI INTERVALLI: viene formata da possibili valori numerici che presentano un’origine convenzionale (es: altezza)" SCALA DI RAPPORTI: viene formata da possibili valori numerici che presentano un’origine fissa (es: numero di figli)!
DISTRIBUZIONE UNITARIA
DISTRIBUZIONI DI FREQUENZA |$ $ $ $ $ $ $ $ $ $ $ $ $ $ Dobbiamo presentarci dati in maniera intellegibile (cioè in maniera Chiara) quindi dai Dati Grezzi dobbiamo passare alle Distribuzioni di Frequenza che ci permetterà di organizzare i dati in maniera più chiara. $$ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ PRESENTAZIONE DEI DATI$ $ $ $ $ $ $ $ $ $ I dati raccolti possono essere sistemati mediante: $ $ $ $ $ $ —Tabelle (distribuzioni di frequenza)$ $ $ $ $ $ $ $ $ —Grafici. $ $ $ $ $ $ $ $ $ $ $ $ $ —Le rappresentazioni mediante Grafici e Tabelle hanno lo scopo di esporre in forma chiara e sintetica il fenomeno oggetto di studio$$ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ DISTRIBUZIONE DI FREQUENZA La frequenza è il numero di volte che si presenta nell’insieme di dati la detta (corrispondente) modalità! Unità
Sesso
1
F
2
F
3
Distribuzione di frequenze assolute
Sesso
Frequenza assoluta
M
Maschio
8
4
F
Femmina
12
5
M
Totale
20
6
M
7
M
8
F
9
F
10
M
11
F
12
F
13
Modalità distinte
Distribuzione di frequenze relative e percentuali
F
14
F
15
M
Frequenza relativa
Frequenza percentuale
16
M
Sesso
Maschio
0,4
40
17
F
Femmina
0,6
60
18
M
Totale
1,0
100
19
F
20
F
6 di 52 FREQUENZE RELATIVE E PERCENTUALI$ $ $ $ $ $ $ $ $ |$ $ $ $ $ $ $ $ $ $ $ $ $ Utili per capire l'importanza di una modalità nel collettivo ma anche per eseguire confronti tra distribuzioni relative alla stessa variabile in collettivi diversi. $ $ $ $ Ad esempio, osservata la variabile sesso su due collettivi, A con 20 unità e B con 200 unita:$ $ $ $ $ $ $ $ $ $ $ $ $ $ È vero che nel collettivo B ci sono più femmine che in A (70 contro 12), ma il loro peso rispetto ai maschi è inferiore essendo del 35% rispetto al 60% di A.
A: Sesso
Frequenza assoluta
Frequenza %
Maschio
8
40
Femmina
12
60
Totale
20
100
B: Sesso
Frequenza assoluta
Frequenza %
Maschio
130
65
Femmina
70
35
200
100
Totale
In simboli..... In simboli:" Dato un collettivo con n (numerosità del collettivo cioè il numero di unità statistiche) unità statistiche, indichiamo con n la frequenza assoluta corrispondente alla modalità j-esima j del carattere$$ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ con f = n n la FREQUENZA RELATIVA corrispondente alla modalità j- esima del j j/ carattere, ossia il rapporto tra la frequenza assoluta e il totale delle unità del collettivo. $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ con p = (C n)x100 la FREQUENZA PERCENTUALE corrispondente alla modalità j-esima j / del carattere. !
Modalità del carattere
CarattereX
Frequenza assoluta
Frequenza relativa
Frequenza %
X1
n1
f1
p1
…
…
…
…
Xj
nj
fj
pj
…
…
…
…
Xk
nk
fk
pk
Totale
n
1
100
Dalle frequenze relative alle frequenze assolute
Nj = n x fj!
Città di residenza
fj
Roma
0,2
Milano
0,3
Palermo
0,5
Totale
Città di residenza
n=500
1
nj
Roma
500u0,2=100
Milano
500u0,3=150
Palermo
500u0,5=250
Totale
500
nj=n u fj
7 di 52 DISTRIBUZIONE DI FREQUENZE CUMULATE ASSOLUTE E RELATIVE$ $ $ Indichiamo con :Nj=n1+n2+…+nj la j-esima frequenza assoluta cumulata, ossia la somma delle frequenze assolute fino alla modalità j-esima. ! e con: F = f + f +…+ f la j-esima frequenza relativa cumulata, ossia la somma delle j 1 2 j frequenze relative fino alla modalità j-esima.$ $ $ $ $ $ $ $ Carattere X
Frequenza assoluta
Frequenza relativa
Freq. assoluta cumulata
Freq. relativa cumulata
X1
n1
f1
N1=n1
F1=f1
…
…
…
…
…
Xj
nj
fj
Nj=n1+…+nj
Fj=f1+…+fj
…
…
…
…
…
Xk
nk
fk
Nk=n1+…+nk
Fk=f1+…+fk
n
1
Totale
$ $ $ $ $ $ $ $ SOLO SE IL CARATTERE È ORDINABILE$ $ $ $ $ $ $ $
FREQUENZE CUMULATE: esempio! Reddito
nj
Nj
10.000
30
30
15.000
20
30+20=50
20.000
40
30+20+40=90
30.000
10
30+20+40+10=100
Totale
100
$ $
$ $
$ $
$ $
$ $
$ $
8 di 52
LEZIONE 2$ $ $ |!
$
$
$
$
$
$
$
$
$
$
DISTRIBUZIONE DI FREQUENZA PER CARATTERI CONTINUI$ $ $ $ $ $ |$ $ $ $ $ $ $ $ $ $ $ $ $ Nel caso di un carattere continuo (ad esempio la Superficie forestale) non è possibile far corrispondere ai valori che questo assume le FREQUENZE ASSOLUTE e RELATIVE, perché tra due modalità qualsiasi ve ne possono essere infinite altre, con la conseguenza che, quasi certamente, si avrebbe una sequenza di valori distinti (ossia con frequenza assoluta pari a 1) poco diversa dalla distribuzione unitaria. ! Conviene quindi suddividere il carattere in intervalli, dettE CLASSI, riferendo la distribuzione di frequenza alle classi così costruite. $ $ $ $ $ $ $ Il numero di classi e l’ampiezza delle classi deve essere effettuata in base a criteri adeguati allo scopo della ricerca. $ $ $ $ $ $ $ $ $ Le classi devono essere mutualmente esclusive. (dati in una sola classe, NO modalità comuni)! Classi Superf. Forest. (Km2) 0-2500 2500-4500 4500-7500 7500-12500 Totale
Frequenza assoluta relativa 3 0,15 9 0,45 4 0,2 4 0,2 20 1
!
SUDDIVISIONE IN CLASSI! Un carattere può essere suddiviso in classi di stessa ampiezza o di ampiezza diversa: ! Ampiezza della classe =(estremo superiore – estremo inferiore) (differenza) $ $ $ $ $ $ $ $ $ $ $ $ $ Le classi possono essere: !
$ $
$ $
chiuse solo a destra (ossia includono l’estremo sup. ma non l’estremo inf.) e indicate da “-|” ! chiuse solo a sinistra (ossia includono l’estremo inf. ma non l’estremo sup.) e indicate da “|-” ! chiuse da entrambe le parti (ossia includono l’estremo sup. e l’estremo inf.) e indicate da “|-|” hanno una modalità in comune e NON è CORRETTO!
Esempio, Età:
≤25
25-|45
45-|65
>65
L’ampiezza è:
25-0=25
45-25=20
65-45=20
100-65=35 è
9 di 52 RAPPRESENTAZIONE GRAFICA DI DISTRIBUZIONI O SERIE Il passaggio dalla tabella ai grafici può essere un’operazione non facile, questo perché con un grafico si può involontariamente, o volontariamente, trarre in inganno chi lo guarda senza disporre della tabella da cui è stato derivato. ! Ci sono diversi tipi di grafici:! Grafici a BARRE per caratteri qualitativi ordinati, caratteri quantitativi discreti; $ $ $ Grafici a TORTA per caratteri qualitativi non ordinati o ordinati ciclici; (non ha un origine cioè non c’è lo 0)" $ $ $ $ $ Grafici a NASTRI per caratteri qualitativi non ordinati;$$ Grafici RADAR per caratteri ciclici; $ $ $ $ $ $ $ ISTOGRAMMI per caratteri quantitativi suddivisi in classi;$ $ $ $ $ $ CARTOGRAMMI per serie territoriali; (fenomeni che si verificano in varie regioni)$ $ $ DIAGRAMMI CARTESIANI per serie storiche.!
ISTOGRAMMA La distribuzione di un carattere quantitativo continuo suddiviso in classi si può rappresentare attraverso l’istogramma. Questo è un grafico costituito da barre non distanziate, dove ogni barra possiede un’area proporzionale alla frequenza della classe. Quando le classi hanno stessa ampiezza, l’altezza di ogni barra è proporzionale alla frequenza della classe corrispondente. ! Nell’ ISTOGRAMMA le basi possono essere uguali o differenti, se nell’ISTOGRAMMA le basi hanno la stessa altezza l’area perd...