Title | Statistica DL cap01 introduzione |
---|---|
Course | Statistica |
Institution | Università degli Studi di Firenze |
Pages | 13 |
File Size | 956.4 KB |
File Type | |
Total Downloads | 94 |
Total Views | 175 |
appunti...
Contatti
Statistica D-L Corso di Laurea in Economia Aziendale Corso di Laurea in Economia e Commercio Università di Firenze a.a. 2018/19
Monia Lupparelli Ricevimento: orario nella pagina web personale
Emanuela Dreassi
Emanuela Dreassi Monia Lupparelli
Ricevimento: su appuntamento (per e-mail: [email protected])
Capitolo 1 Introduzione
Dipartimento di Statistica, Informatica, Applicazioni (DiSIA), viale Morgagni 59
1
Materiale
2
Come accedere a MOODLE
programma, diapositive, vecchi compiti, ecc. si trovano sulla piattaforma Moodle di Ateneo
E-learning http://e-l.unifi.it/
MOODLE è un software open source per la gestione dei corso on-line cui si accede dalla pagina WEB e-learnig http://e-l.unifi.it/
Per accedere alla piattaforma occorre essere registrati, quindi la prima volta
3
autenticarsi inserendo Username e Password corrispondenti all'Autenticazione unica servizi CSIAF compilare il form successivo.
Per altre informazioni vedere la guida http://e-l.unifi.it/file.php/1/Guida_rapida_Moodle_Unifi_studenti.pdf
4
Per accedere al materiale
Libro di testo P. Newbold, W.L. Carlson, B. Thorne (2010) Statistica – Seconda edizione
Dalla home page di Moodle http://e-l.unifi.it/
Pearson / Prentice Hall Cliccare
su Corsi di Laurea, Magistrale, Specialistica Cliccare su Scuola di Economia e Management Nella casella cerca corsi inserire
Libro + MyLab Corso STATISTICA EA/EC a.a. 2018/19 ID MyLAB XL01-21X0-0021-99R4
B018993 - Statistica 2018-19 Oppure
cercare il corso per a.a. 2018/19 nel CdS EA Traduzione di STATISTICS FOR BUSINESS AND ECONOMICS, 7th Ed. 6
5
Homework
Regole d’esame
Ogni settimana troverete sulla piattaforma Mylab delle esercitazioni (Homework) da svolgere autonomamente e riconsegnare entro una scadenza prefissata. Queste esercitazioni vi saranno utili nella preparazione dell’esame.
Gli studenti che NON hanno un codice di accesso a Mylab possono svolgere le esercitazioni off-line scaricando il testo in PDF e caricare la propria soluzione su Moodle (immagine o testo).
L’esame è costituito da una prova scritta e da una breve prova orale. La prova orale consiste prevalentemente nella discussione della prova scritta Per essere ammessi all’orale è necessario aver conseguito un punteggio di almeno 18 alla prova scritta. Allo studente che:
Per maggiori dettagli sulle regole per lo svolgimento e la valutazione degli Homework consultare Moodle.
ha svolto almeno l'80% degli homework (ovviamente nei tempi stabiliti); si è presentato in un appello della sessione estiva di questo a.a. (2018/2019); ha superato la prova scritta (ha ottenuto una votazione ≥18); e ha concluso con esito positivo la parte orale dell'esame
verrà riconosciuto un punto aggiuntivo nella votazione finale. 7
8
Origini della Statistica
Cos’è la Statistica?
Il termine “statistica” deriva da “stato”: all’inizio la statistica riguardava la raccolta di dati relativi allo stato (numerosità della popolazione, numero di cannoni, quantità di raccolto di grano …) La formalizzazione matematica della statistica è recente
Statistica: l’arte e la scienza di imparare dai dati
Esistono molte definizioni formali, gli ingredienti essenziali sono i dati e l’uso di strumenti di analisi di tipo quantitativo
E’ facile mentire CON la statistica, ma è più facile mentire SENZA la statistica Cfr. D. Huff (1954) How to lie with statistics, recentemente tradotto in italiano (Come mentire con la statistica)
XVIII
e XIX secolo: calcolo delle probabilità prima metà del XX secolo: inferenza statistica, disegno degli esperimenti, campionamento statistico anni 40 - anni 70: sviluppi teorici dagli anni 70: sviluppi legati alle capacità di calcolo dei computer
I keep saying the sexy job in the next ten years will be statisticians. The ability to take data—to be able to understand it, to process it, to extract value from it, to visualize it, to communicate it—that’s going to be a hugely important skill in the next decades, not only at the professional level but even at the educational level for elementary school kids, for high school kids, for college kids. Because now we really do have essentially free and ubiquitous data. So the complimentary scarce factor is the ability to understand that data and extract value from it. Hal Varian Professor of information sciences, business, and economics at the University of California at Berkeley and Google's chief economist (McKinseyQuarterly, January 2009)
http://it.wikipedia.org/wiki/Storia_della_statistica 9
Cos’è la Statistica?
10
Statistica e matematica
contesto Scelta dei dati
astrazione Metodologia statistica
contesto
La statistica è una scienza quantitativa, ma il modo di pensare ‘statistico’ è diverso da quello ‘matematico’ per almeno due aspetti la
statistica non può prescindere dal contesto (dati) logica dell’inferenza statistica non è basata sulla deduzione (come la matematica) ma sull’induzione: dal particolare (ciò che si è osservato) al generale
la
Interpretazione
Apprendimento e valutazione del metodo prescindono dal tipo di applicazione 11
La matematica ha un ruolo strumentale, cioè consente di costruire gli strumenti che permettono l’analisi statistica (la matematica sta alla statistica come il martello sta al fabbro) 12
Imparare a leggere i dati
Cos’è la statistica I
Quando leggete dei dati ricordate sempre che questi derivano da un processo
Formulare
il problema di interesse i dati Analizzare i dati Interpretare i risultati
Raccogliere
La statistica è la scienza che studia i metodi per la raccolta e l’analisi dei dati. La statistica è utilizzata per fare
previsioni (del tempo, economiche, demografiche) analizzare eventi del passato (i prezzi salgono? Il tasso di analfabetismo si è ridotto?) per prendere decisioni (un certo vaccino è efficace? Conviene investire in un dato settore?)
Tutte le fasi del processo devono essere note per poter valutare i risultati
Se torturi i numeri abbastanza a lungo, confesseranno qualsiasi cosa. Gregg Easterbrook citazione da Darrell Huff (2007) Mentire con le statistiche, M&A. 13
Il ragionamento statistico
Importanza del giudizio critico
La statistica prende in prestito dalla matematica un’aria di precisione e certezza, ma necessita del giudizio umano ed è quindi soggetta a distorsioni e interpretazioni errate Ecco due semplici esempi:
14
Quanto è pericolosa una malattia? Dipende! Se la malattia ha un tasso di mortalità dello 0.1% questo può non destare troppa preoccupazione, ma se questa malattia è una malattia comune, può causare migliaia di morti ogni anno!
La statistica è un processo orientato alla soluzione di problemi che cerca di rispodere alle domande di interesse attraverso i dati. La
popolazione sta crescendo o diminuendo? Qual è il modo più sicuro per investire i propri risparmi? Se si mangia più frutta e verdura si ha davvero una speranza di vita più lunga?
Come si misura lo stipendio medio di una certa categoria? Dipende! Per esempio, in una stanza ci sono 10 insegnanti i quali percepiscono uno stipendio tra i 1400 e i 2000 euro, con uno stipendio medio di 1750 euro e una mediana di 1775 euro; entra un’altra persona, il cui stipendio ammonta a 10000 euro: la media cresce di 750 euro mentre la mediana resta invariata.
15
16
Un esempio di ricerca in campo medico
L’aspirina riduce gli attacchi cardiaci?
L’assunzione abituale di aspirina riduce la possibilità di attacco cardiaco?
L’Harvard Medical School ha condotto uno studio su 22000 medici maschi, che hanno assunto una pasticca contenente ASPIRINA o PLACEBO per tre mesi.
DISEGNO DELL’ESPERIMENTO
DESCRIZIONE DEI RISULTATI La percentuale di persone che ha sofferto di attacchi cardiaci durante lo studio è stata 0.9% tra coloro che hanno preso l’aspirina 1.7% tra coloro che hanno assunto placebo
L’assegnazione al gruppo aspirina vs placebo è stata fatta con un meccanismo casuale (tipo lancio di una moneta) 11000 persone hanno preso l’aspirina (trattamento) 11000 hanno preso il placebo (controllo) I partecipanti allo studio e chi ha rilevato i risultati NON sapevano se stavano prendendo aspirina o placebo, c.d. studio in doppio cieco
INFERENZA Tramite metodo statistico, i ricercatori hanno stabilito che se TUTTI i medici maschi avessero partecipato a questo studio, l’incidenza di attacchi cardiaci sarebbe stata più bassa per coloro che avevano assunto aspirina
18
17
Fasi del metodo statistico
Statistica descrittiva vs inferenziale
Disegno: come otteniamo i dati che servono a rispondere agli obiettivi della ricerca? di mercato: come selezionare le persone da intervistare in modo da ottenere dati che consentano di prevedere le vendite?
raccolta presentazione (grafici, tabelle) caratterizzazione (statistiche)
Descrizione: come possiamo descrivere e sintetizzare i dati raccolti? I
dati sulle vendite on-line di televisori sono tantissimi, per estrarre informazioni sarà necessario sintetizzare p.e. attraverso grafici, tabelle, percentuali
Statistica Inferenziale
Indagine
Statistica Descrittiva
di un insieme di dati allo scopo di descriverne le caratteristiche
Inferenza: come possiamo generalizzare i risultati, fare previsioni e prendere decisioni? 19
stima di una particolare caratteristica relativa alla popolazione di interesse (stima puntuale, intervalli)
sulla base dell’osservazione di un campione, allo scopo di generalizzare il risultato all’intera collettività (ci serviranno anche nozioni di probabilità!) 20
Un caso di discriminazione sul lavoro
Robert Martin
Avete letto sul giornale che un’azienda ha licenziato un certo numero di dipendenti ed è stata citata in giudizio per discriminazione.
È
possibile capire se l’impresa sta trattando certi tipi di persone differentemente, in maniera sistematica? Oppure se i dipendenti licenziati sono stati licenziati per ‘giusta causa’ o sono stati sfortunati?
Come si fa a saperlo? Vedremo come la STATISTICA possa aiutare a rispondere a domande difficili, come questa.
Robert Martin era uno dei 50 dipendenti che lavoravano al Dipartimento di ingegneria della Westvaco A un certo punto la Westvaco decise di ridurre il personale, licenziando a più riprese: prima 11, poi altri 9 dipendenti, e poi ancora, fino a restare con solo 22 dei 50 lavoratori iniziali. L’età media dei dipendenti passò da 48 a 46. Martin aveva 54 anni quando venne licenziato e decise di citare in giudizio la Westvaco per discriminazione basata sull’età.
21
22
I dati
Variabili e variabilità
Nel processo furono utilizzati i dati relativi a tutti e 50 i lavoratori e fu richiesta la perizia di uno statistico.
Le colonne (caratteristiche dei dipendenti) sono le c.d. variabili leggere lungo una colonna ci fa capire come siano diversi tra loro i dipendenti, per esempio per età (Age)
È la presenza di variabilità nei dati che richiede l’intervento della statistica per capire cosa è successo: Se tutti i dipendenti avessero la stessa età sarebbe facile concludere che non c’è stata discriminazione, così come se ci fossero solo due gruppi di età, p.e. 30 e 50, in tal caso se Westvaco avesse licenziato solo 50-enni potevamo concludere senza aiuto della Statistica che c’è stata discriminazione! … ma l’età dei lavoratori, sia licenziati che non, varia!
Ogni riga della matrice dei dati corrisponde a un dipendente, e ogni colonna ad una caratteristica: posizione lavorativa, tipo di contratto, mese e anno di assunzione, età nel 1991 La colonna Round indica se il lavoratore è stato licenziato (1-5) o no (0).
23
La Statistica fornisce gli srtumenti necessari per il trattamento della variabilità 24
Distribuzione per età: licenziati vs non licenziati
Distribuzione per età
Dai dati vediamo che l’età varia, ma non è facile capire COME varia Quali valori assume? Quante volte si ripete ogni valore? Per capire come varia l’età possiamo fare un grafico. Consideriamo i 36 lavoratori a tempo pieno prima che iniziassero i licenziamenti
Per capire se c’è stata discriminazione per età confrontiamo la distribuzione di licenziati (laid off) e non licenziati (retained)
Dal grafico non è chiarissimo se i licenziati siano più anziani di coloro che restano ….
Dot-plot: ogni puntino rappresenta un lavoratore
26
25
C’è discriminazione?
C’è di mezzo il caso?
Per capire se Martin ha ragione, confrontiamo la propozione di licenziati tra coloro che hanno meno di 50 anni (6 su 16, cioè 0.375) e coloro che hanno 50 anni o più (12 su 20, cioè 0.60) Queste due proporzioni sono molto diverse! Un argomento a favore di Martin … I dati ci danno un segnale, ma bisogna essere cauti prima di arrivare a conclusioni errate
l’andamento per età osservato alla Westvaco può essere “reale”, cioè riflettere discriminazione per età …. … oppure può essere dovuto al caso
È necessario capire le cause della variabilità osservata prima di trarre conclusioni. Consideriamo l’età di 10 lavoratori Osserviamo: tutti e tre i lavoratori licenziati hanno un’età superiore alla media dei lavoratori. Però attenzione: stiamo esaminando i dati di 10 lavoratori soltanto, con 3 soli licenziamenti. Basta una piccola variazione nelle età e si ha un quadro completamente differente: per esempio, se viene licenziato un 25-enne al posto di un 64-enne cosa accade? .
Voi cosa ne pensate: l’andamento è reale o casuale?
Dati reali: 25 33 35 38 48 55 55 55 56 64 età media licenziati 58 Dati alterati: 25 33 35 38 48 55 55 55 56 64 età media licenziati 45
(età dei licenziati in rosso) 27
28
Come capire se i risultati sono dovuti al caso?
Sintesi dei dati
Per semplificare l’analisi dei dati abbiamo utilizzato una loro sintesi, espressa da un singolo valore numerico: la MEDIA ARITMETICA
Se non ci fosse discriminazione, ogni lavoratore avrebbe la stessa probabilità di essere licenziato a prescindere dalla propria età … … proviamo a estrarre a caso più volte i tre lavoratori da licenziare e calcoliamo l’età media dei licenziati
Età media dei lavoratori: Licenziati NON
(55+55+64)/3= 58,0 anni lcenziati (25+33+…+56 )/7= 41,4 anni
25 33 35 38 48 55 55 55 56 64 25 33 35 38 48 55 55 55 56 64 25 33 35 38 48 55 55 55 56 64 25 33 35 38 48 55 55 55 56 64
età media licenziati 42.7 48.0 42.7 37.0
(età dei licenziati in rosso) 29
L’effetto del CASO: simulazione
Distribuzione dell’età media dei 3 lavoratori licenziati in 200 simulazioni
30
Esempio di inferenza statistica
Solo in 10 ripetizioni su 200 l’età media dei licenziati è 58 o più alta, cioè nel 5% dei casi. la probabilità di ottenere una media di 58 per puro caso è piccola ci deve essere un’altra spiegazione Viceversa, se la probabilità di 58 non fosse stata piccola, si poteva attribuire quanto osservato al caso.
Qual è la proporzione di persone che scrivono con la mano sinistra? N= numero di persone; M= n. di “mancini” Quanto vale p=M/N ? Campione di 100 persone, di cui 5 sono mancini pˆ = 5/100 = 0.05
p pˆ
Conclusione
per errore di campionamento
Inferenza statistica quantificazione dell’errore
Nel caso Martin vs. Westvaco, la probabilità di 0.05 indica che la Westvaco deve fornire qualche spiegazione per i licenziamenti. Tuttavia questa evidenza non sarebbe sufficiente come prova in un tribunale USA (0.025 o meno).
Es. si arriva ad affermare che, con elevata probabilità, 31
p 0.02; 0.08 32
Alcuni termini ‘statistici’…
POPOLAZIONE insieme di elementi di qualsiasi natura
Popolazione o Collettivo statistico: insieme che interessa studiare Unità statistica: elemento della popolazione Dati: risultato della rilevazione-misurazione di caratteristiche delle unità statistiche Variabile o Carattere: caratteristica rilevatamisurata sulle unità statistiche Modalità: valori distinti assunti da una variabile Campione: sottoinsieme della popolazione oggetto della rilevazione
Unità Statistiche semplici
Una persona Un soldato Un albero
composte
Una famiglia Un reggimento Un bosco
33
Statistica, dati, variabilità
Fonti di variabilità
La Statistica è una scienza che mira ad estrarre informazioni dai dati La ragione della Statistica risiede nella variabilità dei dati: ogni carattere assume valori diversi nelle unità statistiche
La variabilità nei dati si riscontra: in due misurazioni dello stesso oggetto (errore di misura: es. due misurazioni in contemporanea del battito cardiaco) misurazione di due oggetti diversi (es. battito cardiaco di due persone, oppure battito cardiaco della stessa persona in due momenti) nei processi casuali (es. due estrazioni con reintroduzione da un’urna contenente palline numerate da 1 a 20)
es.
con riferimento al carattere “Esito dell’esame”, alcuni presentano la modalità “Promosso”, altri la modalità “Respinto”
34
Se il mondo fosse perfettamente prevedibile e non ci fosse variabilità, non ci sarebbe bisogno della Statistica 35
36
Matrice dei dati
VARIABILI
Etichette di identificazione
I dati sono di solito raccolti in forma RETTANGOLARE: matrice righe × colonne
UNITÀ STATISTICHE
Esempio: matrice dei dati
ogni riga della matrice corrisponde ad una unità di osservazione ogni colonna della matrice corrisponde ad una variabile
unità u Alpio Caio Prima Velio Rufa Sesto Beowulf Sebaste
id 1 2 3 4 5 6 7 8
SESSO ETA' (a.c.) LIVISTR DIST(KM) M 28 2 5 M 17 4 7.5 F 20 4 12 M 32 2 3.2 F 16 1 M 34 2 12.3 M 18 1 25 F
25
2
7.7
Modalità delle va...