Statistica DL cap01 introduzione PDF

Title Statistica DL cap01 introduzione
Course Statistica
Institution Università degli Studi di Firenze
Pages 13
File Size 956.4 KB
File Type PDF
Total Downloads 94
Total Views 175

Summary

appunti...


Description

Contatti

Statistica D-L Corso di Laurea in Economia Aziendale Corso di Laurea in Economia e Commercio Università di Firenze a.a. 2018/19

Monia Lupparelli Ricevimento: orario nella pagina web personale

Emanuela Dreassi

Emanuela Dreassi Monia Lupparelli

Ricevimento: su appuntamento (per e-mail: [email protected])

Capitolo 1 Introduzione

Dipartimento di Statistica, Informatica, Applicazioni (DiSIA), viale Morgagni 59



1

Materiale 

2

Come accedere a MOODLE

programma, diapositive, vecchi compiti, ecc. si trovano sulla piattaforma Moodle di Ateneo

E-learning http://e-l.unifi.it/



MOODLE è un software open source per la gestione dei corso on-line cui si accede dalla pagina WEB e-learnig http://e-l.unifi.it/



Per accedere alla piattaforma occorre essere registrati, quindi la prima volta  

3

autenticarsi inserendo Username e Password corrispondenti all'Autenticazione unica servizi CSIAF compilare il form successivo.

 Per altre informazioni vedere la guida http://e-l.unifi.it/file.php/1/Guida_rapida_Moodle_Unifi_studenti.pdf

4

Per accedere al materiale 

Libro di testo P. Newbold, W.L. Carlson, B. Thorne (2010) Statistica – Seconda edizione

Dalla home page di Moodle http://e-l.unifi.it/

Pearson / Prentice Hall  Cliccare

su Corsi di Laurea, Magistrale, Specialistica  Cliccare su Scuola di Economia e Management  Nella casella cerca corsi inserire

Libro + MyLab Corso STATISTICA EA/EC a.a. 2018/19 ID MyLAB XL01-21X0-0021-99R4

B018993 - Statistica 2018-19  Oppure

cercare il corso per a.a. 2018/19 nel CdS EA Traduzione di STATISTICS FOR BUSINESS AND ECONOMICS, 7th Ed. 6

5

Homework 



Regole d’esame

Ogni settimana troverete sulla piattaforma Mylab delle esercitazioni (Homework) da svolgere autonomamente e riconsegnare entro una scadenza prefissata. Queste esercitazioni vi saranno utili nella preparazione dell’esame.

  

Gli studenti che NON hanno un codice di accesso a Mylab possono svolgere le esercitazioni off-line scaricando il testo in PDF e caricare la propria soluzione su Moodle (immagine o testo).



L’esame è costituito da una prova scritta e da una breve prova orale. La prova orale consiste prevalentemente nella discussione della prova scritta Per essere ammessi all’orale è necessario aver conseguito un punteggio di almeno 18 alla prova scritta. Allo studente che:    



Per maggiori dettagli sulle regole per lo svolgimento e la valutazione degli Homework consultare Moodle.

ha svolto almeno l'80% degli homework (ovviamente nei tempi stabiliti); si è presentato in un appello della sessione estiva di questo a.a. (2018/2019); ha superato la prova scritta (ha ottenuto una votazione ≥18); e ha concluso con esito positivo la parte orale dell'esame

verrà riconosciuto un punto aggiuntivo nella votazione finale. 7

8

Origini della Statistica 



Cos’è la Statistica?

Il termine “statistica” deriva da “stato”: all’inizio la statistica riguardava la raccolta di dati relativi allo stato (numerosità della popolazione, numero di cannoni, quantità di raccolto di grano …) La formalizzazione matematica della statistica è recente



Statistica: l’arte e la scienza di imparare dai dati



Esistono molte definizioni formali, gli ingredienti essenziali sono i dati e l’uso di strumenti di analisi di tipo quantitativo

E’ facile mentire CON la statistica, ma è più facile mentire SENZA la statistica Cfr. D. Huff (1954) How to lie with statistics, recentemente tradotto in italiano (Come mentire con la statistica)

 XVIII

e XIX secolo: calcolo delle probabilità  prima metà del XX secolo: inferenza statistica, disegno degli esperimenti, campionamento statistico  anni 40 - anni 70: sviluppi teorici  dagli anni 70: sviluppi legati alle capacità di calcolo dei computer

I keep saying the sexy job in the next ten years will be statisticians. The ability to take data—to be able to understand it, to process it, to extract value from it, to visualize it, to communicate it—that’s going to be a hugely important skill in the next decades, not only at the professional level but even at the educational level for elementary school kids, for high school kids, for college kids. Because now we really do have essentially free and ubiquitous data. So the complimentary scarce factor is the ability to understand that data and extract value from it. Hal Varian Professor of information sciences, business, and economics at the University of California at Berkeley and Google's chief economist (McKinseyQuarterly, January 2009)

http://it.wikipedia.org/wiki/Storia_della_statistica 9

Cos’è la Statistica?

10

Statistica e matematica 

contesto Scelta dei dati

astrazione Metodologia statistica

contesto

La statistica è una scienza quantitativa, ma il modo di pensare ‘statistico’ è diverso da quello ‘matematico’ per almeno due aspetti  la

statistica non può prescindere dal contesto (dati) logica dell’inferenza statistica non è basata sulla deduzione (come la matematica) ma sull’induzione: dal particolare (ciò che si è osservato) al generale

 la

Interpretazione 

Apprendimento e valutazione del metodo prescindono dal tipo di applicazione 11

La matematica ha un ruolo strumentale, cioè consente di costruire gli strumenti che permettono l’analisi statistica (la matematica sta alla statistica come il martello sta al fabbro) 12

Imparare a leggere i dati 

Cos’è la statistica I

Quando leggete dei dati ricordate sempre che questi derivano da un processo



 Formulare

il problema di interesse i dati  Analizzare i dati  Interpretare i risultati



 Raccogliere



La statistica è la scienza che studia i metodi per la raccolta e l’analisi dei dati. La statistica è utilizzata per  fare

previsioni (del tempo, economiche, demografiche)  analizzare eventi del passato (i prezzi salgono? Il tasso di analfabetismo si è ridotto?)  per prendere decisioni (un certo vaccino è efficace? Conviene investire in un dato settore?)

Tutte le fasi del processo devono essere note per poter valutare i risultati

Se torturi i numeri abbastanza a lungo, confesseranno qualsiasi cosa. Gregg Easterbrook citazione da Darrell Huff (2007) Mentire con le statistiche, M&A. 13

Il ragionamento statistico

Importanza del giudizio critico 



La statistica prende in prestito dalla matematica un’aria di precisione e certezza, ma necessita del giudizio umano ed è quindi soggetta a distorsioni e interpretazioni errate Ecco due semplici esempi: 



14



Quanto è pericolosa una malattia? Dipende! Se la malattia ha un tasso di mortalità dello 0.1% questo può non destare troppa preoccupazione, ma se questa malattia è una malattia comune, può causare migliaia di morti ogni anno!

La statistica è un processo orientato alla soluzione di problemi che cerca di rispodere alle domande di interesse attraverso i dati.  La

popolazione sta crescendo o diminuendo?  Qual è il modo più sicuro per investire i propri risparmi?  Se si mangia più frutta e verdura si ha davvero una speranza di vita più lunga?

Come si misura lo stipendio medio di una certa categoria? Dipende! Per esempio, in una stanza ci sono 10 insegnanti i quali percepiscono uno stipendio tra i 1400 e i 2000 euro, con uno stipendio medio di 1750 euro e una mediana di 1775 euro; entra un’altra persona, il cui stipendio ammonta a 10000 euro: la media cresce di 750 euro mentre la mediana resta invariata.

15

16

Un esempio di ricerca in campo medico

L’aspirina riduce gli attacchi cardiaci?

L’assunzione abituale di aspirina riduce la possibilità di attacco cardiaco? 

L’Harvard Medical School ha condotto uno studio su 22000 medici maschi, che hanno assunto una pasticca contenente ASPIRINA o PLACEBO per tre mesi.



DISEGNO DELL’ESPERIMENTO

DESCRIZIONE DEI RISULTATI  La percentuale di persone che ha sofferto di attacchi cardiaci durante lo studio è stata  0.9% tra coloro che hanno preso l’aspirina  1.7% tra coloro che hanno assunto placebo

L’assegnazione al gruppo aspirina vs placebo è stata fatta con un meccanismo casuale (tipo lancio di una moneta)  11000 persone hanno preso l’aspirina (trattamento)  11000 hanno preso il placebo (controllo)  I partecipanti allo studio e chi ha rilevato i risultati NON sapevano se stavano prendendo aspirina o placebo, c.d. studio in doppio cieco 

INFERENZA Tramite metodo statistico, i ricercatori hanno stabilito che se TUTTI i medici maschi avessero partecipato a questo studio, l’incidenza di attacchi cardiaci sarebbe stata più bassa per coloro che avevano assunto aspirina

18

17

Fasi del metodo statistico 

Statistica descrittiva vs inferenziale

Disegno: come otteniamo i dati che servono a rispondere agli obiettivi della ricerca? di mercato: come selezionare le persone da intervistare in modo da ottenere dati che consentano di prevedere le vendite?

raccolta presentazione (grafici, tabelle)  caratterizzazione (statistiche)





Descrizione: come possiamo descrivere e sintetizzare i dati raccolti? I

dati sulle vendite on-line di televisori sono tantissimi, per estrarre informazioni sarà necessario sintetizzare p.e. attraverso grafici, tabelle, percentuali



Statistica Inferenziale



 Indagine



Statistica Descrittiva

di un insieme di dati allo scopo di descriverne le caratteristiche

Inferenza: come possiamo generalizzare i risultati, fare previsioni e prendere decisioni? 19

stima di una particolare caratteristica relativa alla popolazione di interesse (stima puntuale, intervalli)

sulla base dell’osservazione di un campione, allo scopo di generalizzare il risultato all’intera collettività (ci serviranno anche nozioni di probabilità!) 20

Un caso di discriminazione sul lavoro 

Robert Martin

Avete letto sul giornale che un’azienda ha licenziato un certo numero di dipendenti ed è stata citata in giudizio per discriminazione.



È

possibile capire se l’impresa sta trattando certi tipi di persone differentemente, in maniera sistematica?  Oppure se i dipendenti licenziati sono stati licenziati per ‘giusta causa’ o sono stati sfortunati? 



Come si fa a saperlo? Vedremo come la STATISTICA possa aiutare a rispondere a domande difficili, come questa.

 

Robert Martin era uno dei 50 dipendenti che lavoravano al Dipartimento di ingegneria della Westvaco A un certo punto la Westvaco decise di ridurre il personale, licenziando a più riprese: prima 11, poi altri 9 dipendenti, e poi ancora, fino a restare con solo 22 dei 50 lavoratori iniziali. L’età media dei dipendenti passò da 48 a 46. Martin aveva 54 anni quando venne licenziato e decise di citare in giudizio la Westvaco per discriminazione basata sull’età.

21

22

I dati 

Variabili e variabilità

Nel processo furono utilizzati i dati relativi a tutti e 50 i lavoratori e fu richiesta la perizia di uno statistico.



Le colonne (caratteristiche dei dipendenti) sono le c.d. variabili  leggere lungo una colonna ci fa capire come siano diversi tra loro i dipendenti, per esempio per età (Age)



È la presenza di variabilità nei dati che richiede l’intervento della statistica per capire cosa è successo: Se tutti i dipendenti avessero la stessa età sarebbe facile concludere che non c’è stata discriminazione, così come se ci fossero solo due gruppi di età, p.e. 30 e 50, in tal caso se Westvaco avesse licenziato solo 50-enni potevamo concludere senza aiuto della Statistica che c’è stata discriminazione!  … ma l’età dei lavoratori, sia licenziati che non, varia! 





Ogni riga della matrice dei dati corrisponde a un dipendente, e ogni colonna ad una caratteristica: posizione lavorativa, tipo di contratto, mese e anno di assunzione, età nel 1991 La colonna Round indica se il lavoratore è stato licenziato (1-5) o no (0).



23

La Statistica fornisce gli srtumenti necessari per il trattamento della variabilità 24

Distribuzione per età: licenziati vs non licenziati

Distribuzione per età 

 



Dai dati vediamo che l’età varia, ma non è facile capire COME varia  Quali valori assume? Quante volte si ripete ogni valore? Per capire come varia l’età possiamo fare un grafico. Consideriamo i 36 lavoratori a tempo pieno prima che iniziassero i licenziamenti



Per capire se c’è stata discriminazione per età confrontiamo la distribuzione di licenziati (laid off) e non licenziati (retained)



Dal grafico non è chiarissimo se i licenziati siano più anziani di coloro che restano ….

Dot-plot: ogni puntino rappresenta un lavoratore

26

25

C’è discriminazione? 

 

C’è di mezzo il caso? 

Per capire se Martin ha ragione, confrontiamo la propozione di licenziati tra coloro che hanno meno di 50 anni (6 su 16, cioè 0.375) e coloro che hanno 50 anni o più (12 su 20, cioè 0.60) Queste due proporzioni sono molto diverse! Un argomento a favore di Martin … I dati ci danno un segnale, ma bisogna essere cauti prima di arrivare a conclusioni errate

  

l’andamento per età osservato alla Westvaco può essere “reale”, cioè riflettere discriminazione per età ….  … oppure può essere dovuto al caso

È necessario capire le cause della variabilità osservata prima di trarre conclusioni. Consideriamo l’età di 10 lavoratori Osserviamo: tutti e tre i lavoratori licenziati hanno un’età superiore alla media dei lavoratori. Però attenzione: stiamo esaminando i dati di 10 lavoratori soltanto, con 3 soli licenziamenti. Basta una piccola variazione nelle età e si ha un quadro completamente differente: per esempio, se viene licenziato un 25-enne al posto di un 64-enne cosa accade? .





 

Voi cosa ne pensate: l’andamento è reale o casuale?

Dati reali: 25 33 35 38 48 55 55 55 56 64 età media licenziati 58 Dati alterati: 25 33 35 38 48 55 55 55 56 64 età media licenziati 45

(età dei licenziati in rosso) 27

28

Come capire se i risultati sono dovuti al caso?

Sintesi dei dati 



Per semplificare l’analisi dei dati abbiamo utilizzato una loro sintesi, espressa da un singolo valore numerico: la MEDIA ARITMETICA





Se non ci fosse discriminazione, ogni lavoratore avrebbe la stessa probabilità di essere licenziato a prescindere dalla propria età … … proviamo a estrarre a caso più volte i tre lavoratori da licenziare e calcoliamo l’età media dei licenziati

Età media dei lavoratori:  Licenziati  NON

(55+55+64)/3= 58,0 anni lcenziati (25+33+…+56 )/7= 41,4 anni

   

25 33 35 38 48 55 55 55 56 64 25 33 35 38 48 55 55 55 56 64 25 33 35 38 48 55 55 55 56 64 25 33 35 38 48 55 55 55 56 64

età media licenziati 42.7 48.0 42.7 37.0

(età dei licenziati in rosso) 29

L’effetto del CASO: simulazione

Distribuzione dell’età media dei 3 lavoratori licenziati in 200 simulazioni

30

Esempio di inferenza statistica

Solo in 10 ripetizioni su 200 l’età media dei licenziati è 58 o più alta, cioè nel 5% dei casi.  la probabilità di ottenere una media di 58 per puro caso è piccola  ci deve essere un’altra spiegazione  Viceversa, se la probabilità di 58 non fosse stata piccola, si poteva attribuire quanto osservato al caso.

Qual è la proporzione di persone che scrivono con la mano sinistra? N= numero di persone; M= n. di “mancini” Quanto vale p=M/N ? Campione di 100 persone, di cui 5 sono mancini pˆ = 5/100 = 0.05

p  pˆ

Conclusione

per errore di campionamento

Inferenza statistica  quantificazione dell’errore

Nel caso Martin vs. Westvaco, la probabilità di 0.05 indica che la Westvaco deve fornire qualche spiegazione per i licenziamenti. Tuttavia questa evidenza non sarebbe sufficiente come prova in un tribunale USA (0.025 o meno).

Es. si arriva ad affermare che, con elevata probabilità, 31

p  0.02; 0.08 32

Alcuni termini ‘statistici’…      

POPOLAZIONE insieme di elementi di qualsiasi natura

Popolazione o Collettivo statistico: insieme che interessa studiare Unità statistica: elemento della popolazione Dati: risultato della rilevazione-misurazione di caratteristiche delle unità statistiche Variabile o Carattere: caratteristica rilevatamisurata sulle unità statistiche Modalità: valori distinti assunti da una variabile Campione: sottoinsieme della popolazione oggetto della rilevazione

Unità Statistiche semplici

  

Una persona Un soldato Un albero

composte   

Una famiglia Un reggimento Un bosco

33

Statistica, dati, variabilità  

Fonti di variabilità

La Statistica è una scienza che mira ad estrarre informazioni dai dati La ragione della Statistica risiede nella variabilità dei dati: ogni carattere assume valori diversi nelle unità statistiche

La variabilità nei dati si riscontra:  in due misurazioni dello stesso oggetto (errore di misura: es. due misurazioni in contemporanea del battito cardiaco)  misurazione di due oggetti diversi (es. battito cardiaco di due persone, oppure battito cardiaco della stessa persona in due momenti)  nei processi casuali (es. due estrazioni con reintroduzione da un’urna contenente palline numerate da 1 a 20)

 es.

con riferimento al carattere “Esito dell’esame”, alcuni presentano la modalità “Promosso”, altri la modalità “Respinto”



34

Se il mondo fosse perfettamente prevedibile e non ci fosse variabilità, non ci sarebbe bisogno della Statistica 35

36

Matrice dei dati

 



VARIABILI

Etichette di identificazione

I dati sono di solito raccolti in forma RETTANGOLARE: matrice righe × colonne

UNITÀ STATISTICHE



Esempio: matrice dei dati

ogni riga della matrice corrisponde ad una unità di osservazione ogni colonna della matrice corrisponde ad una variabile

unità u Alpio Caio Prima Velio Rufa Sesto Beowulf Sebaste

id 1 2 3 4 5 6 7 8

SESSO ETA' (a.c.) LIVISTR DIST(KM) M 28 2 5 M 17 4 7.5 F 20 4 12 M 32 2 3.2 F 16 1 M 34 2 12.3 M 18 1 25 F

25

2

7.7

Modalità delle va...


Similar Free PDFs