Statistica - riassunto completo del corso PDF

Title Statistica - riassunto completo del corso
Course Analisi dei dati e Statistica
Institution Università degli Studi di Trento
Pages 111
File Size 7.4 MB
File Type PDF
Total Downloads 39
Total Views 343

Summary

Warning: TT: undefined function: 32STATISTICALezione 1Dati: fatti relativi al mondo circostante costantemente diffusi come numeri da un numero crescente di fonti Come porsi davanti alla grande disponibilità di dati? Ignorarli, sperando per il meglio Fidarsi dell’interpretazione dei dati fornita da t...


Description

STATISTICA Lezione 1 Dati: fatti relativi al mondo circostante costantemente diffusi come numeri da un numero crescente di fonti Come porsi davanti alla grande disponibilità di dati? • Ignorarli, sperando per il meglio • Fidarsi dell’interpretazione dei dati fornita da terze parti • Sviluppare una propria capacità di comprensione attraverso la statistica e le sue applicazioni nell’ambito dell’economia aziendale Cos’è la statistica? È una disciplina scientifica che consente di elaborare i dati in modo efficace, così da prendere decisioni migliori Permette di acquisire conoscenza su un’ampia gamma di problemi e fenomeni in molti ambiti applicativi

S t a t i s t i c a d e s cr i t t i va e i n f e r e n z i a l e • Statistica descrittiva è la raccolta, sintesi, presentazione e analisi di insiemi di dati (tabelle, grafici, media, mediana e deviazione standard) • Statistica inferenziale partendo da un campione, si possono trarre conclusioni probabilistiche valide per tutta la popolazione. Permettono di prendere decisioni su quale strategia di marketing adottare, quale investimento scegliere ecc... Terminologia Variabile: caratteristica misurabile di un oggetto/individuo (ad esempio il peso) Dati: valori individuali associati alla variabile (genere, titolo di studio) Statistica: metodi per trasformare i dati in informazioni fruibili per prendere decisioni Approccio per minimizzare il margine di errore Metodo di calcolo/ di pensare da utilizzare quando si studiano dati “approccio DCOVA” DEFINIRE i dati che si vogliono studiare RACCOGLIERE i dati da fonti appropriate ORGANIZZARE i dati (tabelle) VISUALIZZARE i dati (grafici) ANALIZZARE i dati per trarre conclusioni In questo modo è possibile visualizzare i dati e ottenerne informazioni utilizzabili per fare previsioni sulle attività aziendali/migliorare i processi aziendali La statistica per le aziende

1

Approccio Business Analytics, utilizzo di dati per anticipare trend e risultati attraverso data mining, analisi statistica e modellazione predittiva, al fine di prendere decisioni aziendali più informate. Consente di • Utilizzare metodi statistici per esplorare i dati e scoprire relazioni impreviste • Sviluppare modelli di ottimizzazione a qualsiasi livello di gestione - gestione risorse umane (relazione tra gestione risorse umane e risultati, competenze e motivazione dei dipendenti - analisi finanziaria (perché si verificano determinate tendenze) - marketing (programmi di fidelizzazione; decisioni di acquisto dei clienti) - approvvigionamento (ottimizzare la distribuzione delle vendite sulla base di indicatore chiave) • Utilizzare metodi informatici per raccogliere ed elaborare insiemi di dati di tutte le dimensioni “Big data” e uso della Business Analytics Big data: grandi masse di dati raccolti automaticamente e sempre più velocemente Per trattare questo tipo di dati, poco strutturati e molto vari, è necessaria la Business Analytics. Le aziende che l’hanno adottata hanno mostrato un aumento della produttività, dell’innovazione e, di conseguenza, della competitività

Lezione 2

LA STATISTICA IN PRATICA Dopo aver definito l’obiettivo (decisione di acquisto, efficacia di una pubblicità..) finisce la fase di definizione del problema e inizia quella del processo di identificazione dei dati necessari a raggiungere l’obiettivo: 1. Vanno definite le variabili, partendo da una definizione operativa delle stesse: il tipo di variabile, il range di valori, l’unità di misura 2. Bisogna raccogliere i dati relativi alle variabili

2

T i p i d i va r i a b il i

VARIABILI CATEGORICHE (qualitative) Assumono categorie non misurabili come valori (sì/no, blu, verde…) • Nominali: le modalità identificano qualità/caratteristiche del soggetto • Ordinali: le modalità identificano categorie che possono essere messe in relazione d’ordine o gerarchica (esiste un ordine intrinseco: titolo di studio, grado di soddisfazione) VARIABILI NUMERICHE (quantitative) Le categorie assumono valori che hanno una quantità contata o misurata • Discrete: possono assumere un numero limitato di valori numerici; derivano da un processo di conteggio (numero di visitatori, incidenti...) • Continue: possono assumere qualunque valore compreso in un intervallo definito; sono ottenute mediante un processo di misurazione (peso,

distanza, tempo…) Esempi di tipi di variabili 3

Ricorrere a definizioni operative corrette è fondamentale per evitare confusione/errori: variabili di tipo diverso si misurano con metodi differenti Arrivare alla definizione operativa è parte fondamentale del passaggio “definire” di DCOVA (soprattutto se si fa uso di sondaggi)

L e f o n ti de i d at i PRIMARIE: chi raccoglie i dati è lo stesso soggetto che li utilizza (dati raccolti con un esperimento, con un sondaggio politico, osservati) SECONDARIE: chi esegue l’analisi non è lo stesso soggetto che ha raccolto i dati (analisi dati censuari, provenienti dalla rete/giornali) Categorie per le fonti di dati 1. Dati forniti da organizzazioni/soggetti privati Dati finanziari su una società forniti da servizi di investimento; dati di settore/mercato forniti da associazioni di categoria; prezzi delle azioni/meteo forniti da quotidiani 2. Dati provenienti da disegni sperimentali Test sui consumatori; test sui materiali; test di mercato relativi a promozioni per capire quale utilizzare 3. Dati provenienti da un’indagine campionaria Sondaggio sul prodotto migliore; intenzioni di voto; soddisfazione per un prodotto/servizio 4. Dati raccolti mediante studi osservazionali Focus group per ottenere risposte non strutturate a domande aperte; tempo per servire i clienti in un locale; volume di traffico a un incrocio a una data ora 5. Dati provenienti da attività di business continuative Banca che studia da anni transazioni per individuare schemi di frode; social network che raccolgono/conservano dati di tracciamento per valutare l’efficacia del servizio offerto I dati vengono raccolti da una popolazione o da un campione? Popolazione: tutti gli elementi/individui su cui si vogliono trarre conclusioni (grande gruppo) Campione: porzione di una popolazione selezionata per l’analisi (piccolo gruppo) Selezionare un campione richiede meno tempo, meno risorse ed e più facile e pratico Aspetti da considerare quando si considerano le fonti di dati • Sono strutturati (seguono un principio organizzativo; come le tabelle o i ticket di borsa) o non strutturati (e-mail di persone diverse/sms; non ci sono informazioni condivise in un ordine o formato specifico) • Come vengono formattati/codificati?

4

Alcuni formati sono più facilmente utilizzabili; codifiche diverse possono influire sulla precisione delle variabili/compatibilità dei dati Prima parte del processo di campionamento: la lista di campionamento E’ l’elenco di tutti gli elementi che compongono la popolazione (ad esempio elenchi o mappe) Si hanno risultati imprecisi se la lista esclude porzioni della popolazione L’uso di liste diverse può portare a risultati differenti

Me t od i di c a m pi on a me n to A) CAMPIONAMENTO NON PROBABILISTICO

Gli elementi inclusi vengono scelti indipendentemente della loro probabilità di occorrenza Di convenienza: elementi facili/economici da campionare; gli elementi si auto selezionano A scelta ragionata: opinioni di esperti o testimoni privilegiati B) CAMPIONAMENTO PROBABILISTICO Gli elementi vengono scelti in base a probabilità note; si hanno dati più affidabili Casuale semplice: - Ogni elemento/individuo ha la stessa probabilità di essere selezionato - L’oggetto selezionato può essere re immesso nella popolazione per un’eventuale nuova selezione - Può essere effettuata sulla base di una tavola/generatore di numeri causali Sistematico: - si decide la dimensione del campione: n - la popolazione di N individui viene divisa in gruppi di k individui - Si seleziona un individuo per ogni k Stratificato: Metodo “migliore”; la popolazione è un gruppo disomogeneo. Tecnica comune quando si campionano, ad esempio, gli elettori

-

Si divide la popolazione in 2 o più sottogruppi (strati) con caratteristiche comuni Si prende un campione casuale semplice da ogni strato I campioni provenienti da diversi sottogruppi sono combinati in un unico campione

A grappolo Comunemente usato per gli exit poll, in cui si esaminano determinati distretti elettorali la popolazione è divisa in grappoli rappresentativi - Si seleziona un campione casuale di grappoli - Si possono utilizzare o meno tutti gli individui dei grappoli considerazioni: • I primi 2 metodi sono i più facili da usare e possono rappresentare bene le caratteristiche della popolazione • Il campionamento stratificato assicura la rappresentatività • Il campionamento a grappolo è più costoso e meno efficiente (ha bisogno di un campione ampio per essere più preciso)

Ti po l og i e di er r o r i d i c am p io na m en t o • Ricordando che un margine di errore esiste sempre • Errori di copertura: gruppi di soggetti rappresentativi esclusi dalla lista della popolazione • Errore da mancata risposta: i soggetti che non rispondono possono essere diversi da quelli che, invece, lo fanno • Errore di campionamento: differenze casuali da campione a campione che esistono sempre • Errore di misurazione: formulazione errata/debolezza della domanda; approssimazione dell’intervistato

6

Lezione 3

LA P PR RESENTAZIONE D DE EI DATI: GRAFICI E TABELL LLE E Capitolo 2 Obiettivi 1.Organizzare le variabili qualitative/categoriche 2.Rappresentare variabili qualitative 3.Organizzare le variabili quantitative 4.Rappresentare variabili quantitative 5.Rappresentare due variabili numeriche 6.Tabelle a doppia entrata per più di due variabili 7.Problemi nell’organizzare e rappresentare le variabili

Or ga n iz z a r e l e va r i a bi l i q u a l i t a t i ve In caso di dati qualitativi è possibile raggrupparli in categorie e poi presentare le frequenze/percentuali con cui si manifestano

7

Organizzare una variabile qualitativa: la tabella sintetica È una tabella sintetica che riporta le frequenze (assolute e/o percentuali) in ciascuna delle categorie di una variabile, in modo da poter cogliere le differenze fra di loro

Organizzare due variabili qualitative: la tabella di contingenza - Si usa per studiare la relazione che può esistere tra le categorie/modalità di due variabili qualitative - Raccoglie le frequenze congiunte, assolute o percentuali, di due variabili qualitative - Per le due variabili, le categorie dell’una si trovano lungo le righe, mentre le categorie dell’altra si trovano lungo le colonne

8

9

Ra pp r e se n t a zi on e d i va r i a bi l i qu a l it a t i ve

UNA VARIABILE Diagramma a barre: - ogni barra rappresenta una categoria (modalità di una variabile qualitativa) - la lunghezza della barra può rappresentare la frequenza assoluta o percentuale dei casi che presentano quella modalità

Diagramma a torta: grafico a settori circolari; le singole fette rappresentano le modalità o le categorie. La dimensione della fetta è proporzionale alla percentuale di ogni modalità

10

Diagramma di Pareto: - Diagramma a barre verticali in cui le modalità sono ordinate per frequenze decrescenti - Rappresenta i casi in cui si manifesta il principio di Pareto → la maggior parte delle osservazioni si concentra in poche modalità con un’elevata frequenza (“poche rilevanti”), mentre le altre si distribuiscono su un elevato numero di modalità con una bassa frequenza (“molte banali”) DUE VARIABILI

Diagramma a barre affiancate: rappresenta i dati contenuti in una tabella di contingenza

11

Or ga n iz z a zi o n e d i v ar i ab i li q u a n t i t a t i ve Quando la numerosità del campione è elevata, i numeri possono essere ordinati Ordinamento → consiste in una sequenza ordinata di dati, dal valore più piccolo a più grande; non è conveniente se la numerosità del campione è molto elevata

La di s t r i bu zi o n e di f r eq u e nza in cl a ss i È una tabella in cui i dati sono divisi in classi ordinate numericamente Occorre prestare attenzione alla scelta del numero di classi e all’ampiezza di esse, determinando gli estremi di ogni classe in modo da evitare sovrapposizioni Il numero di classi dipende dalla numerosità dei dati: all’aumentare della numerosità, è necessario un numero maggiore di classi (dovrebbero essere almeno 5 ma non più di 15) L’ampiezza si determina dividendo il range/campo di variazione dei dati (=più alto-più basso) dei dati per il numero di classi desiderato

12

Esempio: • 50 ristoranti • Prezzo minimo: 25; Prezzo massimo: 80 • Poiché la numerosità del campione è di 50, 10 può essere un numero adeguato di classi • Calcolo il range dei dati facendo 80-25=55 • Divido 55 per il numero di classi desiderato: 55/10=5.5 • Si può arrotondare il valore ottenuto → l’ampiezza dell’intervallo potrà essere di 5 o di 10 • Scelgo 10 per avere 7 classi (se scegliessi 5 ne avrei 13, un numero eccessivo per un campione di 50 0sservazioni) Le distribuzioni di frequenze relative e percentuali frequenza relativa (o proporzione) → frequenza assoluta/numerosità del campione frequenza percentuale → moltiplico per 100 la frequenza relativa Esempio: se la numerosità totale è 80 e la frequenza della classe è 20, la frequenza relativa sarà: 20/80 = 0,25 → 25% Questa distribuzione di frequenze è utile per confrontare campioni di diversa ampiezza La distribuzione di frequenze cumulate La distribuzione di frequenze percentuali cumulate fornisce informazioni circa le percentuali di dati che risultano essere minori o uguali di un certo valore In questo modo i dati grezzi sono sintetizzati in una forma più utile, permettendo una veloce interpretazione visiva dei dati e le classi in cui sono maggiormente concentrati

13

R a p p r e s e n t a z i o n e d i v a r i a b i l i q u a n t i t a t i v e (DCOVA)

Diagramma ramo- foglia Ha una grande immediatezza visiva, perché permette di capire facilmente quali sono i valori attorno ai quali si concentrano i dati Procedura: partendo da dati numerici ordinati, si separano le cifre iniziali (rami) e le cifre finali (foglie) N.B: i rami possono avere più cifre, mentre le foglie solo una (si considera solo la prima cifra decimale dopo aver arrotondato) Valore 7.42 → ramo=7, foglia=4 Valore 6.29 → ramo=6¸ foglia=3

14

Istogramma -

È simile al diagramma a barre, con la differenza che nell’istogramma non ci sono spazi vuoti tra le barre adiacenti Ascisse: valori della variabile Ordinate: frequenze o percentuali di ciascuna classe

poligono di frequenza -

È un grafico per variabili quantitative suddivise in classi, costituito da una linea spezzata che unisce i punti con ascissa(X)= punto medio di ogni classe e ordinata(Y)=frequenza (relativa o percentuale) delle varie classi

poligono delle frequenze cumulate percentuali (ogiva) -

È un grafico formato da una linea spezzata che unisce i punti con ascissa (X)=estremo superiore di ogni classe ordinata (Y)= frequenza cumulata percentuale

15

Ra pp r e se n t a zi on e g r a f i c a d i du e va r i a b il i q ua n t i t a t i ve

diagramma a dispersione -

Utilizzato per analizzare possibili relazioni fra due variabili quantitative Per ogni osservazione viene segnato un punto sul piano cartesiano, che ha come coordinate il valore di una variabile sulle X e dell’altra sulle Y

Esempio diagramma per le serie storiche

Viene utilizzato per studiare l’andamento nel tempo di una variabile quantitativa Ordinate (Y)= variabile quantitativa Ascisse (X)= periodo temporale TABELLE A DOPPIA ENTRATA (2.6)

16

Le tabelle a continenza multipla Una tabella di contingenza multipla riporta le frequenze congiunte, assolute o percentuali, di tre o più variabili qualitative in forma di una tabella a doppia entrata Con Excel si realizza una tabella Pivot, in modo da poter modificare organizzazione e visualizzazione interattiva delle variabili Nel caso di 3 variabili, la tabella ha sulle righe la modalità di una variabile, sulle colonne le modalità dell’altra. Le intersezioni sono chiamate celle, e possono contenere le frequenze congiunte, le percentuali rispetto al totale complessivo o rispetto al totale di riga e di colonna. La tabella Pivot • presenta le variabili come una tabella sintetica multidimensionale; • consente la modifica interattiva del livello di classificazione e formattazione delle variabili; • consente di cambiare in modo interattivo le categorie di ciascuna variabile, in modo che i sottogruppi risultanti soddisfino criteri specifici; • può essere utilizzata per scoprire possibili strutture e relazioni in dati multidimensionali che tabelle e grafici più semplici non riuscirebbero a rendere evidenti; • Può emergere l’effetto della variabile confondente, che influenza le altre

17

18

Data discovery Sono metodi che permettono di indagare i dati tramite particolari tabelle riassuntive Sono usati per: - visualizzare meglio i dati - controllare meglio i dati per valori insoliti - evidenziare nuovi andamenti e relazioni Il drill down o elenco a discesa è la forma più semplice di data discovery (figura 2.17, si espandono le categorie della capitalizzazione azionaria) La mappa ad albero è un metodo più visivo → confronto fra due o più variabili utilizzando colore e dimensione di rettangoli per rappresentare i valori (2.19)

Problemi nell’organizzazione e nella rappresentazione delle variabili • Quando si organizzano e si rappresentano i dati è necessario prestare attenzione al fatto che: – l’informazione riportata deve essere chiara e comprensibile; – le modalità di presentazione devono essere tali da non nascondere le informazioni rilevanti. • Spesso si creano sintesi che: – oscurano le informazioni → eccesso di info e dettagli – generano false impressioni. Chartjunk → “spazzatura grafica”, quando le barre o le linee vengono sostituite con elementi decorativi in modo non appropriato Realizzare rappresentazioni corrette

• Usare la rappresentazione più semplice possibile. 19

• Includere un titolo. • Etichettare tutti gli assi. • Includere una scala per ciascun asse se il grafico contiene assi. • La scala sull’asse delle ordinate deve iniziare nell’origine • Usare una scala costante. • Evitare, possibilmente, gli effetti 3D. • Evitare la spazzatura grafica.

20

Lezione 6.1

LA S ST TATI TIS STICA DESCRITTIVA: INDICI DI POSIZIONE E VARIABILITA’ Obiettivi 1) descrivere un insieme di dati relativi a variabili quantitative attraverso il calcolo di misrure di tendenza central, di variabilità e di forma sul campione → stime delle corrispondenti misure nella popolazione 2) costruire e interpretare un boxplot → grafico che permette di capire la distribuzione di valori di una particolare variabile 3) calcolare e interpretare la covarianza e il coefficiente di correlazione sul campione di dati (fra coppie di dati) La statistica in pratica Vedi fondi di investimento Tabelle e grafici non consentono di valutare precisamente le prestazioni dei fondi, al fine di confrontarle Definizioni sintetiche a) tendenza centrale: valore attorno cui i valori di una variabile quantitativa si raggruppano e si concentrano b) variabilità: tendenza di una variabile ad assumere valori diversi e a disperdersi attorno al valore centrale c) forma andamento delle frequenze di una distribuzione, dal valore più basso a quello più alto della variabile quantitativa d’interesse (istogramma) A) MISURE DI TENDENZA CENTRALE LA MEDIA CAMPIONARIA È l’indice di posizione più comune; baricentro di un insieme di dati DEFINIZIONE STATISTICA: per un campione di numerosità n, la media è definita come sommatoria di tutte le osservazioni diviso la numerosità campionaria È il migliore stimatore puntuale della media della popolazione OSSRVA...


Similar Free PDFs