Modelli statistici per le decisioni aziendali - appunti Irene Pasquali 2 PDF

Title Modelli statistici per le decisioni aziendali - appunti Irene Pasquali 2
Author Irene Pasquali
Course Modelli statistici per le decisioni aziendali
Institution Università degli Studi di Modena e Reggio Emilia
Pages 99
File Size 8.8 MB
File Type PDF
Total Downloads 114
Total Views 146

Summary

Slides e spiegazioni della professoressa - esercizi svolti per la preparazione dell'esame....


Description

Irene Pasquali Primo Semestre – Anno Accademico 2019-2020 Corso: Modelli statistici per le decisioni aziendali – Prof.ssa Elvira Pelle

Modelli statistici per le decisioni aziendali Lezioni tenute dalla Prof.ssa Pelle comprensive di slide, esercizi svolti e spiegazioni

Sommario INTRODUZIONE ALLA STATISTICA.....................................................................................................................................................................2 LA RAPPRESENTAZIONE DEI DATI – DISTRIBUZIONI ..........................................................................................................................6 LA RAPPRESENTAZIONE DEI DATI – LE RAPPRESENTAZIONI GRAFICHE .......................................................................... 9 IL SIMBOLO SOMMATORIA - ⅀............................................................................................................................................................................. 14 SINTESI DELLA DISTRUBUZIONE DI UNA VARIABILE ........................................................................................................................16 MISURE DI VARIABILITA’ ..............................................................................................................................................................................................22 DISTRIBUZIONI BIVARIATE ....................................................................................................................................................................................... 31 ANALISI DELLA RELAZIONE TRA VARIABILI QUANTITATIVE ..................................................................................................... 38 LA REGRESSIONE LINEARE........................................................................................................................................................................................ 42 PROBABILITA’ • Concetti Base .................................................................................................................................................................................. 52 VARIABILI CASUALI ..........................................................................................................................................................................................................58 INFERENZA............................................................................................................................................................................................................................. 70 VERIFICA D’IPOTESI ......................................................................................................................................................................................................... 84

Pag. 1 di 99

Modelli statistici per le decisioni aziendali – Prof. Elvira Pelle

Modelli statistici per le decisioni aziendali ESAME SCRITTO Prova divisa in due parti, 1h e 30 di tempo. - La prima con domande teoriche (vero/falso e a risposta multipla) - La seconda parte contiene esercizi, da risolvere illustrando il procedimento adottato. Consigliato munirsi di calcolatrice. L’esame si basa sugli argomenti affrontati a lezione. Se all’esame si svolge solo la prima parte perfettamente il punteggio massimo è 21. Completando tutto si può tranquillamente arrivare al 30 e alla lode. Sarà possibile consultare il formulario che ci viene dato dalla professoressa e le tavole. Non si possono usare gli appunti. Il compito è diverso per tutti perché il testo è generato casualmente. Gli esercizi in esame sono gli stessi che vengono affrontati a lezione. Per i compiti gravemente insufficienti è previsto il salto d’appello. INTRODUZIONE ALLA STATISTICA – CONCETTI BASE Tutti usiamo concetti statistici nella vita quotidiana. Per comprendere le informazioni che vengono fornite dalla enorme quantità di dati che ogni giorno ci vengono forniti, utilizziamo la statistica. In particolare: - Prendiamo decisioni (previsioni del tempo, esco o non esco con l’ombrello). - Analizziamo fenomeni (ISTAT – raccoglie dati e utilizza strumenti statistici per analizzarli e poi li diffonde – 20 sigarette al giorno riducono di circa 4,6 anni la vita media di un giovane che inizia a fumare). - Previsioni sul futuro (osservo l’andamento di un fenomeno del tempo e dall’osservazione del fenomeno cerco di prevedere cosa accadrà allo stesso fenomeno in futuro – utilizzo metodi statistici). Statistica – origini Il vocabolo statistica trae origine dal termine tedesco “Staats” (Stato). 1660 – Ermanno Conring tiene un corso universitario chiamato Staats Kunde con il significato di “descrizione sistematica degli aspetti più rilevanti di uno Stato”. La statistica nasce in origine per descrivere gli aspetti salienti dello stato. Charles Devenant – “L’arte di ragionare per numeri su argomenti relativi alla cosa pubblica” La statistica si occupa, partendo da una domanda su un fenomeno, di stabilire quali dati possono essere usati per rispondere a quella domanda e se i dati non sono disponibili, come li dobbiamo raccogliere. Fasi di un’analisi statistica • •

• •



Definizione degli obbiettivi – Fondamentale che gli obbiettivi conoscitivi siano chiari: tradurre un’esigenza conoscitiva in modo che sia suscettibile di una risposta in termini statistici. Definizione della popolazione di riferimento: non è sempre costituita dalla popolazione vera e propria. La popolazione di interesse dipende da che tipo di analisi faccio (identità della mia popolazione di riferimento (es. studenti universitari dell’Unimore) Individuazione della popolazione: creare una lista di unità che compongono una popolazione. Ci sono casi in cui è difficile disporre di una lista: in questo caso si utilizzano tecniche di indagine che non prevedono liste. Periodo di riferimento: Si potrebbe fare un’indagine per un periodo precedente a quello attuale. Anche il periodo deve essere sempre stabilito a priori. Se l’indagine che vogliamo compiere non è su tutta la popolazione di riferimento ma solo su un campione, dobbiamo definire un piano di campionamento: stabiliamo come deve avvenire la raccolta delle informazioni e come scegliere le unità sulle quali osserverò le caratteristiche che mi interessano. Il campione deve essere rappresentativo → Teoria del campionamento statistico. A questo punto si passa alla raccolta dati. La fase successiva è l’organizzazione dei dati. Molto spesso, una volta terminata la fase di raccolta, ho un elenco grezzo di come il fenomeno si Pag. 2 di 99

Modelli statistici per le decisioni aziendali – Prof. Elvira Pelle



comporta sulle unità che abbiamo osservato. Se chiedo ai partecipanti della lezione quanti anni hanno, ho un elenco grezzo difficile da organizzare, ho bisogno di altri parametri. Si possono però sintetizzare opportunamente e/o rappresentare i dati graficamente in funzione delle informazioni che ricerco. Una volta organizzati, posso passare all’analisi statistica → formulo un modello per spiegare i dati osservati, per poter studiare il fenomeno. A seconda degli obbiettivi, il modello statistico può essere usato per convalidare un’ipotesi o per smentirla. Oppure ho analizzati i dati per prevedere l’andamento nel futuro del fenomeno.

Terminologia elementare 1. Popolazione → Definire la popolazione è importante perché l’obbiettivo è studiarne una det. caratteristica. La popolazione è l’insieme degli elementi che sono oggetto di studio, sui quali focalizziamo la nostra attenzione. La popolazione può essere di due tipi: - finita → costituita da un numero finito di elementi, questo significa che possiamo sapere esattamente quanti sono gli elementi che costituiscono la popolazione. Es. Studenti immatricolati nell’anno accademico 2018/2019 dell’UniMore. - infinita → costituita da tutte le unità potenzialmente osservabili e non necessariamente già esistenti fisicamente. Es: Siamo interessati a studiare tutti coloro che sono affetti da una determinata patologia, oggi e in futuro. Possiamo avere certezza per quelli nel presente, ma non tanto per il futuro. La popolazione è quindi costituita dai malati oggi e anche da coloro che lo diventeranno. Il numero potrà variare nel tempo. Se siamo interessati ai futuri acquirenti di un prodotto: la popolazione è infinita. Una popolazione è un insieme di unità statistiche 2. Unità statistiche → Unità elementare su cui osserviamo il carattere che ci interessa studiare. Se la popolazione di riferimento è quella italiana, l’unità statistica è il singolo cittadino italiano. È importante prestare attenzione al contesto al quale l’analisi si riferisce. Infatti, una stessa unità può essere unità statistica di popolazioni diverse a seconda dell’oggetto della ns analisi. Es: uno studente di liceo scientifico fa parte di popolazioni diverse a seconda dell’oggetto dell’analisi. Può essere un’unità degli alunni della scuola, un’unità della popolazione dei residenti di un det. comune in una det. data etc… Supponiamo di studiare le scuole secondare italiane. In questo caso lo studente contribuisce a determinare il numero di iscritti in una scuola. Se l’interesse è questo, l’unità statistica non è lo studente ma la singola scuola. Bisogna sempre contestualizzare. 3. Carattere (variabile) → La caratteristica che noi osserviamo sulle unità statistiche, che osserviamo e riteniamo utile ai fini della nostra indagine. Esempio:

Abbiamo un elenco di nomi e per ciascun nome abbiamo informazioni, che rappresentano caratteri o variabili statistiche. 5 unità, 5 nomi → Unità Statistiche. Analizzandoli possiamo avere un quadro delle unità statistiche. Ciascuno di questi caratteri può assumere vari valori. L’età può avere valori numerici diversi, il sesso può essere M o F → quindi i valori che un singolo carattere può assumere si chiamano modalità.

4. Modalità → Sono le manifestazioni che un carattere presenta sulle varie unità statistiche. Pag. 3 di 99

Modelli statistici per le decisioni aziendali – Prof. Elvira Pelle

In generale, se si volesse mettere in piedi un’indagine, è compito dell’esaminatore definire le modalità dei caratteri. Nel momento in cui si definiscono, bisogna fare attenzione a due caratteristiche: • Le modalità devono essere esaustive, ovvero devono comprendere tutte le possibili manifestazioni del carattere. • Le modalità che vanno a definire, non devono essere sovrapposte: non ci devono essere delle ambiguità – ad ogni unità si deve poter associare una sola modalità. Caratteri statistici: • •

Qualitativi – esprimibili tramite avverbi aggettivi, sostantivi ecc. Quantitativi – esprimibili tramite valori numerici.

C’è in realtà anche un’altra caratteristica, che ci riesce a far individuare con chiarezza la differenza. I caratteri quantitativi sono esprimibili tramite valori numerici e possono essere usati come tali cioè ha senso fare operazioni matematiche con quei numeri. Questo significa che ha senso calcolare un totale, una media aritmetica e così via, perché ci possono essere caratteri le cui modalità sono espresse tramite numeri, ma con le quali non ha senso svolgere operazioni matematiche. Anche se numero, quindi può essere equiparato ad un carattere qualitativo. Possiamo ancora distinguere i caratteri qualitativi in: -

Sconnessi → Non è possibile ordinare le modalità tra di loro, ma possiamo solo affermare che queste siano uguali o diverse. Esempio: Se decidiamo di osservare su un collettivo, il gradimento rispetto all’ultima edizione del festival di San Remo e classifichiamo le variabili in 1. L’ho visto e mi è piaciuto 2. L’ho visto e non mi è piaciuto. 3. Non l’ho visto. → Non possiamo stabilire un ordine fra le varianti.

-

Ordinati. → Se invece possiamo stabilire un ordine tra le modalità, il carattere è detto qualitativo ordinato. Es. Quanto frequentemente bevi birra? 1. Mai 2. Una volta a settimana 3. Più volte a settimana. Abbiamo un ordine logico.

Questa differenza sarà importante quando si parlerà di indici di posizione. Possiamo ancora distinguere i caratteri quantitativi in: -

-

Discreti → L’insieme dei valori assumibili dalle modalità, consiste soltanto nei numeri interi. In genere questi contemplano un conteggio. Es. se volessimo studiare il numero di figli per un collettivo di famiglie, l’unità di riferimento è la singola famiglia e su questa famiglia osserviamo il numero di figli. Possono avere soltanto 0,1,2,3 figli. Il numero di figli è un carattere quantitativo discreto. Altro esempio: Quante volte sei stato al cinema negli ultimi 3 mesi? → 1,2,3 volte… Continui → Tutto ciò che non è discreto è continuo. Se le modalità che il carattere può assumere ha senso che siano anche dei numeri non necessariamente interi, allora il carattere è continuo. Generalmente il carattere è continuo se si ha uno strumento di misurazione → Necessita di un’approssimazione. Età è un carattere continuo. Ha senso che assuma un valore con la virgola? Se si, è continuo. Es. Qual è la tua altezza in centimetri? 1.75, 1.67cm. Oppure la temperatura esterna, o tutte le misurazioni in generale.

Che tipo di carattere è il colore dei capelli? → Qualitativa Sconnessa Voto di maturità? → Quantitativa discreta. Titolo di studio? → Qualitativa ordinale Reddito? Quantitativa Continua. Prefisso telefonico? Qualitativa (perché non ha senso fare operazioni numeriche con questo numero – Pag. 4 di 99

Modelli statistici per le decisioni aziendali – Prof. Elvira Pelle

sommare tutti i prefissi telefonici di un’area) – Sconnessa. Stesso discorso per il codice di avviamento postale, anche se si tratta di numeri, non sono variabili quantitative. ➔ Quando ci troviamo davanti un esercizio con dei dati, individuare la popolazione, le unità statistiche ed i caratteri (come sono). 5. Censimento → Quando la raccolta dei dati si attua osservando tutti gli individui di una popolazione parliamo di un censimento. Mettere in piedi un’indagine censuaria ha dei vantaggi e degli svantaggi: - Vantaggi: ricchezza delle informazioni raccolte, osserviamo il fenomeno in maniera totale. Le informazioni raccolte saranno anche esaustive. - Limiti: Fanno si che non sia poi così semplice mettere in piedi delle indagini di questo genere. È difficile fare un’indagine censuaria: ci sono individui difficili da raggiungere, ma noi le dobbiamo raggiungere tutte. Questi individui potrebbero avere anche caratteristiche che li distinguono dal resto della popolazione. Inoltre, se per mettere in piedi l’indagine bisogna raggiungere tutte le unità, i costi sono molto elevati ed i tempi di elaborazione dei dati (poiché sono molti i dati e sono ricchi). In Italia svolgiamo censimenti periodici, generalmente svolti dall’ISTAT. In generale riguardano la popolazione, le abitazioni, il censimento generale dell’industria del commercio, dei servizi e dell’artigianato, dell’agricoltura. L’ultimo è stato fatto nel 2011. Dal primo ottobre 2018 è partito il censimento permanente della popolazione e delle abitazioni. Ha cadenza annuale, non coinvolge tutte le famiglie, ma un campione e vengono integrati dati di fonti diverse. Cosa comporta? La possibilità di avere dati molto più aggiornati (prima era a cadenza decennale), riduzione dei costi e del fastidio a carico di chi partecipa all’indagine. Ci voleva tempo per completare tutte le sezioni. Anche in Europa si fanno censimenti da parte di EUROSTAT. 6. Campionamento → Lo scoglio principale è di dover considerare tutte le unità aumentando tantissimo i costi (risorse economiche e di tempo sono in realtà limitate – l’indagine censuaria non è la norma). Quindi in genere quello che si fa è lavorare su un campione e si cerca di estendere i risultati ottenuti all’intera popolazione. In questo contesto definiamo il campione statistico un insieme di unità selezionato, secondo determinati criteri della popolazione. Non tutti i campioni sono statistici, ma solo se vengono selezionati dalla popolazione seguendo determinati criteri. Osserviamo il fenomeno su questo campione (facciamo analisi esplorativa, descrittiva), dopodiché cerchiamo di trarre delle conclusioni che possono valere per l’intera popolazione. Questo passaggio (estendere i risultati all’intera popolazione) si chiama INFERENZA STATISTICA. Campionare e fare inferenza è molto comune, e lo facciamo spesso anche noi. 7. Descrivere e inferire → L’estensione dei risultati dal campione alla totalità della popolazione implica che ci sia un certo grado di incertezza. Questa incertezza viene gestita con il calcolo delle probabilità. C’è una probabilità che quel parametro che stiamo studiando si comporti in un determinato modo. 8. Come deve essere il campione? Vanno bene tutti i campioni? No, non va bene qualsiasi insieme di unità. Preferiamo i campioni rappresentativi. Si definisce campione rappresentativo, un sottoinsieme della popolazione che ne riflette le caratteristiche (una versione in miniatura della popolazione). Perché importante che sia rappresentativo? Perché è proprio questa proprietà che consente di estendere i risultati. Deve essere selezionato seguendo delle regole. L’insieme di queste regole è la teoria dei campioni. In generale anche se il campione preso in considerazione è molto esteso, se non è rappresentativo non ci consente di fare delle generalizzazioni, guardando solo ad una parte del fenomeno → visione parziale che non ci consente di generalizzare.

Pag. 5 di 99

Modelli statistici per le decisioni aziendali – Prof. Elvira Pelle

PARTE II - LA RAPPRESENTAZIONE DEI DATI – DISTRIBUZIONI Quando i dati sono stati raccolti, in genere li si organizza in una matrice di dati.

Su ciascuna riga abbiamo i valori assunti dalle variabili considerate in riferimento ad una det. unità statistica e nelle colonne abbiamo tutti i valori assunti nel collettivo da un’unica variabile. In generale, quando si mette in piedi un’indagine si rilevano molte variabili → matrice molto grande, complessa e dettagliata. Risulta poco maneggevole. Come sintetizzare questa matrice senza perdere informazioni? Un primo riassunto ci viene fornito dalle distribuzioni statistiche. 1. Distribuzione statistica unitaria (o disaggregata) Elencazione di tutte le modalità del carattere osservate sul nostro collettivo. Si definisce quindi distribuzione statistica unitaria secondo il carattere x, l’insieme delle osservazioni (rappresentate da numeri o da espressioni verbali) relative alle n unità del collettivo. In simboli è indicata come x1, x2, …… xn – dove x1 è l’osservazione relativa all’unità identificata dal numero 1, x2 l’osservazione relativa all’unità identificata dal numero 2 e così via fino ad arrivare all’ultima unità del nostro collettivo. In questo modo stiamo però semplicemente indicando tutte le modalità relative ad un carattere ma non abbiamo sintetizzato. In genere questo metodo va bene per poche unità perché se sono diverse l’elenco si allunga. Non consente una visione chiara d’insieme. Se su 20 persone abbiamo rilevato i caratteri Sesso, Età, Reddito, Statura e Colore degli occhi. Se dovessimo rappresentare la distribuzione per il carattere sesso, potremmo fare un banale elenco (Maschio, Femmina, Maschio, Maschio) oppure facciamo una rappresentazione in tabella. Nella prima colonna scriviamo Unità (il numero descrive il numero dell’unità, non è un valore che ha senso considerare) e nella seconda il carattere considerato. Se l’elencazione si riferisce a più di un carattere si parla di distribuzione unitaria multipla.

2. Per ottenere una maggiore sintesi di questa distribuzione, potremmo considerare la frequenza con la quale ogni modalità si presenta all’interno del collettivo. In questo modo otteniamo la distribuzione di frequenze. Si definisce frequenza assoluta di una modalità di un carattere, il numero di volte che questa è stata osservata nel collettivo oggetto di studio. Se io elenco tutte le modalità del mio carattere e gli associo le frequenze assolute, ottengo la distribuzione di frequenza assoluta. La distribuzione di frequenze è il risultato dello spoglio dei dati. Bisogna predisporre una lista Pag. 6 d...


Similar Free PDFs