Riassunti su analisi multivariata PDF

Title Riassunti su analisi multivariata
Author Federico Tata
Course Metodi statistici avanzati
Institution Sapienza - Università di Roma
Pages 31
File Size 1.9 MB
File Type PDF
Total Downloads 48
Total Views 128

Summary

Riassunti su analisi multivariata...


Description

30/05/2018

Metodi statistici per le ricerche di mercato

Pro f.ssa Isa b e lla Ming o A.A. 2017-2018

Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per la comunicazione d'impresa»

Che cosa è l’Analisi Multidimensionale dei Dati? Insieme di tecniche statistiche che consentono di interpretare fenomeni complessi mediante l’analisi di grandi quantità di dati  I dati sottoposti ad analisi sono caratterizzati dall'osservazione congiunta di un insieme di p variabili su n unità statistiche Il concetto di “dimensione” viene a volte ricondotto a quello geometrico, altre volte a quello di costrutto concettuale. In tutti i casi si adotta un approccio “multi-variato”. Le informazioni, espresse sia in forma codificata che in linguaggio naturale, sono inserite in opportune tabelle e matrici oggetto di trattamento matematico o grafico. Lo sviluppo di queste tecniche e la loro applicazione è stata possibile grazie all’avvento degli elaboratori elettronici e si sono generalizzati con la diffusione odierna dei personal computer e di adeguati software.

I. Mingo 2017-2018

1

30/05/2018

Approccio esplorativo-descrittivo • Nella sua impostazione originaria, l‘AMD analizza le relazioni tra le variabili sulla base degli strumenti della geometria euclidea e dell'algebra, prescindendo da qualunque assunzione probabilistica. • Il suo approccio è originariamente di tipo esplorativo: – si analizzano i dati per “cogliere indizi” utili alla formulazione di ipotesi distributive delle variabili – si tratta simultaneamente con variabili numerose e spesso eterogenee riguardo al loro livello di misurazione • Le tecniche di AMD possono essere dunque considerate un sottoinsieme di quello più ampio dell’Analisi Multivariata che comprende anche altre tecniche di approccio non esplorativo.

I. Mingo 2017-2018

Un’approccio tipico di AMD: I principi della Scuola Francese dell’ Analyse des données 1. La statistica non è calcolo delle probabilità 2. Il modello deve seguire i dati non l’inverso 3. è opportuno trattare simultaneamente informazioni concernenti il maggior numero possibile di dimensioni 4. Per l’analisi dei fenomeni complessi è indispensabile il computer 5. L’uso del computer implica l’abbandono di ogni tecnica concepita prima dell’avvento del calcolo automatico (Benzècri 1973)

I. Mingo 2017-2018

2

30/05/2018

AMD: classificazione delle tecniche Criterio: Metrica  Analisi metrica: adatta a variabili quantitative  Analisi non metrica: applicabile a variabili di qualsiasi scala di misura Criterio: Simmetria  Metodi simmetrici: non evidenziano direzioni causali, le relazioni tra le variabili sono considerate bidirezionali  Metodi asimmetrici: evidenziare relazioni di dipendenza tra più sistemi di variabili. Le variabili osservate sono divise in variabili dipendenti e variabili predittive (o esplicative o indipendenti). Criterio: Linearità  Relazioni lineari: si assume che la relazione che lega la variabile Y ad un gruppo di variabili X 1, X2, …,Xk è esprimibile attraverso una funzione lineare delle variabili esplicative più un termine residuale  Relazioni non lineari: si assume che la relazione sia di altro tipo (esponenziale, logaritmica, sinusoidale, polinomiale).

I. Mingo 2017-2018

Alcune finalità delle tecniche di AMD  Riduzione dei dati • Descrizione dei dati rilevati mediante forme semplici e compatte analitiche e/o grafiche • Costruzione di indici sintetici  Evidenziazione strutture latenti

 Raggruppamento e ricerca di tipologie • Definizione automatica di classi di unità più omogenee  Discriminazione • Identificazione delle caratteristiche che differenziano due o più insiemi di unità.

I. Mingo 2017-2018

3

30/05/2018

Strategie di analisi • Nella prassi della ricerca le tecniche di AMD vengono concatenate e possono costituire a loro volta il presupposto per l’applicazione di altre tecniche. • Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche statistiche combinate tra loro in vista di determinati fini conoscitivi. Esempio di strategia Matrice dati

Sintesi delle variabili

Ricerca di tipologie

I. Mingo 2017-2018

Tecniche multivariate di riduzione delle variabili: L’analisi in componenti principali

I. Mingo 2017-2018

4

30/05/2018

Matrice di dati: rappresentazione geometrica

Ogni riga di una matrice di dati Xnp quantitativi può essere rappresentata come un vettore numerico a p dimensioni che indica le coordinate del puntounità nello spazio Rp detto delle unità

Ogni colonna di una matrice di dati Xnp quantitativi può essere rappresentata come un vettore numerico a n dimensioni che indica le coordinate del puntovariabile nello spazio Rn detto delle variabili

I. Mingo 2017-2018

Glossario: Vettore e spazio vettoriale • Il piano cartesiano è un esempio di spazio vettoriale • Un vettore è un punto del piano cartesiano, determinato da una coppia di numeri reali (x, y). • Disegnando una freccia che parte nell'origine (0, 0) e arriva in (x, y), si ottiene il significato fisico di vettore applicato nell'origine; • I vettori possono essere sommati e moltiplicati per scalari e per altri vettori. • Analogamente nello spazio n-dimensionale un vettore è una ennupla di numeri reali (x1, x2, …xn).

I. Mingo 2017-2018

5

30/05/2018

Esempio: nuvola di punti-unità nel piano e nello spazio p dimensionale

n punti in R2

All’aumentare degli n vettori di riga xi aumenta anche la numerosità dei punti rappresentati nella nuvola dei punti-unità nello spazio Rp. All’aumentare dei p vettori colonna aumenta la numerosità delle dimensioni dello spaziounità e dunque la complessità dei dati in analisi.

n punti in R3

I. Mingo 2017-2018

Glossario

Baricentro e Inerzia totale • Il baricentro di una nuvola di punti-unità è il vettore delle medie delle variabili • La dispersione totale della nuvola dei punti unità intorno al loro baricentro si definisce varianza totale o inerzia totale. • Essa può essere calcolata sommando gli elementi della diagonale principale (traccia) della matrice di varianza e covarianza.

I. Mingo 2017-2018

6

30/05/2018

L’analisi in componenti principali (ACP) • E’ una tecnica di tipo fattoriale utile per ridurre la complessità, che si propone di sintetizzare le variabili: – si basa sulle correlazioni esistenti tra di esse – individua una serie di p fattori comuni o componenti, di importanza decrescente. – Le componenti sono: • combinazioni lineari delle variabili originarie, pertanto ne sintetizzano l’informazione • non sono correlati tra di loro. Esempi di applicazione: •Quali sono le dimensioni del benessere dei comuni italiani? • In quali componenti si possono sintetizzare le valutazioni attribuite dai cittadini alle funzioni amministrative degli enti locali ? •In quali dimensioni possono essere sintetizzate i punteggi espressi dai clienti sulle caratteristiche di un prodotto?

I. Mingo 2017-2018

ACP : approccio geometrico Y2

• Geometricamente, le componenti rappresentano un nuovo sistema di coordinate ottenuto ruotando il sistema originale con p assi coordinati • L’obiettivo è di sceglierne un numero q ≤ p che spiegano la massima parte della varianza originaria.

Nell’esempio la somma delle distanze al quadrato dai punti alla retta Y1 è minimizzata • Y1 è una combinazione lineare delle variabili originarie

I. Mingo 2017-2018

7

30/05/2018

Correlazione e riduzione

70

Tasso di disoccupazione giovanile

60

50

40

30

20

10

0 0

10

20

30

Tasso di disoccupazione

r=0,002 r=0,976

Le caratteristiche dei punti-unità espresse dalle due variabili (le due dimensioni del piano cartesiano) possono essere riassunte da una sola dimensione (la retta) che li sintetizza.

Non è possibile individuare una retta che riassuma le due dimensioni poiché sono indipendenti.

I. Mingo 2017-2018

Uso del software : la correlazione

I. Mingo 2017-2018

8

30/05/2018

Analisi in Componenti Principali (ACP) : il modello

A partire da un insieme di variabili quantitative originarie: X1, X2 ,…, Xj,…, Xp l’ACP conduce a un insieme di variabili non osservate Y1,Y2,…,Yq (q≤p) tale che ciascuna i-esima componente principale Yi sarà : Yi = wi1X1 + wi2X2 + ..... + wipXp

i=1,2,…q

Dove wij sono i pesi associati ad ogni variabile per ogni componente

I. Mingo 2017-2018

ACP: calcolo della prima componente • Si determineranno i pesi w1j della combinazione lineare in modo da : • rendere massima la varianza della componente stessa:  var (Y1) = max

• e sotto la condizione che la somma dei quadrati dei coefficienti wi1 della combinazione sia uguali a 1:

I. Mingo 2017-2018

9

30/05/2018

ACP: calcolo delle altre componenti • La seconda componente sarà determinata con le medesime condizioni e con quella aggiuntiva che sia non-correlata con la prima, valga cioè la relazione: r (Y1 Y2) = 0 -> w11 w12 + w21 w22 + …wq1 wq2 =0

• Le successive componenti principali si determinano in modo analogo; si avrà quindi: var (Y1)  var (Y2) …  var (Yq) e r(Ys Yk) =0  s,k tale che sk

I. Mingo 2017-2018

ACP : fasi

Fase 1

Fase 2

• La matrice iniziale: variabili e trasformazioni

• La scelta del software: elaborazione

• Lettura dell’output e interpretazione

Fase 3

I. Mingo 2017-2018

10

30/05/2018

Progettazione di una ACP

Fase 1 • Scelta delle variabili da analizzare: – Le variabili devono essere quantitative. – Si può optare per l’uso di variabili standardizzate (scelta necessaria se si dispone di variabili espressi in differenti unità di misura) o non standardizzate.

I. Mingo 2017-2018

Esecuzione di una ACP

Fase 2 • Scelta del software: • Si può fare ricorso a numerosi software statistici che dispongono di procedure adatte all’applicazione dell’ACP: • SPSS, SAS, STATA, SPAD, NCSI……...

I. Mingo 2017-2018

11

30/05/2018

Uso del software Spss : esecuzione ACP

I. Mingo 2017-2018

Fase 3

Lettura dell’output e interpretazione

 Analisi delle variabili in input  Caratteristiche dei fattori estratti: Numero e quote di varianza spiegata Comunalità Correlazioni fattori/variabili Punteggi delle variabili Punteggi delle unità  Rappresentazioni grafiche

I. Mingo 2017-2018

12

30/05/2018

Analisi delle variabili in input L’analisi delle statistiche descrittive monovariate precede l’applicazione della tecnica multidimensionale e consente di controllare la eventuale esistenza di dati anomali o di casi mancanti.

I.

Test che ci consentono di stabilire se la struttura di correlazione delle variabili usate è adatta all’applicazione di una analisi di tipo fattoriale. KMO ( varia da 0-1) deve essere >0.7 e prossimo a 1. Test di Bartlett significativo (con sig < 0.05).

ACP: risultati • La risoluzione del problema di massimo vincolato, applicato alla matrice di correlazione R (o a quella di varianza e covarianza S) tra le p variabili , conduce ad ogni passo a trovare :  var (Yi) = λi (i=1,2,…q) dove λi è l’iesimo autovalore della matrice R, pertanto per la condizione di varianza decrescente: λ1 > λ2 > λ3 >… λq

 i coefficienti w1i, w2i,…,wq1 sono l’autovettore associato ad ogni λi

I. Mingo 2017-2018

13

30/05/2018

Le caratteristiche dei fattori : numero e quote di varianza spiegata •Nell’ACP il numero dei fattori estraibili è pari al numero delle variabili (nel nostro esempio 10). •A ciascun fattore è associato un autovalore  i (eigenvalue) e una quota di varianza decrescente •  i /  )  i (i=1,2,…q) • Considerando soltanto alcuni fattori la varianza spiegata è inferiore a 100.

I. Mingo 2017-2018

Quanti fattori considerare? •Non esistono regole tassative, ma possono essere seguiti diversi criteri empirici: fissare un livello minimo di percentuale cumulata di spiegazione della varianza e considerare fattori che cumulativamente consentono di raggiungere la soglia prefissata; - Si potrebbe richiedere che i fattori tengano conto mediamente di almeno il 95% della varianza di ognuna delle p variabili originarie, cioè 0,95p x 100 Al crescere del numero di variabili ci si può accontentare di una % minore

scegliere i fattori con autovalore >1 a prescindere dalla percentuale di varianza (Kaiser) se le variabili sono standardizzate, oppure almeno pari alla varianza media ( somma degli autovalori/ p); rappresentare graficamente gli autovalori rispetto all’ordine di estrazione (scree test) e collegarli con una spezzata. Si considerano rilevanti quei fattori i cui autovalori si collocano prima del punto di flesso della spezzata (Cattel).

I. Mingo 2017-2018

14

30/05/2018

Scree test

I. Mingo 2017-2018

La bontà della riduzione: la comunalità • Per valutare la ‘bontà’ dell’operazione, che riduce il numero di dimensioni da p a q (ossia da 10 a 2), possiamo fare riferimento alla comunalità di ciascuna variabile originaria: •

Misura la percentuale di varianza di ciascuna variabile spiegata dalle componenti estratte

I. Mingo 2017-2018

15

30/05/2018

Il significato di ogni fattore : le correlazioni con le variabili

I coefficienti di correlazione tra ogni fattore e le variabili originarie consentono di attribuire alla dimensione sintetica un “etichetta” : • il segno del coefficiente indica il tipo di relazione lineare diretta (+) o inversa (-); •L’entità del coefficiente indica la forza della relazione.

I. Mingo 2017-2018

Il grafico delle componenti •Se si disegna un cerchio di raggio=1, la prossimità delle variabili alla circonferenza e all’asse evidenzia la correlazione prossima a |1| . •La lontananza indica una correlazione debole.

I. Mingo 2017-2018

16

30/05/2018

Esercizio ACP • Utilizzando il file qdv_esercizio.sav, considerare le variabili riguardanti il tenore di vita e il tempo libero. • Applicare una ACP al fine di individuare dimensioni sintetiche. • Interpretare l’output ottenuto, e in particolare: • motivare la scelta del numero di fattori • individuare le variabili meglio e peggio rappresentate nel nuovo sistema di riferimento • attribuire un etichetta concettuale alle dimensioni considerate, motivando la scelta.

I. Mingo 2017-2018

La rotazione delle componenti • Per agevolare la interpretazione delle componenti si può applicare una rotazione ortogonale degli assi fattoriali in modo da minimizzare il numero di variabili che sono fortemente correlate con ogni fattore. • Il peso dei fattori è così distribuito più uniformemente e l’interpretazione dei fattori è semplificata. • Questo tipo di rotazione è denominata Varimax

I. Mingo 2017-2018

17

30/05/2018

La rotazione modifica: -l’autovalore e la % di varianza spiegata da ciascuna componente; - la matrice delle componenti

I. Mingo 2017-2018

I punteggi fattoriali Punteggi delle variabili sui fattori

Punteggi delle unità sui fattori

autovettori standardizzati: wij/√ij)

I. Min

18

30/05/2018

ACP: i punteggi in SPSS •

Il punteggio (score) di ogni componente è definito da:



Yi = wi1X1 + wi2X2 + ..... + wipXp dove w ij è il peso (autovettore) della prima componente e della iesima variabile



Avendo imposto la condizione di normalizzazione i pesi hanno media nulla e varianza pari all’autovalore di ogni componente. • Ciò riflette l’importanza di ogni componente ma presenta lo svantaggio di non rendere direttamente comparabili le diverse componenti. •

A tal fine si possono ricavare pesi standardizzati, con varianza unitaria, dividendo per ogni fattore l’ autovettore per la radice quadrata del rispettivo autovalore. • SPSS adotta poi diverse procedure per calcolare i punteggi delle unità statistiche sulle componenti. •

Per ogni unità statistica il punteggio sul fattore è la sua coordinata nel nuovo sistema di riferimento (cfr. grafico slide precedente) .

I. Mingo 2017-2018

Esercizio ACP • Riprendendo l’applicazione ACP precedente: • Salvare i punteggi fattoriali delle unità di analisi • Ottenere delle graduatorie decrescenti delle unità di analisi in base ai punteggi ottenuti. • Ottenere un grafico fattoriale delle prime due componenti. • Commentare i risultati ottenuti.

I. Mingo 2017-2018

19

30/05/2018

Introduzione alla Cluster analysis Tecniche e software

Individuare tipologie….

… è uno degli scopi della classificazione Classificare vuol dire… • individuare differenze e somiglianze tra elementi di un insieme, distinguere - come affermava Linneo – il simile dal dissimile per rendere più chiara la nostra interpretazione della realtà • scegliere un punto vista su cui basare tale distinzione

• Nella ricerca empirica significa osservare e rilevare le modalità assunte da una o più variabili sulla base delle quale raggruppare le unità di analisi in un numero finito di gruppi, in modo tale che le unità di un gruppo siano omogenee rispetto alle variabili considerate . •Nelle ricerche di mercato è utile per suddividere consumatori, prodotti, servizi o contesti territoriali in sottoinsieme omogenei.

I. Mingo 2017-2018

20

30/05/2018

Tecniche automatiche per individuare tipologie:

Cluster Analysis

(analisi dei gruppi – classification automatique)

 La cluster analysis è un insieme di tecniche multivariate esplorative, basate sull'assunzione che le variabili e le unità statistiche possono essere considerate delle dimensioni del fenomeno studiato rappresentabili su spazi geometrici.  I gruppi omogenei vengono ottenuti in modo induttivo, automaticamente (unsupervised classification), mediante l’applicazione di algoritmi e non con criteri soggettivi.  La classificazione a cui consente di pervenire si fonda sul concetto di prossimità (dissimilarità / similarità ) tra le diverse unità nello spazio, definito da un sistema di assi cartesiani ciascuno dei quali riporta i valori assunti da una delle variabili rilevate.

I. Mingo 2017-2018

Individuazione di tipologie

Esempio Ogni regione viene rappresentata sul piano come un punto che ha come coordinate i valori assunti in ognuna delle due variabili.

Lo m b ardia Em ilia Ro magna

24

Venet o Trent ino

Tanto più le regioni sono vicine sul piano tanto più sono simili rispetto alle due variabili considerate (es. Lombardia ed Emilia Romagna ; Valle d’AostaToscana)

22 M arche

20

Valle d'A os ta Lazio T o s cana P iem o nte Friuli

Liguria Um bria

% pop. che usa Internet


Similar Free PDFs