LE Principali Strategie DI Campionamento PDF

Title LE Principali Strategie DI Campionamento
Author Alessandra Rita Scalisi
Course Statistica sociale
Institution Università degli Studi di Catania
Pages 13
File Size 222.9 KB
File Type PDF
Total Downloads 53
Total Views 154

Summary

Download LE Principali Strategie DI Campionamento PDF


Description

LE PRINCIPALI STRATEGIE/TIPOLOGIE DI CAMPIONAMENTO I metodi per selezionare il campione della popolazione sono numerosi e la scelta dipende dal disegno di indagine che deve portare a stime il più possibile precise. Esistono varie strategie/procedure di campionamento, tra cui: campionamento probabilistico o casuale e campionamento non probabilistico.

IL CAMPIONAMENTO PROBABILISTICO QUANDO IL CAMPIONAMENTO È PROBABILISTICO: “Si parla di campionamento probabilistico quando le unità sono selezionate con meccanismo casuale e hanno tutte una probabilità nota e non nulla di essere selezionate.” In sostanza il campionamento probabilistico consente di estrarre con modalità causale, da un insieme di unità N (popolazione), un numero finito di casi n (campione) che siano rappresentativi di tutta la popolazione e scelti con criteri tali da consentire la generalizzazione (inferenza) all’intera popolazione a partire dai risultati ottenuti studiando il campione. I fenomeni che hanno un’origine causale si distribuiscono tutti allo stesso modo, secondo la LEGGE NORMALE O DI GAUSS. Il campione è probabilistico quando: 1. Ho schemi di campionamento, ossia quando è possibile definire l’insieme S dei campioni che possono essere estratti dalla popolazione. ESEMPIO: totale iscritti, totale residenti in comuni, totale classi delle scuole, totale medici etc. Questo vuol dire che: io prima di estrarre il campione so quanti campioni posso estrarre provenienti da una popolazione di tot. persone. 2. A ciascuno dei campioni S è possibile associare una probabilità di selezione p(s) che potrebbe non essere uguale per tutti. 3. Naturalmente tutte le unità della popolazione hanno una probabilità NON NULLA di essere estratte. Che vuol dire? Che tutti gli elementi devono avere una probabilità > di 0. 4. Esiste un meccanismo di selezione casuale che garantisce la selezione di ciascun campione secondo la probabilità teorica. Che vuol dire? Immaginiamo un’urna, estraiamo casualmente, se si creano congiuntamente questi 4 elementi noi ci ritroviamo dinnanzi un campione probabilistico ossia quello che ci dà più sicurezza. (campione probabilistico = quel tipo di campione che ci assicura la rappresentatività)

PROBLEMI NEI CAMPIONI PROBABILISTICI: 1. LISTE: indisponibilità delle liste da cui estrarre il campione (es. su segmenti di popolazione: casalinghe, operai, etc…), liste non aggiornate come le liste elettorali aggiornate ogni 6 mesi, liste incomplete es. elenco telefonico dove mancano molte persone o le liste anagrafiche dove riportano i presenti ma solo i residenti. 2. ORGANIZZATIVI: zone non facilmente raggiungibili 3. IRREPERIBILITA’ DEGLI INTERVISTANDI 4. DINAMICA DEL CONTATTO PER L’INTERVISTA

1. CAMPIONAMENTO CASUALE SEMPLICE  Estrazione con ripetizione  Estrazione senza ripetizione  Software per generare numeri casuali Il campionamento casuale semplice è il campionamento probabilistico per eccellenza: ad esso sono, infatti, legati tutti gli altri tipi più complessi di campionamento che hanno l’obiettivo di aumentare la precisione delle stime. Il momento fondamentale è la scelta del disegno campionario: essa sarà supportata da ogni informazione, nota a priori, sulle unità della popolazione (U) considerata. A seconda della qualità o quantità di tali informazioni, sarà possibile applicare disegni semplici o complessi. Nelle indagini sociali però il campionamento casuale semplice è poco utilizzato poiché occorrono: elevati costi di rilevazione e lunghi tempi di organizzazione. È la più semplice fra le modalità di campionamento. Essa equivale ad associare ad ogni unità della popolazione una biglia numerata e ad estrarre a caso da un’urna, una per volta e senza riporla, tante biglie quante sono le unità che si vogliono campionare. Affinché si possa applicare tale metodo è necessario disporre di una lista che elenchi tutte le unità statistiche della popolazione. Se si ha un universo composto da N unità statistiche, tutte numerate e poste in una lista, un campione casuale semplice consiste nell’estrazione casuale di n di tali unità. Ad esempio, si potrebbero avere N palline in un2’urna da cui si estraggono n palline per formare un campione casuale semplice.

Ad ogni estrazione la pallina non viene rimessa nell’urna cosicché non può più essere estratta (campionamento senza ripetizione o in blocco). Se invece la pallina si reinserisce nell’urna per essere ancora tra quelle estraibili, si parla di campione bernoulliano, o con ripetizione. Nella pratica sono molto rari i casi in cui si dispone di una lista delle unità di rilevazione. Se ad esempio l’unità di rilevazione è ciascun individuo residente in Italia, si può fare riferimento alle liste anagrafiche della popolazione residente. Fino a pochi anni fa, però, tali liste erano suddivise per comune, e, all’interno del comune, per sezione elettorale, quindi non esisteva una lista unica nazionale da cui estrarre un campione casuale semplice. Oggi tale lista è disponibile. Supponendo comunque di avere la lista delle unità statistiche di rilevazione, si presenta il problema di come prenderle ‘a caso’. Quasi mai si può fare riferimento all’urna, che sarebbe perfetta per l’estrazione casuale, ma è adatta solo a piccoli universi di riferimento. Fino a qualche tempo fa si faceva ricorso alle tavole dei numeri aleatori, tavole di numeri costituite da sequenze casuali di cifre comprese tra 0 e 9 (utilizzando alcune cifre estratte nel gioco del lotto in una successione temporale di estrazioni per garantire la casualità). Tali tavole davano numeri presi ‘a caso’ che potevano essere usati per individuare ‘a caso’ un’unità statistica compresa in una lista. Oggi si usano funzioni automatiche di generazione di numeri casuali basate su funzioni matematiche (numeri pseudo-casuali che dipendono dal punto di partenza delle funzioni). I campioni con ripetizione non trovano facile applicazione nelle scienze sociali. Quando però la frazione di campionamento è piccola e quindi è raro il caso di trovare due volte la stessa unità nel campione, possono essere usati al posto di quelli in blocco o senza ripetizione. In questo modo si può sfruttare la maggiore semplicità di alcune notazioni matematiche tipiche di questo tipo di campionamento. Nel campionamento casuale semplice tutte le unità hanno la stessa probabilità di essere incluse nel campione (probabilità di inclusione) ed è sufficiente averne una lista in qualche forma per poter realizzare il campione. I limiti principali consistono nel fatto che esistono altri tipi di campioni con la stessa attendibilità dei risultati (precisione delle stime) ma meno costosi e inoltre non si tiene conto di eventuali informazioni che si potrebbero avere a priori sulla popolazione, come ad esempio la localizzazione geografica, il genere, l’età, desumibili dalle liste anagrafiche. Per questi motivi è un tipo di campionamento raramente utilizzato.

Tipologie di campionamento casuale semplice: SELEZIONE CON REINSERIMENTO/REIMMISSIONE: (detta anche selezione bernoulliana): gli elementi una volta estratti sono reinseriti, ciascun elemento della popolazione dunque è disponibile a ogni estrazione. Ne consegue, quindi, che la probabilità di estrazione di ogni elemento è costante e pari a 1/N. Definiamo:(n) = numero di unità estratte = ampiezza del campione;(n/N) = frazione di campionamento. Il campione estratto può essere anche maggiore della popolazione da cui è estratto (n>N). SELEZIONE SENZA RIPETIZIONE/REIMMISSIONE: in esso un elemento/un’unità una volta estratto non viene più reinserito. Si esclude in questo modo l’eventualità di selezionare un’unità più volte. In questo modo, le unità non hanno tutte la stessa probabilità di essere estratte, perché si altera la composizione dell’urna dopo ogni estrazione. Ovviamente man mano che vengono fatte le estrazioni senza ripetizione la lista di campionamento DIMINUISCE. Dunque questo fa sì che la probabilità muta alle varie estrazioni. I criteri di selezione per un campione casuale semplice sono: con reimmissione e senza. La distinzione di questi criteri ha più valore nella teoria che nella pratica, in quanto quello con reinserimento è spesso citato ma raramente applicato. Motivi – svantaggi 1) non si utilizzano le informazioni note a priori sulla popolazione sulle caratteristiche distributive delle variabili; 2) non è considerato conveniente per i suoi elevati costi di rilevazione dei dati e per i tempi di organizzazione del lavoro. Vantaggi 1) evitare le distorsioni provocate da campionamenti non casuali; 2) permettere di stimare gli errori di campionamento.

IL CAMPIONAMENTO SISTEMATICO A differenza del campionamento casuale semplice, quello sistematico non seleziona in modo casuale tutte le unità del campione, ma solo la prima estratta. (SI ESTRAE A SORTE SOLTANTO LA PRIMA UNITA’ DA INTERVISTARE E POI DOPO AVER FISSATO LA NUMEROSITA’ CAMPIONARIA n, SI INTERVISTA UN INDIVIDUO OGNI INTERVALLO k, OSSIA IL PASSO CAMPIONARIO). Il campionamento sistematico si utilizza quando: 1. le unità che compongono l’universo sono numerabili progressivamente (e sono messe in sequenza) e si possono estrarre delle unità di campionamento distanziate da un intervallo costante. In questo caso la popolazione considerata è finita, quindi, si deve disporre di una lista di campionamento. 2. Alle unità si associa un numero da 1 a N 3. Si estrae un numero R casualmente 4. Si seleziona la prima unità considerando l’unità di campionamento associata al numero R 5. Si selezionano le unità successive nello stesso modo (a passo campionario)

Dopo la prima estrazione da una lista, si procede con un certo passo (detto passo di campionamento k) ed è uguale all’inverso della frazione di campionamento: (N/n). Così se ad esempio si ha una popolazione di 20.000 unità da cui si vuole estrarre un campione di 500 unità, basta scegliere un’unità nella lista ogni 40 scegliendo la prima unità entro le prime 40.

CAMPIONAMENTO STRATIFICATO Nel campionamento stratificato, la popolazione viene suddivisa in sottopopolazioni dette “STRATI”, sulla base di alcune variabili ritenute rilevanti per il fenomeno oggetto di studio. IL CAMPIONE DI FORMA ESTRAENDO A CASO UN CERTO NUMERO DI UNITA’ DA OGNI STRATO, CHE AL SUO INTERNO E’ OMOGENEO. IL PRIMO PASSO SARA’ DUNQUE: 1. Prima di procedere all’estrazione si suddivide la popolazione/l’universo in strati o due o più gruppi secondo una o più caratteristiche conosciute sulle unità statistiche (usando le informazioni a priori già note sulla popolazione) ed estrarre a caso da ogni sottoinsieme un campione di opportune dimensioni. Da ciascun sottogruppo viene estratto in maniera indipendente un campione di numerosità nh. 2. Si procede quindi all’estrazione delle unità indipendentemente per ogni gruppo (strato). Questa modalità di pianificazione/campionamento del campione consente di ottenere i seguenti obiettivi: -stime più precise, a parità di dimensione del campione, rispetto al campione casuale semplice purché all’interno degli strati le unità statistiche siano fra loro omogenee riguardo alle variabili oggetto di studio. -facilitare e razionalizzare il campionamento che può presentare problematiche diverse nei vari sottogruppi come ad esempio nel caso del campionamento della popolazione residente in zone urbane o rurali. Per poter applicare tale tecnica è necessario che le caratteristiche usate nella formazione degli strati sia disponibile sulla lista per ogni unità della popolazione. Ad esempio, se si usano le liste telefoniche si può usare la collocazione geografica come variabile di stratificazione. Gli strati devono essere omogenei per qualche caratteristica ritenuta importante ai fini dell’indagine. Questa suddivisione ci consente di partire da una situazione di variabilità inferiore, perché gli strati dovrebbero contenere al loro interno unità i cui caratteri hanno meno variabilità rispetto all’intero universo. Ad esempio, per alcune indagini può essere utile distinguere tra centri urbani ed extraurbani, quando il fenomeno in esame si ipotizza che sia diverso tra queste due localizzazioni e quindi la variabilità all’interno dei centri urbani e all’interno dei centri extraurbani è minore di quella complessiva.

Oppure il genere, le classi d’età o altre caratteristiche degli intervistati, se note, possono essere usate per stratificare l’universo di riferimento e ridurre la variabilità. Se si devono intervistare gli studenti universitari rispetto alle proprie aspettative per il futuro lavorativo, può essere utile suddividere l’universo di tutti gli studenti universitari italiani per facoltà, o per disciplina, attendendo una differenza per queste variabili nelle risposte e potendo quindi ridurre la variabilità attesa all’interno di questi strati. Ovviamente l’effettiva possibilità di stratificare dipende sia dalla numerosità dell’universo e del campione che si vuole ottenere, sia dalla effettiva disponibilità di informazioni a priori nel nostro elenco iniziale. Quando è possibile, si fa una vera cluster analysis per individuare gli strati. QUESTO TIPO DI CAMPIONAMENTO È DI GRAN LUNGA IL PIU’ UTILIZZATO.

CAMPIONAMENTO A PIÙ STADI  Per ogni stadio il ricercatore deve decidere le caratteristiche di delimitazione, la numerosità delle unità da estrarre, le probabilità di inclusione e le tecniche adeguate di selezione  Il campionamento a stadi non richiede la completezza della lista dei casi, ma solo una lista delle unità primarie aggregative che vengono estratte casualmente  La lista completa delle unità è necessaria solo in un momento successivo, a livello di unità primarie aggregative estratte

Il presupposto di questo tipo di campionamento è lo stesso di quello per il campionamento a grappoli. In particolare è necessario che la popolazione sia suddivisa in modo naturale o artificiale in segmenti di sottoinsiemi (grappoli) di unità elementari legate da vincoli di contiguità spaziale o di altra natura. In altri termini nel campionamento a due stadi viene estratto un certo numero di grappoli e per ogni grappolo selezionato si procede all’ulteriore campionamento delle unità ad esso appartenenti.

Quando vi sono due livelli o stadi di campionamento: nel primo si estraggono i grappoli, nel secondo si estraggono le unità elementari. Le unità di campionamento di primo stadio o unità primarie sono i grappoli; quelle di secondo stadio o unità secondarie sono le unità elementari della popolazione. Quando non sia disponibile una lista complessiva delle unità della popolazione è possibile ricorrere al campionamento a più stadi. Un esempio di tale situazione è dato dall’anagrafe che non esiste come unico archivio nazionale ma è suddivisa negli 8.103 comuni italiani. ESEMPIO: In questo caso si procede: 1. dapprima ad estrarre un campione di comuni (unità di primo stadio) e quindi, per ogni comune selezionato, 2. un campione casuale di famiglie (unità di secondo stadio) da ciascuna lista anagrafica, 3. Estraendo uno dei membri della famiglia rappresentativi del campione selezionato (unità di terzo stadio). A questo tipo di campionamento si ricorre in generale per necessità in quanto le stime con esso ottenibili sono di solito meno efficienti (maggior variabilità campionaria) di quelle calcolate applicando un campione casuale semplice. In alcuni casi si può procedere per livelli successivi prima di arrivare ad estrarre le unità di campionamento. Uno dei vantaggi di questa impostazione sta nel fatto che si fa riferimento a liste ridotte (la lista dei comuni e poi la lista dei residenti dei soli comuni estratti, nell’esempio precedente) invece che a liste di tutta la popolazione. Inoltre è possibile ridurre i costi dell’indagine perché, come accade nell’esempio precedente, le unità selezionate risiedono in alcuni comuni, non in tanti comuni quante sono le unità, cosa che potrebbe invece accadere in un campionamento casuale semplice su tutta la popolazione italiana. I campionamenti a più stadi possono essere anche stratificati. Nell’esempio precedente in effetti le unità di primo stadio erano stratificate per area geografica. In alcune indagini dell’ISTAT le unità di primo stadio, i comuni, sono stratificate per ampiezza demografica, nel senso che sono raggruppate secondo le dimensioni in termini di popolazione residente. Così si individuano due tipi di comune: quelli AR (autorappresentativi) e quelli NAR (non autorappresentativi). È il caso dell’indagine sulle Forze di lavoro, ma anche di altre indagini ISTAT in cui sono selezionate le famiglie.

CAMPIONAMENTO A GRAPPOLI Ci sono situazioni in cui conviene scegliere gruppi già costituiti nella popolazione. È il caso del campionamento a grappoli che si usa tipicamente nelle indagini sugli studenti delle scuole, già naturalmente raggruppati in classi. Anche questo campionamento può essere stratificato o a più stadi. Nello schema di campionamento a grappolo, l’unità di campionamento è un gruppo o grappolo di unità della popolazione. La procedura di selezione è la seguente: Si estrae un campione casuale di grappoli e tutte le unità ad esso appartenenti sono oggetto di rilevazione. Le motivazioni che possono indurre alla scelta di un campione di questo tipo sono almeno due: 1. Non è disponibile una lista degli elementi della popolazione. La popolazione viene suddivisa in unità areali (quartieri, sezioni di censimento, etc..) che sono oggetto di selezione. 2. Convenienza amministrativa e organizzativa. La sua valenza si esplica nei casi in cui i costi di rilevazione aumentano al crescere della distanza tra gli elementi.

CAMPIONAMENTO NON PROBABILISTICO “Si parla di campionamento non probabilistico quando non ricorrono le condizioni viste per quello probabilistico.” Tale tipo di campionamento: 1. Rappresenta la modalità prevalente nelle ricerche di mercato, nelle c.d. internet survery e nei sondaggi di opinione per i quali la tempestività è la dimensione più ricercata. ESEMPIO: persone al supermercato che fanno domande sui prodotti dove poi da queste interviste emergeranno ricerche di mercato. Questo è un tipo di campionamento non probabilistico. 2. Non consente inferenze sulle proprietà statistiche dei metodi di stima utilizzati, nel senso che proprio perché non conosco e perché è non probabilistico non casuale non posso fare ragionamenti sulla rappresentatività. 3. Il rischio di distorcere la rappresentatività della popolazione è elevato, ma che vuol dire che non si fanno? Si fanno! I campionamenti non probabilistici si fanno perché a volte non c’è altra alternativa. Ad esempio si ricorre ai questionari che sono fonti indirette 4. Non richiede la lista di campionamento

IL CAMPIONAMENTO NON PROBABILISTICO: CAMPIONI A SCELTA RAGIONATA  Questo tipo di campionamento è usato nel caso in cui il fenomeno da studiare sia fortemente caratterizzato o circoscritto a determinate aree o individui  Le unità campionarie vengono scelte sulla base di alcune loro caratteristiche In questa tipologia di campioni la scelta delle unità da includere nel campione è affidata al ricercatore o al rilevatore ed è operata al più delle volte con obiettivi di rappresentatività di certi aspetti strutturali della popolazione. (questo tipo di campionamento si utilizza spesso nelle tecniche di marketing) I campioni sono selezionati fortuitamente o a caso come: volontari, i pazienti di un centro medico, i rispondenti ad un questionario, unità che transitano da passaggi obbligatori come frontiere, ingressi ed edifici, casse di un supermercato etc…

IL CAMPIONAMENTO PER QUOTE Il campionamento per quote consiste nel selezionare, in base ad alcune variabili strutturali, la popolazione oggetto di studio. (è molto simile al campionamento casuale stratificato) Quindi, generalmente, il campione riflette la proporzione della popolazione complessiva. La differenza è che la scelta delle persone da intervistare non è fatta in modo casuale ma la si lascia agli intervistatori. Ogni intervistatore dovrà, previa libertà di scelta, individuare un numero prestabilito, detto quota, di individui aventi determinate caratteristiche da sottoporre ad indagine. Da qui deriva appunto il nome di campionamento per quota. Il campionamento per quote è tra i metodi non probabilistici più utilizzati per i sondaggi di popolazione ed è particolarmente adatto per ridu...


Similar Free PDFs