Tema 5 Models Lineals Generalitzats (GLM; Mètodes Moderns) PDF

Title Tema 5 Models Lineals Generalitzats (GLM; Mètodes Moderns)
Course Estadística
Institution Universitat de Girona
Pages 7
File Size 204.1 KB
File Type PDF
Total Downloads 70
Total Views 135

Summary

Download Tema 5 Models Lineals Generalitzats (GLM; Mètodes Moderns) PDF


Description

Tema 5: MODELS LINEALS GENERALITZATS (GLM; MÈTODES "MODERNS") Procediment d’anàlisi

Com sempre el primer pas és identificar el tipus de distribució de Y, per saber si cal aplicar un mètode "clàssic" (L "modern" (GLM).

En aquest tema explicarem com, i quan, utilitzar un mètode "modern" (GLM) per desenvolupar una anàlisi. Però l'estructura del model, hipòtesis i procediment depèn de l'anàlisi aplicat (sigui ANCOVA, ANOVA o REGRESSiÓ). decidir, quin d'aquest anàlisis cal utilitzar, us heu de preguntar "Què voleu analitzar?" (vegeu temes anteriors).

Quan apliquem GLM LA majoria de tests estadístics que eu vist fens ara (regressió, ANOVA, ANCOVA) els heu fet seguint un mètode clàssic (LM), ja que fins ara les variables resposta “Y” s’ajustaven força bé a una distribució Normal. Però moltes variables d’interès en biologia no segueixen aquests tipus de distribució: - Presència / absència d’espècies o èxit / fracàs de colonització - Abundancia d’individus, riquesa d’espècies - Taxa de supervivència

És en aquests casos on cal passar a un mètode més “modern” (GLM) per poder desenvolupar les nostres anàlisis (regressió, ANOVA; ANCOVA) Per altra banda, els GLMs són mètodes més “flexibles” i permeten corregir problemes que són un inconvenient important pel mètode “clàssic” (LM): Per exemple por corregir problemes de: - Autocorrelació (Apareixen quan no i a independència de dades) - Heteroscedasticitat Per tant, aquest mètode més “modern” s’està popularitzant molt i cada cop s’utilitza amb més freqüència

Tipus de variables resposta (Y) Bàsicament els GLM s'utilitzen amb aquests tipus de variables resposta:

1. Variables binaries (ex. Mort/supervivència, presència/absència, èxit/fracàs) on a variable només pot assolir do valors (0 o 1) 2. “counts ” (ex. Abundancia d’individus, riquesa d’espèies...) on la variable resposta compren números integres sovint conté molts zeros i la variància típicament augmenta amb la mitjana 3. Proporcions: (ex. Proporció d’insectes que sobreviuen a un pesticida), on la variància arriba a un màxim a val entremitjos de la mitjana En l'àmbit d'aquesta assignatura només explorarem de manera introductòria, dos d'aquests tipus de variables:

Variables Binaries Quan la "Y "només pot agafar 2 valors, és binaria, llavors segueix una distribució BINOMIAL En biologia hi ha molts exemples de variables d'aquest tipus: Presència-absència d'una espècie/símptoma infectat, o no, per un virus

Aquestes variables generen una distribució dels errors de tipus BINOMIAL, i a és rellevant ja que caldrà tenir-ho en compte alhora d'especificar el nostre mod de GLM.

Variables tipus recompte “count” Quan la "Y" és de tipus recompte "count", segueix una distribució de Poisson:

En biologia hi ha molts exemples de variables d'aquest tipus, totes tenen en comú, que:   

No poden agafar valors negatius No tenen decimals Els valors més abundants solen ser petits, per tant solen estar esbiaixades a la dreta

L'exemple, més típic és la variable "Riquesa d'espècies" (número d'espècies que ens troben en algun lloc) o el "nombre d'individus". Però qualsevol variable, sense negatius, ni decimals i esbiaixada a la dreta, es compatible a una variable de distribució tipus Poisson.

Aquestes variables generen una distribució dels errors de tipus POISSON, i això és rellevant ja que caldrà tenir-h compte alhora d'especificar el nostre model de GLM.

Estructura model GLM

Normalment ,els mètodes clàssics (LM) analitzen les dades suposant una distribució NORMAL dels residus/errors Per això, quan no es compleix el supòsit hi ha problemes. El que fa el GLM és aplicar una "transformació" a la Y perquè pugui ser analitzada correctament mitjançant un mètode lineal (El GLM també és un mètode lineal). Per fer-ho cal especificar 2 paràmetres:  

El tipus de distribució esperada dels errors, anomenat "family", i que ve determinat pel tipus de "Y" El "link" que és la clau per tractar les dades de manera coherent amb el tipus de distribució/family especificat

De manera que cada "family" té un "link" determinat :

Això està tan establert, que si no s'especifica el contrari, en R, al posar la família ja s'utilitza el link correcte per defecte, per tant, a la pràctica no cal especificar res més que la família

Que és el link El "link" és la transformació que cal fer a la "Y" perquè els seus errors passin a tenir una distribució el més pròxim possible a la distribució Normal. Per exemple, "Y" de tipus Binomial, s'aplica el link "Logit", per tant la "Y" es transforma de la següent manera:

Per "Y" tipus Poisson, el link és "Log", i això implica que la transformació que s'aplica a la "Y" és:

Ln [Y]

Per tant, el que fa el GLM, és realitzar una transformació interna de la Y (la transformació ja la fa el propi GLM, a partir del link associat a la família d'error que hem especificat). Per això, quan es fa un GLM, NOSALTRES NO HE DE TRANSFORMA MAI LA Y !!!! (estaríem fent una doble transformació, i això s'ha d'evitar sempre que sigui possible). Tot i així, a vegades per acabar d'aconseguir la millor distribució de residus possible, si que podem prov de transformar les variables explicatives (Xs).

Coses que cal considerar en un GLM

Molt bé, fins ara hem vist que el GLM no és res més que un mètode lineal, que permet analitzar "Y" amb distribuc diferents a la Normal. A banda d'això, hi ha altres aspectes importants que cal considerar per fer un bon ús dels GLMs  

Detectar problemes "Over-Underdispersion" Calcular ajustament dels models

Quan apareixen problemes Overdispersion Overdispersion o Underdispersion pot aparèixer quan: - No em inclòs predictors importants al model - Les assumpcions del model que s’utilitza no són correctes A QUE AFECTA En models amb error Binomial o Poisson, s’assumeix que existeix una relació determinada entre la variància i la mitjana de la variable resposta ( P. Ex. Mode Poissonvariància i mitjana aurien de tenir valors semblants)

Per saber si es compleix o no, es pot calcular el coeficient de dispersió (per defecte és=1). Aquest valor s’utilitza obtenir els valors-p del model. Per tant, si el coeficient de dispersió de les nostres dades és molt diferent de 1 ten “problemes”, ja que els valors-p estaran mal “estimats”, quan més diferent sigui de 1 més dolenta és l’estimació d valors-p i més greu és el problema. Així doncs, per saber si tenim, o no, “problemes” cal calcular wl coeficient de dispersió ( ɸ): ɸ = residual deviance / degrees of freedom  Si ɸ >1, hi ha “overdispersion” - Llavors, si no o tenim en compte alhora de calcular els valors-p, estem “inflant” les significacions (augmenten les probabilitats d’error tipus I; rebutjar una Ho quan és certa)  Si ɸ...


Similar Free PDFs