Title | Bioestadística - 2. Estadística descriptiva bivariada |
---|---|
Course | Metodologia Científica i Bioestadística |
Institution | Universitat Autònoma de Barcelona |
Pages | 6 |
File Size | 522 KB |
File Type | |
Total Downloads | 26 |
Total Views | 644 |
Marta Arasanz Melero Grau en Infermeria UAB 2. descriptiva bivariada 1 de dues variables Quan es tenen 2 variables es vol fer un diagrama de de punt), que consisteix en posicionar cada individu en dels valors de les variables analitzades. a dir, es visualitza la covariabilitat entre 2 variables aque...
Marta Arasanz Melero
Grau en Infermeria UAB
Bioestadística
2. Estadística descriptiva bivariada 1 Descri Descripció pció de dues vari variables ables cont contínues ínues Quan es tenen 2 variables contínues, es vol fer un diagrama de dispersió (núvol de punt), que consisteix en posicionar cada individu en funció dels valors de les variables analitzades. És a dir, es visualitza la covariabilitat entre 2 variables aleatòries contínues. D’entrada, aquest gràfic permet detectar si existeix un patró de comportament conjunt entre les 2 variables: es diu que 2 variables estan associades quan els valors d’una depenen dels valors de l’altra; és a dir, que els valors d’una variable canvien quan es modifiquen els valors de l’altra. El primer pas per descriure conjuntament 2 variables contínues és graficar (explorar gràficament), perquè això dóna una idea de si estan associades i de quina forma estan associades. Sobre el núvol de punts, es dibuixen 2 eixos, que es correspondran
amb
les
mitjanes dels valors dels 2 eixos (cintura
en
mm
i
IMC).
D’aquesta manera, els punts s’estan posicionant en funció de com es distancia cada punt respecte la mitjana de les 2 variables que s’estan explicant.
1.1 Covariància
La covariància és el producte de distàncies de cada punt per cada un dels eixos, i això es fa per cada individu. Finalment, es divideix per N per obtenir un valor “promig” per tal que l’estadístic no depengui de la mida mostral. És a dir: !"# =
(&' − &)(*' − *) +
13
Marta Arasanz Melero
Grau en Infermeria UAB
Bioestadística
En el gràfic anterior, qualsevol punt ubicat en el quadrant I, respecte la mitjana de cintura, són valors per sobre, i respecte la mitjana de l’IMC, també són valors que es distancien per sobre. Per tant, el producte de les distàncies de tots els individus d’aquest quadrant serà positiu. Els individus del quadrant III tenen distàncies negatives en relació a la cintura, i valors inferiors d’IMC. Com que es tracta de 2 distàncies negatives, el producte resultarà positiu. Els individus dels quadrants II i IV tindran distància negativa per una de les variables, i positiva per l’altra, de manera que el producte serà negatiu. Per tant, la interpretació de la covariància és: -
Si la majoria d’individus es troben als quadrants I i III, on el producte de distàncies és positiu, la Cov > 0. Una Cov > 0 indica una relació creixent.
-
Una Cov < 0 indica una relació decreixent.
-
Una Cov semblant a 0, indica una no-relació entre les 2 variables.
La Cov presenta un inconvenient: és un estadístic que té unitats (en aquest cas,
,,·./ ,0
). Per tant, les
unitats s’han d’eliminar perquè el seu valor sigui interpretable i perquè sempre es pugui interpretar de la mateixa manera (s’ha de convertir en adimensional). 1.2 Correlació lineal de Pearson
Per eliminar les unitats de la Cov, es divideix per la SD de x i per la SD de y, de manera que aquest nou estadístic és “promig” i adimensional: 1=
(&' − &)(*' − *) +23 24
El coeficient de correlació lineal de Pearson ( r ) va de –1 a 1 i s’interpreta com: -
r = 1: relació lineal creixent, o (cor)relació positiva.
-
r = –1: relació lineal decreixent, o (cor)relació negativa.
-
r = 0: no hi ha relació lineal.
1.3 Coeficient de determinació
Si el coeficient de correlació lineal de Pearson s’eleva al quadrat, s’obté el coeficient de determinació (r2). Això permet entendre d’una forma quantitativa la relació entre 2 variables: -
Els seus valors es troben entre 0 i 1, i permet interpretar el seu resultat dient quina és la proporció de la variabilitat d’una de les variables que s’explica per la seva relació lineal amb l’altra variable: o
En el cas anterior, r = 0,802 i r 2= 0,64: el 64,3% de la variabilitat de la cintura s’explica per la seva relació lineal amb l’IMC (o viceversa).
o
Exemple alçada i pes ( r = 0,502 i r2 = 0,252): el 25,2% de l’alçada s’explica per la seva relació lineal amb el pes (o viceversa).
14
Marta Arasanz Melero
Grau en Infermeria UAB
Bioestadística
2 Descri Descripció pció de dues vari variables ables cate categòrique gòrique gòriquess Dues variables categòriques es poden representar en forma de taula, on cadascuna de les caselles es correspon a la combinació de les 2 categories, i això es coneix com a taula de contingència. Això s’anomena fer la distribució conjunta:
2.1 Distri bució de 2 va riable gòriques i di stribucions m arginal Distribució variable riabless cate categòriques distribucions arginalss
Suposant que l’objectiu d’un estudi fos saber si l’IMC depèn del sexe:
Observant la taula anterior, es pot dir que: -
Si només s’observen els homes (es fixen els homes), es pot dir del total d’homes (5559), 900 (16,2%) són obesos. à Entre els homes, el 16,2% són obesos; el 44,8% dels homes tenen sobrepès; el 43,2% tenen un IMC normal; i el 0,7% tenen primesa extrema.
15
Marta Arasanz Melero -
Grau en Infermeria UAB
Bioestadística
La distribució de l’IMC condicionada a dones seria: el 19,9% són obeses; el 30,7% tenen sobrepès; el 47,5% tenen un IMC normal; i un 1,9% tenen primesa extrema.
-
Es pot fixar l’IMC: entre els 2073 que tenen obesitat, el 56,6% són dones; i el 43,4% són homes. En aquest cas, s’ha fet la distribució de sexe condicionat a obesitat.
-
Es pot fer el mateix condicionant a sobrepès: entre els que tenen sobrepès, el 57,9% són homes i el 42,1% són dones.
-
A més, es pot descriure la distribució conjunta: sobre el total de persones (11459), 2802 són dones amb IMC normal, és a dir, el 24,5% de la mostra són dones amb IMC normal.
-
Les distribucions que es poden fer són: o
IMC fixant homes.
o
IMC fixant dones.
o
Sexe fixant obesitat.
o
Sexe fixant sobrepès.
o
Sexe fixant normal.
o
Sexe fixant primesa extrema.
o
Distribució conjunta.
o
Distribucions
marginals (2): distribucions
de cadascuna de les variables
independentment de l’altre: §
El 48,5% de la mostra són homes i el 51,1% de la mostra són dones.
§
Independentment del sexe, el 18,1% tenen obesitat; el 37,6% sobrepès; el 43% IMC normal i un 1,3% primesa extrema.
Si l’objectiu és saber si l’IMC depèn del sexe, s’han de fixar homes, fixar dones, i comparar les distribucions d’IMC entre homes i dones: -
El 16,2% dels homes presenta obesitat, i el 19,9% de les dones també.
-
El 44,8% dels homes presenta sobrepès, i el 30,7% de les dones també.
-
El 38,3% dels homes té un IMC normal, i el 47,5% de les dones també.
-
El 0,7% dels homes té primesa extrema, i un 1,9% de les dones també.
La representació gràfica es fa amb 2 diagrames de sectors o amb un gràfic de barres on es pugui discriminar entre els 2.
16
Marta Arasanz Melero
Grau en Infermeria UAB
Bioestadística
Un altre exemple és: Malal Malalts ts
No malalt malaltss
Total
Barcelona
100000
1400000
1500000
Bellaterra
1000
9000
10000
Total
101000
1409000
1510000
Es fa la pregunta: on hi ha més malaltia? (Malaltia segons la ciutat): -
A Bellaterra hi ha 1000/10000 = 10% malalts.
-
A Barcelona hi ha 100000/1500000 = 6,67% malalts.
Algú pot decidir mirar-ho d’una altra manera (ciutat segons malaltia): -
1000/101000 = 0.99% dels malalts viuen a Bellaterra.
-
9000/1409000 = 0,64% dels no malalts viuen a Bellaterra.
2.2 Mesure ciació e ntre dues variabl es categò riques Mesuress d’asso d’associació entre variables categòriques
2.2.1 Raó de prevalença (RP) Malal Malalts ts
No malalt malaltss
Total
Exposats
3
7
10
No exposat exposatss
1
9
10
Total
4
16
20
A partir de la taula anterior, dir que el 75% dels malalts estan exposats, i el 25% dels malalts són no exposats indica que l’exposició depèn de la malaltia, i es vol saber si la malaltia depèn de l’exposició: -
Quina és la prevalença de malaltia entre els exposats? El 30% dels exposats estan malalts. El 10% dels no exposats estan malalts. (Distribució de malaltia condicionada a exposició).
-
Sembla que, efectivament, la malaltia depèn de l’exposició: o
Si es fa el quocient entre la prevalença de malaltia entre els exposats, i la prevalença de malaltia en el grup de no exposats, el resultat és 3 à La prevalença de malaltia és 3 vegades més gran entre els exposats que entre els no exposats. §
o -
56 =
7(8|:) 7(8|;:)
=
1, es tractaria d’un factor de risc o associat.
17
Marta Arasanz Melero
Grau en Infermeria UAB
Bioestadística
2.2.2 Raó d’odds o Odds Ratio (OR) A la pràctica, no s’utilitza la RP sinó l’OR. L’odds és una raó entre la probabilitat que passi una cosa entre la probabilitat que no passi o, dit d’una altra manera, entre la prevalença i el seu complementari: ABBC =
1 1−1
Seguint amb l’exemple anterior: -
L’odds de malaltia entre els exposats: o o
-...