Bioestadística - 3. Distribucions de probabilitat PDF

Title Bioestadística - 3. Distribucions de probabilitat
Course Metodologia Científica i Bioestadística
Institution Universitat Autònoma de Barcelona
Pages 5
File Size 165.9 KB
File Type PDF
Total Downloads 148
Total Views 352

Summary

Marta Arasanz Melero Grau en Infermeria UAB 3. Distribucions de probabilitat 1 Variabilitat i distribucions de probabilitat La variabilitat aquella que no es pot atribuir a factors, i de quantificar per tal de fer Les distribucions de probabilitat lleis que regeixen una variable Dit altra manera, le...


Description

Marta Arasanz Melero

Grau en Infermeria UAB

Bioestadística

3. Distribucions de probabilitat 1 Variabili Variabilitat tat aleatòr aleatòria ia i distribucio distribucions ns de p probabilita robabilita robabilitatt La variabilitat aleatòria és aquella que no es pot atribuir a factors, i s’ha de quantificar per tal de fer inferència estadística. Les distribucions de probabilitat són lleis que regeixen una variable aleatòria. Dit d’una altra manera, les distribucions de probabilitat són eines que permeten conèixer el comportament de la variabilitat d’una mesura si els valors d’aquesta mesura es deguessin exclusivament a l’atzar. Si bé el resultat d’un fenomen és degut a l’atzar, hom pot, a priori, descriure quin serà el comportament d’aquest fenomen.

2 Distr Distribució ibució normal La distribució normal és molt important en estadística perquè s’ha comprovat que hi ha diversos fenòmens que es comporten segons aquesta distribució. Algunes de les seves propietats són: -

Es una distribució de variable contínua simètrica que té un centre (mitjana), i a partir del centre es poden calcular coses en relació a la desviació estàndard. o

Quan es parla de !, s’està fent referència a la mitjana mostral, mentre que μ és la mitjana poblacional. Passa el mateix amb SD (mostral) i σ (poblacional).

-

La seva curtosi és 3, de manera que: o

Si a la μ se li ± 1σ, s’agruparan el 68,26% dels valors d’aquella població.

o

Si a la μ se li ± 2σ, es concentraran el 95,45% dels valors de la població.

o

Si a la μ se li ± 3σ, es tindran el 99,73% dels valors de la població.

El problema que presenta la distribució normal és que existeixen infinites distribucions normals. Per evitar haver de calcular sempre entre quins valors se situen els percentatges anteriors, s’ha d’estandarditzar, és a dir, convertir una distribució normal amb una μ i σ determinades en una distribució normal (0,1) (μ=0; σ=1). Per estandarditzar, es canvia l’escala dels valors amb els quals es treballa: " = -

$% &' (

∼ *(0,1).

On xi és el valor original de la variable. A aquest valor original se li resta la mitjana i es divideix entre la desviació típica. Així s’obté un nou valor (Z), que no és res més que aquell valor, però en l’escala de la distribució N(0,1).

-

Per exemple, imaginar per l’IMC una μ=26,4 kg/m2 i una σ=3 kg/m2. Per tant, algú amb IMC 28,8: "=

28,8 − 26,4 = 0,8 3

19

Marta Arasanz Melero o

Grau en Infermeria UAB

Bioestadística

La puntuació Z és la distància de cada punt respecte al centre, però en desviacions estàndard. Aquest individu amb z=0,8 és un individu freqüent, ja que està bastant al centre de la distribució.

Amb les taules i amb la proporció Z, es poden calcular diverses coses: -

Per exemple, un individu amb xi = 0,3 és un individu que deixa a l’esquerra el 61,79% de la resta d’individus, i a la dreta, el 28,21% d’individus.

Quan es fa inferència, constantment es compara el resultat observat a la mostra amb el resultat que s’esperaria haver observat sota una hipòtesi determinada, i per saber aquesta dada, es té definit el comportament d’aquest fenomen. Si se suposa que el fenomen estudiat segueix una distribució normal, s’ha de complir, entre d’altres, les regles ja vistes. Per exemple, seguint amb l’exemple anterior de l’IMC, hom podria preguntar-se “en la distribució normal d’IMC, quina probabilitat hi hauria de trobar una persona que el tingués de 28,8 o menys?”. Si es busca en les taules, es veu que aquesta probabilitat és 78,81%. És a dir, el 78,81% dels individus de la distribució estan per sota de l’individu amb IMC 28,8. No totes les distribucions contínues són normals. Les característiques que s’han de complir perquè una distribució sigui normal són: -

Observacions independents: per exemple, en una mostra, l’IMC d’una persona no ha de dependre de l’IMC d’una altra. Això pot semblar molt obvi, però no sempre és així: per exemple, si en l’enquesta hi ha germans, els seus IMC estaran relacionats.

-

Distribució unimodal: només ha de tenir una sola moda (igual a mediana i mitjana).

-

Distribució simètrica.

-

Curtosi “no diferent” a 3.

A algú, un cop va saber com es comportava la distribució normal, se li va ocórrer què passaria amb el centre de la distribució si se seleccionaven moltes vegades moltes mostres de la mateixa mida mostral d’una mateixa població (ex: 100 mostres de mida n de l’IMC dels homes de la ciutat de Gauss): -

Un cop es tinguessin les mitjanes de cada mostra, si es posessin de forma gràfica, tindrien forma de campana de Gauss. Això passaria quan la variable estudiada seguís una distribució normal.

-

El centre de la distribució es correspondrà a la μ (mitjana poblacional): la mitjana mostral canvia, però la mitjana de totes les mitjanes mostrals és la mitjana poblacional.

-

Quan s’està calculant i dibuixant la distribució de mitjanes, aquestes se’n van sempre cap al centre (tot i que pot haver un individu amb un IMC de 33,4, és molt difícil que la mitjana mostral d’IMC sigui 33,4). La distribució de mitjanes és més agrupada al centre que no pas la distribució de valors originals.

-

Les mitjanes de la distribució de mitjanes, s’assemblaran més si la mida mostral és gran. És a dir, a major mida mostral, s’espera que les mitjanes, entre elles, siguin més semblants. Així, la dispersió serà més petita.

20

Marta Arasanz Melero -

Grau en Infermeria UAB

Bioestadística

Si es té una distribució normal amb mitjana μ i desviació σ, la distribució de les mitjanes que es puguin obtenir de les mostres tindrà el mateix centre, i tindrà una desviació que es correspon a la desviació original σ però dividida entre la mida mostral (a més mida mostral, més petita serà la nova desviació).

-

La desviació d’una distribució de mitjanes

( 6

s’anomena error típic.

central 2.1 Teorema del límit cent ral

Si es té una variable contínua que segueix una distribució normal i d’aquesta s’extreuen mostres i es calculen les seves mitjanes, la distribució de les mitjanes també serà normal amb el mateix centre i la desviació estàndard que s’ha vist anteriorment. El teorema del límit central també diu que inclús si la distribució de la variable original no és normal, si la mida mostral és gran (≥30), si es fa el procés d’obtenir mitjanes, s’obtindrà una distribució normal amb el centre com la mitjana poblacional i la desviació com l’error típic. distribució 2.2 Exemple de la distr ibució binomial

Suposar que es vol saber si una població determinada del Pallars Jussà té un IMC igual que la mitjana de Catalunya. Es té la hipòtesi que no, perquè mengen molt formatge, i es té el convenciment que l’IMC allà ha de ser més gran: -

Es va al poble, s’agafa una mostra de 100 persones i es calcula la seva mitjana (! = 27).

-

Se sap que a Catalunya l’IMC segueix una distribució normal de μ=26,4 i σ=3,4.

-

Si es vol saber si aquesta mitjana en aquest poble del Pallars Jussà és diferent a la μ, no s’ha de treballar amb els valors originals, sinó amb la distribució de totes les mitjanes que es puguin extreure en 100 individus.

-

El centre seria el mateix (26,4) però la desviació de la distribució de mitjanes seria l’error típic (0,34), de manera que a la nova distribució: 21

Marta Arasanz Melero

-

Grau en Infermeria UAB

o

El 68,26% del individus tenen un IMC entre 26,06 I 26,74.

o

El 95,45% dels individus tenen un IMC entre 25,72 i 27,08.

o

El 99,73% dels individus tenen un IMC entre 25,38 i 27,42.

Bioestadística

La mitjana del poble (27) no és un valor rar en la nova distribució, ja que està a menys de 2σ: si no es un valor rar segons la distribució que s’està utilitzant, segurament, a aquest poble del Pallars Jussà, la distribució no es pot considerar diferent al conjunt de Catalunya.

-

Si la mitjana hagués estat 30, el valor seria rar: efectivament, és molt probable que en aquest poble del Pallars Jussà, la distribució d’IMC sigui una altra.

3 Distr Distribució ibució binomial En l’àmbit de les ciències de la salut, moltes vegades no es treballa amb variables contínues, sinó categòriques, i moltes vegades dicotòmiques (malalt/no malalt). És la distribució de referència més freqüent quan es treballa amb variables categòriques. En el fons, la distribució binomial és una suma d’experiments Bernoulli: -

Suposar una variable dicotòmica: malalt/no malalt. Aquesta variable només té 2 opcions de resposta (sí/no). Es vol estudiar el nombre de malalts.

-

Cadascun dels subjectes pot respondre sí o no, però l’objectiu de l’estudi és estudiar una variable “número de vegades”. Per tant, si bé en cada subjecte la mesura que es pren és dicotòmica, la variable amb què es treballa realment és discreta.

-

Aquest exercici de mesurar a cada unitat experimental una variable dicotòmica s’anomena experiment Bernoulli. Un experiment Bernoulli és aquell que té 2 possibilitats. Però la suma de Bernoullis fan la distribució binomial (nombre “d’èxits” en aquest experiment Bernoulli).

Exemple: cada cop que es llença una moneda poden sortir 2 resultats, però després es calcula la probabilitat de que tirant les 2, surtin 0, 1 o 2 cares. La distribució binomial, per tant, serveix per modelar distribucions de variables del nombre de vegades que ha passat alguna cosa, que en cadascun dels individus pot tenir 2 possibles resultats, i finalment es calculen probabilitats associades al nombre de vegades que ha passat alguna cosa. La funció de la distribució binomial és: 8 9=! =

*! ; $ (1 − ;)...


Similar Free PDFs