CONCEPTOS BÁSICOS DE BIOESTADÍSTICA PDF

Title CONCEPTOS BÁSICOS DE BIOESTADÍSTICA
Author Mariana Gonzales
Course Bioestadística
Institution Universidad Autónoma de Nuevo León
Pages 12
File Size 354.2 KB
File Type PDF
Total Downloads 83
Total Views 134

Summary

CONCEPTOS ÚTILES Y SENCILLOS DE COMPRENDER PARA LA MATERIA DE BIOESTADÍSTICA Y BIOESTADÍSTICA INFERENCIAL 1...


Description

La bioestadística desempeña un papel fundamental en la recolección y análisis de los datos en el contexto de experimentos clínicos, así como de estudios en otras áreas como epidemiología, política sanitaria, salud comunitaria familiar, salud ambiental y ocupacional entre otras más. CONCEPTOS BÁSICOS TEÓRICOS EN ESTADÍSITCA: ESTADÍSITCA: ciencia que establece los métodos necesarios para la recolección, organización, presentación y análisis de datos numéricos relativos a un conjunto de individuos u observaciones y que permiten extraer conclusiones válidas referentes a dicho conjunto. ESTADISTICA DESCRIPTIVA: Se basa en la descripción de datos y análisis estadísticos, sin sacar conclusiones. ESTADÍSITICA INFERENCIAL: Pretende sacar conclusiones y establecer caminos correctos a seguir de acuerdo a los datos estadísticos proporcionados. DEFINICIÓN DE ALGUNOS CONCEPTOS BÁSICOS EN ESTADÍSITCA: VARIABLE: Es un símbolo, tal como X, Y, H, A, B, que puede tomar un valor cualquiera de un conjunto determinado de ellos, llamado dominio de la variable. VARIABLE CONSTANTE: Es aquella que tiene un solo valor. VARIABLE CONTINUA: es aquella variable que teóricamente puede tomar cualquier valor entre dos valores dados. Representan medidas. VARIABLE DISCRETA: Es aquella que tiene un solo valor. Representan enumeraciones o conteos. VARIABLES CUALITATIVAS O DE ATRIBUTOS: Variable que clasifica o describe un elemento de una población. Las operaciones aritméticas, como sumar y obtener promedios, no son significativas para datos que resultan de una variable cualitativa.

1

VARIABLE CUANTITATIVA O NUMÉRICA: Es aquella que cuantifica un elemento de una población. Las operaciones aritméticas, como sumar y obtener promedios, son significativas para datos que resultan de una variable cuantitativa. POBLACIÓN: Grupo grande de individuos de interés particular que deseamos estudiar y entender. PARÁMETRO: Cálculo Resumido de mediciones realizadas en todos los sujetos de una población. MUESTRA: Subgrupo pequeño de la población, se mide, se observa y después se utiliza para obtener conclusiones sobre la población. ESTADÍSTICO: Cálculo Resumido de mediciones realizadas en una muestra para estimar un parámetro de la población. DATO: Valor de la variable asociada a un elemento de una población o muestra. Este valor puede ser un número, una palabra o un símbolo. DATOS: Conjunto de valores recolectados para la variable de cada uno de los elementos que pertenecen a la muestra.

PARTES PARA EL CÁLCULO ESTADÍSTICO: RANGO ( R ): Es la diferencia que existe en una serie de datos entre la máxima y la mínima. R = Dm - dm Dm = Dato mayor dm = Dato menor CLASE ( K ): Es el número de agrupaciones definido por uno mismo y va de 5 a 20. Forma aproximada de calcularse, el resultado se redondea al entero más próximo

2

. ¥1 N = total de datos INTERVALO DE CLASE ( IC ): Es el resultado que se obtiene al dividir el rango entre el número de clases establecido. IC =

ࡾ ࡷ

NOTA: El valor de K se sustituye en la fórmula en un número exacto TAMAÑO O ANCHURA DE UN INTERVALO DE CLASE ( C ): Es la diferencia entre los límites reales que lo forman. C = LRS ± LRI LRI = Límite real inferior LRS = Límite real superior LÍMITES REALES: Si los datos se registran con una aproximación de un dato dado, se dice que teóricamente incluye medidas de 5 unidades en su GHFLPDOPiVSUy[LPRSRUHMHPSORVLVHWLHQHXQLQWHUYDORGHFODVHGH³ ± ´ODVPHGLGDVVHUiQ³D´GRQGHHOHVHOOtPLWHUHDOLQIHULRUGH la clase ( LRI ) y el 63.5 es el límite real superior de la clase ( LRS ). MARCA DE CLASE ( X ): Es el punto medio del intervalo de clase y se obtiene sumando los límites inferior y superior y dividiéndolos entre dos. X=

ࡸࡵାࡸࡿ ૛

LI = Límite inferior LS = límite superior FRECUENCIA ( f ): Es el número de elementos que pertenecen a un intervalo de clase determinado por una clase dada.

3

FRECUENCIA RELATIVA ( fr ): Es la frecuencia de cada clase dividida por el total de frecuencias, expresada generalmente como porcentaje. Se representa gráficamente HQODOODPDGD³JUiILFDSDVWHO´RFLUFXODU fr =

ࢌ (100) σࢌ

f = Suma de todas las frecuencias = N FRECUENCIA ACUMULADA ( fac ): Es la suma de todas las frecuencias anteriores en función del LRI o la suma de todas las frecuencias posteriores en función de LRS. La gráfica con las que se representan en la ³RMLYD´(QHVWDJUiILFDVHSXHGHSUHGHFLUHOYDORUGHODPHGLDQD HISTOGRAMA DE FRECUENCIAS: Consiste en una serie de rectángulos que tienen sus bases sobre el eje horizontal del plano cartesiano con centros en las marcas de clase y longitud igual al tamaño de los intervalos de clase. En esta gráfica se puede predecir el valor de la moda. POLÍGONO DE FRECUENCIAS: Es una gráfica trazada sobre las marcas de clase. Se puede obtener uniendo los puntos medios de la parte superior de los rectángulos del histograma. MEDIDAS DE TENDENCIA CENTRAL: Son valores numéricos que localizan, de alguna manera, el centro de un conjunto de datos. MEDIA ( ࢞ ഥሻ: Es un promedio realizado por la suma de todas las frecuencias multiplicados por las marcas de clase correspondientes y dividido entre el total de elementos de la frecuencia.

ഥ ࢞ൌ

σሺࢌή࢞ሻ σࢌ

ഥ࢞ ൌ ࡭ ൅

σሺࢌήࢊሻ σࢌ

A = Marca de FODVHTXHFRUUHVSRQGHD³IP´ fm = Frecuencia mayor d = desviación normalizada d = X - A 4

MEDIANA ሺ࢞ ෥ሻ: Es el valor medio o la media aritmética de los dos valores medios. Es el valor de los datos que ocupa la posición central cuando los datos se ordenan según su tamaño.

࢞෥ ൌ ‫܀ۺ‬۷ ൅ ቆ

σࢌ ିσ ࢌ૚ ૛

܎‫ܕ‬

ቇ۱

෥ ൌ ‫ ܁܀ۺ‬െ ቆ ࢞

σࢌ ିσ ࢌ૛ ૛

܎‫ܕ‬

ቇ۱

f1 = Suma de todas las frecuencias arriba de fm f2 = Suma de todas las frecuencias debajo de fm LRI = El que corresponde a fm LRS = El que corresponde a fm C = El que corresponde a fm

ෝሻ: Es aquel valor que se presenta con mayor frecuencia. MODA ( ࢞

ෝ ൌ ࡸࡾࡵ ൅ ቀઢ ࢞

ઢ૚ ቁ࡯ ૚ ାઢ ૛

࢞ ൌ ࡸࡾࡿ െ ቀઢ ෝ

ઢ૛ ቁ࡯ ૚ ାઢ ૛

¨1 = fm ± fa fa = Frecuencia anterior a fm ¨2 = fm ± fp fp = Frecuencia posterior a fm MEDIDAS DE DISPERSIÓN O VARIACIÓN Son aquellas que asignan un valor numérico a la cantidad de variación que hay en un conjunto de datos. La dispersión de los datos intenta dar una idea de cuán esparcidos están los datos. ALEATORIO: Forma de selección casual realizada de forma consciente en técnicas de muestreo. DESVIACIÓN MEDIA (DM): 5

ࡰǤ ࡹǤ ൌ

ഥȁሿ σሾࢌȁ࢞ െ ࢞ σࢌ

I I = Valor absoluto (solo interesa el número, no interesa el signo) DESVIACIÓN ESTANDAR ( S ): Es una medida de la fluctuación o dispersión que hay entre los datos. Con esta medida es posible comparar la variabilidad de un conjunto de datos con otro.

ࡿൌට

σ൫ࢌή࢞૛ ൯ σࢌ

σሺࢌή࢞ሻ ૛

െቀ

σࢌ

ቁ ࡿ ൌ ට

ഥȁ૛ ൧ σൣࢌȁ࢞ି࢞ σࢌ

COEFICIENTE DE VARIACIÓN (CV):

࡯Ǥ ࢂǤ ൌ VARIANZA ( V):

ࡿ ሺ૚૙૙ሻ ഥ ࢞

V = S² ERROR ESTANDAR (EE):

ࡱࡱ ൌ

‫܁‬

ξࡺ

SESGO: Mide el grado de concentración de los valores de una distribución de frecuencias a un lado y a otro de la MEDIA. 1) Si la mayoría de los valores son menores que la (MEDIA) se dice que es: una distribución sesgada a la derecha o positiva. MEDIA > MEDIANA > MODA 2) Si la mayoría de los valores son mayores que la (MEDIA) se dice que es: una distribución sesgada a la izquierda o negativa. MEDIA < MEDIANA < MODA

6

3) 6LHVQXODR³FHUR´VHGLFHTXHHVVLPpWULFD MEDIA = MEDIANA = MODA PRIMER COEFICIENTE DE SESGO DE PEARSON: (PCS) PCS =

࢞ഥି࢞ ෝ ࡿ

SEGUNDO COEFICIENTE DE SESGO (SCS) ࡿ࡯ࡿ ൌ

෥ሻ ૜ሺഥ ࢞െ࢞ ࡿ

CURTOSIS: Es el grado de aplanamiento o apuntamiento de una distribución de frecuencias.

El Coeficiente de Curtosis analiza el grado de concentración que presentan los valores alrededor de la zona central de la distribución. Se definen 3 tipos de distribuciones según su grado de curtosis: 1) Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal).

2) Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores centrales de la variable.

3) Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable.

7

El Coeficiente de Curtosis (a4) viene definido por la siguiente fórmula:

ܽͶ ൌ

σሾ݂ȁ‫ ݔ‬െ ‫ݔ‬ҧ ȁ΀ሿ െ͵  ൉ ΀

Los resultados pueden ser los siguientes:

a4 = 0 (distribución mesocúrtica). a4 > 0 (distribución leptocúrtica).

(positivo)

a4 < 0 (distribución platicúrtica). (negativo) MEDIDAS DE PUNTUACIÓN CUARTILES, DECILES Y PERCENTILES σ݂ െ σሺ݂ଵ ൅ ݂ଶ ሻ ቍ ܳ ൌ ‫ܫܮ‬ଷ ൅ ቌ Ͷ ݂ଷ ܴ

AJUSTE DE DATOS A DISTRIBUCIONES TEÓRICAS DISTRIBUCIÓN NORMAL REGLA EMPÍRICA EN UNA DISTRIBUCIÓN NORMAL: Si una variable está distribuida normalmente, entonces: a menos de XQDGHVYLDFLyQHVWiQGDU³6´GHODPHGLD³;´KD\DSUR[LPDGDPHQWHGHORV 8

GDWRV D PHQRV GH GRV GHVYLDFLRQHV HVWiQGDU ³6´ GH OD PHGLD ³;´ KD\ aproximadamente 95% de los datos; y a menos GH ³6´ GH OD ³;´ KD\ aproximadamente 99.7% de los datos. Esta regla es válida específicamente para una distribución normal (en forma de campana), aunque a menudo se aplica como guía para cualquier distribución en forma de montículo. ESTADÍSTICA PARAMÉTRICA: Es una rama de la estadística inferencial que comprende los procedimientos estadísticos y de decisión que están basados en las distribuciones de los datos reales. Estas son determinadas usando un número finito de parámetros. Se requiere conocer la media y la desviación estándar. Para la inferencia paramétrica es requerida como mínimo una escala de intervalo, esto quiere decir que nuestros datos deben tener un orden y una numeración del intervalo. ESTADÍSTICA NO PARAMÉTRICA: Es una rama de la estadística que estudia las pruebas y modelos estadísticos cuya distribución interna no se ajusta a los llamados criterios paramétricos. Su distribución no puede ser definida sin antes analizar la información , pues son los datos observados los que la determinan. La utilización de estos métodos se hace recomendable cuando no se puede asumir que los datos se ajusten a una distribución conocida, cuando el nivel de medida empleado no sea, como mínimo, de intervalo. Algunas pruebas de este tipo son: Distribución Binomial, Poisson, Prueba de Pearson, Coeficiente de correlación de Spearman, etc.

PROBABILIDAD: Mide las posibilidades de que cada uno de los posibles resultados en un suceso que depende del azar sea finalmente el que VH Gp (V XQD PHGLFLyQ QXPpULFD GH YD GH ³ D ´ R GH ³ D ´ HQ SRVLELOLGDG GH TXH XQ HYHQWR VXFHGD 6L GD FHUFD GH ³´ HV LPSUREDEOH Vu RFXUUDR VXFHGDSHURVLGDFHUFDGH³´RGHO ³HVPX\SUREDEOHTXH suceda. PROBABILIDAD SIMPLE: Es la probabilidad en la que ocurra un evento que tiene una sola característica. P(A) = Números de eventos que tiene la característica A Total de resultados posibles

=

A n

9

P(A) =

(YHQWR³$´ Total de eventos

PROBABILIDAD CONJUNTA: Es la probabilidad de que ocurra un evento que cumpla al mismo tiempo, con dos o más características. Es cuando se analizan dos o más características al mismo tiempo. P(A y B) = Números de eventos que tiene la característica A y B = A y B Total de resultados posibles n P(A y B) = Probabilidad conjunta Total de eventos PROBABILIDAD CONDICIONADA: Es la probabilidad de que un segundo evento A ocurra, si el primer evento B ya ha ocurrido, se escribe P(A / B) y se lee ¿cuál es la probabilidad de que ocurra el evento A si ya ocurrió el evento B? En este tipo de probabilidad, siempre se conocerá una característica y se va a calcular la probabilidad de que ocurra la otra característica. Además, la característica conocida, determina la parte del espacio muestral que se va a utilizar como denominador. P(A/ B) = Números de eventos que tiene la característica A y B = A y B Número de eventos con la característica de B n(B)

P(A/ B) = Probabilidad conjunta Probabilidad simple NIVEL O GRADO DE CONFIANZA (1 - Į(VODSUREDELOLGDGGHTXHHO parámetro a estimar se encuentre en el intervalo de confianza, Los niveles de confianza más usuales son: 90%, 95% y 99%. INTERVALO DE CONFIANZA: Es un rango de valores (calculado en una muestra) en el cual se encuentra el verdadero valor del parámetro, con una probabilidad determinada, y esta se llama nivel de confianza. Un intervalo de confianza permite verificar hipótesis planteadas acerca de parámetros poblacionales.

10

1,9(/'(6,*1,),&$1&,$Į6RQORVIDOWDQWHVDOFRQUHVSHFWR DOQLYHOGHFRQILDQ]DHVGHFLUĮ= 10%, 5% y 1% respectivamente.

FÓRMULA PARA DISTRIBUCIÓN NORMAL

ࢆൌ PRUEBA DE BONDAD

ഥ ࡸࡾࡵ െ ࢞ ࡿ

La estadística paramétrica es una rama de la estadística inferencial que comprende los procedimientos estadísticos y de decisión que están basados en distribuciones conocidas. ... La media y la desviación típica de la distribución normal son los dos parámetros que queremos estimar. Las pruebas paramétricas son una herramienta estadística que se utiliza para el análisis de los factores de la población. Esta muestra debe cumplir ciertos requisitos como el tamaño, ya que mientras más grande sea, más exacto será el cálculo. Las pruebas paramétricas son un tipo de pruebas de significación estadística que cuantifican la asociación o independencia entre una variable cuantitativa y una categórica. Recordemos que una variable categórica es aquella que diferencia a los individuos en grupos. Las pruebas de bondad de ajuste son pruebas de hipótesis para verificar si los datos observados en una muestra aleatoria se ajustan con algún nivel de significancia a determinada distribución de probabilidad (uniforme, exponencial, normal, u otra cualquiera).

Para medir la bondad de ajuste son la prueba de CHI CUADRADA (X²)

V = (k ± m ± 1) DONDE: V = grados de libertad m = 2 (por la media y la desviación estándar) k = es el último valor de esa columna

11

ሺࢌିࢌ࢚ሻ૛ X²c ൌ  σ ࢌ࢚

DONDE: ft = Frecuencia teórica

12...


Similar Free PDFs