La prueba t de Student - Apuntes 6 PDF

Title La prueba t de Student - Apuntes 6
Author NOELIA OTERO
Course Bioestadística
Institution Universidad de Sevilla
Pages 12
File Size 370.2 KB
File Type PDF
Total Downloads 5
Total Views 127

Summary

TEMARIO DE BIOESTADISTICA
S STUDENT PROGRAMA MUY USADO
IMPORTANTE
BIEN EXPLICADO...


Description

La prueba t de Student es una técnica de análisis muy interesante y ampliamente utilizada, sobretodo en Medicina, Sociología y Psicología, y también en Marketing. ¿En qué consiste? Se trata de la comparación de 2 muestras de medidas repetidas (también llamadas muestras relacionadas o pareadas). Las medidas repetidas pueden servir como método de auto-control en un diseño experimental, porque permite controlar otras variables externas a las que se desea evaluar. De ahí su importancia. Pero comencemos por el principio… En el post GUÍA DEFINITIVA PARA ENCONTRAR LA PRUEBA ESTADÍSTICA QUE BUSCAS aprendimos a seleccionar la prueba de hipótesis que necesitas para tus datos según tus objetivos (comparar o asociar) y el tipo de datos que tienes (muestras independientes o relacionadas, y el tipo de variable -categórica o numérica-). Hemos realizado ejemplos de aplicación en R para muestras independientes. Para comparar 2 grupos independientes (¿CÓMO REALIZAR LA PRUEBA T DE STUDENT?) y para 3 o más grupos independientes

(¿CÓMO REALIZAR EL ANOVA DE UNA VÍA EN R?). Pero ahora toca tratar con medidas repetidas. ¿Recuerdas lo que significa tener muestras relacionadas? Lo resumimos brevemente. Máster de Estadística Aplicada con R Software IX edición Octubre 2019 -Matrícula abierta-

Las muestras relacionadas En las muestras relacionadas tenemos varias observaciones del mismo sujeto o caso. Cada caso está expuesto a más de uno de los tratamientos que se están probando, ya sea siendo tratado y no tratado, respondiendo varias preguntas o realizando tareas bajo más de un estímulo externo. Las muestras relacionadas aparecen en experimentos del tipo antes-después, como por ejemplo el estudio de pacientes donde se comparan los resultados antes y después de la aplicación de un tratamiento. Imagina que se administra el fármaco a los 30 pacientes hipertensos y se anota su presión sanguínea antes (pretest) y después (posttest) de la administración del mismo (treatament). En este caso tenemos una variable repuesta que es la presión sanguínea (numérica) y una variable explicativa que es el tiempo (categórica: antes y después de aplicar el fármaco). Los datos vienen dados por parejas para cada sujeto (presión antes y después) por lo cual los datos están relacionados entre sí.

¿Por qué utilizar pruebas de hipótesis específicas para muestras relacionadas? Y te preguntarás ¿por qué tanto jaleo? ¿por qué es necesario tener en cuenta si las muestras son independientes (sobre sujetos o elementos distintos) o relacionadas (tomadas sobre los mismos sujetos o elementos)? Si las muestras están relacionadas, entonces los valores de una muestra afectan los valores de la otra muestra. Por ejemplo, un sujeto que es hipertenso y tiene un valor alto en la primer muestra del ejemplo que pusimos anteriormente, es de esperar que también tenga una tensión alta en la segunda muestra. Y esto debes tenerlo en cuenta en el error de tus análisis.

¿Cómo comparamos 2 muestras relacionadas? Siguiendo el esquema que establecimos en la GUÍA DEFINITIVA PARA ENCONTRAR LA PRUEBA ESTADÍSTICA QUE BUSCAS, tenemos las siguientes opciones:

En este post veremos la prueba t de Student para 2 muestras relacionadas, que es la versión paramétrica (un procedimiento que estima parámetros desconocidos). Una vez comprendas esta prueba te será sencillo pasar a la versión no paramétrica (prueba de Wilcoxon para muestras relacionadas) o a la versión robusta (prueba de Yuen para muestras relacionadas).

¿Cuáles son las suposiciones de esta prueba y cuándo podemos aplicarla? Como sabes, las pruebas paramétricas tienen una serie de supuestos que deben cumplir para que los resultados sean de calidad. La prueba t para muestras relacionadas tiene cuatro supuestos principales: 

La variable dependiente debe tener una distribución aproximadamente normal. Haremos pruebas de normalidad para contrastarlo.



Las observaciones de distintos sujetos son independientes unas de otras. Se puede suponer razonablemente si el proceso de recopilación de datos fue aleatorio sin reemplazo. Por ejemplo, si los participantes son independientes entre sí.

La variable dependiente no debe contener ningún valor atípico (outliers). Los valores atípicos son valores poco comunes que aparecen lejos de la mayoría de los datos. Los valores atípicos pueden sesgar los resultados y potencialmente conducir a conclusiones incorrectas si no se manejan adecuadamente. Como ves, en este caso no decimos nada sobre la homogeneidad de varianza de las muestras porque se asume que las muestras serán homogéneas por tratarse de los mismos individuos. 

¿Cuál es el procedimiento? Venga, ¡ahora solo queda ponerse manos a la obra! 1.Evaluar el supuesto de normalidad

Primero vamos a evaluar el supuesto de normalidad para saber si podemos aplicar la prueba t de Student a nuestros datos. Vamos a utilizar los datos “hangover”, donde para hijos de padres alcohólicos vamos a evaluar cómo transcurren los síntomas de la resaca después de consumir igual cantidad de alcohol. Las mediciones del número de síntomas de la resaca se realizaron en tres ocasiones la mañana siguiente a consumir alcohol (muestras relacionadas).

NOTA: También tenemos datos para un grupo control, sujetos que no son hijos de padres alcohólicos, pero estos datos no los consideraremos en este estudio porque implicaría tomar otra variable explicativa (el grupo, sujetos con padres alcohólicos o no, muestras independientes). Aquí nos centraremos en el caso más sencillo de comparación de 2 muestras relacionadas. 2.Acceder a los datos.

Debemos primero instalar la librería WRS2 si es que aún no la tienen instalada (pueden utilizar install.packages(“WRS2”) o library(devtools) y luego install_github(«cran/WRS2»)), activarla (library(WRS2)) y luego activar los datos (data(hangover)). > library(WRS2) # activar la librería

> data(hangover) # activar los datos

Para ver el encabezado de los datos escribirmos:

La base de datos contiene 4 variables: 

symptoms: Número de síntomas de la resaca

  

group: Hijo de alcohólico vs. control time: Momento de la medición ID: identificación del sujeto

3. Descriptivos.

Para ver cuántos sujetos con padres alcohólicos tenemos podemos utilizar la siguiente orden: >

summary(hangover)

symptoms

Min.

: 0.000

1st Qu.: 0.000

Median : 2.000

Mean

: 6.225

group

control

time

id

:60

1:40

Min.

alcoholic:60

2:40

1st Qu.:10.75

3:40

Median :20.50

Mean

: 1.00

:20.50

3rd Qu.:10.250

3rd Qu.:30.25

Max.

Max.

:43.000

:40.00

Para las variables categóricas obtenemos la frecuencia (número de observaciones) de cada nivel, mientras que para las variables numéricas obtenemos una serie de estadísticos (Min=mínimo, 1st Qu=primer cuartil, Median=mediana, Mean=media, 3rd Qu=tercer cuartil, Max=máximo). También podemos escribir: > table(hangover$group,hangover$time)

1

2

3

control

20 20 20

alcoholic 20 20 20

Vemos que vamos a evaluar 20 sujetos con padres alcohólicos y tenemos 3 observaciones de cada sujeto, que corresponden a los 3 tiempos de medición. Objetivo. Como hoy solo veremos la comparación de 2 tiempos, vamos a plantearnos la siguiente pregunta: ¿Los hijos de padres alcohólicos se recuperan pronto de la resaca? es decir, si comparamos las dos primeras mediciones ¿ha disminuido el número de síntomas de resaca?

4.Manipulación de los datos.

Comenzaremos seleccionando la submuestra que vamos a utilizar: los hijos de padres alcohólicos. Realizamos los análisis descriptivos para tener una idea de cómo son nuestros datos y luego analizamos los supuestos de la estadística clásica para elegir cómo entre las dos primeras mediciones de los síntomas de resaca (i.e. si debemos utilizar pruebas paramétricas, no paramétricas o robustas). Procedimiento:   

Seleccionar la submuestra a analizar. Realizar un análisis descriptivo de los datos. Comprobación de los supuestos (normalidad y presencia de outliers).

NOTA: Aquí hay que recordar que como se tratan de los mismos sujetos a los cuales se les mide los síntomas en dos momentos distintos (muestras relacionadas), no es necesario evaluar la homogeneidad de varianza. Se asume que los sujetos responden con la misma variabilidad en las dos mediciones. Sí tendremos que evaluar la normalidad y la presencia de datos atípicos u outliers. > hAlco # eliminamos las categorías fantasma de la variable time

> hAlco$time by(hAlco$symptoms,hAlco$time,summary)

hAlco$time: 1

Min. 1st Qu.

0.00

0.00

Median

0.00

Mean 3rd Qu.

2.90

1.25

Max.

32.00

------------------------------------------------------------------

hAlco$time: 2

Min. 1st Qu.

0.00

0.00

Median

1.50

Mean 3rd Qu.

3.85

7.00

Max.

15.00

Observamos que no tenemos datos faltantes (NAs). La media del número de síntomas de resaca en el tiempo 1 es 2.9 mientras que en el tiempo 2 es de 3.85. Sin embargo, la variabilidad de los datos es muy distinta en cada grupo, en el tiempo 1 tenemos un rango intercuartílico (IQR) de 1.25-0=1.25, mientras que en el tiempo 2 tenemos IQR=70=7. Es decir, en la segunda medición aumenta en promedio el número de síntomas de resaca pero también la respuesta se vuelve más variable. Necesitamos realizar

pruebas de hipótesis para evaluar si las diferencias son significativas o no. Ahora vamos a comprobar si se cumplen el supuesto de normalidad y si existen outliers, para evaluar si tiene sentido aplicar una prueba paramétrica a nuestros datos. En cada tiempo evaluamos la normalidad de la variable número de síntomas: > by(hAlco$symptoms, hAlco$time, shapiro.test)

hAlco$time: 1

Shapiro-Wilk normality test

data:

dd[x, ]

W = 0.4552, p-value = 1.282e-07

------------------------------------------------------------------

hAlco$time: 2

Shapiro-Wilk normality test

data:

dd[x, ]

W = 0.74335, p-value = 0.0001384

Vemos que en ambos casos el p-valor es menor que 0.05 (95% de nivel de confianza) y que por lo tanto no se cumple el supuesto de normalidad, sería mejor aplicar pruebas no paramétricas....


Similar Free PDFs