Normalidad TEST Shapiro PDF

Title Normalidad TEST Shapiro
Course Auditoria Ambiental
Institution Universidad de La Salle Colombia
Pages 22
File Size 912.8 KB
File Type PDF
Total Downloads 102
Total Views 140

Summary

Apuntes de clase normalidad test Shapiro....


Description

NORMALIDAD TEST SHAPIRO -WILK PRESENCIA DE VARIANZAS DESIGUALES OU SEJA

CONTENIDO 1 INTRODUCCION ........................................................................................................................... 3 2 MARCO TEORICO ......................................................................................................................... 4 2.1 TEST SHAPIRO-WILK ............................................................................................................ 4 2.2 EJEMPLO UTILIZANDO TEST SHAPIRO-WILK NORMALIDAD................................................ 5 2.2.1 5 2.2.2 5 2.2.3 6

REGLA DE DECISIÓN .................................................................................................... ENUNCIADO ................................................................................................................. SOLUCIÓN ................................................................................................................

2.3 Conclusión: .......................................................................................................................... 8 2.4 CALCULO DE W UTILIZANDO EXCEL .................................................................................... 9 2.4.1 9 2.4.2 10 2.4.3 10 2.4.4 11 3

BASE DE DATOS ........................................................................................................... RUTA PARA REALIZAR EL ANALISIS ESTADISTICO ...................................................... HOJA DE RESULTADOS (OUTPUT).............................................................................. INTERPRETACION DE LA HOJA DE RESULTADOS .......................................................

EJEMPLO TEST SHAPIRO-WILK APLICADO A QUIMICA AMBIENTAL ......................................... 12 3.1 ARTICULO CIENTIFICO: ANÁLISIS DE TENDENCIA Y HOMOGENEIDAD DE SERIES CLIMATOLÓGICAS ......................................................................................................................... 12 3.1.1 RESUMEN .................................................................................................................. 12 3.1.2 METODOLOGÍA .......................................................................................................... 13 3.1.3 ZONA DE ESTUDIO E INFORMACIÓN UTILIZADA ....................................................... 13

4

CONCLUSIONES ......................................................................................................................... 16 5 RECOMENDACIONES ................................................................................................................. 17 6 BIBLIOGRAFIA ............................................................................................................................ 18 7 ANEXO ....................................................................................................................................... 19 7.1

ARTICULOS APLICACION AMBIENTAL SHAPIRO WILK ....................................................... 19

Figura no. 3 ARTICULO APLICACION SHAPIRO WILK ANALISIS ESTADISTICO DE NORMALIDAD ............................................................................................................................... .................... 19 Figura no. 4 ARTICULO APLICACION SHAPIRO WILK ANALISIS ESTADISTICO DE NORMALIDAD ............................................................................................................................... .................... 20

1 INTRODUCCION La estadística, es la rama de las matemáticas que estudia la variabilidad, así como el proceso aleatorio que la genera siguiendo leyes de probabilidad. Como parte de la matemática, la estadística es una ciencia formal deductiva, con un conocimiento propio, dinámico y en continuo desarrollo obtenido a través del método científico formal. En ocasiones, las ciencias fácticas necesitan utilizar técnicas estadísticas durante su proceso de investigación factual, con el fin de obtener nuevos conocimientos basados en la experimentación y en la observación. En estos casos, la aplicación de la estadística permite el análisis de datos provenientes de una muestra representativa, que busca explicar las correlaciones y dependencias de un fenómeno físico o natural, de ocurrencia en forma aleatoria o condicional. La estadística es útil para una amplia variedad de ciencias fácticas, desde la física hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad. En la actualidad, la estadística aplicada a las ciencias fácticas permite estudiar una determinada población a partir de la recopilación de información, el análisis de datos y la interpretación de resultados. Del mismo modo, también es una ciencia esencial para el estudio cuantitativo de los fenómenos de masa o colectivos. La estadística se divide en dos grandes áreas: Estadística descriptiva: Se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Su objetivo es organizar y describir las características sobre un conjunto de datos con el propósito de facilitar su aplicación, generalmente con el apoyo de gráficas, tablas o medidas numéricas. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Ejemplos gráficos son: histograma, pirámide poblacional, gráfico circular, entre otros. Estadística inferencial: Se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden

tomar la forma de respuestas a preguntas sí/no ( prueba de hipótesis), estimaciones de unas características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen análisis de varianza, series de tiempo y minería de datos. Su objetivo es obtener conclusiones útiles para lograr hacer deducciones acerca de la totalidad de todas las observaciones hechas, basándose en la información numérica.

2 MARCO TEORICO

2.1 TEST SHAPIRO-WILK En estadística, el Test de Shapiro–Wilk se usa para contrastar la normalidad de un conjunto de datos. Se plantea como hipótesis nula que una muestra x1, ..., xn proviene de una población normalmente distribuida. Fue publicado en 1965 por Samuel Shapiro y Martin Wilk.1 Se considera uno de los test más potentes para el contraste de normalidad. El estadístico del test es:

Donde: X(i) es el número que ocupa la i-ésima posición en la muestra, con la muestra ordenada de menor a mayor. �  = (X1+… Xn) / n es la media muestral; Las variables ai se calculan

siendo m1, ..., mn son los valores medios del estadístico ordenado, de variables aleatorias independientes e idénticamente distribuidas, muestreadas de distribuciones normales. V es la matriz de covarianzas de ese estadístico de orden. La hipótesis nula se rechazará si W es demasiado pequeño.3 El valor de W puede oscilar entre 0 y 1. Interpretación: Siendo la hipótesis nula que la población está distribuida normalmente, si el p-valor es menor a alfa (nivel de significancia) entonces la hipótesis nula es rechazada (se concluye que los datos no vienen de una distribución normal). Si el p-valor es mayor a alfa, se concluye que no se puede rechazar dicha hipótesis.

La normalidad se verifica confrontando dos estimadores alternativos de la varianza σ²: un estimador no paramétrico al numerador, y un estimador paramétrico (varianza muestral), al denominador.

2.2 EJEMPLO UTILIZANDO TEST SHAPIRO-WILK NORMALIDAD Se presenta un ejemplo sobre la prueba de Shapiro-Wilk para probar normalidad con el objetivo de determinar si una muestra aleatoria presenta distribución normal. La lógica de la prueba se basa en las desviaciones que presentan las estadísticas de orden de la muestra respecto a los valores esperados de los estadísticos de orden de la normal estándar. El tipo de hipótesis a probar es: Ho: La muestra aleatoria tiene una distribución normal. Hi: La muestra aleatoria no tiene una distribución normal. Distribución muestral: cuantiles de w. Tipo de datos: puntajes individuales. 2.2.1 REGLA DE DECISIÓN Si Wo  Wt,  Rechazamos Ho

2.2.2 ENUNCIADO En un centro de investigación sobre trastornos de la alimentación se llevó cabo un estudio para probar una nueva terapia en mujeres anoréxicas. Los efectos

benéficos de la intervención se observarían en el peso ganado (en kg.) por las mujeres al término de tres meses. El estudio se realizó con una muestra aleatoria de siete mujeres y los datos obtenidos son los siguientes.

Antes de proceder a analizar los datos con pruebas de inferencia estadística se desea corroborar si se distribuyen de manera normal. Probar la hipótesis nula de que la distribución de la muestra es normal.

2.2.3 SOLUCIÓN Paso 1. Establecer las hipótesis a probar Ho: La distribución de la muestra es normal. Hi: La distribución de la muestra no es normal. Paso 2. Elegir la prueba estadística Dado que interesa probar que la muestra presenta distribución normal y se cuenta con puntajes individuales y en escala de razón, y la muestra fue tomada de forma aleatoria, se aplicará la prueba de Shapiro-Wilk. Paso 3. Especificar alfa Se empleará un  = 0.05 Paso 4. Región de Rechazo Todos los valores menores o iguales a Wt con un alfa de .05 Paso 5. Decisión Para obtener el valor observado de W y tomar la decisión estadística se aplica el procedimiento con la fórmula de W. 5.1 . Obtener el estadístico

Calcular los datos necesarios para aplicar la fórmula de W como se muestra en la tabla 1. Los coeficientes a n-i+1 para calcular b se obtienen de la tabla 17. El número de coeficientes a emplear se determina dividendo la muestra a la mitad, si n es par la mitad es exacta (n=2k), si n es impar se considera el número inmediato superior (n=2k+1). El valor de cada coeficiente se obtiene interceptando el tamaño de n con el de i (número de coeficiente).

En el ejemplo n = 7, la mitad sería 3.5, por lo tanto, se considerará 4 como el número de coeficientes a obtener. Consultando la tabla 17, tenemos que para n=7 el primer coeficiente tiene un valor de .6233, como se puede observar en el siguiente extracto de la tabla 1. i/n 1 2 3 4

6 0.6431 0.2806 0.0875

7 0.6233 0.3031 0.1401 0.0000

8 .6052 .3164 .1743 .0561

Tabla 1. Procedimiento de cálculo para aplicar la fórmula de W. PUNTAJE Ordenación de menor a mayor

(x-x)2

Coeficiente

(x n-i+1 - x i)

S2

an-I+1

(dato mayor – dato menor)

(x)

an-i+1 (x n-i+1 - x i) (b)

6

-4

-4-(2)=-6 36

0.6233

8-(-4)= 12

0.6233 (12)= 7.4796

1

-2

-2-(2)=-4 16

0.3031

6-(-2)= 8

0.3031(8)= 2.4248

-4

0

0-2=-2 4

0.1401

5-0 = 5

0.1401(5)= 0.7005

8

1

1-2=-1 1

0.0000

-2

5

5-2=3 9

5

6

6-2=4 16

0

8

8-2=6 36

 =2 FÓRMULA

 S2 = 118

 b = 10.6049

W=  an-i+1 (x n-i+1 - x i) 2/  (x - x)2 = b2/S2 = 10.60492 / 118=112.4639 / 118 = 0.9530

5.2. Obtener W de tablas. El valor de Wt se obtiene de la tabla 18 interceptando el tamaño de n con el nivel de significancia especificado. n 6 7 8

0.02 0.743 0.760 0.778

0.05 0.788 0.803 0.818

0.10 0.826 0.838 0.851

5.3 Comparar el valor observado y el valor esperado aplicando la regla de decisión Si Wo  Wt,  Rechazamos Ho 0.9530 >0 .803 Dado que Wo > Wt ,  0.05; podemos aceptar Ho

Decisión estadística: Dado que aceptamos Ho podemos decir que la distribución de la muestra es normal. 2.3 CONCLUSIÓN:

Existe suficiente evidencia estadística para decir que los datos de la muestra se distribuyen de manera normal, por lo tanto, se puede asumir que se cumple el supuesto de normalidad y se puede proceder a analizar los datos con estadística paramétrica.

2.4 CALCULO DE W UTILIZANDO EXCEL 2.4.1 BASE DE DATOS Para capturar los datos primero se define la variable correspondiente en una columna con el siguiente procedimiento: Data Define variable Variable name: nombra la variable. En este caso la variable se llama peso. OK Una vez definida la variable teclea los valores correspondientes en forma de lista. En la figura 1 se muestra como deben quedar capturados los datos.

2.4.2 RUTA PARA REALIZAR EL ANALISIS ESTADISTICO Statistics (o Analize). Summarize (o Descriptive Statistics). Explore. Dependent list: pasar la variable a analizar. Factor list: pasar la variable de agrupación en el caso de que se quiere checar normalidad en más de una muestra. Display: marcar plots. Plots: boxplots: none, descriptive: desmarcar stem and leaf, marcar normality plot with tests. Continue: dar click. OK: dar click.

2.4.3 HOJA DE RESULTADOS (OUTPUT)

Cuadro de resumen que indica el número y porcentaje de casos analizados

Explore Case Processing Summary Cases Valid N PESO

Missing Percent

7

N

100.0%

Total

Percent 0

.0%

N

Percent 7

100.0%

Resultados de la prueba de Shapiro-Wilk

Tests of Normality

PESO

Kolmogorov-Smirnov Statistic df .179 7

a

Sig. .200*

Statistic .951

Shapiro-Wilk df 7

Sig. .707

*. This is a lower bound of the true significance. a. Lilliefors Significance Correction

Valor delProbabilidad estadístico W asociada al estadístico W.

PESO Normal Q-Q Plot of PESO

Gráfica para checar normalidad.

1.5

1.0

La línea verde representa la distribución normal y los puntos rojos la distribución de los datos de la muestra. Para decir que los datos se comportan conforme a la normal deben estar ubicados sobre la línea (o lo más cercano posible).

.5

0.0

-.5

-1.0 -1.5 -6

-4

-2

0

2

4

6

8

10

Observed Value

Detrended Normal Q-Q Plot of PESO

Gráfica para checar normalidad.

Muestra la distribución de los datos por arriba y por debajo de la media representada por la línea recta. Si la distribución es normal debe presentarse una distribución simétrica de los datos con respecto a la línea recta.

.4 .3 .2 .1 -.0 -.1 -.2 -.3 -6

-4

-2

0

2

4

6

8

10

Observed Value

2.4.4 INTERPRETACION DE LA HOJA DE RESULTADOS El valor del estadístico W es igual a .951 con una probabilidad asociada de .707 (W=.951, p=.707). Aplicando la siguiente regla de decisión:

Si pspss  

Aceptamos H 0 Si pspss  

Rechazamos H 0 tenemos que 0.707  .05, por lo que aceptamos H0. En conclusión podemos decir que la distribución de la muestra es normal.

Si observamos también la gráfica Normal Q-Q podemos ver que los datos se distribuyen a lo largo de la línea recta y están muy cerca de ella, lo cual nos indica normalidad.

3 EJEMPLO TEST SHAPIRO-WILK APLICADO A QUIMICA AMBIENTAL 3.1 ARTICULO CIENTIFICO: ANÁLISIS DE TENDENCIA Y HOMOGENEIDAD DE SERIES CLIMATOLÓGICAS

3.1.1 RESUMEN Para la planeación y diseño de muchos proyecto relacionados con el agua es necesario el uso de información hidroclimatológica. Aunque con los años la recolección de ésta ha ido mejorando, aún muchos de los registros en los que se basa la meteorología aplicada presentan serias deficiencias, tanto en calidad como en cantidad, observándose series con cambios, falta de información, tendencias y datos atípicos; esto tergiversa los resultados de cualquier simulación o modelación.

Debido a la importancia económica y social que presenta la correcta predicción y el uso de modelos a partir de esta información, se hace necesario el análisis exploratorio de los datos con el fin de determinar cambios y/o tendencias en la serie hidroclimatológica. En este artículo se presentan las herramientas gráficas y cuantitativas disponibles para el análisis exploratorio de datos, con el objetivo fundamental de dar a conocer una serie de métodos en forma conjunta y organizada, que pueden ser programables o que se encuentran en cualquier paquete estadístico. Al final se muestra la aplicación de estas pruebas en series de precipitación con algunas conclusiones y recomendaciones. 3.1.2 METODOLOGÍA El análisis exploratorio de una serie hidroclimatológica consiste en detectar por medios gráfico y cuantitativos la existencia o no de alguna tendencia y/o cambio, y la homogeneidad de la serie. El esquema metodológico de un análisis exploratorio empieza por un análisis gráfico (gráfica de serie de tiempo, grafica de doble masa, diagrama de cajas, histogramas, gráfica de normalidad), continúa con la prueba de normalidad, Shapiro Wilk, para confirmar o no la posible distribución normal de los datos, y termina con un análisis confirmatorio, por medio de pruebas estadísticas paramétricas y no paramétricas.Si existe tendencia y falta de homogeneidad en la información se debe proceder a usar una parte de la misma o remover de ésta la tendencia o la falta de homogeneidad. 3.1.3 ZONA DE ESTUDIO E INFORMACIÓN UTILIZADA

Para la aplicación del análisis exploratorio gráfico y confirmatorio se usaron series de precipitación total multianaual de cuatro estaciones pluviográficas ubicadas en el departamento del Valle del Cauca (Colombia) (Figura 2). Se escogieron al azar las estaciones Julio Fernández, Loboguerrero, La Balsa y Los Bancos, actualmente manejadas por la Federación Nacional de Cafeteros y la Corporación Autónoma Regional del Valle del Cauca (CVC). Las estaciones presentaron períodos de registro que variaron entre 34 y 52 años, y presentaron, en términos

generales, menos del 10% de datos faltantes, que fueron completados haciendo uso del método racional deductivo (Chávarri, 2005). Donde n es el número total de datos, Desvest representa la desviación típica el Coef. Var el coeficiente de variación, min el menor valor, max el mayor valor de la serie de datos, Q1 el primer cuartíl, Q3 el tercer cuartíl, IQR el rango intercuartílico.

Figura 1. Zona de estudio: Dpto. Valle del Cauca (Colombia)

Según el análisis se Shapiro Wilk se obtuvieron los siguientes resultados .

De los estadísticos descriptivos mostrados en la Tabla 1 Se puede decir que las medidas de tendencia central, media y mediana para las estaciónes La Balsa, Julio Fernández y Los Bancos no muestran una diferencia mayor al 10%, comparando la mediana con respecto a la media, excepto la

estación Loboguerrero que presenta una mediana que varía en un 11% con respecto al valor de la media. Los coeficientes de variación de las series no sobrepasan el 32%, para el caso de Loboguerrero los datos tienden en promedio a estar dispersos en un 31% del valor de la media. Las series presentan asimetrías positivas y negativas, y es particularmente alta la de la estación Loboguerrero influenciada por valores extremos hacia la derecha. Con respecto a las gráficas de probabilidad, se puede afirma...


Similar Free PDFs