El sesgo estadístico como herramienta de visualización de datos PDF

Title	El sesgo estadístico como herramienta de visualización de datos
Author	Luis Carlos Corral
Course	Estadística
Institution	Universidad Autónoma de Chihuahua
Pages	9
File Size	378.2 KB
File Type	PDF
Total Downloads	11
Total Views	32

Preview

CLICK TO PREVIEW PDF

Summary

Warning: TT: undefined function: 32 Warning: TT: undefined function: 32El sesgo estadístico como herramienta de visualización de datos1 MC. Luis Carlos Corral Alvídrez.1 lccorral@uachUniversidad Autónoma de Chihuahua1 Centro Universitario Parral; Calle Jesús Lozoya Solís S/N, Col. Almanceña, C. 3 38...

Description

El sesgo estadístico como herramienta de visualización de datos 1

MC. Luis Carlos Corral Alvídrez. 1

[email protected]

Universidad Autónoma de Chihuahua 1

Centro Universitario Parral; Calle Jesús Lozoya Solís S/N, Col. Almanceña, C.P. 33820, Hidalgo del Parral, Chihuahua, México.

Resumen: El sesgo estadístico comúnmente ha sido utilizado para determinar la diferencia entre un valor esperado y el parámetro que se estima, su cálculo es útil para visualizar el alargamiento asintótico de la forma distribucional de un conjunto de datos analizados, así mismo, puede ser útil, como medio para poder interpretar con prontitud el comportamiento mayoritario del número de datos observados alrededor de la media, mediana y moda. En la actualidad la enorme cantidad de información que puede ser operada desde un ordenador, genera confusiones al momento de obtener estadísticas descriptivas que se puedan comprender o visualizar de una forma práctica; e n una amplia gama de áreas de investigación, los datos recabados requieren de un tratamiento que conduzca hacia una pronta interpretación de sus resultados, y más aún, que éstos sirvan para responder con prontitud a cuestionamientos para la buena toma de decisiones. Cuando se manejan bases de datos económicas, sociales, de producción o diferentes actividades en las que se generen información estadística, poder obtener interpretaciones más profundas de sus cálculos comúnmente realizados, amplía la visión del analista y el mayor aprovechamiento de los mismos. Particularmente a lo largo de varios años analizando datos estadísticos de tesistas universitarios, el presente autor ha constatado la necesidad de extender el concepto de sesgo estadístico, como fuente de visualización numérica durante el análisis de sus frecuencias. Keywords: Sesgo, Coeficiente de Asimetría, Estadísticas descriptivas. Clasificación JEL: C02, C20, C44

Marco Teórico En la literatura estadística, el concepto de sesgo o coeficiente de asimetría hace alusión a una condición simétrica de la forma distribucional de una variable aleatoria, gráficamente se visualiza como una prolongación asintótica del conjunto de datos, en donde su simetría puede ilustrarse al trazar una recta perpendicular al eje de las abscisas y sobre el que se extiende la media de dicha distribución. Si una distribución es simétrica, se contará con el mismo número de valores a la derecha que a la izquierda de la media, por tanto, el mismo número de desviaciones con signo positivo que con signo negativo, (Fig. 1). Eje de Simetría

-3

-2

-1

0

1

2

3

Desviación Estándar

Figura 1. Simetría y sesgo de una función de distribución Decimos que hay sesgo negativo (asimetría a la izquierda), si la "cola" a la izquierda de la figura, es más larga que la de la derecha; por el contrario, diremos que hay sesgo positivo (asimetría a la derecha), si la "cola" a la derecha de la media es más larga que la de la izquierda, ver Fig. 2. Un ejemplo al respecto son los datos sobre salarios en una organización, éstos suelen ser asimétricos al observar que muchos empleados de una empresa ganan relativamente poco, mientras que cada vez menos personas ganan salarios muy elevados (sesgo positivo); o bien, al observar los costos de un bien inmueble y encontrar una casa con un valor demasiado bajo al precio normal en el mercado, esta se considera tener una asimetría a la izquierda (sesgo positivo) a

b

Figura 2 Sesgo negativo (a) y sesgo positivo (b)

Los recursos para análisis estadístico ofrecen conceptos muy semejantes sobre el sesgo; tal es el caso de Excel (Microsoft Office, 2018), quienes establecen como definición del Coeficiente de Asimetría o Sesgo lo siguiente: “Devuelve la asimetría de una distribución con respecto a su media. Otros programas más especializados en el área de estadística, como SPSS o Minitab (2018), interpretan que a medida que los datos se vuelven más simétricos, el valor del sesgo se acerca a cero, caso contrario, cuando se alejan de cero. En términos generales muchos de los autores en estadística definen el concepto de sesgo haciendo referencia a la asimetría o alargamiento de uno de los extremos de la distribución: “El sesgo de una distribución es su grado de asimetría o el grado en el que se aleja de la simetría” (Spiegel y Stephens, 2009); “El sesgo muestra la falta de simetría en un grupo de observaciones” (Lind, Marshal, y Wathen, 2012); “La asimetría (sesgo) es sensible a valores atípicos, esto es importante para valores extremos que sean reales” (Winkler y Hays, 1975); “Los datos están sesgados (asimétricos), cuando una cola de las colas de la distribución se alarga hacia un extremo” (Montgomery y Runger, 1996). Es decir, los autores describen el sesgo en función de las observaciones de datos extremos (outlier) que se representan en la gráfica de la función; sin embargo, habría que revisar las definiciones desde el punto de vista del extremo, opuesto a donde se observa la asimetría, es decir del lado donde se encuentra la mayoría de los datos en la distribución, siendo éste el fin del estudio del presente documento.

Figura 3. Frecuencia de datos en la distribución Matemáticamente el sesgo se calcula de varias formas, comúnmente la de mayor utilización es el desarrollado por Karl Pearson, (Pliego, 2007) quien para ello estableció una razón entre la diferencia de la media y la mediana (o moda) y su desviación, utilizando para ello el supuesto de la relación empírica (1) existente entre la diferencia de la media y la moda, para curvas de frecuencias unimodales ligeramente sesgadas (asimétricas), la desventaja es que sólo se puede utilizar en distribuciones uniformes, unimodales y moderadamente asimétricas de lo cual resulta (2): Media − moda = 3(media − mediana) ---- (1) 𝑠𝑘 = donde:

3(𝜇−𝑀𝑒𝑑𝑖𝑎𝑛𝑎) 𝑠

𝑠𝑘 =

3(𝜇−𝑀𝑜𝑑𝑎) 𝑠

---- (2)

Sk = (skewness) sesgo o coeficiente de asimetría 𝑥 = Media s = Desviación estándar del conjunto de datos Para el caso se concluye con Pearson{\displaystyle \mu }quee que {\displaystyle X}sssi la distribución es asimétrica o sesgo positivo la media se sitúa por encima de la moda y, por tanto, {\displaystyle A_{p}>0}Sk>0; y S(k)...