TEMA 5 REDUCCIÓN DE DATOS. MEDIDAS DESCRIPTIVAS BÁSICAS Y REPRESENTACIONES GRÁFICAS. PDF

Title TEMA 5 REDUCCIÓN DE DATOS. MEDIDAS DESCRIPTIVAS BÁSICAS Y REPRESENTACIONES GRÁFICAS.
Course Estadística Aplicada a la Educación
Institution UNED
Pages 14
File Size 719.9 KB
File Type PDF
Total Downloads 21
Total Views 125

Summary

Apuntes elaborados con las clases de Marta y sus diapositivas.
Están señalizadas en amarillo las preguntas de exámenes y cosas importantes. Hay ejercicios explicativos....


Description

TEMA 5.- REDUCCIÓN DE DATOS. MEDIDAS DESCRIPTIVAS BÁSICAS Y REPRESENTACIONES GRÁFICAS. 5.1.-Introducción. De la organización a la descripción de datos. Normalmente, antes de realizar análisis más complejos, se parte de la Estadística Descriptiva para hacerse una primera idea del comportamiento de cada una de las variables contenida en nuestra matriz de datos. 

Si para la depuración de datos hemos utilizado distribuciones de frecuencias, ya hemos realizado el primer análisis para la organización y comprensión de datos.



Si nos hemos basado únicamente en los valores máximo y mínimo de cada variable para encontrar posibles valores fuera de rango, conviene empezar por realizar una distribución de frecuencias para hacer una primera aproximación a los datos.

En Estadística, el concepto más importante es la variabilidad, es decir, el estudio de la dispersión de las puntuaciones, contribuyendo a explicar la magnitud y naturaleza de las mismas. En este momento, con la estadística descriptiva, pretendemos estudiar la magnitud de la variabilidad y alguna otra característica ligada a la misma. Cuando efectuamos contraste de hipótesis, se tratarán de encontrar posibles variables asociadas, que expliquen la variabilidad de los datos.



Variables: características o propiedades que pueden variar de unos sujetos a otros.



Constante: contrario a variable. Cuando todos los sujetos tienen la misma puntuación, cuando no hay diferencias y, por tanto, no hay variabilidad.

Ya nos hemos referido a las distribuciones de frecuencia para organizar y clasificar los datos. Veamos ahora como se pueden reducir y resumir. De forma genérica, podemos distinguir dos grupos de medidas o índices numéricos que deben estar presentes en todo estudio descriptivo (estas medidas describen grupos de datos y no los datos individualmente): 

Medidas de tendencia central . Es decir, hacia qué puntuación tiende el grupo. El índice más conocido es la media aritmética, sin embargo, este índice por sí solo no nos proporciona suficiente información como para hacernos una idea del grupo. Media, mediana y moda.



Medidas de variabilidad o dispersión. Para ver si el grupo es homogéneo en torno a la media o heterogéneo, es decir, si muchas puntuaciones distan considerablemente de la media, tanto por arriba como por abajo. La desviación típica es una de estas medidas.

Representaciones gráficas de las distribuciones de datos, como los histogramas, polígonos de frecuencia…, son un buen complemento de los índices numéricos y ayudan a comprender rápidamente la información descriptiva.

5.2.- Medidas de tendencia central: media, mediana y moda. Usos e interpretación. La tendencia central del grupo indica hacia qué valor tiende el grupo, cuál es el valor que mejor lo representa. Media aritmética: El índice o medida más conocida es la media aritmética, el promedio, su símbolo es X y se calcula:

Interpretar una media aritmética suele ser muy sencillo. Para interpretarla correctamente, es conveniente conocer la puntuación mínima y máxima de la escala de medida de la variable y situar la media aritmética dentro de ese recorrido. Es la más precisa porque toma en cuenta todas las puntuaciones en su cálculo, pero es muy sensible a las puntuaciones extremas. En sentido estricto, la media aritmética sólo puede utilizarse en variables cuyo nivel de medida sea de intervalo o de razón. También puede utilizarse con variables dicotómicas (las que sólo pueden adoptar dos valores). Moda: La moda (Mo) es el valor con frecuencia absoluta más alta, la puntuación directa que más se repite. Por tanto, la moda no necesita ningún cálculo. La moda no es la frecuencia con que se repite, es la puntuación. Puede haber más de una moda una distribución: 

Distribución bimodal: tiene dos puntuaciones que se repiten con la misma frecuencia. Distribución plurimodal: tiene más de dos puntuaciones que se repiten con la misma frecuencia

Para calcularla realizamos una distribución de frecuencias. La que más o las que más se repite es la moda. Mediana: La mediana es aquel valor que deja por encima y por debajo de si al 50% de los sujetos de la muestra, es el valor central de la distribución de frecuencias. Es decir, si ordenamos las

puntuaciones de menor a mayor (o al contrario), aquella que ocupa la posición central, esa es la mediana. En este sentido se dice que coincide con el percentil 50, es decir, que deja por debajo de sí al 50% de los sujetos de la muestra. No se puede usar para medidas nominales. Para calcular la mediana, ordenamos las puntuaciones, observamos la columna de frecuencias acumuladas (fa). La mediana es la puntuación directa que deja al 50% por encima y al 50% por debajo de sí. 

Si la muestra es par tendremos que observar las dos posiciones centrales y hacer la media de las dos.



Si la muestra es impar tendremos que observar la opción central.

Ejercicio: Supongamos que pasamos un tets con una media de 0 a 15 y obtenemos los siguientes resultados: 14, 8, 5, 5, 0, 13,9, 5,8 y 11. ¿cuál sería la media, la moda y la mediana? 

Puntuaciones directas (Xi): 14, 8, 5, 5, 0, 13,9, 5, 8 y 11.



El número de sujetos (N): 10



Media aritmética: X = Xi/N. X = 14, 8, 5, 5, 0, 13,9, 5, 8 y 11 / 10 = 78/10 = 7.8



Moda: hacemos una distribución de frecuencias y la que se repite más peces es la moda. 5



Xi

0

5

8

9

11

13

14

fi

1

3

2

1

1

1

1

Mediana: calculamos la frecuencia absoluta. Observamos cuál es la puntuación absoluta que se encuentra en la mitad. Mediana = Xi situada en fa N/2 =5 Al ser par, tenemos que sumar las Xi correspondientes a fa = 5 y fa = 6. fa=5 y fa= 6 son 8 las dos. Md = 8+8/2=8 Xi

0

5

8

9

11

13

14

fi

1

3

2

1

1

1

1

fa

1

4

6

7

8

9

10

La medida más precisa de tendencia central es la media aritmética, ya que tiene en cuenta todas las puntuaciones para su cálculo. Sin embargo, sólo podrá utilizarse con niveles de medida de las variables de intervalo o razón. En estos casos, también podemos completar la medida con la mediana y la moda; es recomendable, siempre que sea posible, calcular las tres. La media aritmética es sensible a las puntuaciones extremas, no así la mediana ni la moda.

Ej: supongamos estas puntuaciones: 3, 3, 4, 4, 4, 5, 10. En este caso, tenemos una Mo=4, Md =4 y X=4,7. Tanto la moda como la mediana son medidas más básicas basadas en un único valor, por lo que no se ven afectadas por las puntuación extrema (en este caso Xi=10). La media se ve arrastrada por las puntuaciones extremas, lo que no sucede con las otras dos medidas. Por eso, la mediana puede ser una medida preferible a la media cuando las puntuaciones extremas puedan distorsionar la verdadera tendencia central del grupo. Cuando el nivel de medida de la variable es ordinal, sólo podemos utilizar la mediana y la moda, mientras que, para variables con nivel de medida nominal, sólo podemos utilizar la moda. (excepto en el caso de variables dicotómicas). Hay un tipo de distribución de frecuencias muy común y conocido, la distribución normal, una de cuyas características es que la media aritmética, la mediana y la moda tienen el mismo valor.

5.3.- Medidas de variabilidad. Las medidas de tendencia central por sí solas no nos proporcionan suficiente información como para hacernos una idea de las características del grupo. Nos permiten conocer cuánto varían las puntuaciones de una muestra. Si el grupo es homogéneo en torno a la media aritmética, la mayoría de las puntuaciones están cerca de la media; si es heterogéneo muchas puntuaciones distan considerablemente de la media, tanto por arriba como por abajo. Por esta razón, el índice de tendencia central debe ir acompañado por un índice de dispersión o variabilidad que indique en qué medida las puntuaciones de los sujetos se dispersan o varían en torno a la media aritmética. La desviación media. Lo que se desvían de media las puntuaciones directas (Xi) respecto de la media aritmética (X). Si la DM es alta significa que las puntuaciones en su conjunto, se desvían, están alejadas de la media aritmética del grupo, mientras que, si es pequeña, significa que las puntuaciones del grupo están próximas a la media.

La desviación media es menos exacta que la desviación típica. La desviación típica. La desviación típica es el índice más conocido y utilizado, representándose por “s” cuando es de la muestra (estadístico) o por σ cuando es de la población (parámetro). Otro índice muy utilizado para expresar la variabilidad de los grupos es la varianza (s2 ó σ2). Conceptualmente se interpreta exactamente igual que la desviación típica, su cálculo:

Al igual que en la desviación media, el numerador expresa las distancias de cada puntuación directa a la media aritmética. Dichas distancias se elevan al cuadrado (en lugar de utilizar el valor absoluto como en la desviación media) para evitar que el valor siempre fuera 0. Al elaborar un informe descriptivo, lo usual es incluir la desviación típica como medida de dispersión. No siempre es fácil interpretar una desviación típica, decir si es grande o pequeña. Desviación típica mínima y máxima: En muchas ocasiones se utiliza para comparar la dispersión entre grupos distintos. Si tenemos un solo grupo, los valores que podemos tomar de referencia son la desviación típica mínima (siempre cero) y la máxima (puntuación mayor - puntuación menor /2), aunque dichos valores son muy difíciles de obtener. 

Para obtener la mínima desviación típica, todos los sujetos tienen la misma puntuación. No existen diferencias entre las puntuaciones y por tanto es 0.



Para obtener la desviación típica máxima, la mitad de los sujetos tienen la puntuación máxima de la escala y la otra mitad la puntuación mínima (así se conseguirían las distancias máximas respecto de la media y, en este sentido, la máxima heterogeneidad).

Sin embargo, si bien esto es posible en variables dicotómicas, cuanto más grande es la amplitud de la variable, más improbable es que se dé esta situación. En consecuencia, tendremos que ver en estos casos cuánto se aleja de cero la desviación típica. Desviación típica sesgada e insesgada: Hasta ahora nos hemos referido al cálculo de la desviación típica sesgada , que se utiliza frecuentemente al trabajar con muestras. No obstante, es igualmente frecuente trabajar con la desviación típica insesgada, se utiliza frecuentemente al trabajar con poblaciones y no es más que la estimación de la desviación típica de la población a la que pertenece la muestra. Por lógica, se entiende que la desviación típica en una población será más elevada que en una muestra (al haber más sujetos, será más probable encontrar mayores diferencias interindividuales), por lo que si disminuimos el denominador, el cociente será mayor. Para calcular la desviación típica insesgada, simplemente se le resta una unidad al denominador:

Para distinguir ambas fórmulas de la desviación típica suelen representarse como σn (sesgada) y como σn-1 (insesgada). A efectos prácticos, no importa usar una u otra, lo importante es utilizar siempre la misma fórmula en un análisis descriptivo con el fin de poder hacer comparaciones de la variabilidad entre grupos o entre variables. La amplitud o recorrido. Como decíamos, existen otras medidas de dispersión. La más básica es la amplitud o recorrido de una variable. Se calcula como la diferencia entre la puntuación mayor y menor más uno: A = Xi mayor— Xi menor + 1 Esta medida se utiliza, sobre todo, para organizar los datos de una distribución de frecuencias en intervalos y realizar gráficos. También nos sirve para ayudarnos en la interpretación de la desviación típica. La amplitud se utiliza como medida de dispersión única, solamente cuando no es posible calcular otra o como complemento de la moda (cuando el nivel de medida de la variable es nominal). Al igual que sucedía con la moda como índice de tendencia central, es un índice muy simple, basado sólo en dos puntuaciones, lo que puede dar lugar a malas interpretaciones si no se valora con precaución, sobre todo cuando existen puntuaciones extremas (outliers).

La desviación semi-intercuartílica. Se representa con (Q ). Es una medida que indica la dispersión en el 50% central de la distribución. Es adecuada cuando el nivel de medida de la variable es ordinal (en ese caso sería el complemento de la mediana). También es adecuado su uso cuando la existencia de puntuaciones extremas pueda distorsionar en exceso la desviación típica, ya que la Q prescinde del 25% inferior y del 25% superior de las puntuaciones, calculando la dispersión en el 50% central, entre los percentiles 25 y 75 o, lo que es lo mismo, entre los cuartiles 1 y 3.

En la interpretación de Q , debemos recordar que indica la variabilidad de las puntuaciones en el 50% central de la distribución. El coeficiente de variación. Se representa con ( V). A diferencia de los índices anteriores, nos permite comparar la variabilidad entre variables que tienen distinta amplitud (por ej: permite comparar la variabilidad de un grupo en la variable coeficiente intelectual, con una amplitud de 50, con la de la variable actitud hacia el estudio, con una amplitud de 10). Dado que las desviaciones típicas procedentes de instrumentos con distinto recorrido o distinta escala de medida no son directamente comparables, el V se expresa en términos porcentuales y se calcula así:

Hay que tener en cuenta, sin embargo, que este índice NO tiene unos límites fijos, ya que es un índice de variabilidad relativo, dependiendo del valor de la media.

5.4.- Media y desviación típica para variables dicotómicas. Son variables que sólo pueden tomar dos valores. Si sus dos posibles valores, como suele hacerse, se codifican con ceros y unos (0 para noes o respuestas incorrectas y 1 para síes o respuestas correctas), entonces la media aritmética representa la proporción de unos. Si tenemos una muestra de 50 sujetos, y 30 han contestado que sí, ¿cuál es la media? Aplicando la fórmula N = 50: 30-0/50=30/50=0.6 

Esta media indica la proporción de sujetos que ha respondido con un 1 (SÍ) a esta pregunta y se representa por «p».



La proporción de sujetos que contesta NO, se corresponde con la proporción de ceros: 1 – p= 1 - 0,6 = 0,4.



Si el 60% contestó que sí, queda el 40% que contestó que no. La proporción de noes o errores se representa por q, de modo que: p + q =1

Las medias con variables dicotómicas son muy usadas cuando utilizamos pruebas objetivas y tests de rendimiento en los que la respuesta a las preguntas es acierto/error. En este caso, la media nos dirá la proporción de sujetos que ha contestado correctamente a la pregunta, que viene a denominarse índice de dificultad del ítem. Por otra parte, la varianza es muy fácil de calcular: y, por tanto, la desviación típica es:

s2= p · q

s = √p · q

La desviación típica variará entre 0 (mínima variabilidad) y 0,5 (máxima variabilidad), y la varianza en tre 0 y 0,25.

5.5.- Asimetría y apuntamiento: relación con la curva normal. La asimetría y el apuntamiento son dos características relativas a la forma gráfica de la distribución de frecuencias. El modelo de comparación es la curva normal, en este sentido, la curva normal carece de asimetría, es decir, es simétrica o tiene un índice de asimetría igual a cero. De la misma forma, su apuntamiento es igual a cero. Las representaciones gráficas de las variables, sobre todo cuando trabajamos con muestras grandes, tienden a ser curvas que, por su grado de asimetría, pueden asemejarse a una de estas tres:

La asimetría negativa indica que los sujetos tienden a agruparse en torno a las puntuaciones altas de la distribución. La mode es más alta que la media. La asimetría positiva indica que la mayoría de los sujetos tiende a concentrarse en la parte baja de las puntuaciones de la distribución de frecuencias. La cola de la distribución está a la derecha. La media es mas alta que la moda.

El hablar de asimetría positiva o negativa se debe simplemente al signo del cálculo del índice. Hay distintas formas de calcularlo. Una de ellas (índice de Pearson) es la siguiente:

A diferencia de la moda y la mediana, la media aritmética se ve “atraída” por las puntuaciones extremas, luego su posición relativa se verá desplazada hacia las puntuaciones extremas. Por ello, cuando las puntuaciones extremas se encuentren en la parte alta (derecha) de la distribución, la media será mayor que la moda y la asimetría será positiva. Cuando las puntuaciones extremas se encuentren en la parte correspondiente a las puntuaciones bajas del recorrido, la media se vera “arrastrada” hacia la izquierda, y entonces el valor de la moda será superior al de la media y, por tanto, la asimetría será negativa. El apuntamiento o la curtosis indica el grado en el que la distribución es más o menos «picuda», es decir, el grado en el que la distribución resulta más abierta o dispersa respecto a la media (las puntuaciones están poco concentradas respecto a la media) 

Platicúrtica: abierta, chata y aplanada. Distribución más dispersa respecto a la media. Curtosis negativa.



Mesocúrtica: es una distribución normal. Curtosis=0.



Leptocúrtica: más apuntada y, por tanto, más estrecha. Con las puntuaciones de la distribución más concentradas en torno a la media

Curtosis = 0 viene representada por la distribución normal. Curtosis > 0 nos indican una distribución leptocúrtica, Curosis < 0 será platicúrtica.

5.6.- Representaciones gráficas. A partir de una distribución de frecuencias es muy fácil realizar una representación gráfica. Aunque no hay unas normas muy estrictas, se recomienda adaptar el tipo de gráfico al nivel de medida de las variables.

Gráfico de sectores. El gráfico de sectores, también llamado ciclograma o gráfico de tarta, se utiliza para representar variables con nivel de medida nominal (variables generalmente clasificatorias). Tiene forma circular y está divido en porciones, de modo que cada porción representa la presencia proporcional de cada uno de los niveles de la variable. (Tantos por cientos %)

Gráfico de barras. El gráfico de barras suele utilizarse para variables con nivel de medida ordinal, aunque también es frecuente utilizarlo cuando el nivel de medida es nominal y para realizar comparaciones de variables clasificatorias o categóricas.

Histograma. Muy parecido al gráfico de barras, pero se utiliza para variables cuantitativas continuas con nivel de medida de intervalo o de razón. Las barras, en vez de estar separadas, están juntas.

A diferencia de un diagrama de barras, en un histograma no aparecen todos los valores de la variable representada en el eje de abscisas, lo que se hace es agrupar las puntuaciones en

intervalos, de modo que cada intervalo contiene un número determinado de puntuaciones (es lo que se denomina valor del intervalo, que podemos representar por i). Por ejemplo, si i = 5, cada intervalo contendrá 5 puntuaciones, de 1 a 5, de 6 a 10, etc. No hay reglas universalmente compartidas para realizar la agrupación por intervalos. Lo usual es que varíe entre 5 y 15, dependiendo de la longitud de la escala de medición (cuanto más grande es la amplitud, más barras pueden dibujar...


Similar Free PDFs