Análisis e interpretación de datos cuantitativos PDF

Title Análisis e interpretación de datos cuantitativos
Course Metodología para la investigación social
Institution Universidad Siglo 21
Pages 15
File Size 942.2 KB
File Type PDF
Total Downloads 59
Total Views 145

Summary

Download Análisis e interpretación de datos cuantitativos PDF


Description

Modulo N°4- Análisis e interpretación de datos cuantitativos- Métodos de Investigación Social-2

Análisis e interpretación de datos cuantitativos Análisis descriptivos Análisis descriptivos: distribución de frecuencias y medidas de tendencia central Al cargar los datos en el respectivo programa de análisis estadístico queda determinada una matriz donde cada caso es una fila y cada columna una variable o un aspecto considerado. En el caso de una encuesta, una variable puede corresponder a una pregunta de un cuestionario (preguntas que admiten una sola respuesta) o puede ser necesaria más de una variable para capturar la información proveniente de una pregunta (aquellas que admiten respuestas múltiples). Para decidir qué tipo de análisis descriptivo se puede aplicar, hay que considerar el nivel de medición de cada variable (nominal, ordinal, de intervalo o de razón), al tiempo que las hipótesis a las que responde y cómo está formulada. Se denomina análisis univariado al que considera una por una cada variable del estudio. Distribución de frecuencias y su representación gráfica La frecuencia de una variable es la representación de la cantidad de veces que aparece en cierto conjunto cada uno de los valores de esa variable. Esta representación sintética puede aplicarse a variables de todos los niveles de medición. Los indicadores de frecuencias son: FRECUENCIA ABSOLUTA O SIMPLEMENTE FRECUENCIA: Cantidad de veces que aparece cada valor. FRECUENCIA RELATIVA: Proporción de las veces que aparece cada valor en el total. Se la suele expresar en porcentajes a fin de facilitar su interpretación. FRECUENCIA ACUMULADA: Apariciones totales acumuladas hasta cierto valor de la variable. Tomemos como ejemplo la encuesta sobre uso del tiempo (INDEC, 2013) para mostrar los conceptos involucrados en este módulo. Lectura obligatoria: Encuesta sobre trabajo no remunerado y uso del tiempo Material que posibilita ejemplificar los conceptos que se abordan en la unidad. La tabla 1 presenta una salida de SPSS a partir de la base de datos de la encuesta sobre trabajo no remunerado y uso del tiempo. Veamos qué información contiene. Cada columna posee información relevante. La primera indica los valores posibles de la variable (Sí, No, Ns/Nr). La segunda muestra la frecuencia absoluta, es decir, cuántos casos en la encuesta respondieron cada valor. En este caso, 46.372 dijeron “Sí”, en tanto 18.916 dijeron “No”. La tercera columna presenta la frecuencia relativa expresada en términos porcentuales. El 71 % respondió “Sí”, mientras que el 28,9 % respondió “No”, y el 0,1 % “Ns/Nr”. La cuarta columna indica los porcentajes válidos. Como a esta pregunta la responden todos los encuestados, coincide con la columna anterior. Pero si la pregunta se realizara a solo una parte de los encuestados, el porcentaje de una y otra columna diferiría. Finalmente, la quinta columna indica el porcentaje acumulado.

1

Modulo N°4- Análisis e interpretación de datos cuantitativos- Métodos de Investigación Social-2 Tabla 1: Salida de SPSS

Figura 1: Gráfico de barras

Figura 2: Gráfico circular. Diagrama de sectores

2

Modulo N°4- Análisis e interpretación de datos cuantitativos- Métodos de Investigación Social-2 Figura 3: Polígono de frecuencias

Medidas de posición o tendencia central Las medidas de tendencia central son medidas sintéticas que permiten indicar, con un único número, un valor de referencia del conjunto de datos. Las principales son: la media, la mediana y la moda. MEDIA: La media es el promedio de todos los valores de un conjunto de datos cuantitativos (escalas de intervalo o razón). Se calcula sumando todos los valores y dividiendo esa suma por la cantidad de casos totales que el conjunto incluya. Por ejemplo, si tenemos los datos de la cantidad de miembros de 5 familias en una zona: 2, 3, 5, 5 y 7 miembros respectivamente, la media de miembros por familia es: Media = (2 + 3 + 5 + 5 + 7) / 5 = 22/5 = 4,4 miembros por familia. MEDIANA: La mediana corresponde al valor del conjunto de datos (ordenados de menor a mayor) que se encuentra exactamente en medio de la distribución, o más formalmente, el valor tal que no más de la mitad de los datos de la distribución es mayor a tal valor, y no más de la mitad de los datos es menor a ese valor. La mediana se calcula para variables de escalas de razón, intervalo u ordinal. En el ejemplo anterior, la mediana (Me) será el valor que ocupe la tercera posición de la serie ordenada: Mediana = 5 La mediana puede o no pertenecer al conjunto. En el caso de los conjuntos con un número par de casos, la mediana se calcula como el promedio de los dos valores centrales. Por ejemplo, si tenemos las edades de los gerentes de 8 empresas de la ciudad: 40, 45, 45, 48, 52, 60, 65, 68, la mediana es: Me = (48 + 52) /2= 50 años. MODA: La moda señala el valor que tiene más repeticiones de un conjunto de datos. Una distribución puede tener más de una moda o valor modal. 3

Modulo N°4- Análisis e interpretación de datos cuantitativos- Métodos de Investigación Social-2 Del ejemplo anterior (edades de los gerentes), la moda es: Mo = 45 años Veamos cómo es la salida de datos de SPSS al analizar las medidas de tendencia central de un conjunto de datos. La variable que consideramos de la encuesta de uso del tiempo (INDEC, 2013) es el tiempo dedicado la semana anterior a actividades de voluntariado. Tabla 2: Salida de SPSS. Estadísticas descriptivas

¿Cómo interpretar estos resultados? La tabla nos muestra que, en promedio, de los 65,352 encuestados, el tiempo dedicado a actividades de voluntariado la semana anterior es 0,5487 horas. Si consideramos el valor central de la distribución (Mediana), vemos que el 50% (mitad de la distribución) dedica, a lo sumo, 0 horas a voluntariado, y que el 50% dedica 0 horas o más. Finalmente, también podemos afirmar que lo más frecuente es que se dediquen 0 horas a actividades de voluntariado. Medidas de dispersión o variabilidad Como complemento necesario de las medidas de tendencia central, necesitamos otras medidas que hagan referencia a cuán concentrados están los datos del conjunto respecto de tales medidas de tendencia central. Estas medidas se denominan de dispersión. Las medidas de dispersión más utilizadas son: rango, varianza, desviación estándar y coeficiente de variación. RANGO: El rango o recorrido se define como la diferencia entre el mayor valor y el menor valor de un conjunto de datos cuantitativos. Tomemos el conjunto de edades de los gerentes de 8 empresas: 40, 45, 45, 48, 52, 60, 65, 68. El rango es: Rango = 68 – 40 = 28 años VARIANZA: La varianza surge de calcular el promedio de los desvíos al cuadrado de cada valor del conjunto respecto de la media. Veamos cómo se calcula para el ejemplo anterior: Media: 52,875 Como puede observarse, por la propia naturaleza de la definición de la media, la suma de los desvíos de cada valor respecto de la media es cero. Por eso, para poder contar con una medida de dispersión, se eleva cada diferencia al cuadrado. La varianza se

4

Modulo N°4- Análisis e interpretación de datos cuantitativos- Métodos de Investigación Social-2 calcula dividiendo la suma de desvíos al cuadrado en la cantidad de casos: Var = 740,875/8 = 92,609 años 2 Tabla 3: Cálculo de varianza

Hay que tener en cuenta que la unidad de medida de la varianza está expresada en la misma unidad de medida que la variable original, pero elevada al cuadrado, como lo expresa el resultado anterior (en años). DESVIACIÓN ESTÁNDAR: La desviación estándar (la medida de dispersión más utilizada) surge de tomar la raíz cuadrada positiva de la varianza. Por lo tanto, la desviación estándar sí está expresada en la misma unidad de medida que la variable original y que la media. Utilizando los datos del ejemplo anterior: DS = Ö92,609 años2 = 9,623 años COEFICIENTE DE VARIACIÓN: El coeficiente de variación vincula la desviación estándar con la media y permite comparar la variabilidad de varias distribuciones entre sí: CV = (DS /Media).100 Con los datos del ejercicio anterior: CV = (9,623/52,875).100 = 18,2 % La siguiente tabla muestra la salida de SPSS respecto de medidas de dispersión, en este caso de la variable tiempo dedicado a trabajo voluntario, con datos de la encuesta de uso del tiempo (INDEC, 2013).

5

Modulo N°4- Análisis e interpretación de datos cuantitativos- Métodos de Investigación Social-2

Tabla 4: Salida de SPSS. Estadísticos descriptivos

Medidas de asimetría y curtosis Las medidas de asimetría y curtosis hacen referencia a la forma de la gráfica de la distribución de datos. La asimetría mide cuán diferente es una distribución específica respecto de una distribución teórica denominada normal, que es simétrica. Si el indicador es 0 significa que la distribución es simétrica (no difiere en simetría de la distribución normal). Si la medida de asimetría es positiva, quiere decir que hay más valores agrupados a la izquierda de la curva; y, por el contrario, si el indicador es negativo, quiere decir que la mayor proporción de datos se agrupa del lado derecho del eje de simetría. Figura 4: Asimetría

La curtosis indica qué tan plana o empinada es la distribución. Nuevamente, el patrón de comparación es la distribución normal. Si la curtosis es 0, significa que la distribución que consideramos es igual de empinada que la normal; si es positiva quiere decir que es más empinada que la normal; y, por el contrario, si es negativa, quiere decir que es más aplanada que la distribución normal.

6

Modulo N°4- Análisis e interpretación de datos cuantitativos- Métodos de Investigación Social-2

Figura 5: Curtosis

La siguiente tabla muestra la salida de SPSS respecto de medidas de curtosis y asimetría, en este caso de la variable tiempo dedicado a trabajo voluntario, con datos de la encuesta de uso del tiempo (INDEC, 2013). Vemos que la distribución del tiempo es asimétrica positiva (los valores están concentrados en el lado izquierdo respecto del eje de simetría) y la curtosis es positiva. Por lo tanto, la distribución es bastante más empinada que la normal. El gráfico siguiente permite observar la distribución de datos de la variable tiempo dedicado a trabajo voluntario, junto con la distribución normal (línea azul) de referencia. Tabla 5: Salida de SPSS

.

7

Modulo N°4- Análisis e interpretación de datos cuantitativos- Métodos de Investigación Social-2

Figura 6: Ejemplo de curtosis

Actividades de repaso Análisis de la relación entre variables Análisis de la relación entre variables: clasificación según el tiempo, la dirección y la intensidad de la relación Video: Análisis de datos cuantitativos En este video abordamos algunos aspectos generales del análisis de datos y luego nos adentramos en algunos aspectos puntuales del análisis de datos cuantitativos. La idea, además de que usted pueda realizar un análisis descripto, es principalmente que pueda comprender los resultados de un análisis y que dé cuenta de la importancia que este tiene en relación al cumplimiento de los objetivos y en última instancia en relación a la respuesta a la pregunta de investigación. Coeficiente de correlación de Pearson (r) Este coeficiente sirve para cuantificar la relación entre dos variables, ambas medidas en escalas de intervalo o razón. El coeficiente de correlación de Pearson (r) puede asumir valores entre -1 y 1. El signo del coeficiente permite identificar el sentido de la correlación. En la tabla 6, se presenta la interpretación de los valores de este coeficiente:

8

Modulo N°4- Análisis e interpretación de datos cuantitativos- Métodos de Investigación Social-2

Tabla 6: Interpretación del coeficiente de correlación

La fórmula de cálculo es la siguiente:

Ahora, apliquemos esto. Veamos un ejemplo: Pensemos en las variables nota promedio en el secundario y notas promedio en el primer año en la carrera universitaria. Supongamos que tenemos una muestra de 10 alumnos con la siguiente información: Tabla 7: Promedio de notas de alumnos en el secundario y primer año de la universidad

Modulo N°4- Análisis e interpretación de datos cuantitativos- Métodos de Investigación Social-2

Una primera exploración gráfica nos permite tener una hipótesis sobre la relación entre las variables: Figura 7: Diagrama de dispersión

Observa los puntos del diagrama ¿dirías que hay algún tipo de correlación entre variables? ¿De qué tipo? Inicialmente, el gráfico nos posibilita observar una relación positiva entre las variables consideradas. Ahora, con el coeficiente de correlación de Pearson, podemos cuantificar esta relación. Tabla 8: Cálculo de desvíos

10

Modulo N°4- Análisis e interpretación de datos cuantitativos- Métodos de Investigación Social-2

Tabla 9: Cálculo de coeficiente de correlación

Ahora, que ya tenemos los resultados, vuelva a la tabla 6 ¿tienen relación estas variables? ¿De qué tipo? La relación positiva que observamos en el gráfico implica una asociación entre considerable y fuerte (0.7917). Recuerda: No se espera que realices habitualmente este tipo de cálculos, pero sí que sepas interpretarlos. Asociación entre dos variables categóricas

11

Modulo N°4- Análisis e interpretación de datos cuantitativos- Métodos de Investigación Social-2 Si queremos conocer el grado de asociación entre dos variables categóricas, debemos recurrir a otros estadísticos. La idea básica, en todos los casos, es ver si la distribución de valores de una de las variables difiere según los valores que tiene la otra variable. Veamos el siguiente ejemplo:

Tabla 10: Tabla de contingencia

La idea, ahora, es comparar la distribución que presenta la tabla de datos con aquella hipotética que correspondería a una situación en la cual las dos variables analizadas no poseen ningún tipo de asociación entre sí, es decir, de modo que los valores de una variable no condicionen los que se observan en la otra. Para obtener esta tabla que refleje independencia, tenemos que hacer algunos cálculos auxiliares. Para esto tengamos presente los conceptos de frecuencias marginales, que son las que corresponden a los márgenes de la tabla. Allí figuran, tanto para fijas como para columnas, los totales. En la siguiente tabla sólo dejamos los datos de las frecuencias marginales. A la tabla que refleje situación de no asociación la vamos a construir utilizando las frecuencias marginales. Para cada celda de la tabla vamos a multiplicar el valor de la frecuencia marginal de la fila que le corresponde a ese valor y el valor de la frecuencia marginal de la columna que le corresponde a ese valor. Luego, a este resultado lo vamos a dividir por el total de casos. Tabla 11: Tabla de contingencia

Veamos la celda de la posición (1,1), es decir, de la primera fila, y la primera columna de datos. a11 = (150 . 118) / 500

12

Modulo N°4- Análisis e interpretación de datos cuantitativos- Métodos de Investigación Social-2 a11 = 35,4 Y completamos el primer valor de la tabla de no asociación:

Tabla 12: Tabla de contingencia

De la misma manera, procedemos para calcular los siguientes valores: a12= (150 . 147) / 500 = 44,1 a13= (150 . 235) / 500 = 70,5 a21= (350 . 118) / 500 = 82,6 a22= (350 . 147) / 500 = 102,9 a23= (350 . 235) / 500 = 164,5 Veamos la tabla completa, a la que llamaremos tabla de valores esperados: Tabla 13: Tabla de contingencia

La idea, ahora, es comparar las frecuencias reales/observadas con los datos hipotéticos de esta tabla que muestra los valores que podríamos esperar en cada celda, si ambas variables entre sí no tuvieran ninguna asociación. En el caso de que las diferencias fueran importantes (estadísticamente hablando, ya que esto es lo que luego aporta cada uno de los indicadores de asociación específicos que se usen), podríamos concluir que existe una asociación.

13

Modulo N°4- Análisis e interpretación de datos cuantitativos- Métodos de Investigación Social-2 Para determinar las diferencias, vamos a trabajar celda por celda y elevar tales valores al cuadrado.

Tabla 14: Tabla de diferencias de valores observados y esperados, elevados al cuadrado

Generalmente, para una prueba estadística de la independencia de dos variables categóricas, se usa el estadístico:

Que tiene distribución chi cuadrado, donde O hace referencia a los valores de las frecuencias observadas y E a las frecuencias esperadas. Existen otros índices bivariados. La elección entre ellos depende fundamentalmente del nivel de medición de las variables consideradas. La tabla siguiente resume los principales índices de correlación disponibles. Tabla 15: Tabla de contingencia

14

Modulo N°4- Análisis e interpretación de datos cuantitativos- Métodos de Investigación Social-2 Actividades de repaso

15...


Similar Free PDFs