TEMA 3. EL Proceso DE Análisis Descriptivo DE LOS Datos. Fundamentos DE Investigación I PDF

Title TEMA 3. EL Proceso DE Análisis Descriptivo DE LOS Datos. Fundamentos DE Investigación I
Author Saray Redín Salinas
Course Fundamentos de Investigación I
Institution Universidad de Navarra
Pages 49
File Size 1.8 MB
File Type PDF
Total Downloads 32
Total Views 76

Summary

Download TEMA 3. EL Proceso DE Análisis Descriptivo DE LOS Datos. Fundamentos DE Investigación I PDF


Description

EL PROCESO DE ANÁLISIS DESCRIPTIVO DE LOS DATOS I

1

1. LA ESTADÍSTICA DESCRIPTIVA: CONCEPTOS PREVIOS En esta lección se pretende introducir en los conceptos básicos de Estadística Descriptiva implicados en el proceso de análisis de los datos.

1.1 La estadística descriptiva La estadística descriptiva es aquella parte de la estadística que persigue resumir o describir de forma clara las características de un conjunto de datos. Así, ante un conjunto de datos, la estadística descriptiva los ordena, los representa gráficamente, los hace comparables y nos proporciona una indicación del comportamiento característico o central del grupo, de la variabilidad o dispersión de las puntuaciones respecto al valor central. La estadística descriptiva nos indica la forma que toma también la distribución de valores, así como el grado de asociación que se produce entre las variables.

1.2 Conceptos previos I Por población se entiende el conjunto o colección de personas, objetos o eventos cuyas propiedades serán analizadas. Se distingue entre población finita (aquella menor de 100.000 casos, sujetos o eventos) y población infinita (la superior a 100.000). La muestra es la parte representativa y suficiente de la población a la que se tiene acceso para el estudio. Es el grupo con el que se trabaja con la intención de generalizar los resultados a la población de partida. Las condiciones que necesariamente debe reunir son suficiencia y representatividad. Una muestra menor de 30 casos se considera pequeña y requiere de técnicas estadísticas de análisis específicas.

1.3 Conceptos previos II Un parámetro es un valor numérico referido a una población. Es un valor que describe a una población y que se denota por letras griegas. μ Estadístico es el valor numérico referido a la muestra. Describe o resume características de las muestras y se denota por letras latinas. 𝑥 Una matriz de datos es una ordenación de los datos recogidos por el investigador en filas y columnas en las que se especifica las características de los mismos. Constituye el paso previo al análisis de los datos y supone una importante tarea de recolección por parte del investigador.

2

1.4 Conceptos previos II La precisión de una medida es un término técnico que se refiere a la unidad de medida usada. Está directamente relacionado con el instrumento de medida. Un valor exacto es el que se consigue por incremento de 1. Es necesariamente el resultado de contar y no de medir y solamente puede tomar valores enteros por la naturaleza del rasgo que representa. Es propio de variables cuantitativas discretas o discontinuas. La medida de las variables continuas siempre es aproximada y depende de la precisión del instrumento. Los valores que se obtengan serán enteros o fraccionarios. Los límites de una medida vienen determinados por el máximo error posible(MEP). Esto equivale a la mitad de la unidad de medida. El error relativo (E) de una medida es la razón entre el número de unidades en el MEP y el número de unidades en la medida. Este error proporciona una base para la comparación de medidas. De dos mediciones, aquella con el menor E será la que posea la mayor exactitud. Y de dos medidas con la misma precisión, la mayor de las dos tendrá el menor E y por tanto la mayor exactitud.

GLOSARIO ESTADÍSTICA DESCRIPTIVA: Parte de la estadística que se ocupa de resumir todos los datos obtenidos en unos pocos valores que nos proporcionan un a idea, lo más aproximada posible, del comportamiento de todos los individuos de la muestra. ESTADÍSTICO: Valor referido a una muestra. Se denota por letras latinas. INTERVALO: (o clase) Conjunto de valores que toma una magnitud entre dos límites dados. En estadística se utilizan intervalos cuando el rango de las variables medidas es excesivamente amplio. MATRIZ DE DATOS: Disposición de los datos recogidos por el investigador en filas y columnas, con el fin de facilitar el análisis de la información. MUESTRA: Conjunto de casos extraídos de una población, seleccionados por algún método de muestreo. La muestra debe ser auténticamente representativa de la población. PARÁMETRO: Valor referido a una población, a todos las posibles casos o sujetos que investigo. Se representa con letras griegas. POBLACIÓN: Conjunto de todos los individuos (objetos, personas, eventos, etc.) en los que se desea estudiar el fenómeno. SUMATORIO: Indica la suma de los valores de una variable o de un estadístico concreto.

3

2. DISTRIBUCIONES DE FRECUENCIA: ABSOLUTAS Y RELATIVAS En esta lección se pretende ser capaz de realizar una distribución de frecuencias de un conjunto de datos.

2.1 Definición Una distribución de frecuencias es un procedimiento que nos ayuda a ordenar, describir y comprender mejor un conjunto de datos. Es una manera de presentar de forma ordenada todos los valores posibles registrando al lado de cada uno de veces número de veces que ha ocurrido. El número de que se repite el valor de una variable en la muestra recibe el nombre de frecuencia absoluta. Evidentemente, en cualquier distribución, la suma de todas las frecuencias absolutas debe ser igual al número de elementos de la muestra de que se trate. Ese total se conoce como el tamaño de la muestra (N). Se llama frecuencia relativa al coeficiente entre la frecuencia absoluta y el tamaño de la muestra. Se refiere a la proporción de un valor en el total de los casos. Cuando el número de casos es elevado y los valores de la variable también lo son (más de 15 o 20) la distribución de frecuencias debe ser una distribución agrupada. En dicha distribución las frecuencias se asignan a un intervalo de valores de la variable en lugar de asignarse a un único valor.

2.2 Pasos a seguir en la construcción de una distribución agrupada de la medida Los pasos a seguir en la construcción de la distribución agrupada son los que se detallan a continuación: Para aclarar los pasos, acompañaremos las explicaciones del ejemplo que se muestra a continuación: Pongamos que 36 alumnos han sido sometidos a un test que admite una puntuación máxima de 20 puntos y una puntuación mínima de 0. Siendo sus resultados obtenidos los siguientes.

1) Calcular el recorrido El primer paso consiste en calcular el recorrido o distancia máxima entre la puntuación superior y la inferior. R = 20 - 2 = 18

4

2) Decidir cuál será la amplitud de los intervalos Después, habrá que decidir cuál será la amplitud de los intervalos. Esta se determina mediante un tanteo y se aconseja que sea de tamaño impar para que el punto medio o marca de clase sea un valor entero y no fraccionado. En nuestro caso, hemos decidido optar por una amplitud de 3 puntos. 3) Establecer el número de intervalos Lo siguiente será establecer el número de intervalos que tendrá la distribución. Un criterio comúnmente aceptado es que haya entre 10.20 intervalos. Si existen menos de 10 la tosquedad del agrupamiento puede generar demasiadas inexactitudes en los cálculos y más de 20 dificultaría excesivamente el trabajo numérico. En nuestro caso, dado el rango y la amplitud de intervalo escogida anteriormente, optamos por trabajar con 7 intervalos. 4) establecer el intervalo inferior Más adelante, habrá que establecer el intervalo inferior o punto en el que arranca la distribución. Se suele comenzar en un número que sea múltiplo de la amplitud y que englobe a la puntuación inferior. Tomando en cuenta estos criterios, optamos en nuestro caso por establecer que el intervalo inferior englobe los valores de 2 a 4. 5) asignar las frecuencias correspondientes Por último, una vez establecidos todos los intervalos se les asignan las frecuencias correspondientes al total de los valores. De este modo, en el caso con el que venimos trabajando, la distribución quedaría establecida de la siguiente manera:

5

2.3 Se asume que… Al realizar unos análisis de datos a partir de una distribución de frecuencias agrupadas se asume que los valores se distribuyen por igual a lo largo del intervalo y, por ello, se considera que el punto medio o marca de clase es el valor más representativo del mismo. Como esta hipótesis no tiene por qué ser cierta siempre, a veces se producen pequeñas diferencias en los resultados de los análisis cuando se calculan por distribuciones agrupadas o cuando se calculan a partir de los datos sin agrupar. Siempre y cuando los agrupamientos no sean muy groseros, las diferencias no serán relevantes.

6

GLOSARIO AMPLITUD DE INTERVALO: Número de valores que engloba cada intervalo. Se calcula midiendo la distancia existente entre las marcas de clase de los intervalos adyacentes. DISTRIBUCIÓN DE FRECUENCIAS: Tabla en la que se recoge el número de veces que se repite cada dato o cada intervalo de datos. Es una manera de organizar, tabular y presentar la información para que su análisis e interpretación sea rápido y fácil. FRECUENCIA ABSOLUTA: Es el número de veces que aparece un valor determinado o los valores englobados en un intervalo en el estudio estadístico. FRECUENCIA RELATIVA: Es la proporción entre la frecuencia de un intervalo o de un dato específico y el número total de datos. INTERVALO: (o clase) Conjunto de valores que toma una magnitud entre dos límites dados. En estadística se utilizan intervalos cuando el rango de las variables medidas es excesivamente amplio (Superior a 15-20). MARCA DE CLASE: Punto medio del intervalo. Se obtiene sumando los límites inferior y superior del intervalo y dividiendo entre 2. RANGO: (o recorrido) Distancia entre el valor más alto y el más bajo. Es la medida más rápida y grosera.

7

3. EXPRESIÓN GRÁFICA DE UN CONJUNTO DE DATOS En esta lección se pretende ser capaz de representar gráficamente un conjunto de datos. A partir del estudio de la lección, se debe realizar las actividades propuestas en la unidad didáctica.

3.1 Una representación gráfica A menudo la interpretación de los resultados numéricos de un estudio estadístico resulta costosa. Por ello, es frecuente acompañarlos de representaciones gráficas que proporcionan de forma rápida y visual una idea general del comportamiento de la variable estudiada. Las representaciones gráficas deben entenderse como elementos auxiliares de la interpretación de los resultados. Entre los principales tipos de representaciones gráficas están: para variables continuas el histograma y el polígono de frecuencias y para variables discontinuas el gráfico de sectores, el diagrama de barras y el pictograma.

Histograma: El histograma es un gráfico de barras en el que en el eje de abcisas (eje X o eje horizontal) descansan las barras que tienen por centros los puntos medios de los intervalos, y por anchura la amplitud de los mismos. La altura de las barras la determinan las frecuencias absolutas que se recogen en el eje de ordenadas o eje Y.

8

Polígono de frecuencias: El polígono de frecuencias es un gráfico de líneas trazado sobre los puntos medios de los intervalos. Del mismo modo que el gráfico anterior, estos puntos medios se representan sobre el eje X y las frecuencias absolutas sobre la Y. Para no dejar el gráfico cortado en sus extremos, se acostumbra a prolongar por ambos lados la línea poligonal hasta cortar con el eje horizontal a una distancia igual a la mitad de la amplitud del intervalo, como si a esos datos les correspondiera una frecuencia cero. El polígono de frecuencias es muy útil para representar dos o más distribuciones sobre los mismos ejes, como objeto de estudiar comparativamente analogías y diferencias.

Curva de Ojiva: El polígono de frecuencias se utiliza también para representar las frecuencias acumuladas, tanto absolutas como relativas, de una distribución, dando lugar a la curva de ojiva o polígono creciente. Siempre será creciente puesto que el eje Y representa el eje de las frecuencias acumuladas.

9

Gráfico de sectores: El gráfico de sectores es una representación circular de una variable discontinua dividida en sectores de forma tal que los ángulos, y por tanto las áreas respectivas, deben ser proporcionales a las frecuencias.

Diagrama de barras: El diagrama de barras se diferencia del histograma en que se representa una distribución de frecuencias de una variable discontinua. Por lo demás los rectángulos o barras que lo forman, teniendo la misma base, también se apoyan sobre el eje X y su altura viene dada por las frecuencias. La diferencia gráfica es que las barras no se tocan las unas a las otras por la naturaleza de la variable que representan.

10

Pictograma: Cuando los rectángulos de un diagrama de barras son sustituidos por un dibujo alusivo a la variable analizada, la representación obtenida es un pictograma. Sea el gráfico que sea el que elijamos para representar los resultados de la investigación, es muy importante que este vaya acompañado de un título que defina exactamente lo que los valores representan.

11

GLOSARIO

CURVA DE OJIVA: Tipo de gráfico que representa las frecuencias acumuladas (tanto absolutas como relativas) de una distribución. Esta curva siempre será creciente, puesto que el eje Y representa el eje de las frecuencias acumuladas. DIAGRAMA DE BARRAS: Gráfico que asocia a cada valor de una variable discontinua una barra, generalmente vertical, proporcional a la frecuencia (o a la cantidad) con que se presenta. Los diagramas de barras pueden ser de diferentes tipos: de barras simples, de barras múltiples, o de barras compuestas. Las barras también pueden representarse horizontalmente, con la ventaja de que es más fácil añadir leyendas. Se diferencia del histograma en que los extremos de las barras, al tratarse de una variable discontinua, no están unidos entre sí, sino separados por un pequeño espacio. GRÁFICO DE SECTORES: Representación gráfica en la que la información se distribuye dentro de una figura circular, como puede ser una tarta o un anillo, y se divide la misma en proporciones, de manera que cada porción dentro de la figura representa la información porcentual del total de datos. HISTOGRAMA: Gráfico en forma de barras de una variable continua que se ha discretizado en intervalos, de forma que la altura de las barras en cada intervalo indica la frecuencia relativa en este. Se diferencia del diagrama de barras en que los extremos de las barras al tratarse de una variable contínua, están unidos entre sí. PICTOGRAMA: Consiste en la utilización de símbolos para representar un conjunto de datos. Adquieren la misma función que los diagramas de barras, pero en este caso, en lugar de rectángulos, se utilizan símbolos alusivos a la variable que estamos representando. POLÍGONO DE FRECUENCIAS: Representación gráfica que se construye uniendo las marcas de clase, localizadas en las tapas superiores de los rectángulos utilizados en los histogramas. Su utilidad se hace necesaria cuando desean destacarse las variables de tendencia central (media, medianas y modas). En el polígono de frecuencias se añaden dos clases con frecuencias cero: una antes de la primera clase con datos y otra después de la última. Esto hace que la línea sea una por ambos extremos al eje horizontal. conformando junto con el mismo un polígono.

12

13

4. TRANSFORMACIÓN DE LAS PUNTUACIONES DIRECTAS: LOS CUANTILES En esta lección se pretende aprender a transformar las puntuaciones directas en puntuaciones tipificadas, es decir en puntuaciones interpretables. A partir del estudio de la lección, se debe realizar las actividades propuestas en la unidad didáctica.

4.1 Interpretar una puntuación Si un alumno obtiene en una prueba de cálculo mental 41 puntos sobre 50, ¿qué podría pensarse de ese alumno? ¿su rendimiento en cálculo ha sido alto, bajo, medio? Contando solamente con esa información podría afirmarse que la calificación representa un 82% del total, en consecuencia es improbable pensar que haya suspendido el examen. Pero para poder interpretar correctamente la puntuación es preciso contar con la información del resto de los alumnos del grupo. Si la prueba resultó fácil para el grupo, la calificación 41 puede representar solamente un rendimiento medio. Pero si, por el contrario, el examen fue muy difícil el alumno con 41 puntos puede figurar entre los de mayor rendimiento o incluso ser el mejor.

4.2 Las puntuaciones transformadas Las puntuaciones directas resultado de la aplicación de cualquier prueba, test, examen o ejercicio no son directamente ni interpretables ni comparables, requieren de una información adicional para serlo. Requieren del comportamiento del grupo de referencia. Esta información adicional la proporcionan las puntuaciones transformadas. Consisten en transformar la puntuación original o directa en una puntuación que muestra de forma inmediata la situación que ocupa un sujeto en el grupo de referencia. Es decir, su situación en comparación con los demás miembros del grupo al que pertenece.

4.3 Los cuantiles Hay varios tipos de puntuaciones transformadas. Un cuantil es un punto de una escala numérica que se supone abarca una serie de observaciones dividiéndola en dos grupos cuyas respectivas proporciones se conocen. De este concepto derivan las fórmulas del percentil, decil y cuartil.

14

El percentil es el valor de la variable que deja por debajo de sí un correspondiente % de casos. Los posibles percentiles son 99 y dividen una serie de observaciones en 100 proporciones iguales. Así el percentil 95 (P95) se refiere a la puntuación de la escala que deja por debajo de sí al 95% de los casos, o el percentil 5 (P5) la puntuación directa que deja por debajo al 5% del grupo. Los cuartiles dividen el total de las observaciones en 4 partes iguales o proporciones. Los posibles cuartiles son 3; el primero (Q1) deja por debajo al 25% de los casos, el segundo cuartil al 50% y el tercero al 75%. Los deciles dividen el total de las observaciones en 10 partes iguales. Los posibles deciles son 9; el primero (D1) deja por debajo al 10% del grupo, el segundo (D2) al 20, el tercero (D3) al 30%, y así sucesivamente hasta el decil 9 que deja por debajo al 90% de los casos.

4.4 Equivalencias entre puntuaciones Entre los cuantiles se dan todo tipo de equivalencias, así el decil 9 equivale al percentil 90 o el 2º cuartil al percentil 50 y al decil 5. Es muy importante recordar que los cuantiles, que expresan un tanto por ciento como hemos visto, son unidades de medida desiguales lo que impide que se pueda operar aritméticamente con ellas.

15

GLOSARIO CUANTILES: Son valores que dejan por debajo de sí un determinado número de casos. Pueden ser percentiles, deciles, cuartiles y quintiles. CUARTILES: Valores que dividen la distribución, una vez ordenada, en cuatro partes homogéneas en cuanto a número de observaciones. En total existen tres cuartiles. DECILES: Valores que dividen el total de las observaciones en 10 partes iguales. Existen 9 deciles en total. PERCENTILES: Valores por debajo de los cuales se encuentra un determinado porcentaje de los casos. Hay 99 percentiles, que dividen una serie de observaciones en 100 proporciones iguales. PUNTUACIÓN DIRECTA: Puntuación real obtenida por un individuo en una prueba determinada. Por ejemplo, si en una prueba valorada sobre 50 puntos, nuestro sujeto ha obtenido una calificación de 38, diremos que su puntuación directa es de 38 puntos. PUNTUACIÓN TRANSFORMADA: Se obtiene como resultado de comparar la puntuación directa obtenida por un sujeto en una prueba o test con el grupo de referencia. Permite identificar la situación que ocupa el sujeto dentro del grupo de referencia.

16

17

5. MEDIDAS DE TENDENCIA CENTRAL: MEDIA ARITMÉTICA, MEDIANA Y MODA En esta lección se pretende ser capaz de calcular las medidas de tendencia central en cualquier grupo de datos. Así como interpretar los resultados del análisis de datos. A partir del estudio de la lección, se deben realizar las actividades propuestas en la unidad didáctica. A estas alturas de curso ya sabemos realizar una distribución de frecuencias, representar gráficamente un conjunto de...


Similar Free PDFs