Analisis de Datos Tema 1 Cristina 2anka32@yahoo PDF

Title	Analisis de Datos Tema 1 Cristina 2anka32@yahoo
Author	Anca Cristina
Course	Análisis de Datos
Institution	UNED
Pages	28
File Size	1.9 MB
File Type	PDF
Total Downloads	92
Total Views	124

Preview

CLICK TO PREVIEW PDF

Summary

resumen...

Description

Clases particulares Online – [email protected]

Tema 1: Conceptos básicos y organización de datos La Estadística se aplica en casi todas las disciplinas, en Psicología se utili za para cualquier cuestión relacionada con la medición de variables psicológicas y con la evaluación, ya sea diagnóstica, de tratamientos, de programas educativos, sociales, etc. Se puede hacer una distinción entre: 1. Estadística teórica: se ocupa de los aspectos matemáticos formales y normativos; 2. Estadística aplicada: la constituye la aplicación a un campo concreto y ha recibido distintas denominaciones según su campo de aplicación, tales como bioestadística, psicoestadística o socioestadística. Algunos autores han propuesto para la estadística aplicada la denominación de análisis de datos.

1. LA INVESTIGACIÓN EN PSICOLOGÍA Las ciencias se distinguen entre sí por su objeto de estudio, pero tienen en común el método científico y la Psicología se sirve de este para acercarse a su objeto de estudio: la conducta. El método científico es un procedimiento estructurado que utiliza la ciencia para la ampliación de sus conocimientos y se caracteriza por ser: • Sistemático porque es un proceso que tiene unas etapas definidas • Replicable porque los datos obtenidos mediante su uso tienen que poder ser replicados o refutados (en las mismas circunstancias) por cualquier investigador interesado. El método científico, proporciona una manera de actuar para afrontar una investigación, a través de las siguientes fases interdependientes: 1. Planteamiento del problema: cuestión sin responder que surge del conocimiento previo; puede surgir de teorías ya establecidas, de la lectura de la bibliografía o de la experiencia directa con los hechos. En la mayoría de los casos surgen de lagunas o contradicciones en investigaciones anteriores. 2. Formulación de hipótesis: Solución tentativa del problema de investigación. 3. Procedimiento para la recogida de datos: diseño, muestra, instrumentos, materiales, recogida de datos. 4. Análisis de datos 5. Discusión de los resultados 6. Elaboración Informe Investigación Esta asignatura se ocupa de las fases cuarta y quinta de una investigación: el análisis de los datos y la interpretación de los resultados obtenidos.

2. CONCEPTO Y FUNCIONES DE LA ESTADÍSTICA: DESCRIPCIÓN E INFERENCIA La Estadística es la rama de las matemáticas que se encarga del estudio de determinadas características en una población, recogiendo los datos, agrupándolos, organizándolos en tablas, representándolos gráficamente y analizándolos para sacar conclusiones de dicha población; se pueden considerar dos grandes áreas:

1

Clases particulares Online – [email protected] -Estadística Descriptiva: se organizan y resumen los conjuntos de observaciones cuantificadas procedentes de una muestra o de la población total mediante tablas, gráficos o valores numéricos. Hay distintos procedimientos que permiten estudiar las características de una o más variables: ■ En el caso de una variable, se recurre a estadísticos que indican cuáles son los valores más habituales de esa variable (índices de tendencia central), hasta qué punto esos valores son similares o diferentes entre sí (estadísticos de variabilidad), en qué grado las observaciones se reparten equilibradamente por encima y por debajo de la tendencia central (estadísticos de asimetría) y cómo de apuntada es la distribución de las puntuaciones de la variable (estadísticos de curtosis). ■ En el caso de dos variables se utilizan índices que indican hasta qué punto están ambas variables relacionadas entre sí (índices de asociación), procedimientos que permiten predecir el valor de una variable en función de otra (ecuaciones de regresión). -Estadística Inferencial: se realizan inferencias acerca de una población basándose en los datos obtenidos a partir de una muestra y se basan en el cálculo de probabilidades. En una investigación cualquiera, lo habitual es que se desee conocer un parámetro o característica de los elementos de una población; sin embargo, la población suele ser demasiado extensa para estudiarla al completo y se realiza un muestreo con el que se obtiene un conjunto de elementos que representan a la población y se estudia la característica deseada en la muestra mediante estadísticos que se utilizarán para estimar los parámetros de la población. Distinguir entre población y muestra: • una población - es el conjunto de todos los elementos que cumplen una determinada característica objeto de estudio • una muestra - es un subconjunto cualquiera de una población. Distinguir entre parámetro y estadístico: • un parámetro - es un índice medido en una población que la describe de alguna manera • un estadístico - es un índice medido en una muestra. Utilizando la estadística inferencial se pronostica el valor de los parámetros poblacionales a partir de los estadísticos muestrales. Habitualmente los parámetros se representan por letras griegas (μ para la media, Ϭx2 para la varianza y n para la proporción) y los estadísticos por letras latinas (X para la media, Sx2 para la varianza y P para la proporción).

3. VARIABLES: MEDICION Y CLASIFICACION Una variable es el conjunto de valores resultantes de medir una característica de interés sobre cada elemento individual de una población o muestra. Para representar a las variables se utilizan letras latinas mayúsculas. Para un valor cualquiera de la variable X se utiliza el subíndice i (Xi), siendo n el número de elementos que componen la muestra: Xi siendo i = 1, 2, 3 ... , n El reto al que se enfrenta la Psicología es su necesidad de medir en muchas ocasiones variables que no son directamente observables.

2

Clases particulares Online – [email protected] Medición es el proceso por el cual se asignan números a objetos o sucesos según determinadas reglas y es previo al análisis de datos procedimiento (p or ej., a los dos valores de la variable sexo hombre y mujer- se les puede asignar los números 1 y 2). Para medir variables psicológicas en muchas ocasiones se utilizan test psicológicos diseñados para ese fin. Su aplicación proporciona una puntuación para cada persona en esa variable. Se utilizan diferentes escalas de medida en función de las variables a medir. Una escala de medida es el conjunto de reglas o modelos desarrollados para la asignación de números a las variables (ej. la escala centígrada de temperatura). Pueden distinguirse cuatro tipos de niveles o escalas de medida: nominal, ordinal, de intervalo y de razón. A) ESCALA NOMINAL - consiste en la asignación, puramente arbitraria de números o símbolos a cada uno de los valores de la variable. La única relación que se tiene en cuenta es la de igualdad (y la desigualdad), que implica la pertenencia o no a una categoría determinada. Podemos decidir si un sujeto es igual o diferente a otro, pero no podemos establecer relaciones de orden respecto a esa variable, ni de cantidad. En la escala nominal los valores de la variable se denominan categorías. En las variables nominales se puede asignar a cada valor de la variable cualquier tipo de símbolo. A las variables que presentan un nivel de medida nominal se les denomina variables cualitativas o categóricas y se clasifican, además, en función del número de categorías que presentan. Si una variable presenta solo dos categorías se dice que es una variable dicotómica (por ejemplo, el sexo); si presenta más de dos categorías se dice que es una variable politómica (por ejemplo, el estado civil). En ocasiones se categorizan variables que podrían medirse a un nivel superior; en este caso, decimos que una variable se ha dicotomizado si se han establecido dos categorías, y politomizado si se han establecido más de dos categorías (ej.: la variable peso del roedor de un experimento: aunque se podría medir exactamente su peso en gramos, puede resultar útil en una investigación dicotomizar la variable peso clasificando a las ratas en peso alto y bajo, o politomizarla, estableciendo tres o más niveles de peso. B) ESCALA ORDINAL - se asignan números a objetos para indicar la extensión relativa en que se posee una característica. Los datos pueden utilizarse para jerarquizar u ordenar las observaciones, pero sin indicar la distancia que hay entre las posiciones. Cuando se asignan números es sólo para indicar el orden de las posiciones de lo que se está clasificando. Esta escala no solo permite la identificación y diferenciación de los sujetos, sino que además permite establecer relaciones del tipo «mayor que» o «menor que», aunque no se plantea una distancia entre unas medidas y otras. En este caso, la asignación de números a las distintas categorías no puede ser completamente arbitraria, debe hacerse atendiendo al orden existente entre éstas (ej. la variable severidad de la enfermedad, que podría adoptar tres valores: 1 leve, 2 moderado y 3 grave). Las variables ordinales también reciben el nombre de cuasicuantitativas. C) ESCALA DE INTERVALO - son aquellas que ordenan los objetos según la magnitud del atributo que representan y proveen intervalos iguales entre las unidades de medida. Con la escala de intervalo, los números asignados a los objetos no solo permiten decidir si un objeto es igual o diferente a otro o si posee en mayor o menor grado la característica de interés; además, la distancia entre los distintos valores consecutivos de la variable es la misma (ej. la inteligencia medida con un 3

Clases particulares Online – [email protected] test es un ejemplo de escala de intervalo). Lo que caracteriza a una escala de intervalo es la existencia de una unidad de medición común y constante. En la escala de intervalo el origen es arbitrario, y no refleja en ningún momento ausencia de la magnitud que estamos midiendo. D) ESCALA DE RAZÓN - los números asignados a los objetos admiten como válidas las relaciones de igualdad-desigualdad, orden, suma, resta, multiplicación y división. Se caracteriza porque tiene todas las características de una medida de intervalo y, además, se le puede asignar un punto de origen verdadero de valor cero (el valor cero de esta escala significa ausencia de la magnitud que estamos midiendo - se puede afirmar que A tiene dos, tres o cuatro veces la magnitud de la propiedad presente en B, ej. la altura, el peso). En muchas ocasiones el nivel de medida de una variable va a depender de cómo se haya definido. La definición operativa de una variable (cómo se define y se registra) es muy importante porque puede determinar su nivel de medida. La mayoría de las variables psicológicas se considera que están medidas en una escala de intervalo. Así, si la variable perseverancia, que es un rasgo de personalidad, se ha medido mediante una prueba psicológica o test, su nivel de medida es de intervalo. Sin embargo, si se define perseverancia como el número de intentos o ensayos que realiza una persona para conseguir un objetivo se trata de una escala de razón. Las variables medidas en escala de intervalo y de razón son variables cuantitativas y se clasifican, además, en función de los valores numéricos que pueden asignarse en continuas y discretas: • variable continua es aquella para la que, dados dos valores, siempre se puede encontrar un tercer valor que esté incluido entre los dos primeros (ej. el peso, ya que entre los valores 79 y 80 kg. se pueden considerar uno, dos, tres o todos los decimales que se quiera). • variable discreta es aquella que adopta valores aislados (ej. el número de hijos).

Resumen de las escalas de medida Tipo de variable Cualitativa

Escala de Medida

• Dicotómica • Politómica

Nominal

Cuasi cuantitativa

Ordinal

Cuantitativa

Intervalo

• Discreta

Características básicas Los números identifican y clasifican objetos

Además, los números indican las posiciones relativas de los objetos Además, hay una unidad de medición común

4

Relaciones validas Relaciones del tipo «igual que» o «distinto que» Además, relaciones del tipo «mayor que» o «menor que» Además, igualdad o desigualdad

Ejemplos Sexo, estado civil, raza, diagnóstico clínico.

Dureza, posición en el ranking ATP, grado de satisfacción. Temperatura en grados centígrados, inteligencia.

Clases particulares Online – [email protected] de diferencias

• Continua

Razón

Además, el punto cero es absoluto

Además, igualdad o desigualdad de razones

Longitud, peso, altura, tiempo de reacción

4. DESCRIPCIÓN DE VARIABLES: DISTRIBUCIÓN DE FRECUENCIAS Y REPRESENTACIÓN GRÁFICA Una vez que el investigador ha recabado la información a través del proceso de medida y recogido los datos correspondientes, dispone de un listado o base, llamado matriz de datos. La generación de una base de datos supone la codificación previa de las observaciones, la introducción de los datos en algún programa informático, la depuración de los datos ya grabados (detección y tratamiento de los errores de grabación y valores perdidos), y eventualmente la realización de transformaciones de variables que faciliten su posterior tratamiento estadístico. Hay muchos programas estadísticos que se pueden utilizar para organizar y analizar los datos (ej.: Excel). Codificar datos es asignar números a las variables cualitativas y cuasicuantitativas, y registrar los valores de las variables cuantitativas que constituyen la base de datos, así como asignar un código (que puede ser un espacio en blanco o un valor numérico) a los valores perdidos (aquellos que no han sido registrados u observados). En la matriz de datos, los casos se sitúan en las filas y las variables en las columnas. Una vez que los datos están codificados es preciso realizar una depuración de la base de datos, que conlleva el procesamiento de los datos perdidos y de los valores atípicos. Los datos perdidos son valores que no han sido registrados, habitualmente porque el participante no ha consignado ese dato. Existen procedimientos de imputación de datos, basados en los valores válidos de otros casos que se utilizan en ocasiones en variables cuantitativas. Un dato atípico es un valor muy diferente al resto de valores de la misma variable. Suelen ser ocasionados por errores al introducir los datos o por valores extremos. Los datos atípicos distorsionan los resultados de los análisis, y por esta razón hay que identificarlos y tratarlos, generalmente excluyéndolos del análisis. Si los datos han sido registrados manualmente en un software es recomendable hacer un control de calidad de la grabación de estos, revisando la codificación de un porcentaje de los casos, habitualmente un 5% - 10% del total. Una vez depurada, la base de datos se utiliza para extraer la información relevante. Si hay muy pocos datos es posible que la simple inspección visual de los mismos sea suficiente para describir el fenómeno estudiado. Habitualmente el número de datos es elevado, por lo que se hace necesario organizar la información mediante una distribución de frecuencias.

5

Clases particulares Online – [email protected] Una distribución de frecuencias es una tabla en la que se resume la información disponible de una variable. Se sitúan los valores de la variable por filas y en las columnas se dispone el número de ocurrencias por cada valor, porcentajes, etc. La finalidad de las agrupaciones en frecuencias es facilitar la lectura de la información que contienen los datos y cumple dos funciones fundamentales: • ofrecer la información necesaria para realizar representaciones gráficas y • facilitar los cálculos para obtener los estadísticos. Ejemplo: Diversos estudios ponen de manifiesto el efecto que la ansiedad ante los exámenes puede tener en la calificación obtenida en la Prueba de Acceso a la Universidad (PAU). Un equipo investigador ha diseñado un programa de tratamiento para paliar este efecto, que combina técnicas de estudio con técnicas de relajación. Para comprobar la eficacia del tratamiento en el examen de Lengua de la PAU se ha seleccionado a una muestra de 40 estudiantes con este problema de ansiedad, que participaron voluntariamente en el estudio. De ellos, la mitad se ha asignado aleatoriamente al grupo 1 (sin tratamiento) y la otra mitad al grupo 2 (que pasará el tratamiento). Al finalizar el curso académico, se recogieron datos sobre las variables relevantes de la investigación, además de algunas variables sociodemográficas, como sexo, nivel de estudios de la madre, opción de bachillerato elegido y horas de estudio semanales. ■ La variable ID es una variable de identificación que asigna un número a cada estudiante. Se considera una variable nominal, ya que estos números únicamente sirven para identificar a cada estudiante. ■ La variable grupo (cualitativa y dicotómica) se ha codificado asignando el valor 1 a los estudiantes sin tratamiento y el 2 a los estudiantes con tratamiento. ■ La variable sexo es una variable cualitativa y dicotómica. Dado que es nominal, para codificarla es posible asignar cualquier número a estos dos valores siempre y cuando se asigne un número diferente a hombres y mujeres. ■ La variable nivel de estudios de la madre es una variable ordinal y puede adoptar 5 valores distintos: Primarios, ESO, Bachillerato, Grado universitario y Posgrado universitario. Para codificarla, además de asignar un número diferente a cada valor, hay que tener en cuenta que los números deben cumplir la condición de orden. Los números asignados a los distintos valores son: 1 Primarios, 2 ESO, 3 Bachillerato, 4 Grado universitario y 5 Posgrado universitario. ■ La variable Bachillerato elegido es una variable cualitativa y politómica, que puede adoptar los valores Ciencias, Humanidades y Ciencias Sociales y Arte. Al ser nominal el único requisito para codificarla es asignar un número diferente a cada una de las modalidades. Se ha asignado el valor 1 a los estudiantes que han elegido el Bachillerato de Ciencias, el 2 a Humanidades y Ciencias Sociales y el 3 al Bachillerato de Artes. ■ En las tres últimas columnas de la tabla se sitúan las tres variables cuantitativas de la investigación. La variable ansiedad ante los exámenes recoge las puntuaciones obtenidas en un test diseñado para tal efecto y lo mismo para la calificación en el examen de Lengua de la PAU y el número de horas de estudio semanales. Algunos datos recogidos en la investigación del ejemplo

6

Clases particulares Online – [email protected] ID

1 2 3 4 5 6

Nivel de Grupo Sexo estudios Bachillerato de la madre

1 1 1 2 2 2

1 1 2 1 2 2

3 2 3 3 1 4

Ansiedad ante los exámenes

2 1 2 1 2 3

5 13 4 4 14 9

Calificación Horas de PAU estudios Lengua semanales

6 4 9 6 4 7

7 11 16 4 8 10

A. Descripción de variables cualitativas- consiste en una distribución de frecuencias y en su representación gráfica mediante un diagrama de barras o de sectores. En la distribución de frecuencias de variables cualitativas habitualmente se muestran las frecuencias absolutas, las frecuencias relativas y los porcentajes. Para construir la tabla de distribución de frecuencias se inspeccionan en primer lugar los valores que toma la variable. En la primera columna se especifican los valores que adopta la variable X o el número asignado a ese valor. En la segunda columna aparece la frecuencia absoluta (ni) que es el número de observaciones en cada categoría. En la siguiente columna aparece la frecuencia relativa o proporción de cada categoría (pi), que se obtiene dividiendo la frecuencia absoluta, n i, entre el número total de observaciones, que se representa por n. La frecuencia relativa también se expresa en términos de porcentaje (Pi) para lo cual hay que multiplicar cada una de las proporciones por cien (cuarta columna).

pi = ni / n Pi = pi x 100 Distribución de frecuencias de la variable Bachillerato elegido X Ciencias y Tecnología Humanidades y CC Sociales Artes Ʃ

ni

pi

Pi

13

0,325

32,5

21