1. Introducción al análisis inferencial de datos PDF

Title 1. Introducción al análisis inferencial de datos
Author Eva Vivas Pareja
Course Análisis de Datos en Educación
Institution Universidad de Salamanca
Pages 32
File Size 1.2 MB
File Type PDF
Total Downloads 942
Total Views 976

Summary

INTRODUCCIÓN AL ANÁLISIS INFERENCIAL DE DATOS EN CCSSTal y como hemos estudiado el curso pasado ( paradigmas de la investigación educativa, T ‘Metodología de Investigación ’), cuando se lleva a cabo un proceso de investigación empírica en el ámbito de las Ciencias de la Educación desde la perspectiv...


Description

Análisis de datos en Educación

Fernando Martínez Abad ([email protected])

INTRODUCCIÓN AL ANÁLISIS INFERENCIAL DE DATOS EN CCSS Tal y como hemos estudiado el curso pasado (paradigmas de la investigación educativa, T1 ‘Metodología de Investigación’), cuando se lleva a cabo un proceso de investigación empírica en el ámbito de las Ciencias de la Educación desde la perspectiva del paradigma positivista o cuantitativo, se posee el objetivo primordial de extraer, a partir de los datos obtenidos en la muestra (n) recogida, conclusiones que sean generalizables a toda la población (N) de la que proviene dicha muestra. Dicho de manera más formal, podemos definir la inferencia estadística como el “conjunto de técnicas para llegar a inducciones (o inferencias) acerca de una población completa basándose en datos de una muestra integrante de la misma” (Welkowitz, Ewen & Cohen, 1981, p.106). Ocurre, como ya vimos, que para que fuera posible extraer estas generalizaciones las características de la muestra obtenida debían ser similares a las de la población, es decir, la muestra debía de ser representativa. Si esto no fuera así, la muestra podría estar sesgada, y nos encontraríamos con muchas posibilidades de que los resultados obtenidos distasen mucho de los parámetros reales en los que se mueve la población. En este caso, el estudio resulta erróneo y queda invalidado simplemente por esta falta de representatividad de la muestra elegida.

POBLACIÓN N

MUESTRA n

Figura 1. Población y muestra Cabe recordar también, que para obtener una muestra representativa se consideraba como lo más importante que las características socio-demográficas de interés en la muestra (distribución por sexo, edad, curso, provincia, nivel socio-económico, localidad rural-urbana, estado civil, etc.) debían estar repartidas de manera similar a las características de la población, y que para conseguir esto existían diversas técnicas de muestreo probabilísticas (aleatoria simple y sistemática, estratificada y por conglomerados) y no probabilísticas (accidental, intencional y por cuotas). Podríamos preguntarnos en este punto que, dado que se puede cometer un sesgo (error) importante al seleccionar una muestra inapropiada, por qué no trabajar directamente con la población completa para evitarlo, asegurando de este modo la representatividad y posibilidad de generalización de los

1

Análisis de datos en Educación

Fernando Martínez Abad ([email protected])

resultados obtenidos. Realmente, una situación en la que se trabaja con la población completa es la ideal en el marco de la investigación cuantitativa en Ciencias Sociales. No obstante, en contadas ocasiones se puede trabajar en la práctica de la Investigación Educativa con una población completa, por diversos factores: 

En muchas ocasiones, el tamaño de la población es infinito, es decir ni siquiera está claramente definido el alcance de la población, ni se tiene un listado completo de todos los sujetos que la componen, por lo que el acceso a todos ellos es una labor imposible. Si, por ejemplo, queremos realizar un estudio a partir de la población de educadores en Castilla y León, independientemente de si se trata de educadores en el ámbito formal, no formal o informal, o en cualquier nivel educativo, nos va a ser muy difícil delimitar el tamaño y características de la población de referencia. En este ejemplo, el acceso a la población completa será imposible, ya que no es posible conocer con exactitud (sí de manera aproximada) la distribución completa de la población. Por tanto, será imposible disponer de un listado completo con todas las personas que desarrollan su labor profesional en el ámbito de la educación en Castilla y León y, en última instancia, acceder a ellas.



Existen otras ocasiones en las que, a pesar de que sí es viable obtener un listado íntegro acerca de todos los sujetos y/o grupos que componen la población, no es recomendable o posible acceder a la población completa por varios motivos. Estos motivos pueden estar relacionados con varias cuestiones: o

Los recursos (económicos, humanos y/o materiales) de los que dispone el grupo que está implementando la investigación son demasiado limitados como para poder establecer un contacto con todos los miembros de la población.

o

El tamaño de la población es tan elevado y/o parte de la población de tan difícil acceso que el tiempo y esfuerzo necesarios para obtener información de todos los sujetos no lo posibilita (por la planificación temporal o cronograma, por falta de recursos, por rápida obsolescencia de los temas tratados, etc.).

Se desean estudiar las competencias digitales del profesorado de educación básica (Educación Infantil, Primaria y Secundaria) de centros educativos de Castilla y León. La Consejería de Educación tiene un registro de todo el profesorado, por lo que podemos obtener un listado completo del mismo. No obstante, tanto el tamaño de la población como la extensión de la propia comunidad autónoma y las posibilidades de acceso a profesores dificultan poder realizar la prueba de competencias digitales a todos los profesores: Conforme al cronograma disponemos de 2 meses para el trabajo de campo, 2 investigadores que están disponibles para desplazarse a las localidades de cada profesor y 3000€ para gastos de dietas y desplazamiento. Así, dadas las limitaciones, se estima necesario llevar a cabo un muestreo a partir de ese listado completo de profesores. Dicho esto, queda clara la importancia capital de establecer técnicas de muestreo apropiadas y lo que es más importante, una vez obtenida la muestra representativa, implementar técnicas estadísticas concretas para obtener información precisa acerca de la población de referencia a partir

2

Análisis de datos en Educación

Fernando Martínez Abad ([email protected])

de la información muestral disponible en el estudio. A este conjunto de técnicas, que tratan de ofrecer la información poblacional con la mayor precisión a partir de la información aportada por la muestra obtenida, se les denomina como técnicas inferenciales, o estadística inferencial. Todo el procedimiento de la estadística inferencial, al menos a nivel conceptual, se puede resumir en el gráfico mostrado a continuación.

Figura 2. Procedimiento de la estadística inferencial Resulta que, dadas las cuestiones anteriormente señaladas, en las investigaciones cuantitativas desarrolladas en el ámbito de las Ciencias de la Educación se emplea de manera generalizada información de muestras de sujetos procedentes de una población para tratar de establecer conclusiones o generalizaciones acerca de la población completa. Desde un punto de vista formal, cabe destacar que todos los índices que se pueden calcular a partir de una muestra (media, desviación típica, mediana, varianza, asimetría, curtosis, coeficiente de correlación, etc.) se denominan estadísticos. Estos estadísticos simplemente aportan una información acerca de los sujetos disponibles en nuestra muestra, nunca sobre la población completa. Por eso surgen las técnicas de estadística inferencial, que se emplean para estimar los parámetros poblacionales de los que provienen esos estadísticos muestrales. Así, partiendo de los datos de una muestra que se supone que es representativa de la población, podemos estimar, con unos supuestos previos y unos niveles de error previamente asumidos, que el valor poblacional (parámetro) de un estadístico obtenido en la muestra se encuentra en un intervalo o rango de puntuaciones. Por ejemplo, si he evaluado el nivel de competencia lingüística en lengua inglesa de una muestra representativa de profesores de Educación Primaria de Castilla y León, conocida la puntuación media (𝑋) en esta variable (estadístico), puedo aplicar las técnicas inferenciales para estimar entre qué valores se encontrará la competencia lingüística media () en toda la población (parámetro) asumiendo un error en esta estimación de, por ejemplo, el 5% (el asumido comúnmente).

3

Análisis de datos en Educación

Fernando Martínez Abad ([email protected])

FUNDAMENTOS DE LA ESTIMACIÓN DE PARÁMETROS Siempre que tengamos el interés de generalizar los datos obtenidos en una muestra a la población de referencia, va a ser necesaria la estimación de los parámetros poblacionales a partir de los estadísticos descriptivos obtenidos en nuestra muestra. Para poder estimar estos parámetros, las técnicas estadísticas parten de unas bases teóricas fundamentales relacionadas con la existencia de distribuciones teóricas y con las distribuciones muestrales de los datos. En este apartado se estudiarán de manera superficial estas dos cuestiones.

DISTRIBUCIONES TEÓRICAS: LA DISTRIBUCIÓN NORMAL La mayor parte de las medidas cuantitativas de rendimiento, actitudes, percepciones, etc. tomadas en el marco de la investigación cuantitativa en Ciencias de la Educación (y en las Ciencias Sociales en general) suelen tener un comportamiento similar en cuanto a la forma de su distribución: La medida de la altura de la población, del peso de los bebés recién nacidos, el cociente intelectual, el nivel socioeconómico, el rendimiento académico, etc., poseen distribuciones muy parecidas. Las características de estas distribuciones tienen que ver con varias cuestiones: 

La mayor parte de los sujetos de la población se encuentran alrededor o cerca de los niveles medios de altura, peso, cociente intelectual, rendimiento o nivel, mientras que son pocos los que se alejan mucho del punto central, ya sea por la parte inferior o por la parte superior de la distribución.



Aproximadamente, los sujetos se distribuyen de manera simétrica en torno a las puntuaciones superiores e inferiores a la media, es decir, existe más o menos una proporción igual de personas con puntuaciones muy altas y muy bajas.

En suma, la distribución de puntuaciones en estas variables tiene forma acampanada y simétrica, o dicho de otra forma, la distribución de este tipo de variables se ajusta habitualmente de una manera muy importante a la distribución normal, también conocida como la campana de Gauss.

Figura 3. Distribución normal o campana de Gauss (Fuente: www.wikipedia.org)

4

Análisis de datos en Educación

Fernando Martínez Abad ([email protected])

La fórmula para la obtención de la función de densidad de esta distribución teórica es muy compleja, ya que estamos hablando de una distribución continua: (x,) =

1

𝜎√2𝜋

1 𝑥−𝜇 2

) ] [− ( 𝑒 2 𝜎 

A esta distribución teórica la llamaremos a partir de ahora distribución normal o Z, con una media  y una desviación típica , y su notación habitual será del siguiente modo: Z(). Así, una variable observada en una muestra tendrá una distribución similar a la normal siempre y cuando la forma de la distribución sea similar a esta distribución teórica. Esta cuestión es independiente de la media y desviación típica de la variable1, de hecho, lo más habitual es estandarizar la media y desviación típica de la distribución normal a una =0 y =1, o lo que es lo mismo, Z(0,1). Cabe destacar también que el valor mínimo y máximo de esta distribución, dado que es asintótica, está entre (-∞, +∞). Por tanto, la propiedad fundamental de esta distribución es que es simétrica y posee curtosis mesocúrtica. Gracias a esta propiedad a la que generalmente se ajustan las distribuciones de las variables estudiadas, es posible simplificar el conjunto de técnicas estadísticas empleadas para estimar los parámetros poblacionales, o lo que es lo mismo, calcular entre qué valores se encontrará un parámetro poblacional partiendo de unos datos y unos estadísticos muestrales y asumiendo un nivel de error concreto. Pero en muchos casos en la investigación práctica ocurre que a partir de las variables originales disponibles se realizan una serie de cálculos que impiden utilizar directamente la distribución teórica Z como distribución de referencia para la estimación de parámetros, y es necesario emplear otras distribuciones. Las otras distribuciones empleadas habitualmente son la T de student, la distribución 2 y la F de Snedecor. En lo que respecta a la distribución 2, cabe señalar que es una distribución teórica conformada por un sumatorio de variables independientes que siguen una distribución normal Z(0,1) al cuadrado2.

2n= 𝑍12 + 𝑍22 + 𝑍32 + ⋯ + 𝑍𝑛2 Así, como se puede observar en la figura 4, en este caso no se obtiene una distribución teórica simétrica, sino que, al estar conformada por un sumatorio de cuadrados, la distribución tiene origen en el 0, estando su rango de puntuaciones entre (0, +∞), dado que se trata de una curva asintótica por el lado derecho. El apuntamiento (curtosis) de la curva de esta distribución y la intensidad de su caída hacia el eje x está determinado por el número de grados de libertad (n) de la distribución, es decir, el número de sumas de Z2 del que provenga. Si una variable que sigue esta distribución proviene de una suma de 10 variables que provienen de una distribución normal (Z) al cuadrado, 1

Cabe recordar que, gracias a las propiedades de la media y la varianza/desviación típica, podemos modificar la media o la desviación típica de una variable sin modificar su forma. Por lo tanto, podemos encontrarnos variables con distribuciones muy similares o iguales a la normal con medias y desviaciones típicas muy diferentes. 2 La mayor parte de las veces que tratamos de estimar parámetros a partir de distribuciones teóricas, estandarizamos los valores de la media y la desviación típica de la variable que entendemos que se distribuye como una Z a una =0 y =1.

5

Análisis de datos en Educación

Fernando Martínez Abad ([email protected])

entonces los grados de libertad serán 10, lo cual implica que esa curva asociada a la distribución teórica 2 sea de una manera y no de otra.

Figura 4. Función de densidad 2 (Fuente: adaptado de www.wikipedia.org) En cuanto a la T de student, es la distribución que se emplea en la estimación de parámetros como alternativa a la distribución normal cuando las varianzas o desviaciones típicas poblacionales () son desconocidas. Así, la distribución T posee propiedades similares a la Z, ya que es una distribución simétrica asintótica por ambos lados, con puntuaciones por tanto entre (-∞, +∞). De hecho, a medida que los tamaños de las muestras a partir de las que se emplea para la estimación de los parámetros son mayores, la distribución T se aproximará más a la Z, siendo ambas distribuciones iguales cuando el tamaño o tamaños de muestra tienden a infinito. La formulación de la distribución t es algo más compleja, ya que procede de una combinación entre la distribución Z y la 2: 𝑡=

𝑍

√𝑋 𝑛

en donde Z sigue una distribución normal Z(0,1) y X sigue una distribución 2 con n grados de libertad. Esta distribución, por tanto, es simétrica, con media 0 y n grados de libertad. Esto quiere decir que en función del número de grados de libertad de la distribución, su forma variará ligeramente. A nivel general, la distribución T se representa como una normal. En la figura 5 se puede observar cómo cambia el apuntamiento de la curva en función de los grados de libertad encontrados en la distribución teórica.

6

Análisis de datos en Educación

Fernando Martínez Abad ([email protected])

Figura 5. Función de densidad T (Fuente: adaptado de www.wikipedia.org) Por último, estudiaremos la distribución F de Snedecor, basada también en la distribución normal Z(0, 1), como una distribución teórica proveniente de una división entre dos variables que siguen una distribución 2: 𝑋 𝐹= 𝑛 𝑌 𝑛 en donde X es una variable con distribución 2 con n grados de libertad e Y es otra variable con distribución 2 con m grados de libertad. Así, en este caso, en lugar de trabajar con un indicador de grados de libertad, como ocurría en las distribuciones 2 y T, en este caso trabajamos con 2 indicadores n y m. Así, se suele notar esta distribución como Fn,m. La función de densidad de esta distribución la podemos observar en la figura 6. Nótese que, al igual que la distribución 2, la distribución F tiene el mínimo en el valor 0 y es asintótica por la cola derecha. Así, su rango de puntuaciones es (0, +∞), como se puede observar en la figura 6.

7

Análisis de datos en Educación

Fernando Martínez Abad ([email protected])

Figura 5. Función de densidad F (Fuente: adaptado de www.wikipedia.org)

LA DISTRIBUCIÓN MUESTRAL y DISTRIBUCIÓN MUESTRAL DE LA MEDIA Cuando se extrae una muestra de n sujetos a partir de una población de N sujetos, la muestra obtenida es una de las otras muchas muestras que se habrían podido obtener en base a esa población. Para poder extraer conclusiones o inferencias acerca de toda la población con respecto a la variable o variables estudiadas a partir de los sujetos obtenidos en la muestras, es necesario tener en cuenta que los valores, por ejemplo, de la media o medias de las variables medidas (𝑋 ) en la muestra obtenida pueden no coincidir exactamente con el valor de la media poblacional (). Analicemos más en profundidad este aspecto: Sabemos que el cálculo del número de muestras posibles de tamaño n a partir de una población de tamaño N se calcula de la siguiente manera: 𝑁! ( [𝑛! 𝑁 − 𝑛)!]

8

Análisis de datos en Educación

Fernando Martínez Abad ([email protected])

EJEMPLO 1 Por ejemplo, si tenemos una población de 5 sujetos y queremos obtener una muestra de 2 sujetos, 5! 5 ∗4∗3∗2∗1 120 = 10 = = [2! (5 − 2)!] [2 ∗ 1! (5 − 2)!] 2 ∗ (3 ∗ 2 ∗ 1)

la cantidad de muestras posibles a obtener son 10. Imaginemos en este mismo ejemplo que evaluamos el rendimiento en matemáticas de los 5 sujetos de la población, obteniendo los siguientes resultados: Tabla 1. Distribución poblacional. Variable rendimiento en matemáticas (N=5) PUNTUACIÓN (xi) María

6

Pedro

6

Juan

8

Sonia

4

Laura

6

Si calculamos la puntuación media de la población  =(6+6+8+4+6)/5=6. Podemos tratar de obtener todas las muestras posibles de tamaño 2 para esta población. Tabla 2. Distribución muestral de la media. Variable rendimiento en matemáticas (N=5; n=2) xi María y Pedro

𝑋

6; 6

6

María y Juan

6; 8

7

María y Sonia

6; 4

5

María y Laura

6; 6

6

Pedro y Juan

6; 8

7

Pedro y Sonia

6; 4

5

Pedro y Laura

6; 6

6

Juan y Sonia

8; 4

6

Juan y Laura

8; 6

7

Sonia y Laura

4; 6

5

Así, se puede observar que, por ejemplo, la probabilidad de obtener una muestra con una media de 7 puntos (si se elige en la muestra a Juan y a Laura, a Pedro y Juan o a Juan y Laura) es de 3 entre 10 muestras posibles (si consideramos que todas las muestras posibles han tenido las mismas probabilidades de ser elegidas, es decir, si el muestreo se ha realizado de manera probabilística), es

9

Análisis de datos en Educación

Fernando Martínez Abad ([email protected])

decir, existe un 30% de probabilidades o 3/10 de que sea elegida. Por su parte, la probabilidad de obtener una muestra con una media de 6 puntos es de 4 (María y Pedro; María y Laura; Pedro y Laura; Juan y Sonia) entre 10 muestras posibles, es decir, de 4/10, o lo que es lo mismo, 2/5 o un 40% de probabilidad. O visto en una tabla con los datos acumulados: Tabla 3. Frecuencias distribución muestral de la media rendimiento en matemáticas (N=5; n=2)  𝑿 5 6 7<...


Similar Free PDFs