Analisis series de datos PDF

Title Analisis series de datos
Course Química general
Institution Universidad Católica de Valencia San Vicente Mártir
Pages 9
File Size 432.5 KB
File Type PDF
Total Downloads 28
Total Views 166

Summary

Apuntes química general....


Description

TEMA: ANALISIS DE SERIES DE DATOS

1

TEMA 2: ANALISIS DE SERIES DE DATOS 1.- PARAMETROS ESTADISTICOS El análisis estadístico de series de datos intenta: - establecer valores que sean característicos de la serie - establecer valores que resulten representativos de la serie - explicar el comportamiento o distribución de los datos en la serie - extrapolar tendencias o comportamientos hipotéticos, etc. Para ello la estadística hace uso de numerosos parámetros que resultan herramientas útiles y prácticas para alcanzar los anteriores objetivos.

1.1.- PARAMETROS DE CENTRALIZACION Los parámetros de centralización son los que de forma habitual se suelen emplear como valor representativo del proceso de medida. Se distingue entre la media aritmética, la mediana y la moda. Experimentalmente, cuando en un procedimiento analítico se toma una muestra o serie de n mediciones de una magnitud (x1, x2,..., xn), del total teórico de infinitas mediciones posibles (población), se suele determinar el valor medio, promedio o media aritmética de dichos valores individuales como la mejor estimación posible del valor real (Xo) de la magnitud objeto de medida. Se define como: Media aritmética:

_ n k x   x i / n   f jx j / n i 1 j1

donde fj es la frecuencia de aparición del valor numérico xj (se sobreentiende que puede haber valores que se repitan durante la serie analítica, y por ello el número de valores numéricos distintos entre sí se reduciría de n a k). La media aritmética se suele representar como  cuando se calcula sobre toda la población. En ocasiones el valor de la media aritmética puede verse muy influido por mediciones que arrojan valores extremos poco representativos. En estos casos puede ser más conveniente utilizar la mediana como valor representativo de la muestra. La mediana es el valor situado en la mitad de un conjunto de valores experimentales ordenados de menor a mayor. Si la serie tiene un número de datos par se toma como mediana el valor medio de los dos datos centrales. La mediana, tal como se define, resulta poco afectada por valores extremos poco representativos. Cuando se presentan datos muy asimétricos o con algunos valores extremos puede resultar más aconsejable utilizar la mediana como valor experimental del proceso de medida que la media aritmética. Geométricamente, la mediana divide la curva de distribución de frecuencias o histograma en dos zonas de igual área. La moda es el valor numérico de las réplicas que presenta mayor frecuencia de aparición. En un análisis químico la mayor parte de los valores de las réplicas no llegan a repetirse, por lo que la moda, si la hay, no será una buena medida de tendencia central y resulta inadecuada emplearla como valor experimental del proceso de medida. Puede darse el caso de que en una muestra existan dos o más valores de igual frecuencia. En este caso se tienen diferentes modas y la distribución se denomina multimodal.

TEMA: ANALISIS DE SERIES DE DATOS

2

1.2.- PARAMETROS DE DISPERSION Los parámetros de dispersión se relacionan con la precisión del proceso de medida. Estos parámetros de dispersión expresan en qué medida se acercan o se alejan al valor central tomado como valor experimental (en general, la media aritmética) los valores obtenidos en las distintas réplicas. Los más destacables son la desviación standard y la varianza. Puesto que desconocemos el valor real de la magnitud, a menos de que dispongamos de un patrón de referencia adecuado, habitualmente la estimación del error la efectuaremos a través de la varianza (s2) y la desviación standard (s). La varianza se calcula como: n

(x

S 2  i 1



i

 x) 2

Su raíz cuadrada se llama desviación standard ( s 

s

2

)

n 1 n

La desviación standard (o normal o típica) se calcula como:

 (x  i

s



x )2

i 1

n 1

Basados en la desviación sandard se definen: - El coeficiente de variación (CV): CV 

s x

(en 0/1) s x

- La desviación standard relativa (DSR, RSD, sr): RSD  100 (en %) La desviación standard (también llamada normal o típica) se suele emplear para _ _ expresar el error de la serie de medidas: xs o bien: x t * s / n Otros parámetros de dispersión que también se utilizan en ocasiones son: -El recorrido R (o intervalo o rango): diferencia entre el valor máximo y mínimo de la serie de datos numéricos R = ximáx - ximín -Las desviaciones absolutas dai: en cada caso es el valor absoluto de la diferencia entre cada valor muestral y la media aritmética dai = xi - x  -La desviación total es la suma de todas las desviaciones absolutas dt=dai -La desviación media dm: es el valor medio de todas las desviaciones absolutas, es decir, dm = ( dai) / n

TEMA: ANALISIS DE SERIES DE DATOS

3

2.- CRITERIOS DE RECHAZO DE DATOS Cuando se efectúan diversas medidas de una magnitud, se obtienen valores de todo tipo y, a veces, uno o más son realmente discrepantes del resto (valores outliners). El problema que se nos presenta es decidir si pueden pertenecer o no a la misma serie de resultados, es decir, si los podemos utilizar o por el contrario los hemos de rechazar. La respuesta no es fácil, porque si rechazamos datos de forma inadecuada podemos perder datos valiosos, además del tiempo y el coste de obtenerlos y, en cambio, si los aceptamos, podemos hacer variar incorrectamente los resultados. Para solucionar esta dificultad, existen toda una serie de criterios que nos facilitarán el tomar una decisión; aquí se presentan los más comunes en el ámbito científico y técnico, para distribuciones del tipo normal, pero hay otros que están fuera del ámbito de esta obra. En todos los casos, se trata de proporcionar criterios matemáticos objetivos para determinar qué datos se han de eliminar y cuáles se han de aceptar. Consideremos por ejemplo la serie de datos: 26,9 – 26,3 – 26,2 – 26,5 -26,1. Si la ordenamos, se observa que 26,9 es el valor más alejado del resto. Para decidir si el valor se acepta o, por el contrario, se rechaza, tendremos que utilizar algún criterio objetivo. Si el criterio es conservador, es probable que al aplicarlo se acepten todos los valores. Si el criterio es muy estricto, quizás el valor 26,9 se suprima. En este caso, la serie quedará con cuatro valores y, al volver a aplicar el mismo criterio sobre la nueva serie, igual resulta que hemos de suprimir el 26,5. Otras opciones podrían ser aceptar todos los datos y no considerar la posibilidad de rechazar ninguno, o bien dejar la elección al criterio del analista. Estas dos opciones son formas de resolver el problema pero también existen otras que requieren la aplicación general de criterios matemáticos, habitualmente mediante la evaluación previa de un determinado parámetro de dispersión, como la desviación media, el rango o la desviación estándar. La elección del criterio se realiza en función de la restricción que queremos aplicar a la aceptación de los datos, la simplicidad del cálculo y la disponibilidad o no de tablas estadísticas adecuadas. Vamos a comentar a continuación algunos de los criterios más empleados. 2.1.- CRITERIO 2,5d Es el más estricto y sólo se utiliza para casos en los que estén en juego medidas de investigación, como en un análisis farmacéutico y, en general, en todos aquellos casos en los que queremos ser muy rigurosos con el tratamiento de los resultados. Para que se pueda aplicar este criterio se han de tener series de al menos 4 o más resultados. No se utilizar el dato dudoso. Se calcula la media aritmética y la desviación media del resto de los datos. Si el dato sospechoso está dentro del intervalo x ± 2,5dm se acepta, de lo contrario se rechaza. En el caso de que sea rechazado, se ha de repetir la operación hasta que todos los valores sean aceptados. 2.- CRITERIO 4d Es muy utilizado para el tratamiento de datos con criterios rigurosos pero no extremos. Para que se pueda aplicar este criterio se han de tener series de al menos 4 o más resultados. No se utiliza el dato dudoso. Se calcula la media aritmética y la desviación media del resto de los datos. Si el resultado sospechoso está en el intervalo x ± 4dm se acepta, de lo contrario se rechaza.

TEMA: ANALISIS DE SERIES DE DATOS

4

2.3.- CRITERIO Q de Dixon Es uno de los criterios más utilizados, aunque es menos restrictivo que los anteriores. Es aplicable a series analíticas con 3 o más valores. Este criterio presenta un cálculo más sencillo pero requiere el uso de tablas estadísticas. Se calcula:

Q exp 

x s  x prox xmax  xmin

Donde xprox es el valor más cercano al valor sospechoso xs, y el cociente corresponde al rango de la serie (valor máximo menos valor mínimo de la serie). Si el resultado Q exp (correspondiente al valor sospechoso) es mayor que el Q teor de las tablas, se rechaza. En el caso contrario, se acepta. Un inconveniente que resulta de su aplicación para series muy reducidas (3 ó 4 valores) es que acepta muchos valores dudosos. En estos casos el valor de Q es muy grande y el criterio debe aplicarse con precaución. Si consideramos el ejemplo anterior: - Primero se ordena la serie de mayor a menor: 26,9 - 26,5 - 26,3 - 26,2 - 26,1 - El valor sospechoso resulta ser xs = 26,9 (el más alejado del resto) - El más cercano a él es xprox = 26,5 - El rango es la diferencia entre los extremos. xmax – xmin = 26,9 - 26,1 = 0,8. - El valor de Qexp resulta ser 0,5. - Seleccionamos el valor Qteor de la tabla del criterio de acuerdo con el número de datos de la serie (N) y el grado de confianza considerado (normalmente 90%)

Si el valor encontrado es más grande que el que marca la tabla, podemos rechazar el valor sospechoso asegurando con un mínimo del 90 % de probabilidad de que este valor no pertenece a la serie estadística. Si el valor obtenido es igual o menor al de la tabla, se acepta. En nuestro caso, tenemos que, para N=5 valores, Qteor=0,64, y como Qexp es más pequeño que dicho valor, se acepta como integrante de la serie el valor de 26,9.

2.4.- CRITERIO R de Grubbs El criterio R de Grubbs introduce criterios de probabilidad y grados de libertad para definir un intervalo que permita rechazar los datos sospechosos que estén por exceso o por defecto, tanto en un solo sentido de probabilidad (single sided) como en los dos sentidos (double sided). Para 3 valores o más. El uso de este criterio es más habitual en el estudio de las series estadísticas, como las que se obtienen en ejercicios de intercomparación de laboratorios y metódicas, y no tanto en el estudio de las series simples, como las que se obtienen en el laboratorio habitualmente, donde no está tan extendido. Se calculan x y s utilizando todos los datos, incluso el valor sospechoso. xs  x A continuación se calcula: R exp  s

TEMA: ANALISIS DE SERIES DE DATOS

5

Si Rexp es mayor que el Rteor que se obtiene de las tablas se rechaza el valor sospechoso. Si es menor se acepta. En la siguiente gráfica se compara la evolución de los parámetros Q y R en función del número de datos de la serie.

2.5.- CRITERIO 2s Es una herramienta muy útil para decidir si hay que aceptar o no posibles valores sospechosos. Al igual que los criterios basados en definiciones de intervalos de aceptación alrededor de un valor medio, como en el caso de los criterios 2,5d y 4d, presenta la ventaja de no necesitar tablas estadísticas auxiliares en su aplicación. Este criterio tiene realmente sentido cuando se aplica en series donde el número de datos es muy importante, donde pueda asumirse sin un riesgo excesivamente grande que la distribución de los datos corresponde a una distribución normal o se aproxima mucho a ella. Bajo esta hipótesis, el intervalo fijado alrededor del valor medio y el ± 2s correspondería a una probabilidad del 95 %, tal como ya se ha visto en la actividad anterior. El criterio 2s presenta, respecto de los criterios basados en el cálculo de la desviación media, la ventaja de poder ser empleado con más comodidad, porque el cálculo de la desviación estándar resulta prácticamente inmediato cuando utilizamos una calculadora científica o un programa informático. El criterio 2s se aplica para series de 4 valores o más, y es tanto más eficaz cuantos más valores experimentales tenga la serie. Pero es necesario, en todos los casos, que los datos tiendan a distribuirse normalmente. Para el cálculo no se ha de utilizar el valor que consideremos sospechoso. Con el resto de los valores calcularemos la media aritmética y la desviación estándar. Si el resultado sospechoso está dentro del intervalo x ± 2s se acepta, de lo contrario se rechaza. En el caso de que el valor sospechoso coincida con uno de los límites del intervalo calculado, se aceptará.

TEMA: ANALISIS DE SERIES DE DATOS

6

2.6.- OTROS CRITERIOS DE DIXON Desde 1950, fecha de publicación de las investigaciones de Dixon sobre diferentes criterios para el rechazo de datos sospechosos en series estadísticas que siguen la curva normal, se ha producido una notable difusión de estos criterios entre la comunidad científica y, sobre todo, entre los químicos. Si bien el criterio más utilizado es el correspondiente a la Q (90%), no es éste el único método ni la única forma de aplicar los criterios que propuso este científico; de hecho hay una serie de 6 métodos, cada uno de ellos basado en una relación (o ratio), r, para diferentes niveles de probabilidad (confianza). De manera sorprendente no se incluyeron los valores correspondientes a la probabilidad del 95 % en sus publicaciones y, como se ha comentado anteriormente, fue el de probabilidad correspondiente al 90 % el que se ha impuesto como criterio más utilizado sobre todo cuando se tratan pequeñas series de datos obtenidos de forma homogénea. El criterio Q (90%) es tan utilizado que, en general, se omite el valor de la probabilidad que se utiliza y se comenta solo como criterio Q. Algunas características comunes a todos los métodos de Dixon son: a) El test utiliza el número de datos N y no los grados de libertad n. b) El valor de Qteor que encontramos en las tablas es positivo e inferior a la unidad. c) También el valor de Qexp es siempre positivo e inferior a la unidad. d) A medida que se incrementa el número de datos, disminuye el valor de Qteor. e) Para un mismo método y nº de datos, al incrementar el nivel de confianza (probabilidad) se incrementa el valor de Q tabulado. f) Para datos muy cercanos, los diferentes métodos de Dixon tienden a rechazar los que no son iguales, a pesar de que los datos pueden ser valiosos. El/la lector/a puede hacer la prueba con la siguiente serie de valores, correspondiente a los volúmenes (en mL) obtenidos en el transcurso de una valoración: 15,0 15,1 15,1 15,1 15,1 15,1 Se observará que en estos casos los métodos de Dixon se muestran excesivamente estrictos, mucho más que todos los otros propuestos. g) No suele rechazar datos de series estadísticas dispersas, si éstos se reparten de una forma no extrema. h) Es útil para pequeñas series de datos. i) Como parámetro de dispersión utiliza únicamente el rango. j) El cálculo es muy sencillo pero se necesita disponer de las tablas de valores Q

3.- REPRESENTACION GRAFICA DE SERIES DE DATOS Las representaciones gráficas de datos o valores experimentales son innumerables: de puntos (o dispersión o scattering), de líneas, de puntos y líneas, de barras, circular (o de porciones o sectores, etc.) La elección de uno u otro tipo de representación obedece en general al objetivo de lograr resaltar o evidenciar de forma clara las características deseadas de la serie de datos considerada. Cuando se efectúan réplicas o medidas repetidas en un proceso de medición o análisis, es habitual construir una o varias representaciones gráficas que evidencien la distribución de las frecuencias de aparición de los distintos valores de las réplicas. Suponiendo una serie experimental con pocos datos x1, x2,..., xN, se definen los siguientes elementos:

TEMA: ANALISIS DE SERIES DE DATOS

7

xi = cualquiera de los datos de la serie N = nº total de datos ni = frecuencia absoluta de aparición de xi i

Ni = frecuencia absoluta acumulada de hasta xi (inclusive) =  nj j1

fi = frecuencia relativa de xi = ni/N (se puede expresar en fracciones, 0/1 ó en %) i

Fi = frecuencia relativa acumulada hasta xi inclusive =  f j (en 0/1 ó en %) j 1

La representación de las frecuencias (absolutas o acumuladas) frente a los valores experimentales de la muestra puede hacerse mediante diagramas de puntos, diagramas de barras o diagramas de puntos y líneas (polígonos de frecuencias). Cuando las series experimentales presentan un número elevado de datos resulta más práctico agruparlos en intervalos de un tamaño adecuado para posteriormente ofrecer una representación gráfica lo más informativa posible. En estadística se suelen emplear los siguientes términos: - clase: es cada uno de los intervalo considerados, que abarca desde el límite inferior LI del intervalo o clase (no inclusive) hasta el límite superior LS del intervalo o clase (inclusive) - marca de clase: es el valor medio o central de cada intervalo o clase. Se calcula como (LI+LS)/2 y se emplea en ocasiones como valor representativo del intervalo. De forma sistemática los intervalos se pueden determinar de la siguiente forma para una serie de N datos: - calcular el nº de intervalos o clases NC= √N (redondeando si es preciso) - calcular el recorrido R como Ro = xmáx –xmín de la serie, e incrementarlo al alza si es necesario hasta obtener un valor final que sea múltiplo del NC (Rfinal = Ro + k) - calcular la amplitud A de los intervalos o clases como A = Rfinal/NC - calcular el LI del primer intervalo como LI = xmín - k/2 - calcular el LS del primer intervalo como LI + A, que a su vez será el LI del siguiente intervalo - calcular los límites LI y LS de cada intervalo (el límite superior del último intervalo será xmáx + k/2) Las frecuencias (absolutas o acumuladas) de cada intervalo se determinan considerando la suma de las frecuencias de aparición de todos los datos experimentales comprendidos entre el LI del intervalo (no inclusive) y el LS del intervalo (inclusive). En MS-Excel la función predefinida frecuencia es una función matricial que permite efectuar este cálculo de forma rápida considerando la serie de datos y el límite superior de cada intervalo. Dado que es una función matricial se activará sólo de forma adecuada pulsando al mismo tiempo la combinación de teclas CTRL+SHIFT+ENTER Las representaciones gráficas de las series de datos agrupados por intervalos también pueden efectuarse como diagramas de puntos, diagramas de barras o polígonos de frecuencias. En las ordenadas se representan las frecuencias absolutas o acumuladas para cada intervalo frente a la clase (intervalo) o la marca de clase. En estos casos los diagramas de barras suelen recibir el nombre de histogramas.

TEMA: ANALISIS DE SERIES DE DATOS

8

4.-PROPUESTA DE SECUENCIA DE TRATAMIENTO DE SERIES DE DATOS En el proceso analítico es habitual seguir el siguiente esquema: (1) planteamiento o estudio del problema, (2) fijación de los objetivos o metas del estudio, (3) formulación de hipótesis, (4) definir las magnitudes a medir, (5) determinar la población y la muestra), (6) recogida de datos e información, (7) ordenar y analizar los datos, (8) presentar tablas de datos, (9) presentación de la información, (10) conclusiones sobre las hipótesis y (11) publicación de resultados. Presentamos a continuación una aplicación, parcial, de lo que se ha visto en las actividades presentadas en las páginas anteriores, referidas al análisis de los datos. Mostraremos el tratamiento general que debería seguir una serie de datos experimentales para llegar a la presentación del resultado final. Estas etapas no son las únicas que se pueden realizar y sólo se presentan como caso genérico. Cada procedimiento normalizado de trabajo con da...


Similar Free PDFs