FASE 4 Colaborativo Estadistica descriptiva (2) PDF

Title FASE 4 Colaborativo Estadistica descriptiva (2)
Author emiro campo
Course estadística descriptiva
Institution Universidad Nacional Abierta y a Distancia
Pages 34
File Size 1.5 MB
File Type PDF
Total Downloads 107
Total Views 498

Summary

Actividad Fase 4- Medidas estadísticasPresentado por: Emiro Andrés Campo Rodríguez Código: 1065205135 Marelys Palacios Código: 1010082049 Mónica Andrea Calderón Ibarra. Código: 1059910659 Kely Yineth Rios López Código: 1055919541Grupo: 511004_Universidad Nacional Abierta y a Distancia – UNAD Curso: ...


Description

1

Actividad Fase 4- Medidas estadísticas

Presentado por: Emiro Andrés Campo Rodríguez Código: 1065205135 Marelys Palacios Código: 1010082049 Mónica Andrea Calderón Ibarra. Código: 1059910659 Kely Yineth Rios López Código: 1055919541

Grupo: 511004_10

Universidad Nacional Abierta y a Distancia – UNAD Curso: Estadística Descriptiva

Tutor: Mg. Diego León

15/04/2021

2

Introducción

En el presente trabajo se resuelven ejercicios sobre las medidas estadísticas como la Medidas de dispersión, de posición, Correlación y regresión lineales además diagramas posibles en la regresión y correlación lineal. A partir de la revisión de los documentos compartidos en la unidad 1 se dan solución de acuerdo con su planteamiento y también su respectiva justificación. Lo anterior nos lleva a organizar estadísticamente los datos dados aplicando las fórmulas adecuadas y de la manera correcta.

3

ACTIVIDAD

1. Defina y de un ejemplo de: a. Medidas de dispersión Según García, R. F. (1977) las medidas de dispersión miden el grado de dispersión de los valores de la variable. Nos dicen que tanto difieren los datos entre sí, cuanto se distancian unos de otros. Las medidas de dispersión son: rango, varianza, desviación estándar y coeficiente de variación. Los define como: 

Rango: Es la diferencia que existe entre el mayor y el menor valor que toma la variable.

Ejemplo: Datos de altura:

120 ; 117 ; 128 ; 111 ; 138 ; 141 ; 132

Identificamos el valor mayor (141) y luego el menor

(111) ; ahora hacemos la resta

141 – 111=30 Podemos decir entonces que el rango de la variable Altura es 30 cm. García, R. F. (1977) 

Varianza: su propósito es establecer la variabilidad de la variable. Mide la dispersión de los datos

en una variable respecto a la media, calculando la media de los cuadrados de las distancias de todos los datos. Valores elevados de varianza indica que los datos están distantes de la media. Supongamos que la varianza de la variable altura en la muestra A es de 12, mientras que en la muestra B es de 10; con esos datos podríamos decir que la muestra A tiene mayor dispersión de datos (más lejos de la media). La varianza se representa con el símbolo

4

σ ² (sigma al cuadrado) para el universo o población y con el símbolo

s 2(s al cuadrado) ,

cuando se trata de la muestra. García, R. F. (1977) 

desviación estándar: Es la raíz cuadrada de la varianza, se representa por

σ (sigma) cuando pertenece al

universo o población y por “ s ” , cuando pertenece a la muestra. Tiene mucha relación con la varianza ya que se obtiene de ella calculándole la raíz cuadrada. La interpretación es similar a la varianza, la varianza se expresa en unidades de variable al cuadrado y la desviación estándar simplemente en unidades de variable. La varianza es menos usada porque no expresa las mismas unidades que los datos, ya que las desviaciones están elevadas al cuadrado. Si los datos fueran en metros, la varianza denotaría metros cuadrados y eso induciría a confusiones con una medida de superficie. En cambio, en la desviación típica esto se corrige por lo que sí expresa las mismas unidades que los datos. García, R. F. (1977) 

coeficiente de variación: Se utiliza para comparar conjuntos de datos pertenecientes a poblaciones distintas

eliminando las posibles distorsiones de las medias de dos o más poblaciones. Se obtiene de dividir la desviación típica por el valor absoluto de la media y por lo general se expresa en porcentaje para su mejor comprensión. García, R. F. (1977) Se calcula del siguiente modo:

C v=

S

∗¿ 100

|X´ |

b. Medidas de posición Lo que buscan estas medidas es “dividir el conjunto de datos en grupos con el mismo número de valores”. García, R. F. (1977). Las medidas de posición son:

5



Cuartiles: Estos estadísticos dividen la distribución de los valores de la variable en 4 partes, cada

una de las cuales engloba el 25 % de los mismos. Los símbolos de estas medidas son: Q1 (primer cuartil que deja a su izquierda el 25 % de los datos) Q2 (segundo cuartil que deja a su izquierda el 50% de los datos y coincide con la mediana), Q3 (tercer cuartil que deja a su izquierda el 75% de los datos). García, R. F. (1977) Ejemplo: 2,3,4,5,5Q 1 , 6,7,8,9,10,11,12, 12Q 2 12 , 13,14,15,16,16Q 3 , 17,18,19,20,21,22 Primero se ordenan los números de menor a mayor. Sacar N (Total de datos) =18 Calcular el cuartil 2 que es la mediana, como N es par se utiliza la formula

Sería iguala a:

n 2

18 =9 2

Para calcular el cuartil 2, el promedio de 12+12=12 Es este caso se dividen en 2 los datos desde donde esta la flecha del Q2 en cada mitad hay 9 datos. Para calcular el Q1 en la primera mitad de como n=9 (No es par) =

Para el cuartil 3 se hace lo mismo, pero ahora de la otra mitad

n+1 9+ 1 10 = =5 = 2 2 2

n+1 9+ 1 10 = =5 = 2 2 2

segunda mitad que seria 16, en la posición donde está el 5. García, R. F. (1977) Entonces: Q1= 5



Deciles:

Q2= 12 Q3= 16

de la

6

De manera similar que los cuartiles, éstos son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en diez grupos iguales de datos que representan, cada uno, el 10% de los valores. García, R. F. (1977) 

Percentiles: Son 99 valores que distribuyen los datos, ordenados de forma creciente o decreciente, en

cien tramos iguales, concentrando cada uno de ellos el 1% de los datos. García, R. F. (1977)

c. Correlación lineal y regresión lineal Para Leal. (2019) “El análisis de correlación consiste en estudiar el grado de asociación de las variables ya sea de una o varias variables.” Ejemplo Correlación lineal: Al analizar la facturación de una empresa en un periodo de tiempo dado y de cómo influyen los gastos de promoción y publicidad en dicha facturación. Si consideramos un periodo de tiempo de 10 años, una posible representación sería situar un punto por cada año de forma que la primera coordenada de cada punto sería la cantidad en euros invertidos en publicidad, mientras que la segunda sería la cantidad en euros obtenidos de su facturación. De esta manera, obtendríamos una nube de puntos que nos indicaría el tipo de relación existente entre ambas variables. Vila. (2004)

Regresión Lineal: Para Leal. (2019) “El análisis de regresión analiza la relación de variables, ya sea una variable dependiente y una o varias variables independientes” y según Vila. (2004) En aquellos casos en que el coeficiente de regresión lineal sea “cercano” a

+1 o a – 1 , tiene sentido

7

considerar la ecuación de la recta que “mejor se ajuste” a la nube de puntos (recta de mínimos cuadrados). Uno de los principales usos de dicha recta será el de predecir o estimar los valores de Y que obtendríamos para distintos valores de X. Estos conceptos quedarán representados en lo que llamamos diagrama de dispersión: Figura 1. Presentación del diagrama de dispersión.

Nota: La figura muestra un ejemplo de un diagrama de dispersión.

La ecuación de la recta de mínimos cuadrados (en forma punto-pendiente) es la siguiente:

Ejemplo sobre regresión Lineal: Si queremos estudiar la relación existente entre ambas variables, siguiendo con el ejemplo anterior referente a la relación entre las ventas de una empresa (

V t ) y sus gastos en

8

publicidad GP t ), lo que podemos hacer es representar gráficamente el modelo matemático ¿ lineal que podemos considerar para analizar dicha relación. Vila. (2004) V t =β1 + β 2∗GPt +u t Supongamos que disponemos de los siguientes datos: Tabla 1. Tabla sobre gastos de publicidad.

Nota: La tabla muestra datos organizados sobre la relación entre las ventas de una empresa y sus gastos en publicidad.

A partir de este modelo matemático lineal, vamos a analizar la relación entre ambas variables, la variable ventas (

V t ) que es la variable dependiente del modelo y la variable que

vamos a analizar y los gastos en publicidad (

GP t ) que es la variable independiente o la

variable explicativa que vamos a utilizar para estudiar las ventas. En este modelo queremos comprobar qué influencia tienen los gastos de publicidad sobre el volumen de facturación o las ventas de la empresa. Para poder cuantificar dicha relación, debemos también representar la recta de regresión que subyace en el modelo matemático que relaciona ambas variables. Para cuantificar la relación entre ambas variables y tener una aproximación de la magnitud de la influencia de los gastos en publicidad sobre las ventas de la empresa debemos estimar el modelo por mínimos cuadrados ordinarios ( M . C . O . ) donde se minimiza la suma de los cuadrados

9

de los residuos. La recta en rojo (que aparece a continuación en el gráfico), es la que mejor se ajusta a la nube de puntos que tenemos. Dicho de otra forma, es la recta que hace que el error de estimación, definido como la distancia entre el valor observado y el valor estimado de la variable endógena (en el gráfico, es la distancia vertical señalada por la flecha en rojo), sea la mínima para cada una de las observaciones (recta de mínimos cuadrados), esta recta será la que utilizaremos para predecir o estimar los valores de de X .

Y

que obtendremos para distintos valores

Cruz. (2011) La diferencia entre un valor observado y el valor estimado lo denominaremos residuo. Resíduo=Y t − ^ Yt Nuestro problema consiste en minimizar la suma de los cuadrados de los residuos de los

n

∑ ^u2t

cuadrados de los residuos,

. De este problema de optimización se deduce la expresión

t =1

de mínimos cuadrados ordinarios del MRLM: n

Criterio MCO:

Min ∑ u^ t2 t =1

Como ya hemos citado anteriormente, la ecuación de la recta de mínimos cuadrados (en forma punto-pendiente) es la siguiente: n

Y −Y´ =

∑ ( X t − X´ )∗(Y t − Y´ )

Cov ( X ,Y ) ( ´ ) = t=1 X− X S x2

n

∑ ( X t − X´ )

2

t =1

2002

∑ ( GP2−G´ P´ ) (V t−V´ )

β 2=

t =1998

2002

∑ ( GP 2−G´ P´ )

2

t=1998

=

17000 =28,3 600

´) (X − X

10

Esta sería la estimación de la pendiente de la recta por mínimos cuadrados. Por otro lado,

´ P=700−28,333∗50=−716,6 β 1 = V −β´2 G ´

Y esta sería la estimación de la ordenada de la recta de regresión ó el punto de corte de la recta con los ejes. Por tanto, Y =−716,6+28,3 X La representación gráfica de los datos anteriores es la que sigue:

Figura 2. Regresión lineal.

Nota: La figura representa la estimación de la ordenada de la recta de regresión o el punto de corte de la recta con los ejes Y =−716,6+ 28,3 X

Del diagrama anterior, cabe observar que no todos los puntos están en la línea de regresión. Si todos lo estuvieran y, además, si el número de observaciones fuera suficientemente grande, no habría ningún error de estimación. En ese caso, no habría ninguna diferencia entre el

11

valor observado y el valor de predicción. Como imaginamos, en los casos reales, las predicciones perfectas son prácticamente imposibles y lo que necesitamos es una medida que describa cómo de precisa es la predicción de Y

en función de X

o, inversamente, qué inexacta puede ser

la estimación. A esta medida se le llama error estándar de estimación y se denota

S yx . El error

estándar de estimación es el mismo concepto que la desviación estándar, aunque ésta mide la dispersión alrededor de la media y el error estándar mide la dispersión alrededor de la línea de regresión. Vila. (2004)

d. Diagramas posibles en la regresión y correlación lineal. Vila. (2004) Propone que en particular, nos interesa cuantificar la intensidad de la relación lineal entre dos variables. El parámetro que nos da tal cuantificación es el coeficiente de correlación lineal de Pearson r, cuyo valor oscila entre –1 y +1:

Figur a 3. Diagramas de relación y regresión.

12

Nota: La figura muestra las formas posibles de la regresión y correlación.

Como se observa en los diagramas anteriores, el valor de

r

cuando la correlación tiende a ser lineal directa (mayores valores de valores de

se aproxima a +1 X significan mayores

Y ), y se aproxima a –1 cuando la correlación tiende a ser lineal inversa.

Es importante notar que la existencia de correlación entre variables no implica causalidad. ¡Atención!: si no hay correlación de ningún tipo entre dos

v . a . , entonces tampoco

habrá correlación lineal, por lo que r = 0. Sin embargo, el que ocurra r = 0 sólo nos dice que no hay correlación lineal, pero puede que la haya de otro tipo. El siguiente diagrama resume el análisis del coeficiente de correlación entre dos variables: Cruz. (2011) Figura 4. Diagrama

13

Nota: La figura muestra un diagrama que resume el análisis del coeficiente de correlación entre dos variables.

a.

Realizar la tabla de frecuencia

Tabla 2. Puntuación examen de Matemáticas.

x 50 51 53 54 55 56 57 58 59 60 61 62 63 64 65

f 1 1 1 1 1 1 3 2 3 4 4 4 5 6 6

14 66 67 68 69 70 71 72

5 4 2 2 3 2 2

Nota: Puntuaciones de un examen de matemáticas realizadas a 63 estudiantes de un colegio.

b. Hallar la media, moda y mediana. Media: Tabla 3. Datos Tabla de frecuencia.

x 50 51 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72

f 1 1 1 1 1 1 3 2 3 4 4 4 5 6 6 5 4 2 2 3 2 2

F 1 2 3 4 5 6 9 11 14 18 22 26 31 37 43 48 52 56 58 61 63 63

x.f 50 51 53 54 55 56 171 116 177 240 244 248 315 384 390 330 268 136 138 210 142 144

Nota: La tabla muestra los datos necesarios, a partir del ejercicio propuesto para el cálculo para hallar la media, moda y mediana

Media:

15

X=

∑ x . f = 3972 =63 , 04 n

63

X =63 ,04 Moda: Hay dos números que se repiten seis veces que son: 64 y 65, es una moda binominal. Mediana: Me=

63 + 1 2

Me=24 Es decir es el dato numero 24 organizados de mayor a menor. En este caso es el número: 62

b. Hallar el primer y tercer cuartil Primer cuartil. QK =

K (n+1) 4

QK =

1(63+1) 4

Q K =16 El primer cuartil está en la posición 16. Que corresponde a: 60 Tercer cuartil QK =

3(63+1) 4

Q K =48

El primer cuartil está en la posición 48.

16

Que corresponde a: 66 d. Hallar el cuarto decil Dk=

k (n) 4∗64 252 = =25,2 = 10 10 10

El cuarto decil está en la posición 25 Que corresponde a: 62

e. Hallar el 70° percentil i=nk i=( 63) ( 0.70) =44.1

Como el resultado no fue un número entero escogemos el siguiente entero en este caso seria 45, que corresponde a la posición del dato. Es decir el 70 percentil es 66. f. Compare los valores dados anteriormente en un Software (GeoGebra, Excel, R, RStudio)

17

18

a. Realice la tabla de frecuencia Tabla 4. Precio ganancia intervalos [2.81-3.46) [3.47-3.86) [4.01-4.56) [5.60-5.64) [5.67-5.85) [5.88-6.00) [6.07-6.25) [6.26-6.43) [6.48-6.65) [6.66-6.67) [6.68-6.72) [6.73-6.76) [6.78-6.81) [6.86-6.93) [6.95-7.12) [7.16-7.17) [7.23-7.25) [7.36-7.44) [7.49-7.52) [7.60-7.62) [7.63-7.64) [7.71-7.74) [7.75-7.78) [7.82-7.90) [7.98-8.06) [8.10-8.14) [8.26-8.51) [8.52-8.64) [8.65-8.72) [8.82-8.90) [8.96-9.00) [9.02-9.16)

f 2 2 2 2 2 2 2 3 3 3 2 2 2 2 2 2 2 2 2 2 4 2 2 2 3 2 2 2 2 3 2 2

x 3.135 3.665 4.285 5.62 5.775 5.94 6.16 6.345 6.565 6.665 6.70 6.745 6.795 6.895 7.035 7.165 7.24 7.40 7.505 7.61 7.635 7.725 7.765 7.86 8.02 8.12 8.385 8.58 8.685 8.86 8.98 9.054

Fi 2 4 6 8 10 12 14 17 20 23 25 27 29 31 33 35 37 39 41 43 47 49 51 53 56 58 60 62 64 67 69 71

Fi.x 6.270 6.330 8.570 11.24 11.550 11.88 12.32 19.035 19.135 19.335 13.40 13.490 13.600 13.700 14.070 14.330 14.48 14.80 15.010 15.22 30.540 14.450 15.530 15.72 24.06 16.24 16.770 17.16 17.370 26.58 17.96 18.108

f(fi.x) 12.54 12.66 17.14 22.48 23.1 23.76 24.64 57.105 57.405 58.005 26.8 26.98 27.2 27.4 28.14 28.66 28.96 29.6 30.02 30.44 61.08 28.9 31.06 31.44 72.18 32.48 33.54 34.32 34.74 53.16 35.92 36.216

19 [9.61-10.00) [10.08-10.27) [10.34) ⅀

2 2 1 76

9.805 10.175 10.34

73 75 76

Nota: Representa el precio-ganancia de un producto de una empresa

b. Halle la mediana y moda Mediana: n −Fi−1 2 li+ . Ai fi 76 −35 2 7.23+ .2 2 7.23+

38 −35 .2 2

3 7.23+ .2 2 10.23 lamediana equivale 10.23

Moda:

( fi − fi−1) + fi−f 2+ 1 fi− fi −1 ¿ ti li+ ¿ 7.63+

4−2 .1 4 −2 +4−2

7.63+

2 1 2+ 2

8.13

18.610 20.350 10.34 561.623

37.22 40.7 10.34 1166.331

20

La moda es de 8.13

c. Halle el primer cuantil y segundo cuantil El primer cuartil 76 × 1 =19 4 La clase Q1 es ¿

Q 1=6.26+

19−14 0.17 3

Q 1=6.54

R// el precio de ganancia es menor 6.54del producto Segundo cuartil Q2=

76 ×2 =38 4

laclase Q1 es ¿ Q 2=7.23+

38−35 .2 2

Q 2=10.23

R// El precio de ganancia es mayor 10.23 del producto. d. Halle el coeficiente de variación Para hallar el coeficiente de variación debemos buscar la media ´x =

∑ fi . x = 561.623 =7.38 n



σ=

76

∑ f ( fi . x ) = n



1166.331 =0.4493630071 76

21

σ 0.4493630071 =0.0608892963 cv= = μ 7.38 R// El coeficiente de variación es

0.0608892963

e. Compare los valores dados anteriormente en un Software (GeoGebra, Excel, R, RStudio)

22

23

4. una compañía asigna diferentes precios a un equipo de sonido particular en ocho regiones diferentes del país. La tabla adjunta muestra el número de unidades vendidas y los precios correspondientes (en miles de pesos).

Ventas Precios

402 45

381 66

350 70

340 90

441 75

380 45

405 65

420 70

421 65

a) Estimar la ecuación de regresión lineal de las ventas sobre el precio que mejor se ajuste. Tabla 5. Precios de un equipo de sonido.

X

Y 45 66 70 90 75 45 65 70 65 591

402 381 350 430 441 380 405 420 421 3630

XY 18090 25146 24500 38700 33075 17100 26325 29400 27365 239701 Sumatorias

X² 161604 145161 122500 184900 194481 144400 164025 176400 177241 1470712

Nota: Presenta los diferentes precios de un equipo de sonido particular en ocho regiones diferentes del país, a la cual se estima la regresión lineal.

y=b 0 +b1 x

Para encontrar el valor de b1 =

(b0 ) y (b1 ) procedemos a:

SC(xy ) SC (x)

SC (...


Similar Free PDFs