Tercera Entrega estadistica compe 16 PDF

Title Tercera Entrega estadistica compe 16
Author ferney rodriguez
Course Costos y Presupuestos
Institution Politécnico Grancolombiano
Pages 17
File Size 742.5 KB
File Type PDF
Total Downloads 435
Total Views 722

Summary

Estadística InferencialGrupoIntegrantes: CompeTutor:Politécnico Grancolombiano 2020Actividad 1 Determine si se puede considerar que las variables Millaje y Price se distribuyen normalmente. Para hacer esto pueden calcular e interpretar cada una de las siguientes medidas o procedimientos, y finalment...


Description

1 Estadística Inferencial

Grupo

Integrantes: Compe16

Tutor:

Politécnico Grancolombiano 2020

2 Actividad 1

1. Determine si se puede considerar que las variables Millaje y Price se distribuyen normalmente. Para hacer esto pueden calcular e interpretar cada una de las siguientes medidas o procedimientos, y finalmente concluir. Como primera medida se define una distribución normal o distribución gaussiana como aquella cuya función de densidad de datos tiene forma acampana y es simétrica con respecto a medidas de dispersión tales como, media, moda y mediana. Para encontrar o verificar si una distribución es normal o no, emergen dos caminos posibles el análisis dato a dato con medidas de dispersión para datos no agrupados, ó la agrupación en una tabla de frecuencia a través de intervalos, debido a que no se busca un valor estadístico puntual, sino que es una distribución continua, cada uno de los métodos proveerá una conclusión acertada y equitativa respecto al planteamiento presentado, analizado en cada una de las siguiente medidas. PRICE Desarrollo de la tabla de frecuencias para la variable PRICE Rango=Dato mayor − Dato menor Rango=70755− 8639=62116 Determinación del numero de intervalos mediante la regla de sturges ¿ Intervalos=1+3.322∗log n Siendo n el número de datos; 804

3 ¿ Intervalos=1+3.322∗log 804 ≈ 10

Amplitud=

rango ¿ intervalos

Amplitud=

62116 ≈ 6212 10

Tabla de frecuencia para la variable Price

Nota: El intervalo seleccionado será el intervalo de la mediana

Medidas de dispersión adicionales.



Media:



Mediana:





Xmi∗fi = 21426,1393 n n lim inf + Amplitud∗( −F(i−1))=¿ 18915.3568 2

Desviación estándar



∑ ( xm −´x) 2∗fi = 9915,055925 i

n

Las anteriores sirven como medidas de tendencia que nos ayudan a entender el comportamiento de la distribución en este punto, es posible afirmar que la distribución presentada NO es una distribución normal debido a la posición de la mediana y la media, sin embargo, un análisis a profundidad de las siguientes medidas es fundamental para el entendimiento de esta.

4 A. El SESGO: Es una característica de forma, relativa a la distribución, usando el método del Coeficiente de Pearson, se presentan y analizan los siguientes casos: 

Coeficiente positivo: implica que la campana está desviada a la derecha, es decir tiene mayor cantidad de datos después del punto medio.



Coeficiente negativo: implica que la campana está desviada a la izquierda, es decir tiene mayor cantidad de datos antes del punto medio



Coeficiente igual a cero= implica que la distribución es normal debido a las características de simetría que presenta.

Sesgo=

3(Media −mediana ) desviación estandar

Sesgo=

3(21426,1393 −18915.3568) =0,7596 9915,055925

Analizando el sesgo, podemos ver la desviación hacia la derecha de los datos comparándolos con la campana estándar de una distribución normal B.LA CURTOSIS: Es una característica de forma, relativa a la distribución, usando el método del Fisher para datos agrupados, se presentan y analizan los siguientes casos: 

Medida de Fisher < 3, la distribución es platicútica. El pico es más agudo y no simétrico.



Medida de Fisher = 3: la distribución es normal, El pico es estándar y simétrico.



Medida de Fisher > 3, la distribución es leptocúrtica, El pico se encuentra achatado hacia el eje fi ( x mi−media )4 ∑ α= n ( desviación )

4

=5,9241

Analizando la curtosis, podemos ver un pico mucho más agudo, es decir que la mayoría de los datos están ubicados cerca al z=0, tomado como eje de referencia

5 C. Gráfica de la curva normal (q-q plot) Para llevar nuestros datos a la media y referencia de un sistema normal se siguió el procedimiento  

Ordenamiento y numeración de todos los datos Cambio al sistema normal mediante la función de distribución normal estándar inversa aplicada a argumentos de la forma (i-0.5/n) siendo i la posición numérica del dato

Como se puede observar en la gráfica la linealización no presenta una tendencia cercana a la curva normal de dispersión generada, otro argumento más para concluir que no es una distribución normal D. La regla empírica: esta regla se basa en la conclusión experimental, que expone que en una

distribución normal, el porcentaje de datos en cierto intervalo de desviación desde su media puede ser estimado bajo las siguientes premisas. Al no cumplirse una de ellas la distribución no es normal, sin embargo no es argumento suficiente para demostrar que lo es.

6



´x +s ≥ 68 % ≥ x´ −s



x´ +2 s ≥ 95 % ≥ x´ −2 s



x´ +3 s ≥ 97 % ≥ x´ −3 s

Comprobación 21426,1393+9915,055925 39268,42024

≥ 68%

≥ 21426,1393-9915,055925

≥ 68% ≥ 19438,30839

Estos valores estarían ubicados en promedio desde parcialmente el intervalo dos hasta parcialmente el intervalo 5, al hacer la frecuencia relativa acumulada fue de un 64% pero reconociendo que con las aproximaciones puede dar mucho menor, se concluye que no tiene una tendencia de distribución normal E. ¿Es correcto proponer intervalos de confianza o pruebas de hipótesis con la variable price?

No sería correcto ni proveería datos acertados ya que la distribución no es normal, aunque se acerque ligeramente y por lo tanto no es simétrica, una estimación en intervalos de confianza de estos datos puede dejar un gran margen de error probabilístico en la variable a analizar en este caso Price, precio. Millaje Desarrollo de la tabla de frecuencias para la variable millaje Rango=Dato mayor − Dato menor Rango=50387 −266=50121 Determinación del número de intervalos mediante la regla de sturges ¿ Intervalos=1+3.322∗log n

7 Siendo n el número de datos; 804 ¿ Intervalos=1+3.322∗log 804 ≈ 10

Amplitud=

rango ¿ intervalos

Amplitud=

50121 ≈ 5013 10

Tabla de frecuencia para la variable Millaje

Nota: El intervalo seleccionado será el intervalo de la mediana

Medidas de dispersión adicionales. Xmi∗fi = 19837,89925 n



Media:



Mediana:



Desviación estándar



n lim inf + Amplitud∗( −F(i−1))=¿ 2



20737.59031

∑ ( xm −´x ) 2∗fi = 8295,477995 i

n

8 Las anteriores sirven como medidas de tendencia que nos ayudan a entender el comportamiento de la distribución en este punto, es posible afirmar que la distribución presentada es una distribución normal debido a la posición de la mediana y la media, las cuales se encuentras cerca la una de la otra y del punto de referencia, sin embargo, un análisis a profundidad de las siguientes medidas es fundamental para el entendimiento de esta.

B. El SESGO: Es una característica de forma, relativa a la distribución, usando el método del Coeficiente de Pearson, se presentan y analizan los siguientes casos: 

Coeficiente positivo: implica que la campana está desviada a la derecha, es decir tiene mayor cantidad de datos después del punto medio.



Coeficiente negativo: implica que la campana está desviada a la izquierda, es decir tiene mayor cantidad de datos antes del punto medio



Coeficiente igual a cero: implica que la distribución es normal debido a las características de simetría que presenta.

Sesgo=

3(Media −mediana ) desviación estandar

Sesgo=

3(19837,89925 −20737.5) =−0,3253 8295,477995

Analizando el sesgo, podemos ver la desviación ligera hacia la izquierda de los datos comparándolos con la campana estándar de una distribución normal, entraría en la tolerancia estimada para considerar a esta distribución como normal B.LA CURTOSIS: Es una característica de forma, relativa a la distribución, usando el método del Fisher para datos agrupados, se presentan y analizan los siguientes casos: 

Medida de Fisher < 3, la distribución es platicútica. El pico es más agudo y no simétrico.



Medida de Fisher = 3: la distribución es normal, El pico es estándar y simétrico.



Medida de Fisher > 3, la distribución es leptocúrtica, El pico se encuentra achatado hacia el eje

9 fi ( x mi−media )4 ∑ α= n ( desviación)

4

=2,96

Analizando la curtosis, podemos ver un pico cercano a la distribución normal, es decir que la mayoría de los datos están ubicados cerca al z=0, manteniendo su simetría al eje de referencia distribución normal C.Gráfica de la curva normal (q-q plot) Para llevar nuestros datos a la media y referencia de un sistema normal se siguió el procedimiento  

Ordenamiento y numeración de todos los datos Cambio al sistema normal mediante la función de distribución normal estándar inversa aplicada a argumentos de la forma (i-0.5/n) siendo i la posición numérica del dato

Como se puede observar en la gráfica la linealización presenta una tendencia cercana a la curva normal de dispersión generada, otro argumento más para concluir que es una distribución normal

10 C.La regla empírica: esta regla se basa en la conclusión experimental, que expone que en una distribución normal, el porcentaje de datos en cierto intervalo de desviación desde su media puede ser estimado bajo las siguientes premisas. Al no cumplirse una de ellas la distribución no es normal, sin embargo, no es argumento suficiente para demostrar que lo es. 

x´ +s ≥ 68 %≥ ´x −s



x´ +2 s ≥ 95 % ≥ x´ −2 s



x´ +3 s ≥ 97 % ≥ x´ −3 s

Comprobación: Estos valores estarían ubicados en promedio desde parcialmente el intervalo 4 hasta parcialmente el intervalo 7, al hacer la frecuencia relativa acumulada fue de un 68.7% pero reconociendo que con las aproximaciones puede dar mucho menor, se concluye que tiene una tendencia de distribución normal. F. ¿Es correcto proponer intervalos de confianza o pruebas de hipótesis con la variable price?

Sería correcto ya que daría datos acertados, debido a que esta distribución puede considerarse como normal 2. Asuman que los datos corresponden a una población. Van a seleccionar una muestra usando el muestreo aleatorio simple. Supongan conocido el tamaño de la población ¿Qué tamaño de muestra escogen? Justifiquen su respuesta. Seleccionen la muestra y muestren o expliquen cómo la obtuvieron. Debido a que la segunda muestra sí tiene mayor nivel de confiabilidad el intervalo a elegir debe hacerse usando los datos de la primera distribución para este se plantea un porcentaje de error del 10% y una confiabilidad del 95% seguido a esto seleccionar a la muestra de forma aleatoria simple obteniendo el resultado mostrado

11

n=

804 × 9915,062 × 1,962 =74.63 2 2 804 × ( 0.1 ×21426.14 ) + ( 9915,062 × (1.96 ) )

SELECCIÓN ALEATORIA SIMPLE PARA EL MILLAJE Realizando el mismo proceso para la variable millaje, suponiendo un nivel de confiabilidad del 95% y un porcentaje de error del 10%

n=

804 ×8295,482 ×1,962 =124 2 2 804 × ( 0.1 ×19837.89 ) +( 8295,482 × (1.96 ) )

Usando la función aleatoria se seleccionan los 124 datos propuestos para la muestra filtrando los datos para el punto 3, en millaje y marca, puesto que serán los parámetros necesarios. MUESTRA SELECCIONADA

12 3.Utilizando la muestra obtenida en la Actividad 1, construyan un intervalo de confianza para el millaje promedio. Deben seleccionar un nivel de confianza; tomen en cuenta que se debe privilegiar la exactitud sobre la confianza, aunque no se olviden completamente de la confianza ¿qué nivel de confianza escogen y por qué? El nivel de confiabilidad al priorizar la exactitud sobre la confianza se tomará en proporción a la muestra con la mitad de la población con el fin de primar la exactitud sobre este, es decir, el numero de datos en este caso 124 sobre la mitad de la población, 402.

nivel de confiaza=

124 ∗100=30.8 402

Siempre aproximando al siguiente 5 o 0, el nivel de confianza seleccionado para el millaje promedio es, 35%, lo que propone un gráfico de la siguiente forma, teniendo en el punto medio, el promedio de millaje muestral, este porcentaje se elige debido al tamaño muestral con el fin de lograr un intervalo correcto, con la mayor precisión posible

Media muestral Promedio=∑

Xi 2244673 =18102.2 = 124 n

Desviación muestral

Desviación muestral=



∑ ( x i− ´x )2 =7909.42 n−1

13 Determinación del rango para el intervalo de confianza





Z= ±0,45



μ= 18102.2

S=7909.42

X =Z ( s ) + μ

X 1=0,45 (7909,42 ) +18102,2=21.661,44

X 2=− 0.45(7909,42)+ 18102.2=14542.96 Con el fin de determinar si el intervalo seleccionado es correcto, se comprueba si la media poblacional hallada anteriormente se encuentra en el rango dado, en este caso 21661,44>19837,8>14542,96, 4. Construyan un intervalo de confianza para determinar si el millaje recorrido por los autos fabricados por Cadillac y Chevrolet es el mismo o es diferente. Ahora, asuman que deben privilegiar la confianza sobre la exactitud. Justifiquen su elección del nivel de confianza. Asuma que las medias y las varianzas poblacionales son desconocidas. El nivel de confiabilidad al priorizar la confianza sobre la exactitud se tomará en proporción inversa a la muestra con la de la población con el fin de primar la confianza, es decir, el número de datos en este caso 124 sobre la mitad población de la población, 402.

(

nivel de confiaza= 1−

)

124 ∗100 =69.2 402

Siempre aproximando al siguiente 5 o 0, el nivel de confianza seleccionado para el millaje promedio es, 70%, lo que propone un gráfico de la siguiente forma, teniendo en el punto medio, el promedio de millaje muestral

14

Determinación del rango para el intervalo de confianza





Z= ±1,04



μ= 18102.2

S=7909.42

X =Z ( s ) + μ

X 1=1.04 (7909,42 ) +18102,2=26328

X 2=−1.04 (7909,42)+ 18102.2=9876.4 Con el fin de determinar si el intervalo seleccionado es correcto, se comprueban los datos en el intervalo se confianza, en este caso 26328>XI>9876,4, con los datos de la población total.

Tanto en la muestra, como en el nivel de confianza, como en la población se observa que en ningún caso el millaje entre Chevrolet y Cadillac, es igual, por lo tanto el intervalo de confianza de una idea acertada, a la respuesta del interrogante, sin embargo se ve que en promedio para la población total, el millaje es más cercano, que en los demás lo que explica la distribución normal tras el muestreo y el intervalo de confianza

15 5. Ahora, hagan una prueba de hipótesis sobre la proporción de autos que tienen cuatro puertas (el valor poblacional es conocido, usen este valor para la hipótesis nula). ¿La conclusión obtenida es correcta o se cometió un error tipo I o tipo II? Usen el valor p en el desarrollo. En el desarrollo, supongan que el valor poblacional de p es desconocido PRUEBA DE HIPÓTESIS HIPOTESIS NULA: “La proporción de autos que tiene 4 puertas es 614 de 804, es decir 76.37%” Para esta hipótesis la media del numero de puertas es: 3.53 Desviación poblacional=0,85 HIPOTESIS ALTERNATIVA: “La proporción de autos que tiene 4 puertas, es menor 76.37%” la media muestral del número de puertas es: 3.6 Suponiendo la hipótesis Nula como verdadera, 

Media muestral =media poblacional=3.53



Desviación muestral= desviación total entre la raíz del número de datos de la muestra=0.076 ¿ =0.92 0.076 z=¿

¿ 3.53−3.6 ∨

16

Con esto se rechaza la hipótesis nula ya que el valor de P obtenido es 36%, en este caso se comete un error tipo 1 al rechazar una hipótesis verdadera, esto sucede debido a la aleatoriedad de la muestra. Que, para el caso del número de puertas, acepta un error mínimo 6. Ahora hagan una prueba de hipótesis, nuevamente para determinar si el millaje recorrido por los autos fabricados por Cadillac y Chevrolet es el mismo o es diferente. ¿cuál es la hipótesis nula?, ¿escoge una prueba de dos colas o de una cola (de cola derecha o izquierda) ?, ¿explique o justifique su elección. Use “nivel de significancia” en el desarrollo. Consideren que la probabilidad de cometer un error tipo I debe ser pequeña. Expliquen qué valor escogen. Supongan que las medias y las varianzas poblacionales son desconocidas HIPOTESIS NULA: Debido a que las medias y las varianzas poblacionales son desconocidas, se toma como hipótesis nula la igualdad entre medias muestrales, haciendo la prueba de esta hipótesis para el parámetro Millaje de Cadillac 

Media de millaje para Cadillac=18102.2

Se escoge la prueba de dos colas puesto que se asume el valor media para Chevrolet como el teórico en dado caso sería una prueba de diferencia de proporciones, adicionalmente el nivel

17 de significancia debe ser bajo para lograr que el error tipo 1 sea mínimo pues se eliminaría la opción de rechazar una hipótesis nula verdadera, pero se aumentaría la posibilidad de aceptar una hipótesis falsa Hipótesis alternativa las medias no son iguales Nivel de significancia: 5% valor de z=1.96 ¿ 18102.2−13012.5∨ ¿ 2591 1.964=¿ Entra en el rango de rechazo por lo tanto esta hipótesis se rechaza obteniendo así un resultado correcto, sin error tipo 1 ni tipo 2...


Similar Free PDFs