Kuiper Shonda Introduction to Multiple Regression How Much is Your Car PDF

Title Kuiper Shonda Introduction to Multiple Regression How Much is Your Car
Author Ricardo Acero
Course Estadística Inferencial
Institution Politécnico Grancolombiano
Pages 14
File Size 616.2 KB
File Type PDF
Total Downloads 29
Total Views 127

Summary

Documento con la traduccion del material de estudio...


Description

Revista de Estadística Educación, v16n3: ShondaKuiper

Página 1 de 14

Introducción a la regresión múltiple: cómo

¿Cuánto vale su coche? ShondaKuiper Colegio Grinnell Revista de educación estadística Volumen 16, Número 3 (2008), www.amstat.org/publications/jse/v16n3/datasets.kuiper.html Copyright © 2008 por ShondaKuiper todos los derechos reservados. Este texto puede compartirse libremente entre personas, pero no puede volver a publicarse en ningún medio sin el consentimiento expreso por escrito del autor y la notificación previa del editor.

Palabras clave: Regresión múltiple; Variables ficticias; Heterocedasticidad; DataTransformation; Derechos residuales de autor.

Resumen Los datos recopilados de Kelly BlueBook de varios cientos de automóviles de General Motors (GM) usados en 2005 permiten a los estudiantes desarrollar un modelo de regresión multivariante para determinar los valores del automóvil en función de una variedad de características, como kilometraje, marca, modelo, tamaño del motor, estilo interior y control de crucero. Los estudiantes aprenden a observar gráficos de residuos para verificar la heterocedasticidad, normalidad, autocorrelación y multicolinealidad, así como a explorar técnicas para la selección de variables y desarrollar variables especialmente construidas.

1. Introducción Este artículo analiza el desarrollo de un modelo de regresión multivariante para predecir el precio minorista de los automóviles 2005 de General Motor (GM). Los libros de texto estadísticos suelen ofrecer muchos conjuntos de datos pequeños seleccionados para ilustrar una variedad de cuestiones y técnicas que un usuario de regresión debe conocer. Aunque los conjuntos de datos pequeños pueden ofrecer la ventaja de un enfoque nítido en temas particulares, su enfoque limitado también conlleva desventajas. Trabajar con un conjunto de datos grande y ricamente estructurado puede brindar a los estudiantes un tipo de experiencia que no es posible con la sucesión de conjuntos de datos más pequeños. En consecuencia, muchos cursos utilizan proyectos para garantizar que los estudiantes experimenten el desafío de la construcción de modelos y la oportunidad de sintetizar los elementos de regresión aprendidos uno a la vez de conjuntos de datos más pequeños. Sin embargo, Los estudiantes a menudo pueden tener dificultades para adaptarse de la tarea tradicional a un verdadero proyecto de investigación que requiere la transición de una pregunta de investigación a un modelo estadístico, recopilar y limpiar adecuadamente los datos, construir y evaluar el modelo apropiado, así como comunicar eficazmente sus resultados. La estructura de este conjunto de datos permite a los estudiantes trabajar a través de todo el proceso de construcción de modelos y

Revista de Estadística Educación, v16n3: ShondaKuiper

Página 2 de 14

evaluación, proporcionando así una práctica guiada antes de abordar un gran conjunto de datos por sí mismos. Esto cierra la brecha entre los problemas de tarea breves y enfocados y la naturaleza abierta de un proyecto. Este conjunto de datos se creó con el fin de proporcionar un rico ejemplo interdisciplinario que sirva de guía a través del proceso completo de un proyecto de análisis de regresión múltiple. El precio de los automóviles es un ejemplo de interés general para los estudiantes y no requiere conocimientos especializados. Este contexto es tan común que también puede ayudar a muchos estudiantes en su comprensión conceptual de las cuestiones sustantivas relacionadas con la regresión.

Para este conjunto de datos, se seleccionó una muestra representativa de más de ochocientos automóviles 2005 GM, luego el precio de venta al público se calculó a partir de las tablas proporcionadas en la Edición Central 2005 del Libro Azul de Kelly (consulte la Sección 11). Los estudiantes reciben un conjunto de datos que contiene las siguientes variables:



Precio: precio de venta sugerido del automóvil 2005GM usado en excelentes condiciones. El estado del coche puede afectar enormemente al precio. Todos los coches de este conjunto de datos tenían menos de un año cuando se les ponía precio y se consideraban en excelentes condiciones.



Kilometraje: número de millas que ha conducido el coche



Marca: fabricante del automóvil como Saturno, Pontiac y Chevrolet



Modelo: modelos específicos para cada fabricante de automóviles, como Ion, Vibe, Cavalier Trim (de automóvil): tipo



específico de modelo de automóvil, como SESedan 4D, Quad Coupe2D Tipo: tipo de carrocería, como sedán, cupé,



etc.



Cilindro: número de cilindros en el motor Litro: medida más



específica del tamaño del motor Puertas: número de



puertas



Crucero: variable indicadora que representa si el coche tiene control de crucero (1 = crucero)



Sonido: variable indicadora que representa si el automóvil tiene altavoces mejorados (1 = mejorado) Cuero: variable



indicadora que representa si el automóvil tiene asientos de cuero (1 = cuero)

Primero se les pide a los estudiantes que utilicen una regresión lineal simple para explorar la relación intuitiva entre las millas recorridas y el precio minorista. El valor R-Sq de esta relación es 2%, pero después de examinar más detenidamente los residuos, una transformación y una selección de variables apropiadas, los estudiantes pueden desarrollar un modelo de regresión múltiple muy fuerte. Además, los estudiantes aprenden que no siempre existe un "mejor" modelo al realizar análisis de datos.

Los estudiantes trabajan a través de este conjunto de datos en un laboratorio guiado paso a paso en grupos de 2 o 3 como parte de un proyecto final en un curso de introducción a la estadística. Si bien parte del trabajo se realiza fuera de clase, se deben planificar aproximadamente dos sesiones de clase en un laboratorio de computación para que los estudiantes trabajen en el laboratorio y hagan preguntas. Este curso es un requisito de cálculo y actualmente Chanceand Rossman texto estilo taller Investigación de conceptos, aplicaciones y métodos estadísticos. Se les ha presentado a los estudiantes la regresión lineal simple y la inferencia para la regresión lineal simple antes de que se les presente este conjunto de datos. Después de que los estudiantes recorrieron este laboratorio guiado, se les pidió que realizaran un análisis de regresión multivariante y crearan un póster de investigación sobre un conjunto de datos diferente en un contexto completamente diferente como su proyecto final. Este conjunto de datos también se utiliza como módulo de laboratorio en un segundo curso de estadística. El único requisito previo para este segundo curso de estadística es un curso introductorio de estilo AP.

2. La necesidad de una regresión múltiple: Regresión del precio en el kilometraje

Revista de Estadística Educación, v16n3: ShondaKuiper

Página 3 de 14

Antes de desarrollar un modelo de regresión múltiple complejo con varias variables, los estudiantes comienzan con una revisión rápida del modelo de regresión lineal simple haciendo una pregunta: "¿Los automóviles con menor kilometraje valen más?" Claramente, parece razonable esperar ver una relación entre el kilometraje (número de millas recorridas por el automóvil) y el valor minorista. Luego, los estudiantes intentan ajustar un modelo de regresión lineal simple que relaciona el precio con el millaje y obtienen los siguientes resultados:

Ecuación 1: Precio = 24723 - 0.17 Millaje El estadístico t para el coeficiente de pendiente (b 1): t = -4,09 (valor p...


Similar Free PDFs