Lección 1.1 Tabulación de Datos PDF

Title	Lección 1.1 Tabulación de Datos
Author	Sofia CR
Course	Fundamento de Base de Datos
Institution	Instituto Tecnológico de Villahermosa
Pages	17
File Size	542.2 KB
File Type	PDF
Total Downloads	122
Total Views	155

Preview

CLICK TO PREVIEW PDF

Summary

Se realizaron practicas de temas sobre datos experimentales donde se tenían que buscar probabilidades con diferentes tipos de formulas empleadas...

Description

UNIVERSIDAD DUNAMIS ESTADÍSTICA UNIDAD I. ESTADÍSTICA DESCRIPTIVA. Hoy en día, la estadística se ha convertido en un método efectivo para la descripción de la importancia y valoración de los datos económicos, políticos sociales, etc.; y sirve como herramienta para relacionar y analizar dichos datos. Su uso y aplicación ofrece a muchas personas la facilidad para entender datos y tomar decisiones. La estadística tienen su origen en las antiguas civilizaciones, en estas la principal aplicación giraba en torno al recuento y registro de personas, propiedades y bienes por parte del Estado; de ahí la evolución al término estadística. Entre los siglos xvii al xx se formalizó como una ciencia y se le dio un sólido fundamento de carácter matemático gracias a los trabajos de hombres como Carl Friedrich Gauss, Simeón-Denis Poisson, Thomas Bayes, Sir Francis Galton, Karl Pearson, etc. En la actualidad, la estadística se relaciona estrechamente con la teoría de la probabilidad, en el sentido de que los datos asociados a los diversos fenómenos naturales o sociales, conllevan un cierto grado de incertidumbre, tanto por las limitantes de los métodos de recolección, como por la imprecisión de los instrumentos de medición, por errores en el registro, por la naturaleza aleatoria del fenómeno y, en gran medida, porque por aspectos prácticos sólo se estudia una parte del total de los datos; pero es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, ya que se usa para la toma de decisiones en distintas áreas de negocios. Definición y aplicaciones La estadística es la ciencia que se encarga de obtener, compilar, organizar, resumir, analizar y presentar datos asociados a un determinado fenómeno para la toma de decisiones. El término estadística se refiere a la ciencia o conjunto de técnicas, mientras que la palabra estadísticas alude a los productos o resultados de un estudio estadístico.

Estadística descriptiva Es el conjunto de métodos estadísticos orientado al análisis de muestras para determinar las características que las describen (denominados estadígrafos o estadísticos). Por lo general, la estadística descriptiva sigue las siguientes fases respecto a los datos de una muestra: 1. Recopilación 2. Ordenación 3. Organización en tablas (tabla de datos agrupados) 4. Representación gráfica (histograma y polígono de frecuencias) 5. Cálculo de medidas de tendencia central (media, mediana y moda) 6. Cálculo de medidas de dispersión (rango, desviación estándar y varianza) Estadística inferencial Es el conjunto de métodos estadísticos que generalizan las características de una muestra para proyectarlas a la población total. A estas características asociadas a la población se les conoce como “parámetros”. En términos generales, la estadística inferencial se compone de las siguientes etapas: • Diseño de muestras • Estimación de parámetros • Pruebas de hipótesis Tipos de variables y constantes Dentro de la estadística descriptiva, cada atributo de un elemento de una muestra corresponde a una variable. En consecuencia, el valor particular que adquiere una variable asociada a un elemento de una muestra recibe el nombre de “dato”. Datos son hechos/informaciones y cifras que se recogen, analizan y resumen para su presentación e interpretación. A todos los datos reunidos para un determinado estudio se les llama conjunto de datos para el estudio. Supongamos que tenemos una muestra de 100 personas. Sobre esta muestra, definimos variables asociadas a las características que describen a cada elemento de la muestra, las cuales se representan con literales simbólicas como X o Y. Si tomamos a un determinado elemento (persona) de la muestra y observamos que su estatura es de 1.80 metros y pesa 79 kg, estos valores que toman las variables se denominan “datos”. Elementos son las entidades de las que se obtienen los datos. Una variable es una característica de los elementos que es de interés.

Las variables se clasifican en dos grandes categorías: cuantitativas y cualitativas.

Una variable cuantitativa es aquella que describe una característica de cada elemento de la muestra mediante valores numéricos. En el caso de personas, estos son ejemplos de variables cuantitativas o numéricas. • Estatura • Peso • Edad • Ingresos mensuales • Temperatura corporal

• Frecuencia cardiaca • Impuestos que paga • Número de autos que posee • Número de horas que ve la televisión • Dinero que gasta en ropa

Las variables cualitativas o categóricas, describen una característica no medible de cada elemento de una población mediante su clasificación de acuerdo a un atributo. Algunos ejemplos de variables cualitativas son: El color de los ojos de una persona • El color de la piel de una persona • El color del pelo de una persona • El nivel académico de una persona • El nivel de satisfacción de una persona respecto a un cierto producto o servicio

A su vez, las variables cuantitativas y cualitativas se dividen en dos categorías propias:

Las variables discretas son aquellas que se emplean para procesos de conteo, por lo que estrictamente pueden tomar valores enteros. Ejemplos de variables discretas son: El número de miembros de una familia • El número diario de personas que usan el transporte público

• Número de autos que posee una persona • El número diario de autos que circula en la ciudad

Por su parte, las variables continuas son aquellas que pueden tomar valores tanto enteros como fraccionarios. Generalmente se emplean para medir magnitudes físicas. Los siguientes son ejemplos de variables continuas: La temperatura promedio en la ciudad • El peso de una persona

• La distancia diaria que recorre un automóvil • La altura promedio a la que vuela un avión

Las variables nominales son variables cualitativas que agrupan en categorías a los elementos de una muestra. Los valores de estas variables no pueden emplearse en cálculos numéricos ni tampoco pueden estar sujetas a ningún orden (ni ascendente ni descendente). No obstante, es importante destacar que puede surgir un cierto carácter numérico si se procede al recuento de los elementos que caen en cada una de las categorías conformadas. Los siguientes son ejemplos de variables nominales:

• La ciudad en donde habita una • El color de la piel de una persona persona • Los deportes que practica una • La nacionalidad de una persona persona • La empresa en donde presta sus servicios Las variables ordinales son aquellas variables cualitativas que admiten una clasificación, rango u ordenamiento. Algunos ejemplos de este tipo de variable son: • El nivel de satisfacción de una persona respecto a su empleo (alto, medio o bajo) • El nivel de destreza de un técnico (alto nivel, medio nivel, bajo nivel) • La calidad del aire (satisfactorio, medianamente satisfactorio, no satisfactorio) Por otra parte, una constante es un valor fijo predeterminado en una situación particular. Por ejemplo: • La tasa de interés en una cierta operación • La hora de cierre de un cierto proceso • El plazo para la realización de un cierto trámite En muchas situaciones se requiere información acerca de grupos grandes de elementos (individuos, empresas, votantes, hogares, productos, clientes, etc.). Pero, debido al tiempo, costo y a otras consideraciones, sólo es posible recolectar los datos de una pequeña parte de este grupo. Al grupo grande de elementos en un determinado estudio se le llama población y al grupo pequeño muestra. En términos formales se emplean las definiciones siguientes. POBLACIÓN: La población es el conjunto de todos los elementos de interés en un estudio determinado. MUESTRA: La muestra es un subconjunto de la población MÉTODO ESTADÍSTICO El método estadístico, dentro del método científico, consiste en una serie de pasos para llegar al verdadero conocimiento estadístico. Etapas del método estadístico. a) Recogida de datos.

b) Ordenación y presentación de datos en tablas simples o de doble entrada. c) Determinación de medidas o parámetros que intenten resumir la cantidad de información. d) Formula hipótesis sobre las regularidades que se presenten. e) Por último, el análisis estadístico formal que permita verificar las hipótesis formuladas. Fenómenos determinísticos y aleatorios. Llamaremos fenómenos causales o determinísticos a aquellos que presentan los mismos resultados si se realizan en idénticas condiciones. En ellos es posible conocer el resultado final conociendo el estado de partida y las condiciones de realización. Ejemplo: Cualquier experimento físico o químico. Los fenómenos aleatorios son aquellos en los que no se puede predecir el resultado final incluso realizándose en las mismas condiciones. Ejemplo: Lanzar un dado, un moneda.

1.1 TABULACIÓN DE DATOS. Parte fundamental de la Estadística es la organización de los datos, una forma de realizar esta organización es en tablas, estas también sirven para facilitar la creación de representaciones graficas de la información obtenida o procesada. Al analizar una muestra, es necesario someterla a un conjunto de pasos sistematizados para su organización en una tabla de datos agrupados, también conocida como tabla de distribución de frecuencias. Esta tabla es de gran utilidad en el cálculo de los estadígrafos que describen una muestra, así como en la construcción de sus correspondientes representaciones gráficas. Los datos cualitativos emplean etiquetas o nombres para determinar categorías de elementos iguales. Los datos cuantitativos son números que indican cuánto o cuántos. En este capítulo se presentan los métodos tabulares y gráficos empleados para datos cualitativos y cuantitativos. Los resúmenes gráficos o tabulares de datos se

encuentran en reportes anuales, en artículos en los periódicos y en estudios de investigación. Todo mundo se encuentra con este tipo de presentaciones. Por tanto, es útil saber cómo se hacen y se interpretan. Se empezará con los métodos tabulares y gráficos para resumir datos que se refieren a una sola variable. En la última sección se introducen los métodos para resumir datos cuando lo que interesa es la relación entre dos variables. DISTRIBUCIÓN DE FRECUENCIA Una distribución de frecuencia es un resumen tabular de datos que muestra el número (frecuencia) de elementos en cada una de las diferentes clases disyuntas (que no se sobreponen). La población o universo es el conjunto de elementos de los cuales se desea conocer, por medio de un tratamiento cuantitativo, sus principales características. En este contexto, una muestra es un subconjunto de la población; es decir, una porción de elementos con características generales semejantes a la población objetivo. Para que una muestra sea representativa de una población, debe cumplir las siguientes condiciones: 1. Debe obtenerse mediante un procedimiento aleatorio, es decir, la selección de sus elementos será al azar. 2. Debe ser lo suficientemente grande. Las condiciones anteriores corresponden a la rama de la estadística inferencial denominada “muestreo”. Al analizar una muestra, el primer paso es organizar los datos en una tabla conocida como tabla de datos agrupados. Esta tabla permitirá el cálculo de ciertas medidas orientadas a la descripción de la muestra. Las principales medidas para la descripción de una muestra son, estas medidas son denominadas estadígrafos o estadísticos: • Medidas de tendencia central. • Medidas de dispersión o variabilidad. Si la muestra se ha obtenido mediante un procedimiento correcto (muestra aleatoria y de tamaño lo suficientemente grande), los estadígrafos serán razonablemente cercanos a los verdaderos valores numéricos que caracterizan a una población, a los cuales se les denomina parámetros.

Una manera de obtener datos es a través de la observación directa. Un experimento estadístico es una forma de observación directa en la que se controlan algunos o todos los factores que pueden influir sobre la variable que se estudia. Por ejemplo, pueden compararse dos métodos de ensamblar un componente, haciendo que un grupo de empleados utilice uno de ellos y que un segundo grupo de empleados utilice el otro. Se iguala cuidadosamente a los miembros del primer grupo con los del segundo en términos de factores como edad y experiencia. En algunas situaciones, no es posible obtener datos en forma directa, sino que, más bien, la información debe obtenerse a partir de respuestas individuales. Una encuesta estadística es el proceso de recopilar datos pidiendo a personas que proporcionen información. Los datos pueden obtenerse con métodos como la entrevista personal o telefónica, o a través de un cuestionario escrito. Por ejemplo, un analista de la Secretaría del Trabajo puede necesitar determinar qué aumentos o reducciones en el nivel de empleo tienen planeados las empresas de cierto estado. Un método común para obtener esa clase de datos consiste en efectuar una encuesta entre las empresas. El muestreo aleatorio es aquél en el que cada uno de los elementos de la población de interés, o población objeto, como se le conoce, tiene una probabilidad conocida, y frecuentemente igual, de ser elegido para la muestra. A las muestras aleatorias se les denomina también muestras probabilísticas o muestras científicas. Son cuatro los principales métodos de muestreo aleatorio: aleatorio simple, sistemático, estratificado y por conglomerados. Una muestra aleatoria simple es aquélla en la que los elementos se escogen en forma individual y al azar de la totalidad de la población. Esta selección al azar es similar a la que se realiza en la extracción aleatoria de números en una lotería. Sin embargo, en el muestreo estadístico, por lo general se utiliza un programa computarizado de tabla de números aleatorios o un generador de números aleatorios para identificar los elementos numerados de la población que se eligen para la muestra. Una muestra sistemática es una muestra aleatoria en la cual se eligen lo elementos de la población a intervalos uniformes, a partir de un listado ordenado, tal como elegir cada décima cuenta por cobrar para la muestra. La primera de las cuentas de la muestra se elegirla al azar (quizá utilizando una tabla de números aleatorios). Un problema específico del muestreo sistemático es la existencia de

cualquier factor periódico o cíclico en la lista dé la población que pudiera conducir a un error sistemático en los resultados muestrales. En el muestreo estratificado, lo primero que hace el investigador es clasificar los elementos de la población en subgrupos separados de acuerdo con una o más características importantes. Después, se obtiene por separado una muestra aleatoria simple o sistemática de cada estrato. Puede utilizarse este tipo de muestreo para asegurar una representación proporcional de diversos subgrupos en la muestra. Además, es común que el tamaño de la muestra que se requiere para lograr determinado nivel de precisión en el muestreo estratificado sea menor que con muestreo aleatorio simple, con la consiguiente reducción en los costos del muestreo. El muestreo por conglomerados es un tipo de muestreo aleatorio en el que los elementos de la población se dividen en forma natural en subgrupos. Así, se eligen al azar los subgrupos que forman la muestra. Escalas de medición La recolección de datos requiere alguna de las escalas de medición siguientes: nominal, ordinal, de intervalo o de razón. La escala de medición determina la cantidad de información contenida en el dato e indica la manera más apropiada de resumir y de analizar estadísticamente los datos. Cuando el dato de una variable es una etiqueta o un nombre que identifica un atributo de un elemento, se considera que la escala de medición es una escala nominal. Por ejemplo, en relación con la tabla 1.1 la escala de medición para la variable bolsa de valores (mercado bursátil) es nominal porque N y NQ son etiquetas que se usan para indicar dónde cotiza la acción de la empresa. Cuando la escala de medición es nominal, se usa un código o una etiqueta no numérica. Por ejemplo, para facilitar la recolección de los datos y para guardarlos en una base de datos en una computadora puede emplearse un código numérico en el que 1 denote la Bolsa de Nueva York y 2 el Mercado Nacional Nasdaq. En este caso los números 1 y 2 son las etiquetas empleadas para identificar dónde cotizan las acciones. La escala de medición es nominal aun cuando los datos aparezcan como valores numéricos. Una escala de medición para una variable es ordinal si los datos muestran las propiedades de los datos nominales y además tiene sentido el orden o jerarquía de los datos. Por ejemplo, una empresa automovilística (Eastside Automotive) envía a sus clientes cuestionarios para obtener información sobre su servicio de reparación. Cada cliente evalúa el servicio de reparación como excelente, bueno o

malo. Como los datos obtenidos son las etiquetas excelente, bueno o malo, tienen las propiedades de los datos nominales, pero además pueden ser ordenados o jerarquizados en relación con la calidad del servicio. Un dato excelente indica el mejor servicio, seguido por bueno y, por último, malo. Por lo que la escala de medición es ordinal. Observe que los datos ordinales también son registrados mediante un código numérico. Por ejemplo, en la tabla 1.1 la posición de los datos en BusinessWeek es un dato ordinal. Da una jerarquía del 1 al 500 de acuerdo con la evaluación de BusinessWeek sobre la fortaleza de la empresa. Una escala de medición para una variable es una escala de intervalo si los datos tienen las características de los datos ordinales y el intervalo entre valores se expresa en términos de una unidad de medición fija. Los datos de intervalo siempre son numéricos. Las calificaciones en una prueba de aptitudes escolares son un ejemplo de datos de intervalo. Por ejemplo, las calificaciones obtenidas por tres alumnos en la prueba de matemáticas con 620, 550 y 470, pueden ser ordenadas en orden de mejor a peor. Además las diferencias entre las calificaciones tienen significado. Por ejemplo, el estudiante 1 obtuvo 620-550=70 puntos más que el estudiante 2 mientras que el estudiante 2 obtuvo 550-470=80 puntos más que el estudiante tres. Una variable tiene una escala de razón si los datos tienen todas las propiedades de los datos de intervalo y la proporción entre dos valores tiene significado. Variables como distancia, altura, peso y tiempo usan la escala de razón en la medición. Esta escala requiere que se tenga el valor cero para indicar que en este punto no existe la variable. Por ejemplo, considere el costo de un automóvil. El valor cero para el costo indica que el automóvil no cuesta, que es gratis. Además, si se compara el costo de un automóvil de $30 000, con el costo de otro automóvil, $15 000, la propiedad de razón muestra que $30 000/$15 000=2: el primer automóvil cuesta el doble del costo del segundo.

En conclusión tenemos los siguientes conceptos. Estadística. El arte y la ciencia de recolectar, analizar, presentar e interpretar datos. Datos. Los hechos y las cifras que se recolectan, analizan y resumen para su presentación e interpretación. Conjunto de datos. Todos los datos recolectados en un estudio determinado. Elementos. Entidades sobre las que se recolectan los datos. Variable. Una característica que interesa de un elemento. Observación. El conjunto de mediciones obtenidas de un elemento determinado. Escala nominal. Escala de medición de una variable cuando los datos son etiquetas o nombres que se emplean para identificar un atributo de un elemento. Los datos nominales pueden ser no numéricos o numéricos. Escala ordinal. Escala de medición de una variable cuando los datos presentan las propiedades de los datos nominales y el orden o jerarquía de los datos tiene sentido. Los datos ordinales pueden ser no numéricos o numéricos. Escala de intervalo. Escala de medición de una variable cuando los datos presentan las propiedades de los datos ordinales y los intervalos entre valores se expresan en términos de una unidad o medida fija. Los datos de intervalo siempre son numéricos. Escala de razón. Escala de medición de una variable cuando los datos presentan todas las propiedades de los datos de intervalo y la razón entre dos valores tiene sentido. Los datos de...