5 descriptiva - Preguntas examen R PDF

Title 5 descriptiva - Preguntas examen R
Author Darío Herrera Boga
Course Estadistica
Institution Universidade da Coruña
Pages 19
File Size 376.5 KB
File Type PDF
Total Downloads 19
Total Views 174

Summary

Apuntes R tema 5...


Description

Práctica 5. Estadística Descriptiva con R-Commander Anónimo 10/04/19

5.1. R-Commander Interfaz gráfica para R que permite acceder a muchas capacidades de R sin utilizar el lenguaje de programación.

Instalación: En la consola de R (o de RStudio) se ejecuta la instrucción install.packages("Rcmdr") (Ojo con las comillas)

Ejecución En la consola de R (O de RStudio) se ejecuta la instrucción library(Rcmdr). Si se cierra la ventana de R-Commander puede volver a abrirse con la instrucción Commander en la consola de R (o RStudio)

5.3 Lectura de datos • En RStudio es posible cargar los ficheros en formato R haciendo click directamente desde el explorador de ficheros integrado. • Datos en formato R (extensiones .rda o .RData): load("ruta/del/fichero.RData") • Datos en formato de texto o csv: read.table("ruta/del/fichero.txt") Ejercicio. Lee los datos del fichero top500.RData y clasifica las variables en cualitativas o cuantitativas str(top500) ## 'data.frame': 500 obs. of 22 variables: ## $ Puesto : int 1 2 3 4 5 6 7 8 9 10 ... ## $ Sitio : Factor w/ 223 levels "A*STAR Computational Resource Centre",..: 155 46 156 80 45 2 ## $ Fabricante : Factor w/ 7 levels "Cray Inc.","Dell",..: 6 1 6 6 1 6 4 1 4 1 ... ## $ Equipo : Factor w/ 222 levels "ACTION Cluster Xeon E5345 Infiniband",..: 160 104 115 136 95 ## $ Pais : Factor w/ 29 levels "Australia","Austria",..: 6 29 6 15 29 9 29 29 10 29 ... ## $ Año : int 2010 2009 2010 2010 2010 2010 2009 2009 2009 2010 ... ## $ Nucleos : int 186368 224162 120640 73278 153408 138368 122400 98928 294912 107152 ... ## $ RMax : num 2.57 1.76 1.27 1.19 1.05 ... ## $ RPeak : num 4.7 2.33 2.98 2.29 1.29 ... ## $ Potencia : num 4.04 6.95 2.58 1.4 2.91 ... ## $ Familia : Factor w/ 4 levels "AMD","Intel",..: 2 1 2 2 1 2 4 1 4 1 ... ## $ Procesador : Factor w/ 33 levels "AMD x86_64 Opteron 12 Core",..: 20 5 20 20 1 11 31 5 29 2 ... ## $ Frecuencia : num 2.93 2.6 2.66 2.93 2.1 2.26 3.2 2.6 0.85 2.4 ... ## $ Nucleosproc : int 6 6 6 6 12 8 9 6 4 8 ... ## $ Sistema : Factor w/ 45 levels "ACTION Cluster",..: 35 8 10 20 7 4 24 8 23 7 ... ## $ Modelo : Factor w/ 122 levels "ACTION Cluster",..: 80 43 50 37 38 21 14 43 16 38 ... ## $ SO : Factor w/ 18 levels "AIX","Cell OS",..: 6 6 6 6 6 6 6 6 4 6 ...

1

## ## ## ## ## ##

$ $ $ $ $ -

Arquitectura: Factor w/ 3 levels "Cluster","Constellations",..: 3 3 1 1 3 1 1 3 3 3 ... Segmento : Factor w/ 6 levels "Academic","Classified",..: 5 5 5 1 5 5 5 1 5 5 ... Aplicacion : Factor w/ 31 levels "Aerospace","Automotive",..: 23 22 23 23 23 7 22 23 23 23 ... Region : Factor w/ 11 levels "Australia and New Zealand",..: 2 4 2 2 4 11 4 4 11 4 ... Continente : Factor w/ 4 levels "Americas","Asia",..: 2 1 2 2 1 3 1 1 3 1 ... attr(*, "variable.labels")= chr "Posición en el ranking TOP 500" "Sitio de instalación - Client

La función str resume la estructura de la base de datos, dando información de cada una de las variables. Aquellas marcadas como Factor en la lista son variables cualitativas, es decir, cada uno de los valores representa una clase o una propiedad que cumple cada PC. El número de niveles de una variable de tipo factor representa la cantidad de valores distintos que puede tener. Por ejemplo, la variable fabricante es un factor cuyas clases son “Cray Inc”, “Dell”, “HP”, etc. Aquellas variables marcadas como int o num son variables cuantitativas, es decir, valores numéricos de alguna propiedad o medida. Por ejemplo, la variable Núcleos cuenta la cantidad de núcleos del PC concreto, la variable RMax representa una medida del rendimiento máximo que alcanza el PC.

5.4. Preparación del fichero de datos El símbolo del dólar $ permite acceder a las columnas de la base de datos, pudiendo crear nuevas columnas: top500$LogRMax = log(top500$RMax) Guardado de datos save(top500, file="top500b.RData") Ejercicio. Crea la variable LogRPeak como transformación a logaritmo del rendimiento teórico top500$LogRPeak = log(top500$RPeak)

5.5. Análisis descriptivo de variables cualitativas La función summary hace un resumen de la variable, proporcionando resultados distintos si la función es cualitativa o cuantitativa. Por ejemplo: summary(top500$Fabricante) ## Cray Inc. ## 29

Dell 19

HP 159

IBM 200

Oracle 11

Otros 60

SGI 22

summary(top500$Pais) ## ## ## ## ## ## ## ## ## ## ## ##

Australia 4 China 41 Hong Kong 1 Korea, South 3 Russia 11 Sweden 6

Austria Belgium 1 2 Denmark Finland 2 1 India Ireland 4 1 Netherlands New Zealand 2 5 Saudi Arabia Singapore 6 2 Switzerland United Kingdom 4 25

2

Brazil 2 France 26 Italy 6 Norway 3 Slovenia 1 United States 274

Canada 6 Germany 26 Japan 26 Poland 6 Spain 3

summary(top500$Familia) ## ##

AMD Intel Otros Power 57 398 5 40

summary(top500$Arquitectura) ## ##

Cluster Constellations 414 2

MPP 84

summary(top500$Sitio) summary(top500$Equipo) summary(top500$Procesador) summary(top500$Sistema) summary(top500$Modelo) summary(top500$SO) summary(top500$Segmento) summary(top500$Aplicacion) summary(top500$Region) summary(top500$Continente) De la misma forma, es posible construir la distribución de frecuencias absolutas (conteo) con la función table. table(top500$Familia) ## ## ##

AMD Intel Otros Power 57 398 5 40

La función prop.table permite calcular las frecuencias relativas (proporciones) de las distintas clases: 100*prop.table(table(top500$Familia)) ## ## ##

AMD Intel Otros Power 11.4 79.6 1.0 8.0

Es decir, 57 de los PC de la lista son de la familia AMD, lo que supone un 11.4% del total.

Representaciones gráficas Las variables cualitativas se representan básicamente representando las proporciones de las clases que las definen. Por ejemplo, en el gráfico de sectores o tipo tarta aquella clase con mayor número de muestras ocupará la mayor parte de la tarta. Por otra parte, el gráfico de barras crea una barra para cada clase de la variable, donde la altura de la barra es la que representa la proporción de cada clase. ### Gráfico de sectores pie(table(top500$Familia))

3

AMD Intel Power Otros

Gráfico de barras barplot(table(top500$Familia))

4

300 200 100 0

AMD

Intel

Otros

Power

Ejercicio 1. Estudio descriptivo de las variables cualitativas Sistema, Arquitectura y Procesador. • Sistema Frecuencias absolutas: table(top500$Sistema) Frecuencias relativas (proporciones): 100*prop.table(table(top500$Sistema)) Gráficos: pie(table(top500$Familia)) barplot(table(top500$Familia)) • Arquitectura Frecuencias absolutas: table(top500$Arquitectura) Frecuencias relativas (proporciones): 100*prop.table(table(top500$Arquitectura)) Gráficos:

5

pie(table(top500$Arquitectura)) barplot(table(top500$Arquitectura)) • Procesador Frecuencias absolutas: table(top500$Procesador) Frecuencias relativas (proporciones): 100*prop.table(table(top500$Procesador)) Gráficos: pie(table(top500$Procesador)) barplot(table(top500$Procesador)) 2. ¿Podrías repetir el mismo estudio con la variable Año? En R-Commander NO es posible, ya que es necesario convertir la variable en factor primero tal y como se explica en la práctica. Sin embargo, trabajando directamente con R SÍ es posible ya que hará la conversión de forma automática. table(top500$Año) ## ## 2005 2006 2007 2008 2009 2010 ## 1 6 16 36 134 307 100*prop.table(table(top500$Año)) ## ## 2005 2006 2007 2008 2009 2010 ## 0.2 1.2 3.2 7.2 26.8 61.4 pie(table(top500$Año))

6

2009 2008 2007 2006 2005

2010

barplot(table(top500$Año))

7

100 150 200 250 300 50 0

2005

2006

2007

2008

2009

2010

5.6. Análisis descriptivo de variables numéricas En las variables numéricas (cuantitativas) es razonable realizar un resumen distinto al de las variables cualitativas, uno que resuma propiedades como la media, desviación típica o cuartiles. Hay 2 formas de hacerlo en R, por un lado la función summary detectará que se trata de una variable numérica: summary(top500$Frecuencia) ## ##

Min. 1st Qu. 0.400 2.333

Median 2.630

Mean 3rd Qu. 2.613 2.930

Max. 4.700

Si se quiere establecer opciones concretas es necesario utilizar la función numSummary del paquete Rcmdr (es decir, es necesario haber instalado R-Commander): RcmdrMisc::numSummary(top500$Frecuencia, statistics=c("mean", "sd", "quantiles", "IQR", "cv"), quantiles=c(0.25, 0.5, 0.75)) ## ##

mean sd IQR cv 25% 50% 75% n 2.612666 0.5868782 0.597 0.2246281 2.333 2.63 2.93 500

En cualquier caso, es posible calcular propiedades concretas de cada columna: • Media mean(top500$Frecuencia) ## [1] 2.612666 8

• Desviación típica sd(top500$Frecuencia) ## [1] 0.5868782 • Varianza var(top500$Frecuencia) ## [1] 0.344426 • Cuantiles quantile(top500$Frecuencia, c(0.25, 0.50, 0.75)) ## 25% 50% 75% ## 2.333 2.630 2.930

Representación gráfica La representación más habitual para las variables numéricas es el histograma: hist(top500$Frecuencia)

200 100 0

50

Frequency

300

Histogram of top500$Frecuencia

0

1

2

3

4

top500$Frecuencia Se aprecia como el mayor número de PC tienen una frecuencia de entre 2 y 3 GHz. Otra representación gráfica muy utilizada es el diagrama de cajas:

9

5

1

2

3

4

boxplot(top500$Frecuencia)

Donde la caja central representa los 3 primeros cuartiles, la línea gruesa central la mediana y los puntos separados de la caja posibles valores atípicos.

Análisis por grupos En ocasiones es importante analizar unas variables con respecto a otras, por ejemplo la frecuencia del procesador con respecto a la Familia o arquitectura del PC. Para conseguir un resumen numérico es posible utilizar la función numSummary del paquete Rcmdr o hacerlo a mano: RcmdrMisc::numSummary(top500$Frecuencia, groups=top500$Familia, statistics=c("mean", "sd", "quantiles", "IQR", "cv"), quantiles=c(0.25, 0.5, 0.75)) ## ## ## ## ##

AMD Intel Otros Power

mean 2.268421 2.644053 1.700000 2.905000

sd 0.1743948 0.2703734 1.2609520 1.7545107

IQR 0.30 0.40 2.10 3.85

cv 0.07687936 0.10225718 0.74173648 0.60396237

25% 2.10 2.53 0.40 0.85

50% 2.30 2.66 2.00 3.20

tapply(top500$Frecuencia, top500$Familia, summary) ## $AMD ## Min. 1st Qu. ## 1.900 2.100 ##

Median 2.300

Mean 3rd Qu. 2.268 2.400

Max. 2.600

10

75% data:n 2.40 57 2.93 398 2.50 5 4.70 40

## $Intel ## Min. 1st Qu. ## 1.600 2.530 ## ## $Otros ## Min. 1st Qu. ## 0.4 0.4 ## ## $Power ## Min. 1st Qu. ## 0.700 0.850

Median 2.660

Mean 3rd Qu. 2.644 2.930

Max. 3.600

Median 2.0

Mean 3rd Qu. 1.7 2.5

Max. 3.2

Median 3.200

Mean 3rd Qu. 2.905 4.700

Max. 4.700

Gráficas por grupos Es posible realizar análisis gráficos por grupos, por ejemplo con diagramas de caja donde, en el eje X se coloca la variable de agrupación y en el eje Y la variable a desglosar:

1

2

3

4

boxplot(top500$Frecuencia ~ top500$Familia)

AMD

Intel

Otros

Power

En las familias AMD e Intel la frecuencia del procesador está concentrada entre 2 y 3 GHz, en las demás presenta mucha más variabilidad.

5.7 Ejercicio 1. Haz un estudio completo de las variables RMax y RPeak. Compara ambos rendimientos 11

Ambas variables son numéricas (cuantitativas), por tanto se realizará un análisis numérico y gráfico acorde. • Variable RMax, análisis numérico: summary(top500$RMax) ## Min. 1st Qu. Median Mean 3rd Qu. Max. ## 0.03111 0.03469 0.04067 0.08735 0.06027 2.56600 RcmdrMisc::numSummary(top500$RMax, statistics=c("mean", "sd", "quantiles", "IQR", "cv"), quantiles=c(0.25, 0.5, 0.75)) ## ## ## ##

mean sd IQR cv 25% 50% 75% 0.08734618 0.1932492 0.02558085 2.212452 0.0346938 0.0406703 0.06027465 n 500 • Variable RMax, análisis gráfico

hist(top500$RMax)

300 200 0

100

Frequency

400

Histogram of top500$RMax

0.0

0.5

1.0

1.5

top500$RMax boxplot(top500$RMax)

12

2.0

2.5

2.5 2.0 1.5 1.0 0.5 0.0 • Variable RPeak, análisis numérico: summary(top500$RPeak) ## Min. 1st Qu. Median Mean 3rd Qu. Max. ## 0.03375 0.05594 0.06574 0.12931 0.09069 4.70100 RcmdrMisc::numSummary(top500$RPeak, statistics=c("mean", "sd", "quantiles", "IQR", "cv"), quantiles=c(0.25, 0.5, 0.75)) ## ##

mean sd IQR cv 25% 50% 75% n 0.1293106 0.3179402 0.034743 2.458732 0.0559434 0.06574305 0.0906864 500 • Variable RMax, análisis gráfico

hist(top500$RPeak)

13

300 200 0

100

Frequency

400

500

Histogram of top500$RPeak

0

1

2

3

top500$RPeak boxplot(top500$RPeak)

14

4

5

4 3 2 1 0 La variable RPeak es mayor en general (los máximos son más altos, así como la media y la mediana), ya que se trata del rendimiento teórico que alcanzan los PC. 2. Compara los rendimientos teniendo en cuenta la familia de procesadores • Variable RMax RcmdrMisc::numSummary(top500$RMax, groups=top500$Familia, statistics=c("mean", "sd", "quantiles", "IQR", "cv"), quantiles=c(0.25, 0.5, 0.75)) ## ## ## ## ## ## ## ## ## ##

mean 0.19052439 0.06693186 0.07088600 0.14549728 75% AMD 0.20420000 Intel 0.04651782 Otros 0.11060000 Power 0.11590000 AMD Intel Otros Power

sd 0.29172894 0.16790873 0.04213045 0.21244701 data:n 57 398 5 40

IQR 0.15232000 0.01283932 0.07175000 0.06420002

cv 1.531190 2.508652 0.594341 1.460144

tapply(top500$RMax, top500$Familia, summary) ## $AMD ## Min. 1st Qu. Median Mean 3rd Qu. Max. ## 0.03288 0.05188 0.08701 0.19052 0.20420 1.75900 ## ## $Intel 15

25% 0.05188000 0.03367850 0.03885000 0.05169998

50% 0.087010 0.038306 0.048030 0.073046

## ## ## ## ## ## ## ## ## ##

Min. 1st Qu. Median Mean 3rd Qu. Max. 0.03111 0.03368 0.03831 0.06693 0.04652 2.56600 $Otros Min. 1st Qu. Median Mean 3rd Qu. Max. 0.03455 0.03885 0.04803 0.07089 0.11060 0.12240 $Power Min. 1st Qu. Median Mean 3rd Qu. Max. 0.04450 0.05170 0.07305 0.14550 0.11590 1.04200

0.0

0.5

1.0

1.5

2.0

2.5

boxplot(top500$RMax ~ top500$Familia)

AMD

Intel

Otros

Power

En cuanto al rendimiento máximo, el punto de rendimiento más alto se encuentra en la familia Intel. Por su parte, la familia AMD tiene la media más alta y el mayor rango intercuartílico. • Variable RPeak RcmdrMisc::numSummary(top500$RPeak, groups=top500$Familia, statistics=c("mean", "sd", "quantiles", "IQR", "cv"), quantiles=c(0.25, 0.5, 0.75)) ## ## ## ## ## ##

AMD Intel Otros Power

mean sd 0.2495011 0.37544157 0.1071151 0.31167880 0.0905708 0.03433405 0.1837267 0.26947969 75% data:n

IQR 0.18708500 0.02217352 0.05492200 0.07617275

cv 1.5047693 2.9097546 0.3790852 1.4667425

16

25% 0.0725760 0.0551455 0.0663600 0.0661760

50% 0.1075000 0.0629059 0.0819200 0.0938496

## ## ## ##

AMD Intel Otros Power

0.25966100 0.07731902 0.12128200 0.14234875

57 398 5 40

tapply(top500$RPeak, top500$Familia, summary) ## ## ## ## ## ## ## ## ## ## ## ## ## ## ##

$AMD Min. 1st Qu. Median Mean 3rd Qu. Max. 0.04260 0.07258 0.10750 0.24950 0.25966 2.33100 $Intel Min. 1st Qu. Median Mean 3rd Qu. Max. 0.03375 0.05515 0.06291 0.10712 0.07732 4.70100 $Otros Min. 1st Qu. Median Mean 3rd Qu. Max. 0.05222 0.06636 0.08192 0.09057 0.12128 0.13107 $Power Min. 1st Qu. Median Mean 3rd Qu. Max. 0.05571 0.06618 0.09385 0.18373 0.14235 1.37578

0

1

2

3

4

boxplot(top500$RPeak ~ top500$Familia)

AMD

Intel

Otros

Power

El rendimiento teórico presenta una situación muy similar al rendimiento máximo en cuanto al reparto en familias.

17

3. Estudia la frecuencia del procesador con respecto a la variable Año tapply(top500$Frecuencia, top500$Año, summary) ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ##

$`2005` Min. 1st Qu. 0.7 0.7

Median 0.7

Mean 3rd Qu. 0.7 0.7

Max. 0.7

$`2006` Min. 1st Qu. 1.60 2.00

Median 2.45

Mean 3rd Qu. 2.50 2.90

Max. 3.60

$`2007` Min. 1st Qu. 0.700 0.850

Median 1.966

Mean 3rd Qu. 1.854 2.667

Max. 3.000

$`2008` Min. 1st Qu. 0.850 2.275

Median 2.333

Mean 3rd Qu. 2.697 3.000

Max. 4.700

$`2009` Min. 1st Qu. 0.850 2.425

Median 2.800

Mean 3rd Qu. 2.764 3.000

Max. 4.700

$`2010` Min. 1st Qu. 0.400 2.400

Median 2.660

Mean 3rd Qu. 2.585 2.800

Max. 4.700

boxplot(top500$Frecuencia ~ top500$Año)

18

4 3 2 1

2005

2006

2007

2008

2009

2010

La frecuencia de los procesadores tiende disminuir en dispersión, agrupando la mayor parte de los valores entre 2 y 3 GHz.

19...


Similar Free PDFs