Proef/oefen tentamen 2019, vragen PDF

Title Proef/oefen tentamen 2019, vragen
Course Exploratieve en Descriptieve Data Analyse
Institution Universiteit Hasselt
Pages 11
File Size 608.5 KB
File Type PDF
Total Downloads 384
Total Views 840

Summary

Universiteit Hasselt Faculteit Bedrijfseconomische Wetenschappen Academiejaar 2016 - 2017 1de Ba HI/BI Voorbeeld Examenvragen Exploratieve en Descriptieve Data (3345) 1 1. Leg uit in eigen woorden wat het verschil is tussen geom_bar en geom_col. 2. Slaappatronen bij zoogdieren Beschouw de dataset ms...


Description

Universiteit Hasselt Faculteit Bedrijfseconomische Wetenschappen Academiejaar 2016 - 2017

1de Ba HI/BI

Voorbeeld Examenvragen Exploratieve en Descriptieve Data (3345)

1

1. Leg uit in eigen woorden wat het verschil is tussen geom_bar en geom_col. 2. Slaappatronen bij zoogdieren Beschouw de dataset msleep met gegevens over het slaapgedrag van verschillende zoogdieren. msleep %>% glimpse ## ## ## ## ## ## ## ## ## ## ## ## ##

Observations: 83 Variables: 11 $ name

$ genus

$ vore

$ order

$ conservation $ sleep_total $ sleep_rem

$ sleep_cycle $ awake

$ brainwt

$ bodywt

"Cheetah", "Owl monkey", "Mountain beaver", "Grea... "Acinonyx", "Aotus", "Aplodontia", "Blarina", "Bo... "carni", "omni", "herbi", "omni", "herbi", "herbi... "Carnivora", "Primates", "Rodentia", "Soricomorph... "lc", NA, "nt", "lc", "domesticated", NA, "vu", N... 12.1, 17.0, 14.4, 14.9, 4.0, 14.4, 8.7, 7.0, 10.1... NA, 1.8, 2.4, 2.3, 0.7, 2.2, 1.4, NA, 2.9, NA, 0.... NA, NA, NA, 0.1333333, 0.6666667, 0.7666667, 0.38... 11.9, 7.0, 9.6, 9.1, 20.0, 9.6, 15.3, 17.0, 13.9,... NA, 0.01550, NA, 0.00029, 0.42300, NA, NA, NA, 0.... 50.000, 0.480, 1.350, 0.019, 600.000, 3.850, 20.4...

Wat is er mis met volgende code? Waarom is de puntenwolk niet blauw? ggplot(msleep) + geom_point(aes(sleep_rem, sleep_total, color = "blue"))

2

3. Beschouw de gekende diamonds dataset diamonds %>% glimpse ## Observations: 53,940 ## Variables: 10 ## $ carat 0.23, 0.21, 0.23, 0.29, 0.31, 0.24, 0.24, 0.26, 0.22, ... ## $ cut Ideal, Premium, Good, Premium, Good, Very Good, Very G... ## $ color E, E, E, I, J, J, I, H, E, H, J, J, F, J, E, E, I, J, ... ## $ clarity SI2, SI1, VS1, VS2, SI2, VVS2, VVS1, SI1, VS2, VS1, SI... ## $ depth 61.5, 59.8, 56.9, 62.4, 63.3, 62.8, 62.3, 61.9, 65.1, ... ## $ table 55, 61, 65, 58, 58, 57, 57, 55, 61, 61, 55, 56, 61, 54... ## $ price 326, 326, 327, 334, 335, 336, 336, 337, 337, 338, 339,... ## $ x 3.95, 3.89, 4.05, 4.20, 4.34, 3.94, 3.95, 4.07, 3.87, ... ## $ y 3.98, 3.84, 4.07, 4.23, 4.35, 3.96, 3.98, 4.11, 3.78, ... ## $ z 2.43, 2.31, 2.31, 2.63, 2.75, 2.48, 2.47, 2.53, 2.49, ...

a) Vul onderstaande code aan zodat je de getoonde grafiek zou bekomen.

ggplot(diamonds) + geom_bar(aes([A], fill = [B]), position = [C]) + [D]

[A] [B] [C] [D]

3

b) We willen graag een frequentietabel van de diamond-clarity levels met de top-5 levels, met de frequentie, relatieve frequentie en cumulatieve relatieve frequentie. Wat gaat er allemaal mis in deze code? Bespreek de problemen en verbeter de code. diamonds %>% group_by(clarity) %>% summarize(freq = n()) %>% mutate(rel_freq = freq/sum(freq), cum_rel_freq = cumsum(freq)) %>% filter(1:5) %>% arrange(-cum_rel_freq)

Correcte code:

4

4. K. Bouter Op 29 februari 1996 werd K. Bouter geboren. We willen graag weten wat zijn 21de verjaardag is, en voeren daarom volgende regel code uit. Echter, de uitkomst hiervan is NA. Leg uit waarom, en verbeter de code. ymd(19960229) + years(21) ## [1] NA

Correcte code:

5

5. Vluchtgegevens Beschouw de dataset delayed_flights met gegevens over vertraagde vluchten. delayed_flights %>% glimpse ## Observations: 890,196 ## Variables: 30 ## $ row_number

## $ Year

## $ Month

## $ DayofMonth

## $ DayOfWeek

## $ DepTime

## $ CRSDepTime

## $ ArrTime

## $ CRSArrTime

## $ UniqueCarrier

## $ FlightNum

## $ TailNum

## $ ActualElapsedTime ## $ CRSElapsedTime

## $ AirTime

## $ ArrDelay

## $ DepDelay

## $ Origin

## $ Dest

## $ Distance

## $ TaxiIn

## $ TaxiOut

## $ Cancelled

## $ CancellationCode ## $ Diverted

## $ CarrierDelay

## $ WeatherDelay

## $ NASDelay

## $ SecurityDelay

## $ LateAircraftDelay

0, 1, 2, 4, 5, 6, 10, 11, 15, 16, 17, 18, 19... 2008, 2008, 2008, 2008, 2008, 2008, 2008, 20... 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3,... 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4,... 2003, 754, 628, 1829, 1940, 1937, 706, 1644,... 1955, 735, 620, 1755, 1915, 1830, 700, 1510,... 2211, 1002, 804, 1959, 2121, 2037, 916, 1845... 2225, 1000, 750, 1925, 2110, 1940, 915, 1725... "WN", "WN", "WN", "WN", "WN", "WN", "WN", "W... 335, 3231, 448, 3920, 378, 509, 100, 1333, 2... "N712SW", "N772SW", "N428WN", "N464WN", "N72... 128, 128, 96, 90, 101, 240, 130, 121, 52, 22... 150, 145, 90, 90, 115, 250, 135, 135, 50, 24... 116, 113, 76, 77, 87, 230, 106, 107, 37, 213... -14, 2, 14, 34, 11, 57, 1, 80, 11, 15, -15, ... 8, 19, 8, 34, 25, 67, 6, 94, 9, 27, 9, 28, 5... "IAD", "IAD", "IND", "IND", "IND", "IND", "I... "TPA", "TPA", "BWI", "BWI", "JAX", "LAS", "M... 810, 810, 515, 515, 688, 1591, 828, 828, 162... 4, 5, 3, 3, 4, 3, 5, 6, 6, 7, 5, 4, 2, 5, 2,... 8, 10, 17, 10, 10, 7, 19, 8, 9, 8, 16, 9, 5,... 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,... "N", "N", "N", "N", "N", "N", "N", "N", "N",... 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,... NA, NA, NA, 2, NA, 10, NA, 8, NA, 3, NA, 0, ... NA, NA, NA, 0, NA, 0, NA, 0, NA, 0, NA, 0, 0... NA, NA, NA, 0, NA, 0, NA, 0, NA, 0, NA, 0, 0... NA, NA, NA, 0, NA, 0, NA, 0, NA, 0, NA, 0, 0... NA, NA, NA, 32, NA, 47, NA, 72, NA, 12, NA, ...

6

Bekijk de onderstaande grafieken (A,B en C). Toont elke grafiek dezelfde informatie? Verklaar de verschillen tussen de grafieken en argumenteer in welke situatie de ene grafiek de voorkeur geniet op de andere.

A

B

7

C

8

6. Auto advertenties Beschouw de dataset car_ads met informatie over verschillende auto advertenties. car_ads %>% glimpse() ## Observations: 9,570 ## Variables: 10 ## $ brand

## $ price

## $ body

## $ mileage

## $ engine_volume ## $ engine_type

## $ registration ## $ year

## $ model

## $ drive

"Ford", "Mercedes-Benz", "Mercedes-Benz", "Merce... 15500.00, 20500.00, 35000.00, 17800.00, 33000.00... "crossover", "sedan", "other", "van", "vagon", "... 68, 173, 135, 162, 91, 83, 199, 185, 146, 125, 0... 2.5, 1.8, 5.5, 1.8, NA, 2.0, 2.0, 1.5, 1.8, 2.2,... "Gas", "Gas", "Petrol", "Diesel", "Other", "Petr... "yes", "yes", "yes", "yes", "yes", "yes", "yes",... 2010, 2011, 2008, 2012, 2013, 2013, 2003, 2011, ... "Kuga", "E-Class", "CL 550", "B 180", "E-Class",... "full", "rear", "rear", "front", NA, "full", "fr...

a) Maak een samenvattende tabel met beschrijvende statistieken voor spreiding en centraliteit van de variabele prijs.

b) Je zou graag het effect van de kilometerstand op de prijs visueel weergeven. Je vraagt je immers af of het effect van de kilometerstand anders is afhankelijk van engine type en body. Schrijf de nodige R code. Zorg ervoor dat de inhoud van de grafiek duidelijk is voor derden.

9

7. Orderadministratie

Onderstaande afbeelding toont een Excel werkblad met bestellingen die een firma geplaatst heeft in de maand februari 2017. De firma verkoopt de zeer essentiële, maar erg moeilijk te stockeren brandstof Excellium, waarvan tevens de prijs dagelijks fluctueert.

De leverancier hanteert een systeem van getrouwheidskorting op maandbasis. Concreet komt dit erop neer dat je elke maand getrouwheid dient op te bouwen, waarna je een procentuele korting kan verdienen.

De bovenstaande afbeelding (de “Loyalty” sheet) toont de gegevens die je nodig hebt om de getrouwheidskorting te berekenen. Een klant kan doorheen de maand de status zilver of goud 10

verdienen vanaf het moment dat er die maand voor een bepaald bedrag aangekocht wordt. De getrouwheidskorting wordt vervolgens berekend op basis van deze status en het aantal eenheden van de betreffende bestelling. a) Welke formule zou je moeten gebruiken in het werkblad maandorders om de gemiddelde aankoopprijs op woensdagen te bepalen?

b) Geef de formule die je in werkblad Maandorders nodig hebt in de cellen F2, G2, H2 en I2. Houd er rekening mee dat de formule makkelijk naar beneden gekopieerd moet kunnen worden. F2 (CumBedrag) G2 (Klanttype) H2 (Korting) I2 (Te betalen) 8. Type data-analyse

Veronderstel dat je Sales Manager bent van een high-end kledingswinkel voor vrouwen. Illustreer met een concreet voorbeeld wat in deze context het verschil zou betekenen tussen een descriptieve en confirmatorische data analyse. 9. Visuele data-analyse

Voor welk type variabele kan je een violin- of boxplot gebruiken? Wat is het voordeel van een violinplot ten opzichte van een boxplot? 10. Correlatiecoëfficiënten

Als je het verband tussen twee continue variabelen X en Y wenst te meten heb je o.a. de keuze tussen Pearson’s correlatiecoëfficiënt en Spearman’s rangcorrelatiecoëfficiënt. Toch meten zij niet exact hetzelfde. Leg uit wat het verschil is tussen beiden op vlak van interpretatie van de correlatiecoëfficiënt.

11...


Similar Free PDFs