Proef/oefen tentamen, vragen en antwoorden PDF

Title Proef/oefen tentamen, vragen en antwoorden
Course Exploratieve en Descriptieve Data Analyse
Institution Universiteit Hasselt
Pages 3
File Size 78.2 KB
File Type PDF
Total Downloads 135
Total Views 354

Summary

Oplossing voorbeeldexamen: Vraag 1. Geom_bar geeft de onafhankelijk variabele weer op de x-as en de frequentie ervan op de y-as (count) Bij geom_col kan je 2 variabelen weergeven, nl de onafhankelijke op de x-as en de afhankelijk op de y-as. Vraag 2. De color = “blue” moet buiten de aes() staan, dus...


Description

Oplossing voorbeeldexamen: Vraag 1. Geom_bar geeft de onafhankelijk variabele weer op de x-as en de frequentie ervan op de y-as (count) Bij geom_col kan je 2 variabelen weergeven, nl de onafhankelijke op de x-as en de afhankelijk op de y-as. Vraag 2. De color = “blue” moet buiten de aes() staan, dus om de puntenwolk blauw te maken moet je volgend commando gebruiken: ggplot(msleep) + geom_point(aes(sleep_rem, sleeptotal), color = “blue”) Vraag 3. a) ggplot(diamonds) + geom_bar(aes( cut, fill = clarity), position = “dodge”)+ coord_flip() b) Wat is er fout: ● Cumsum(freq) moet cumsum(rel_freq) zijn ● arrange moet voor filter komen ● arrange( - cum_rel_freq) moet arrange(- freq) zijn De juiste code: diamonds %>% group_by(clarity) %>% summarize(freq = n()) %>% mutate(rel_freq = freq/sum(freq), cum_rel_freq = cumsum(rel_freq)) %>% arrange(-freq) %>% filter(1:5)

Vraag 4. Uitleg: 21 jaar na 1996 (in het jaar 2017) is er geen 29 februari (geen schrikkeljaar) Juiste code: ymd("19960229") %m+% years(21) Vraag 5. Op zich geeft elke grafiek dezelfde informatie weer, toch zijn sommige grafieken beter dan anderen. ● Grafiek 1: ○ Bij deze grafiek is het makkelijk te zien dat er vooral vertragingen zijn bij kortere afstanden ten opzichte van langere afstanden. ○ Ook zijn uitschieters makkelijker te herkennen ● Grafiek 2: ○ Makkelijk om de ‘UniqueCarriers’ onder elkaar te vergelijken en te zien bij welke carrier er uitschieters zijn ○ Ook geven de boxplots de verdeling weer van de vertraging ● Grafiek 3: ○ Dit is makkelijk om te kijken bij welke afstands-categorieën de meeste vertragingen zijn. ○ Ook kan je zien welke uniquecarrier het meeste voorkomt per afstand Vraag 6. a) car_ads %>% group_by(price) %>% summarize( min = min(price), q1 = quantile(price, 0.25), mean = mean(price), median = median(price), q3 = quantile(price, 0.75), max = max(price), iqr = IQR(price), standard_dev = sd(price) b) ggplot(car_ads, aes( price, mileage, color = engine_type)) + geom_point() + facet_wrap(~body)

Vraag 7. a) =GEMIDDELDE.ALS(B2:B29; B2 = “woensdag”; D2:D29) Opmerking: op 22/02 is er een woensdag waarbij er geen prijs was maar aangezien excel dit als prijs = 0 beschouwt is dit niet helemaal juist. Dus bhu b) ● ● ●



F2: =SUM(F1 + E2) → dit is niet juist voor de eerste natuurlijk G2: =ALS(F2 => 500; “Goud”; ALS(F2 < 100; “Standaard”; “Zilver”)) H2: =ALS(G2 = “Standaard”; ALS(C2 => 10; 10% ; ALS(C2 < 5; 0.00%; 5.00%)); ALS(G2= “Zilver”; ALS(C2 => 10; 12.00%; ALS(C2 => 5; 6.00%; ALS(C2 => 3; 3.00%; 0.00%))); ALS(C2 => 10; 15.00%; ALS(C2 => 5; 10.00%; ALS( C2 => 3; 5.00% ; 3.00%)))) I2: =E2 - H2

Vraag 8. Descriptieve data analyse wilt in deze context zeggen dat je puur uit de verkoopgegevens gaat kijken en hieruit grafieken gaat maken om informatie te verzamelen. Hier ga je geen conclusies uit trekken. Maar bij confirmatorische data analyse ga je echt conclusies trekken uit bepaalde data zoals: de stijging in de verkoop tijdens de solden hangt af van de lagere prijs. Vraag 9. Dit kan je gebruiken voor een continue variabele. Bij een violin plot zie je niet enkel de frequentie van de waarden maar ook het volume ervan. Vraag 10.

Pearson correlatiecoëfficiënt laat toe om de sterkte van een associatie te evalueren en meet de lineaire associatie tussen 2 variabelen. Dit is ook de meest gebruikelijke correlatiecoëfficiënt voor continue variabelen. Spearman’s rangcorrelatiecoëfficiënt werkt via hetzelfde principe als Pearson’s, maar is gebaseerd op de rangorde van de waarden in plaats van de waarden zelf. Het meet de associatie tussen 2 variabelen, dus niet specifiek lineaire associatie....


Similar Free PDFs