Schema data-analyse PDF

Title	Schema data-analyse
Course	Exploratieve en Descriptieve Data Analyse
Institution	Universiteit Hasselt
Pages	8
File Size	124 KB
File Type	PDF
Total Downloads	35
Total Views	342

Preview

CLICK TO PREVIEW PDF

Summary

Schema hiermee wordt de dataset definieert hoe de variabelen in kaart worden gebracht op de esthetiek. zijn de visuals die we in de grafiek zien: positie, kleur, vorm, om variabelen uit een data te halen, als je bijvoorbeeld dan krijg je alle landen die telt het aantal berekent alle elementen die in...

Description

Schema data-analyse 

Data:  hiermee wordt de dataset gedefinieerd



Mapping:  definieert hoe de variabelen in kaart worden gebracht op de esthetiek. De esthetiek zijn de visuals die we in de grafiek zien: positie, kleur, vorm, grootte, lijntype,…



dollarteken $  om één variabelen uit een data te halen, als je bijvoorbeeld football$country doet, dan krijg je alle landen die voetballen



length()  telt het aantal elementen



levels()  berekent alle elementen die in deze variabele zitten

Een voorbeeld: je wilt weten welke landen allemaal meededen aan het WK length(levels(football$country)) 

arrange  je kan sorteren van hoog naar laag, dit doe je door arrange(desc(…)), maar stel nu dat je van laag naar hoog doet dan laat je desc gewoon weg en krijg je dus arrange(…) Hoog en laag is gelijk aan groot en klein



Verschillende soorten esthetiek:  x: bepaalt de positie van de punten langs de x-as  y: bepaalt de positie van de punten langs de y-as  color: bepaalt de kleur van de punten  shape: bepaalt het type punten (cirkel, driehoek, vierkant, kruisje,…)  fill: bepaalt hoe de punten worden ingevuld dan krijg je fill=”red”, of je kan het ook gebruiken om een variabele een kleur te geven bijvoorbeeld: fill= animatiefilms (let op aanhalingstekens)  size: bepaalt de grootte van de punten  stroke: bepaalt de breedte van de rand  alpha: bepaalt de mate van transparantie (= doorzichtigheid)  linetype: bepaalt het type van de rand (‘’blank’’, ‘‘solid’’, ‘‘dashed’’ , ‘’dotted’’, ‘’dotdash’’, ‘’longdash’’ en ‘’twodash’’ zie tutorial bij histogram)  weight: hoe waarnemingen moeten worden afgewogen. Standaard wordt elke waarneming als één gewogen  position: is om de balken uit elkaar te halen (position= “dodge”) of volledig tot boven te vullen (position = “fill”)

Je kan het op 2 manieren instellen: - je kan ze toewijzen aan een variabele in de dataset, dus binnen aes gezet worden - ze kunnen op 1 vaste waarde worden ingesteld, stel dat je bij geom_text alles met een witte rand wilt, is dit een vaste waarde en MAG HET NIET binnen aes staan. - Conclusie: als je color= variabele moet het binnen aes(), als je color= white (een kleur en dus geen variabele) moet het buiten aes()  toewijzen aan een variabele in de dataset betekent mapping= aes (x=budget, y= rating), op 1 vaste waarde instellen bijvoorbeeld: geom_point( shape =24, fill = “red”, color = “black”, size = 2) Opmerking: als je een variabele bijvoorbeeld action wilt toewijzen aan een kleur, dan doe je dit me met color= action (hier zijn geen “ “ nodig) 

Scatterplot: (continue variabele)  maak je met behulp van geom_point  heeft zowel een x als een y



geom_histogram (continue variabele)  één continue x variabele  geen y  als je de breedte van je balken wilt aanpassen doe je dit met binwidth  als je de balken uit elkaar wilt doen moet je position= “dodge” doen, als je dit gedaan hebt en terug de originele histogram wilt hebben dan doe je position= “stack” Opmerking: - je mag data= , mapping= en x= y= weglaten - namen van variabelen worden altijd gebruikt zonder aanhalingstekens, terwijl vaste esthetiek (= color, shape, linetype) altijd met aanhalingstekens worden genoteerd behalve cijfers, deze zijn altijd zonder aanhalingstekens



geom_boxplot (continue variabele)  een boxplot plaatst de waarden van de variable langs de y-as  stel dat je een boxplot over de rating wilt maken dan moet je aes(y=rating) doen  zowel een x als een y  met de x-as kan je verschillende categorieën in kaart brengen, bijvoorbeeld aes(x= action, y=rating)  stel dat je enkel de rating wil plotten dan moet je aes(x=””, y=rating)



geom_violin (continue variabele)  vergelijkbaar met boxplot, alleen wordt hier meer detail gegeven over waar de massa zich bevindt  de regels hiervoor zijn hetzelfde als voor de boxplot  het kan beter voor vergelijkingen worden gebruikt



geom_bar (categorische variabele)

 enkel een x variabele  je kan hier ook met position de balken uit elkaar halen of tot boven vullen  is hetzelfde als een histogram,maar dan voor categorische variabelen 

geom_col (categorische variabele)  de hoogte van de balken worden berekend door de frequentie van de categorische variabele te gebruiken  zelfde regels als voor geom_bar alleen heb je hier zowel een x ALS een y nodig



Opmaak ggplot  legende maak je door col=…. (dit hoeft niet tussen aanhalingstekens)  titels en tussentitels doe je zo: ggplot(diamonds)+ geom_point(aes(table, depth, col= cut)) + labs( title= “Comparing table and depth of diamonds”, subtitle= “What combination of table and depth gives good quality diamonds?”, x= “Table” y= “Depth”)

 Let op vanonder staan er hoofdletters, omdat je de assen zo noemt

 Verschil geom_bar geom_col: Bij geom_bar vertrek je van ruwe data, van geom_col vertrek je meestal van een frequentie tabel



geom_tile  zowel een x als een y  je kan de rand van de tegel inkleuren met color= “ “  geom_text, bv om waarden in je tegels te zetten  scale_fill_viridis_c(): kleuren zijn meer verschillend, de kleine c staat voor continu  x en y zijn meestal categorisch  fill is meestal continu, maar kan ook categorisch zijn (dit komt alleen minder vaak voor) zoals kleur MAAR dan zet je nooit geom_text erbij!!  berekent nooit zelf frequentie dus eerst frequentietabel maken



Thema’s  Vormt het gehele uiterlijk: rasterlijne, achtergrond, grootte van de tekst, titels en legendes, de positie van de legende etc.  Er zijn verschillende soorten thema’s: - theme_gray: het standaardthema - theme_bw: thema voor zwart-witte plots - theme_dark: een donker thema voor contrast - theme_classic: een minimaal thema - theme_light: nog een minimaal thema

-

theme_linedrax: nog een ander minimaal thema theme_minimal: nog een ander minimaal thema theme_void: een leeg thema



Limieten  Gebruiken van functie coord_cartesianen met de argumenten xlim en ylim  Je noteert dit: coord_cartesianen(xlim= c(45,75), ylim c(50,75))  hierdoor je krijg je op de x-as het interval 45 tot 75 en op de y-as het interval 50 tot 75)  Er zijn verschillende soorten coördinaten - coord_equel: zorgt ervoor dat de x en y-as gelijk worden - coord_fixed: systeem met vaste verhouding - coord_polor: systeem voor poolgrafieken of cirkeldiagrammen - coord_map: systeem voor het plotten van geografische gegevens - coord_flip: de y-as en x-as omwisselen  wanneer wij onderbrekingen willen in de x en/of y as doen wij het volgende: scale_x_continuous(breaks= seq(45,75,5)) + scale_y_continuous(breaks= seq(50,5,75))



Kleurenschalen  Je kan verschillende soorten kleurenpalletten nemen voor je legende dit doe je door: scale_color_brewer(palette= “Setl”)  Je kan je legende ook nog een naam geven dan krijg je:  scale_color_brewer(palette= “Setl”, name= “Diamond Cut Quality”)

Uit al het bovenstaande volgt : ggplot(diamonds)+ geom_point(aes(table, depth, col= cut)) + labs( title= “Comparing table and depth of diamonds”, subtitle= “What combination of table and depth gives good quality diamonds?”, x= “Table” y= “Depth”)+ theme_light()+ coord_cartesian(xlim= c(45,75), ylim= c(50,85))+ scale_x_continuous(breaks= seq(45,75,5)) + scale_y_continuous(breaks= seq(50,5,75)) + scale_color_brewer(palette= “Setl”, name= “Diamond Cut Quality”) 

facet_grid  gebruik je om verschillende plots binnen een plot te maken  wil je bijvoorbeeld van iedere clarity een aparte plot dan doe je dit: facet_grid(. ~clarity)  wil je nu vervolgens alle plots in rijen/kolommen onder elkaar zetten dan doe je: (bijvoorbeeld 3 kolommen)

facet_grid(. ~clarity)+ facet_wrap(. ~clarity, ncol=3)  wil je nu de legende van plaats veranderen, in dit geval wil je de legende boven de plots zetten, dan doe je dit : facet_grid(. ~clarity)+ facet_wrap(~clarity, ncol=3) + theme(legend.position = “top”) 

filter  hiermee kan je kiezen welke argumenten je precies wilt hebben van een variabelen, bijvoorbeeld je wilt alle films van 2004 die een budget hebben dat groter is dan 10000, dan doe je dit: filter(movies == 2004, budget > 10000000) %>% ggplot()+ geom_col(aes(title,budget)) + coord_flip()  Merk op dat je filter niet gebruikt bij ggplot, en merk op dat je 2 =tekens nodig hebt!!



Reorder  Deze heeft altijd 2 argumenten, dus een x en een y  Hiermee kan je de variabelen herschikken  Je hebt altijd een variabele die je wilt herordenen en een variabele die je gebruikt om de eerste variabele te kunnen herordenen  Terugkomend op het vorige voorbeeld, je wilt nu de titels herschikken volgens budget, dan is titel je herordenen variabelen en budget de variabele die je gebruikt om de titels te kunnen ordenen, dit geeft dan: filter(movies == 2004, budget > 10000000) %>% ggplot()+ geom_col(aes(reorder(title,budget), budget) + coord_flip() +



Meerde lagen  Stel nu dat je bij het vorige voorbeeld een titel en tussentitel wilt, je assen anders wilt benoemen, je het budget van 10000000 veel te groot vindt en dit wilt verkleinen en je de kleur van je balken anders wilt dan krijg je dit: (zie volgende pagina)

filter(movies == 2004, budget > 10000000) %>% ggplot()+

geom_col(aes(reorder(title,budget), budget/1000000, fill = “grey”) + coord_flip() + labs(title= “Moveis budgets”, subtitle= “What was the budget of the movies from 2004 with a budget hihger than 100 million?”, x= “Title”, y= “Budget (in million dollars)”)+ theme_ligth() 

geom_text  hiermee kan je de exacte waarde in de balken plaatsen  je kan hier ook de balken mee uitlijnen door hjust= een getal  je kan ook de kleur van je letters bepalen door color= “…”  en je kan het lettertype kiezen door fontface=”…” Een voorbeeld: filter(movies == 2004, budget > 10000000) %>% ggplot()+ geom_col(aes(reorder(title,budget), budget/1000000, fill = “grey”) + coord_flip() + geom_text(aes(reorder(title, budget), budget/1000000, label= budget/1000000), color= “white”, fontface=”bold”, hjust=1) + labs(title= “Moveis budgets”, subtitle= “What was the budget of the movies from 2004 with a budget hihger than 100 million?”, x= “Title”, y= “Budget (in million dollars)”)+ theme_ligth()

 Je kan deze makkelijker noteren door hetgeen bij geom_col hetzelfde is als bij geom_text gewoon weg te laten hier: filter(movies == 2004, budget > 10000000) %>% ggplot()+ geom_col(fill = “grey”) + coord_flip() + geom_text(aes(reorder(title, budget), budget/1000000, label= budget/1000000), color= “white”, fontface=”bold”, hjust=1) + labs(title= “Moveis budgets”, subtitle= “What was the budget of the movies from 2004 with a budget hihger than 100 million?”, x= “Title”, y= “Budget (in million dollars)”)+ theme_ligth()



Aes  Je kan aes zowel in ggplot als in de geomlagen doen

 Er is een klein verschil tussen deze: wanneer er verschillende lagen (dus verschillende +jes etc.) is het de gewoonte om het in ggplot te zetten  Doordat je het in ggplot zet hoef je het enkel nog in geom_text te herhalen, maar niet meer in geom_col 

Extraatjes van de werkzitting  Als je 2 categorische variabelen hebt, moet je in plaats van geom_point, geom_jitter doen, anders liggen al je punten op elkaar bij geom_point  Bij cor is de standaard gebruikte mehtode Pearson  Vraag 11 WZ4 Als je group_by doet en hier color, clarity zet en vervolgens summarize(frequency=n()) doet, dan gaat die enkel de frequentie van color berekenen en valt clarity weg!! Als je vervolgens de relatieve frequentie nodig hebt, dan moet je select(-frequency) doen om deze weg te laten gaan  Vraag 13 WZ4 Je hebt zelf de freuqenties berekend en dan geom_col gebruikt. Bij geom_bar kan je de frequenties laten berekenen  (deplyr functies gaan allemaal weg)  Vraag 14 WZ4 Voor ~ mag je de punt weglaten, achter ~ niet, dus het is het veiligst om het altijd te doen.  Is een factor = object?  Een factor is een object, maar niet elk object is een factor, een vector is ook een object, object is meer algemeen.  Wanneer c() ervoor?  Als je meerdere objecten wil combineren, als het maar 1 object is moet het niet.  Je moet de gemiddeldes altijd plotten, want verschillende getallen ver van de komma kan voor een heel andere visualisatie zorgen. Dus data bekijken volgens centrummaten maar plot het ook op een grafiek. Niet alleen boxplots tekenen want deze blijven vaak hetzelfde.  2 categorische variabelen:  contingentietabel: absolute frequenties en relatieve frequenties binnen bepaalde variabelen, volgens kolommen of over alle combinaties variablen waarvan je relatieve frequentie van wilt berekenen moet je als eerste staan bij group_by!  als je spread wilt doen, moet je de absolute frequentie opnieuw verwijderen

 Verschil geom_bar geom_col: Bij geom_bar vertrek je van ruwe data, van geom_col vertrek je meestal van een frequentie tabel  geom_tile berekent nooit zelf frequentie dus eerst frequentietabel maken  functie: count()  aantal variabelen maakt hier niet uit  Het is makkelijker om te schrijven, maar verwijdert de volledige groepering  cut is een ordende factor: slecht, goed, heel goed, ideaal,…...