Stata dataset management PDF

Title	Stata dataset management
Course	Methodologie van het Algemeen Economisch Onderzoek
Institution	Universiteit Gent
Pages	8
File Size	196.4 KB
File Type	PDF
Total Downloads	14
Total Views	160

Preview

CLICK TO PREVIEW PDF

Summary

Notities bij slides...

Description

Stata – 2 Dataset management

Dataset management = data uit verschillende databanken bij elkaar zetten, combineren. - Kan ook in excel op zich, - maar stata heeft enkele handige commando’s om informatie uit verschillende datasets samen te zetten.

1

“gravity equation” • empirical workhorse to study ex post effects of free trade agreements (FTAs) on bilateral merchandise trade flows • explain variation in country pairs' trade flows in terms of • • • •

countries' incomes bilateral distance dummy variables for common languages, for common land borders, … dummy variable for presence or absence of an FTA

ln TRijt   FTAijt  1GDPit   2GDPjt   Dij  1borderij  1 languageij   ijt

We bekijken data voor de graviteitsvergelijking. Waarom? - meerdere dimensies (i, j, t) - standaardvariabelen (> 2 categorieën) en dummy-variabelen - reeds gezien in de les rond panel data

2

Use setting to explain following stata commands • Merge • Append • Collapse • Save • Erase • Preserve - Restore

Deze commando’s zullen we vandaag oefenen in Stata, a.d.h.v. een voorbeeld.

3

Underlying datasets • Open and inspect following datasets: • “tradeflows9000.dta” • “origin9000.dta” • “destination9000.dta” • destring – tostring

• “pair_characteritics9000.dta” • Datasets are already in “long” format

• We will combine these into a dataset to be able to estimate: ln TRijt   FTAijt  1GDPit   2GDPjt   Dij  1borderij  1languageij  ijt

We hebben 4 datasets die we samen moeten zetten: - “tradeflows9000.dta” - “origin9000.dta” - “destination9000.dta” - “pair_characteritics9000.dta” We combineren deze 4 datasets tot 1 dataset om de gravitatievergelijking te kunnen schatten. We kijken vooreerst hoe deze datasets eruit zien. - In vorige les zagen we hoe een dataset eruit moet zien. Een van de vereisten van Stata was een "lang" formaat voor analyse, d.w.z. elk datapunt moet in een andere rij staan. Hier hebben de datasets reeds een "lang" formaat. - use "\\Client\C$\Users\vinan\Documents\...\Module II - Producent, PC Lab\2_Dataset management\tradeflows9000.dta", clear - browse, tab, … - Bv. tradeflows: bilaterale handelsstromen (handelsstroom tss origin en destination) Gravitatievergelijking: FTA  pta; dimensie: origin-destination-year GDPit  gdp voor origin land op tijdstip t; dimensie: origin-year

4

-

GDPjt  gdp voor destination land op tijdstip t; dimensie: destination-year Dij, borderij en languageij vervat in laatste dataset, tijdsinvariant; dimensie: origin-destination

4

“Merge ”-ing • Let’s check the help function and put our dataset together

Samenvoegen van datasets via merge: Als we een extra kolom willen krijgen in dataset 1 Voeg dataset 1 toe merge 1:1 betekent dat precies 1 observatie in de dataset in het geheugen overeenstemt met 1 observatie in de dataset die we er aan willen toevoegen. Hier: use \\Client\C$\Users\vinan\Documents\UGent\Algemene Economie\1e semester\Methodologie van het algemeen economisch onderzoek\Module II Producent, PC Lab\2_Dataset management\tradeflows9000.dta , clear merge m:1 iso2_o year using \\Client\C$\Users\vinan\Documents\UGent\Algemene Economie\1e semester\Methodologie van het algemeen economisch onderzoek\Module II Producent, PC Lab\2_Dataset management\origin9000.dta -

Gdp’s toegevoegd nu nieuwe variable ‘_merged’ die aantoont hoe het zit

5

More data is better … • We also have a dataset of with gravity information for the years before 1990! • “gravity before 90.dta”

• This is different from before, the two datasets have the same structure but refer to different time periods • append ! • … and save

Bekijk dataset “gravity before 90.dta”. We hebben nu dezelfde dataset die we daarjuist bekwamen na al de merge’s. We willen nu niet mergen, we willen niet meer kolommen, maar we willen de twee datasets onder elkaar kleven. Dit kunnen we via commando append. append using \\Client\C$\Users\vinan\Documents\UGent\Algemene Economie\1e semester\Methodologie van het algemeen economisch onderzoek\Module II Producent, PC Lab\2_Dataset management\gravity before 90.dta compress save \\Client\C$\Users\vinan\Documents\UGent\Algemene Economie\1e semester\Methodologie van het algemeen economisch onderzoek\Module II Producent, PC Lab\2_Dataset management\gravity_ALL.dta , replace Je kan data nog opschonen: replace pta = rta if pta==. & rta!=. …

6

We cannot undo smt. in Stata -> do-file! • But also preserve – restore • Generate an identifier for a country pair • Generate sum of GDPs if trade flow and the GDPs are non-missing • Create scatterplot relating average (log) trade flow and (log) GDP-sum • collapse

• Some authors argued to estimate a gravity models using decade averages rather than annual data?

Dataset in geheugen wil je vasthouden  Preserve en restore Gevraagd: - Generate an identifier for a country pair - Combinaties van 2 landen - bv. AW en BE is combinatie 1, FR en NL is combinatie 2, enz. - Commando: egen id = group(iso2_o iso2_d) - order id om id vooraan te krijgen - Generate sum of GDPs if trade flow and the GDPs are non-missing - gen sumgdp = gdp_o + gdp_d if gdp_o...