Combinación de cortes transversales en el tiempo: métodos simples para datos de panel PDF

Title Combinación de cortes transversales en el tiempo: métodos simples para datos de panel
Course Econometría I
Institution Universidad Católica Boliviana San Pablo
Pages 37
File Size 1.2 MB
File Type PDF
Total Downloads 111
Total Views 180

Summary

Combinación de cortes transversales
en el tiempo: métodos simples
para datos de panel...


Description

CAPÍTULO

13

Combinación de cortes transversales en el tiempo: métodos simples para datos de panel

H

asta ahora, se ha cubierto el análisis de regresión múltiple usando sólo datos de corte transversal o de series de tiempo. Si bien en las aplicaciones a menudo surgen estos dos casos, los conjuntos de datos que cuentan con dimensiones tanto de cortes transversales como de series de tiempo se utilizan cada vez con más frecuencia en la investigación empírica. En estos conjuntos aún se emplean métodos de regresión múltiple. De hecho, los datos con aspectos de corte transversal y de series de tiempo por lo común esclarecen importantes cuestiones de política. En este capítulo se verán varios ejemplos. Se analizarán dos tipos de conjuntos de datos en este capítulo. Una combinación independiente de cortes transversales se obtiene mediante un muestreo aleatorio de una población grande en distintos puntos del tiempo (por lo general, aunque no necesariamente, en años diferentes). Por ejemplo, en cada año, se puede extraer una muestra aleatoria de los salarios por hora, la educación, la experiencia, etc., de la fuerza laboral activa de Estados Unidos. O bien, en cualquier otro año, es posible extraer una muestra aleatoria de los precios de venta, la superficie, el número de baños, etc. de las casas vendidas en determinada zona metropolitana. Desde un punto de vista estadístico, estos conjuntos de datos cuentan con una importante característica: constan de observaciones independientemente muestreadas. Este es un aspecto clave también en el análisis de datos de corte transversal: entre otras cosas, excluye la correlación en los términos de error para distintas observaciones. Una combinación independiente de cortes transversales difiere de una sola muestra aleatoria en cuanto a que es probable que el muestreo de la población en distintos puntos del tiempo conduzca a observaciones que no se distribuyen de modo idéntico. Por ejemplo, en la mayoría de los países las distribuciones de salarios y educación han cambiado con el tiempo. Como se verá más adelante, esto es sencillo de abordar en la práctica si se permite que el intercepto de un modelo de regresión múltiple, y en algunos casos las pendientes, cambie con el tiempo. En la sección 13.1 se cubrirán estos modelos y en la sección 13.2 se estudiará la manera de emplear la combinación de cortes transversales en el tiempo para evaluar los cambios de políticas. Un conjunto de datos de panel, incluso si tiene tanto una dimensión de corte transversal como una de serie de tiempo, difiere en algunos importantes aspectos de una combinación independiente de cortes transversales. Para recolectar datos de panel, a los cuales en ocasiones se les llama datos longitudinales, se da seguimiento (o se intenta) a los mismos individuos, familias, empresas, ciudades, estados o cualquier otra cosa a lo largo del tiempo. Por ejemplo, para un conjunto de datos de panel sobre salarios individuales, horas de trabajo, educación y otros factores se hace una recolección aleatoria, eligiendo a personas de una población en un momento determinado. Luego, se vuelve a entrevistar a esos mismos sujetos en diversos momentos posteriores; lo que proporciona datos sobre el salario, las horas de trabajo, la educación, etc., del mismo grupo de personas en años distintos. Es muy fácil reunir conjuntos de datos de panel de distritos escolares, ciudades, municipios, estados y países, y el análisis de políticas mejora enormemente con el uso de dichos conjuntos; 444

Capítulo 13 Combinación de cortes transversales en el tiempo: métodos simples para datos de panel

más adelante se verán algunos ejemplos. Para el análisis econométrico de datos de panel, no se puede dar por sentado que las observaciones se distribuyan de forma independiente en el tiempo. Por ejemplo, los factores inobservables (como la capacidad) que influyen en el salario de una persona en 1990 también influirán en el salario de esa persona en 1991; los factores inobservables que afectan la tasa de delitos de una ciudad en 1985 también la afectarán en 1990. Por este motivo, se han ideado modelos y métodos especiales para analizar datos de panel. En las secciones 13.3, 13.4 y 13.5 se describirá el sencillo método de la diferenciación para eliminar atributos inobservables constantes en el tiempo de las unidades bajo estudio. Como los métodos para datos de panel son un poco más avanzados, se usará principalmente la intuición cuando se describan las propiedades estadísticas de los procedimientos de estimación, y se dejarán los pormenores para el apéndice del capítulo. Se continúa la misma estrategia en el capítulo 14, donde se cubren métodos más complejos para datos de panel.

13.1 Combinación independiente de cortes transversales en el tiempo Muchos estudios de personas, familias y empresas se repiten a intervalos regulares, a menudo cada año. Un ejemplo es la encuesta Current Population Survey (o CPS) que cada año hace un muestreo aleatorio de los hogares estadounidenses (vea, por ejemplo, la base de datos CPS78_ 85.RAW, que contiene datos de la CPS de 1978 a 1985). Si se extrae una muestra aleatoria en cada periodo, al combinar los resultados de cada muestra se obtiene una combinación independiente de cortes transversales. Una razón para utilizar una combinación independiente de cortes transversales es que el tamaño de muestra se incrementa. Al combinar muestras aleatorias extraídas de la misma población, pero en distintos puntos del tiempo, se obtienen estimadores más precisos y estadísticos con mayor potencia de prueba. Este tipo de combinación es útil a este respecto sólo en la medida en que la relación entre la variable dependiente y al menos algunas de las variables independientes permanece constante con el paso del tiempo. Como se mencionó en la introducción, la utilización de una combinación de cortes transversales sólo plantea complicaciones estadísticas menores. Por lo común, para reflejar el hecho de que es posible que la población tenga distintas distribuciones en diferentes periodos, se permite que el intercepto difiera a través de los periodos, que por lo general son años. Esto se consigue fácilmente si se incluyen variables binarias para todos los años excepto uno, el primero, que se elige como año base de la muestra. También es posible que la varianza del error cambie con el tiempo, algo que se analizará más adelante. A veces resulta de interés el patrón de coeficientes de las variables binarias anuales. Por ejemplo, a un demógrafo puede interesarle la siguiente pregunta: Después de controlar la educación, ¿se ha modificado el patrón de fertilidad entre las mujeres mayores de 35 años entre 1972 y 1984? El siguiente ejemplo ilustra cómo es fácil responder a esta pregunta con sólo aplicar el análisis de regresión múltiple con variables binarias anuales. Ejemplo

13.1

[Fertilidad de las mujeres en el tiempo] La base de datos FERTIL1.RAW, que es similar a la base de datos utilizada por Sander (1992), proviene de la encuesta General Social Survey del Centro Nacional de Investigación de Opinión de Estados Unidos, para los años pares del periodo de 1972 a 1984, inclusive. Se utilizan estos datos para estimar un modelo que explique el número total de hijos que tiene una mujer (kids). Una pregunta interesante es: después de controlar otros factores observables, ¿qué ha ocurrido con las tasas de fertilidad respecto al tiempo? Los factores que se controlan son: los años de educación, la edad, la raza, la religión, la región del país donde vivían a la edad de 16 años y las condiciones de vida a esa edad. Las estimaciones se muestran en la tabla 13.1.

445

446

Parte 3 Temas avanzados

TAB LA 13.1

Determinantes de la fertilidad de las mujeres

Variable dependiente: kids Variables independientes

Coeficientes

Errores estándar

.128

.018

age

.532

.138

age2

.0058

.0016

black

1.076

.174

east

.217

.133

northcen

.363

.121

west

.198

.167

farm

.053

.147

othrural

.163

.175

town

.084

.124

smcity

.212

.160

y74

.268

.173

y76

.097

.179

y78

.069

.182

y80

.071

.183

y82

.522

.172

y84

.545

.175

7.742

3.052

educ

constante n  1,129 2 R  .1295 -2 R  .1162

Capítulo 13 Combinación de cortes transversales en el tiempo: métodos simples para datos de panel

447

El año base es 1972. Los coeficientes sobre las variables binarias anuales muestran un marcado descenso en la fertilidad a principios de la década de 1980. Por ejemplo, el coeficiente de y82 implica que, manteniendo fijos la educación, la edad y otros factores, una mujer tuvo en promedio .52 hijos menos o aproximadamente medio hijo menos en 1982 que en 1972. Este descenso es muy grande: si se mantienen fijos educ, age y los otros factores, se predice que 100 mujeres tendrán alrededor de 52 hijos menos en 1982 que 100 mujeres comparables en 1972. Dado que se está controlando la educación, esta disminución es distinta de la que ocurre en la fertilidad debida al incremento en el nivel educativo. (Los años medios de educación son 12.2 para 1972 y 13.3 para 1984). Los coeficientes sobre y82 y y84 representan los descensos en la fertilidad por razones que no se capturan en las variables explicativas. Dado que las binarias de los años 1982 y 1984 son muy significativas de manera individual, no es de extrañarse que como un grupo las binarias de los años sean muy significativas conjuntamente: la R-cuadrada para la regresión sin las binarias de los años es .1019 y esto conduce a F6,1111  5.87 y el valor-p  0. Las mujeres con más educación tienen menos hijos y la estimación es muy significativa estadísticamente. Si todo lo demás se mantiene igual, 100 mujeres con educación universitaria tendrán en promedio alrededor de 51 hijos menos que 100 mujeres que sólo tienen bachillerato: .128(4)  .512. La edad tiene un efecto cada vez menor sobre la fertilidad. (El cambio de pendiente en la función cuadrática es aproximadamente en age  46, edad en la cual la mayoría de las mujeres han dejado de tener hijos.) El modelo estimado en la tabla 13.1 supone que el efecto de cada variable explicativa, en particular la educación, ha permanecido constante. Esto puede ser cierto o no; en el ejercicio para computadora C13.1 se le pedirá que explore este problema. Por último, puede haber heterocedasticidad en el término de error que subyace a la ecuación estimada. Esto se resuelve mediante los métodos estudiados en el capítulo 8. Hay una diferencia interesante aquí: ahora la varianza del error puede cambiar con el tiempo incluso si no cambia con los valores de educ, age, black, etc. No obstante, los errores estándar robustos a la heterocedasticidad y los estadísticos de prueba son válidos. La prueba de Breusch-Pagan se obtendría al hacer la regresión de los residuales cuadrados de MCO sobre todas las variables independientes de la tabla 13.1, incluyendo variables binarias de los años. (Para el caso especial del estadístico de White, los valores ajustados kids y los valores ajustados cuadrados se usan como las variables independientes, como siempre.) Un procedimiento de mínimos cuadrados ponderados debe considerar las varianzas que posiblemente cambien con el tiempo. En el procedimiento analizado en la sección 8.4 las variables binarias de los años se incluyeron en la ecuación (8.32).

También se puede interactuar una variable binaria anual con las variables explicativas clave para ver si el efecto de esa variable ha cambiado a lo largo de un cierto periodo. El siguiente ejemplo examina cómo la rentabilidad de la educación y las diferencias de género han cambiado de 1978 a 1985. Ejemplo

Pregunta 13.1 Cuando estudia los datos de la tabla 13.1, una persona afirma que, si todo lo demás permanece igual en la tabla, se espera que una mujer negra tenga un hijo más que una mujer que no es negra. ¿Está de acuerdo con esta afirmación?

13.2

[Cambios en la rentabilidad de la educación y en la diferencia de salario por género] Una ecuación log(wage) (donde wage es el salario por hora) que combina datos de los años 1978 (año base) y 1985 es

log(wage)  0  0 y85  1educ  1 y85educ  2exper  3exper 2  4union  5 female  5 y85female  u,

13.1

448

Parte 3 Temas avanzados

donde la mayoría de las variables explicativas ya deben resultarle familiares. La variable union es una variable binaria igual a uno si la persona está afiliada a un sindicato e igual a cero si no lo está. La variable y85 es una variable binaria igual a uno si la observación es de 1985 e igual a cero si es de 1978. Hay 550 personas en la muestra de 1978 y un grupo distinto de 534 personas en la muestra de 1985. El intercepto de 1978 es 0 y el de 1985 es 0  0. El impacto de la educación en 1978 es 1 y en 1985 es 1  1. Por tanto, 1 mide cómo el impacto de la educación se ha modificado en un periodo de siete años. Por último, en 1978 la diferencia en log(wage) entre las mujeres y los hombres es 5, y en 1985 es 5  5. De esta manera, se puede comprobar la hipótesis nula de que esa diferencia no ha cambiado durante el periodo de siete años, al probar H0: 5  0. La alternativa de que la diferencia de género se ha reducido es H1: 5  0. Por simplicidad, se ha supuesto que la experiencia y la afiliación a un sindicato ejercen el mismo efecto sobre los salarios en ambos periodos. Antes de presentar las estimaciones, hay otro aspecto que se debe tomar en cuenta, a saber, el salario por hora aquí está en dólares nominales (o corrientes). Como los salarios nominales aumentan simplemente debido a la inflación, en realidad se está interesado en el efecto de cada variable explicativa sobre los salarios reales. Suponga que optamos por medir los salarios en dólares de 1978. Esto exige deflactar los salarios de 1985 a dólares de 1978. (Si se usa el índice de precios al consumidor del informe Economic Report of the President, de 1997 el factor de deflación es 107.6/65.2  1.65.) Aunque basta con dividir cada salario de 1985 entre 1.65, esto no es necesario siempre y cuando se incluya una variable binaria anual de 1985 en la regresión y log(wage) se emplee como variable dependiente (en oposición a wage). El uso del salario real o nominal en una forma funcional logarítmica influye sólo en el coeficiente de la variable binaria anual, y85. Para ver esto, sea P85 el factor de deflación de los salarios de 1985 (1.65 si se usa el IPC). Por tanto, el logaritmo del salario real para cada persona i en la muestra de 1985 es

log(wagei /P85)  log(wagei)  log(P85). Ahora, si bien wagei difiere de una persona a otra, P85 no lo hace. Por consiguiente, el intercepto de 1985 absorberá log(P85). (Esta conclusión se modificaría si, por ejemplo, se utilizara un índice de precios distinto para personas que viven en diversas partes del país.) En resumen, para estudiar el cambio que ha sufrido el impacto de la educación o la diferencia de género, no es necesario convertir los salarios nominales en salarios reales en la ecuación (13.1). El ejercicio para computadora C13.2 le pide que verifique esto para el actual ejemplo. Si no se toman en cuenta los diferentes interceptos de 1978 y 1985, el uso de los salarios nominales puede producir resultados que inducen a graves errores. Si se usa wage en lugar de log(wage) como variable dependiente, es importante considerar el salario real e incluir una variable binaria anual. El análisis anterior por lo general se aplica cuando se usan valores de dólar, ya sea para la variable dependiente o para las variables independientes. Siempre y cuando los montos en dólares aparezcan en forma logarítmica y se utilicen variables binarias para todos los periodos (excepto, desde luego, el periodo base), el uso de deflactores de precios agregados sólo afectará a los interceptos; ninguna de las estimaciones de la pendiente cambiará. Ahora se usa la base de datos CPS78_85.RAW para estimar la ecuación:

log(wage)  .459  .118 y85  .0747 educ  .0185 y85educ (.093) (.124) (.0067) (.0094)  .0296 exper  .00040 exper 2  .202 union (.0036) (.00008) (.030)  .317 female  .085 y85female (.037) (.051) -

n  1,084, R2  .426, R2  .422.

13.2

Capítulo 13 Combinación de cortes transversales en el tiempo: métodos simples para datos de panel

Se estima que el impacto de la educación en 1978 es de alrededor de 7.5%; el impacto de la educación en 1985 es cercano a 1.85 puntos porcentuales mayor, es decir alrededor de 9.35%. Dado que el estadístico t sobre el término de interacción es .0185/.0094  1.97, la diferencia en el impacto de la educación es estadísticamente significativa al nivel de 5% contra una alternativa de dos colas. ¿Qué pasa con la diferencia de género? En 1978, si todos los demás factores permanecen iguales, una mujer ganaría alrededor de 31.7% menos que un hombre (27.2% es una estimación más precisa). En 1985 la diferencia en log(wage) es .317  .085  .232. Por consiguiente, la diferencia de género parece haber disminuido de 1978 a 1985 cerca de 8.5 puntos porcentuales. El estadístico t sobre el término de interacción es de alrededor de 1.67, lo cual indica que es significativo al nivel de 5% contra una alternativa de una cola positiva.

¿Qué pasa si se interactúan todas las variables independientes con y85 en la ecuación (13.2)? Esto es idéntico a estimar dos ecuaciones separadas, una para 1978 y otra para 1985. A veces, esto es recomendable. Por ejemplo, en el capítulo 7 se trató un estudio de Krueger (1993) en el cual estimó el rendimiento del uso de computadoras en el trabajo. Krueger estima dos ecuaciones separadas, una que utiliza la encuesta CPS de 1984 y otra que utiliza la de 1989. Al comparar cómo cambia el impacto de la educación en el tiempo y si el uso de computadoras está controlado o no, estima que de una tercera parte a un medio del incremento observado en el impacto de la educación durante el periodo de cinco años puede atribuirse a un mayor uso de las computadoras. [Vea las tablas VIII y IX en Krueger (1993).]

Prueba de Chow para el cambio estructural en el tiempo En el capítulo 7 se estudió cómo la prueba de Chow, que es sencillamente una prueba F, se usa para determinar si una función de regresión múltiple difiere en dos grupos. Esta prueba también se puede aplicar a dos periodos diferentes. Una forma de la prueba toma la suma de residuales cuadrados de la estimación combinada como la SRC restringida. La SRC no restringida es la suma de las SRC de los dos periodos estimados por separado. La mecánica del cálculo del estadístico es exactamente la misma que aquélla vista en la sección 7.4. También está disponible una versión robusta a la heterocedasticidad (vea la sección 8.2). El ejemplo 13.2 propone otra forma de calcular la prueba de Chow para dos periodos: se interactúa cada variable con una variable binaria anual para uno de los dos años y se prueba la significancia conjunta de la variable binaria anual y de todos los términos de interacción. Dado que en un modelo de regresión el intercepto cambia a menudo con el tiempo (debido, digamos, a la inflación en el ejemplo del costo de la vivienda), esta prueba de Chow completa puede detectar estas modificaciones. A menudo resulta más interesante permitir que el intercepto difiera y luego probar si los coeficientes de la pendiente cambian con el tiempo (como se hizo en el ejemplo 13.2). Una prueba de Chow también puede calc...


Similar Free PDFs