EAE6030 - Econometria II

Prof: Pedro Forquesato

Faculdade de Economia, Administração e Contabilidade
Universidade de São Paulo

Segundo bimestre de 2021


Programa


Esta é a segunda parte da seqüência básica de cursos de econometria do programa de pós-graduação do Departamento de Economia da FEA-USP. Esta segunda parte cobre métodos de estimação de modelos não lineares e aplicações. O curso requer familiaridade com o material coberto em Econometria I e seus pré-requisitos.


Conteúdo e calendário

  1. [26/05 e 28/05] A teoria dos estimadores de extremo. Consistência e normalidade assintótica. Testes de hipótese. Exemplo: estimadores de mínimos quadrados não lineares.
  2. [02, 09 e 11/06] O estimador de máxima-verossimilhança. Eficiência assintótica e a igualdade da matriz informacional. Teste de razão de verossimilhança.
  3. [16, 18 e 25/06] Modelos de resposta discreta. Modelos binomial (logit e probit) e multinomial.
  4. [30 e 02/06] Modelos de resposta truncada (tobit tipo I, tobit tipo II).
  5. [07 e 09/07] O método dos momentos generalizados para equações estruturais lineares e não lineares. A matriz de pesos ótima e testes de sobreidentificação.
  6. [14 e 16/07] Simulação e bootstrap.

Data da 1a prova: 23/06 Data da 2a prova: 21/07. Data final de entrega de listas: 04/08.


Bibliografia

  • Estimadores de extremo (M-estimation). Wooldridge: cap.12 (12.1-12.3; 12.5-12.7).
  • Máxima Verossimilhança. Wooldridge: cap. 13 (13.1-13.7; 13.11).
  • Modelos de resposta discreta. Wooldridge: cap. 15 (15.1-15.7); cap. 16 (16.1-16.3).
  • Modelos censurados. Wooldridge: cap. 17 (17.1-17.6).
  • GMM. Wooldridge: caps. 8 e 14 (14.1-14.5).
  • Simulação e bootstrap. Cameron & Trivedi: caps. 11 e 12.

Os livros citados acima são:

  • Wooldridge, Jeffrey M. Econometric analysis of cross section and panel data. MIT press, 2010. (2ª edição.)
  • Cameron, A. Colin, and Pravin K. Trivedi. Microeconometrics: methods and applications. Cambridge university press, 2005.

Outros livros potencialmente úteis:

  • Hayashi, Fumio. Econometrics. Princeton University Press, 2000.
  • Greene, William H. Econometric Analysis. Prentice Hall, 6th edition, 2008.
  • Newey, W.K. And Mcfadden, D.L. Large sample estimation and hypothesis testing. In: Handbook of Econometrics, vol IV, ch. 36, 1994.


Avaliação

Duas provas, 3 (três) listas de exercício e 3 (três) listas aplicadas.

Listas de exercício serão avaliadas em “bastante competentes”, “suficientemente competentes” ou “ainda não competentes”. Listas entregues na data certa (para listas 1 e 2) serão corrigidas e devolvidas e podem ser refeitas. Todas as listas (originais ou refeitas) podem ser entregues até duas semanas depois da prova final. Não serão aceitas listas de exercício entregues após a definição dos conceitos.

Os conceitos das listas serão usados de forma relevante na definição dos conceitos, especialmente para definir a aprovação no curso. É fortemente recomendado para todos, e necessário para o conceito A, que garantam pelo menos um “suficientemente competente” em todas as listas da disciplina. (E por esse exato motivo que permito refazerem as listas.)

Ética

As listas podem ser feitas em conjunto e utilizar do auxílio dos colegas e da monitora, mas devem ser escritas e entregues individualmente! O plágio de listas é absolutamente inaceitável e acarretará avaliação NS não-retratável na lista.

As provas são individuais, sem nenhuma consulta nem absolutamente qualquer contato entre vocês durante a realização, mesmo que não seja a troca de respostas. Desvios serão punidos com a reprovação sumária na matéria, sem prejuízo de potenciais punições mais sérias.


Office Hours

Me mandem e-mail ou postem no fórum da disciplina no Moodle.

Monitoria

A monitora dessa disciplina é a Isadora <isadora.arabe [at] usp [dot] br>. Por favor organizem com ela o horário da monitoria semanal.




Lista 1


M-Estimadores parte I: least absolute deviations (LAD)


Considere o problema de estimar os parâmetros verdadeiros \(\theta_0\) que satisfazem uma equação estrutural para a mediana de \(Y | X = x\) : \(Med(Y | X = x) = x \theta_0\), onde \(x\) contém uma constante.

  1. Mostre que \(\theta_0\) minimiza \(\mathbb{E}_Y\left[ \left| Y - X \theta \right| | X = x\right]\) sobre \(\theta \in \Theta\).
  2. Use (a) (e o princípio da analogia) para derivar um estimador-M para \(\theta_0\). Esse é o estimador LAD. (Torcemos.)
  3. Mostre se podemos (ou não) aplicar os Teoremas vistos em sala para afirmar a consistência e normalidade assintótica do estimador de LAD. Precisamos de suposições adicionais para obter esses resultados? Quais?
  4. Assuma consistência e normalidade assintótica. Calcule o score e mostre que a esperança condicional do score é zero.
  5. Qual é a Hessiana da função objetivo (onde é definida)? (Mesmo assim) calcule a variância assintótica do estimador de LAD.


M-Estimadores parte II: teste de score (ou de multiplicador de Lagrange - LM).


Seja um M-estimador obtido pela solução do análogo amostral de \(\theta_0 = \text{arg} \min_{\theta} \mathbb{E}\left[ q(W, \theta) \right]\), isto é: \[\hat{\theta} = \text{arg}\min_{\theta} \frac{1}{N} \sum_{i=1}^N q(w_i, \theta)\]

Considere \(Q\) restrições \(c(\theta)\), e escreva-as da forma \(d: \mathbb{R}^{P-Q} \rightarrow \mathbb{R}^P\), onde \(P\) é a dimensão do vetor de parâmetros e \(Q\) o número de restrições \(C^1\), isto é, \(H_0 : \theta_0 = d(\lambda_0)\), de dimensão \(P-Q\).

Se \(\tilde{\lambda}\) é a solução do problema restringido: \[\min_\lambda \frac{1}{N} \sum_{i=1}^N q(w_i, d(\lambda)),\] e \(d(\tilde{\lambda}) \equiv \tilde{\theta}\), então o teste de score parte do princípio que pelas condições de primeira ordem: \[\frac{1}{N} \sum_{i=1}^N s(w_i, \hat{\theta}) = 0.\]

Então se as restrições são válidas (i.e., sob a hipótese nula), também deve ser verdade que: \[S \equiv N^{-1} \sum_{i=1}^N s(w_i, \tilde{\theta}) \sim 0.\]

Derive: 1. O limite assintótico de \(S\). 2. A variância assintótica de \(S\) e a estatística de score LM, obtida a partir de \(S\) e que segue distribuição chi-quadrado.


Máxima-verossimilhança parte I: regressão de Poisson


Suponha que \(Y | X = x\) siga uma distribuição Poisson, isto é:

\[f(y|X = x) = \frac{e^{-\mu (x)} \mu(x)^y}{y!}\]

Esse modelo é muito usado em modelos de resposta de contagem. (Número discreto e irrestrito na variável dependente, como número de bens vendidos por uma firma, número de filhos de um casal, etc.) Embora \(\mu (x) \equiv \mathbb{E}\left[ Y | X = x \right]\) possa ser parametrizada arbitrariamente, a parametrização mais comum é \(\mu (x) = e^{x \beta}\). A estimação pode ser feita por NLS, mas ela é mais eficiente por MLE.

  1. Derive a função objetivo do M-estimador de máxima verossimilhança.
  2. Prove a consistência do estimador de MLE.
  3. Calcule o score, a esperança condicional da Hessiana e a matriz de variância-covariância assintótica robusta.
  4. Uma proprieda da distribuição Poisson (chequem no Wikipedia ou no Casella e Berger) é que \(\mathbb{E}\left[ Y | X = x \right] \equiv \mu (x) = \text{Var} \ (Y | X = x)\). Calcule a matriz de variância-covariância com essa hipótese. (Ou seja, não robusta.)


Máxima-verossimilhança parte II: estimadores em dois estágios

Em várias aplicações, como em funções controle (ver Lista 2) ou Tobit Tipo II, usamos um primeiro estágio para a estimação de um parâmetro auxiliar \(\gamma_0\), que usamos no segundo estágio para a estimação do parâmetro de interesse \(\theta_0\).

Considere o problema de resolver: \[\hat{\theta}_{2E} = \text{arg}\max_{\theta \in \Theta} \frac{1}{N} \sum_{i=1}^{N} \log f(y_i | X = x_i; \theta, \hat{\gamma})\]

Onde \(\hat{\gamma} \rightarrow_p \gamma_0\), e seja \(\hat{\theta}_{V} = \text{arg}\max_{\theta \in \Theta} \frac{1}{N} \sum_{i=1}^{N} \log f(y_i | X = x_i ; \theta, \gamma_0)\), ou seja, o estimador de \(\theta_0\) caso conheçamos o verdadeiro \(\gamma_0\).

  1. Mostre que \(\hat{\theta}_{2E}\) é consistente para \(\theta_0\).
  2. Calcule a distribuição de \(\sqrt{N} (\hat{\theta}_{2E} - \theta)\).
  3. Quando que usar \(\hat{\gamma}\) e \(\gamma_0\) na estimação é (assintóticamente) igual (isto é, \(\hat{\theta}_{V} \sim_{ass} \hat{\theta}_{2E}\)?
  4. Mostre que se \(x_i = (w_i , z_i)\), \(\hat{\gamma} = \text{arg}\max_{\gamma \in \Gamma} \sum_{i=1}^{N} \log h(y_i | z_i; \gamma)\), onde \(h\) é a densidade de \(Y | Z = z_i\), e que \(D(y_i | W = w_i , Z = z_i) = D(y_i | Z = z_i)\) (independência condicional), então a variância assintótica de \(\hat{\theta}_{2E}\) é menor que \(\hat{\theta}_{V}\). Qual a intuição que você dá para isso?




Parte aplicada: NLS Exponencial


Considere um problema em que a equação estrutural é \(Y = e^{ X \beta} + U\). O M-estimador de \(\beta_0\), \(\hat{\beta}_{NLS}\), resolve o análogo amostral de \(\min_{\beta} \mathbb{E}\left[ (Y - e^{X\beta})^2 | X = x \right]\). Considere, na base de dados simulada abaixo, o problema de estimar o salário futuro (wage) de um candidato como função da renda municipal (income), proporção de votos recebidos (vote_share), idade (age) e raça/cor (race). Usando um software de cálculo numérico (recomendo R):

  1. Calcule a estimativa de NLS.
  2. Calcule a estimativa da matriz assintótica de variância-covariância dos estimadores NLS.
  3. Interprete os resultados. Compare-os com os de OLS (que eu calculei) e interprete a comparação. Compare com os valores verdadeiros (ver abaixo).
  4. Use a estatística de Wald para testar a \(H_0 :\beta_{1} = \beta_3\). (Isto é, que o coeficiente de income = coeficiente de age.)
  5. Use o teste de score (Questão 2) para calcular \(H_0: \delta=0\) no modelo estrutural extendido: \[Y = e^{ X \beta + \delta (X \beta)^2} + U.\]
  6. Compare os coeficientes obtidos nesta estimação com os da estimação original e com os valores verdadeiros.

Observação importante: O exercício é simples exatamente para possibilitar o não-uso de funções pré-programadas nos softwares estatísticos. Use as equações vistas em aula/no livro diretamente.

A resposta da aplicação envolve: 1. as respostas em si; 2. explicação (sucinta) do método de estimação utilizado; 3. o código utilizado.

Pontos extras (de reputação) para quem: 1. entregar a resposta em (p. ex. R-)Markdown; 2. fazer uma função organizada para calcular cada item.



Preparação dos dados:

# Required packages (for all lists)
require(mfx)
require(tidyverse)
require(haven)
require(sandwich)
require(lmtest)
require(fastDummies)
require(knitr)
require(kableExtra)
require(ggplot2)
# ALWAYS SET SEED
set.seed(20211)

# Simulate independent variables
X <- data.frame(
  # Normal with 4 different groups of means and std.
  income = rnorm(n = 1000, mean = c(20, 30, 40, 50), sd = c(6, 6, 9, 9)), 
  vote_share = runif(n = 1000, min = 0, max = 1), # U[0, 1]
  age = rpois(n = 1000, lambda = 50), # Poisson
  race = rep(letters[1:4], times = 250) # Factor variable with groups having different incomes
)

# True parameters
true_beta = c(0.05, 0.4, 0.08, -0.06, -0.08, 0.15)
true_delta = 0.0

# We need to turn the groups into dummies. 
X_dummy <- fastDummies::dummy_cols(X)

# Now we create the dependent variable given the structural model

# Heteroskedastic Normal errors
U <- rnorm(n = 1000, mean = 0, sd = 0.1) 

# This is X * beta
X_beta <- X_dummy$income * true_beta[1] + X_dummy$vote_share * true_beta[2] + 
  X_dummy$age * true_beta[3] + X_dummy$race_b * true_beta[4] + 
  X_dummy$race_c * true_beta[5] + X_dummy$race_d * true_beta[6]

# The true equation has delta 0.
wage = exp(X_beta + true_delta * X_beta^2 + U)
df <- cbind(X_dummy, wage)
knitr::kable(head(df)) %>% kableExtra::kable_styling()
income vote_share age race race_a race_b race_c race_d wage
15.31956 0.7003473 62 a 1 0 0 0 344.8346
41.23761 0.1827095 52 b 0 1 0 0 560.3905
34.25205 0.7974867 47 c 0 0 1 0 300.2508
53.32167 0.7490534 54 d 0 0 0 1 1655.8919
16.39528 0.1987515 50 a 1 0 0 0 131.3344
33.34201 0.1102068 43 b 0 1 0 0 145.8144

Criados os dados simulados, podemos aplicar os métodos de estimação. Aqui usarei os métodos já programados em pacotes estatísticos, para exemplo e comparação. O exercício é calcular diretamente com o seu próprio método.

nls_results <- nls(
 wage ~ exp(b1 * income + b2 * vote_share + b3 * age + b4 * race_b + b5 * race_c + b6 * race_d),
 data=df, start=list(b1 = 0.01, b2 = 0.01, b3 = 0.03, b4 = 0.03, b5 = 0.03, b6 = 0.03)
 )
kable(summary(nls_results)$coef, digits = 2) %>% kable_styling()
Estimate Std. Error t value Pr(>|t|)
b1 0.05 0.00 135.48 0
b2 0.43 0.01 40.51 0
b3 0.08 0.00 312.50 0
b4 -0.10 0.02 -4.86 0
b5 -0.12 0.02 -5.78 0
b6 0.12 0.02 5.34 0
ols_results <- lm(wage ~ income + vote_share + age + as.factor(race), data=df)
kable(summary(ols_results)$coef, digits = 2) %>% kable_styling()
Estimate Std. Error t value Pr(>|t|)
(Intercept) -3107.39 102.62 -30.28 0.00
income 33.16 1.70 19.54 0.00
vote_share 262.22 44.28 5.92 0.00
age 50.40 1.78 28.28 0.00
as.factor(race)b -185.29 39.70 -4.67 0.00
as.factor(race)c -281.06 49.05 -5.73 0.00
as.factor(race)d 53.64 61.90 0.87 0.39

Uma maneira que podemos comparar o NLS com o OLS é fazer um gráfico com os valores previstos.

# Predicted values
df$ols_predict <- predict(ols_results)
df$nls_predict <- predict(nls_results)

# Plot the predicted values
ggplot(df, aes(x=income, y=value, color=variable)) + geom_point(aes(y = wage, col="wage")) + 
  geom_smooth(aes(y = wage, col="wage"), se=FALSE, size=2) +
  geom_point(aes(y = ols_predict, col="OLS")) + 
  geom_smooth(aes(y = ols_predict, col="OLS"), se=FALSE, size=2) +
  geom_point(aes(y = nls_predict, col="NLS")) + 
  geom_smooth(aes(y = nls_predict, col="NLS"), se=FALSE, size=2)

Agora é com vocês… :)





Lista 2


Resposta binária parte I: Logit


Na aula, derivamos o score, a Hessiana condicional, e a distribuição assintótica (inclusive a variância assintótica) do estimador de Probit. Faça o mesmo para o Logit.


Resposta binária parte II: função controle ou Limited Information Maximum Likelihood (LIML).


Considere agora o problema de estimar o modelo de variável latente: \(Y_1 = 1 \left[ Y_1^* > 0 \right]\), com \(Y_1^* = Y_2 \alpha + Z_1 \delta_1 + U\) e \(Y_2 = Z \delta_2 + V\).

Suponha que a variável endógena \(Y_2\) é contínua, \((U, V)\) seguem distribuição Normal bivariada com média zero, \(Z\) (e portanto \(Z_1 \subset Z\)) é independente de \(U\) e \(V\), e os dois erros são possivelmente correlacionados (endogeneidade de \(Y_2\)). Normalize \(\text{Var}(U) = 1\).

  1. Escreva \(U\) como função de \(V\). Chame o desvio de \(E\).
  2. Use a equação acima para transformar as duas esquações estruturais em uma.
  3. Qual a distribuição de \(E\)?
  4. Termine a estimação de \(Y_1\) sob essas condições.
  5. Derive um teste de exogeneidade de \(Y_2\). (Isto é, \(H_0 : U \perp \!\!\! \perp V | Z = z\).) Sob que condições ele vai ser apropriado?


Resposta binária parte III: IV Probit


[Continuação.] Consideremos agora uma forma mais direta de atacar o problema da questão anterior, estimando diretamente a função de verossimilhança condicional de \(f(y_1, y_2 | Z = z)\).

  1. Escreva \(f(y_1, y_2 \ | Z = z)\) como função das densidades condicionais de \(Y_1\) e \(Y_2\) (dado \(Z = z\)).
  2. Use (1) para derivar \(f(y_1, y_2 | Z = z)\) (dadas as suposições do exercício anterior).
  3. Defina o estimador de MLE para \(f(y_1, y_2 | Z = z)\). Calcule a variância assintótica do estimador. Este estimador é o IV Probit.
  4. Qual estimador usa mais informação, o IV Probit ou a Função Controle? Por que?
  5. Qual seria um teste natural de exogeneidade nesse cenário? Derive sua distribuição.


Modelo de resposta de canto: modelo de normal truncada.


Como vimos em aula, o modelo Tobit Tipo I implica efeitos parciais similares (em sinal e relativos) nas margens intensiva e extensiva de participação, o que pode ser indesejável em alguns casos. A forma mais simples de extender o Tobit Tipo I para permitir efeitos parciais diferentes em diferentes margens é assumir que dadas as covariadas, a decisão de participação é independente da decisão do montante escolhido, e portanto podem ser efetivamente tratadas como escolhas diferentes.

Considere o modelo \(Y = SW^*\), onde \(S \in \{ 0, 1 \}\) e \(W^* \in \mathbb{R}_+\) só é observável quando \(S = 1\). Assuma que \(\text{Pr}(S = 1 | X = x) = \Phi (x\gamma)\), e que \(W^* = X\beta + U\), com \(U | X = x\) seguindo uma distribuição Normal truncada em \(-x\beta\).

  1. Derive \(f(y \ | X = x, Y > 0)\).
  2. Derive \(f(y \ | X = x)\) e a função objetivo do estimador de MLE.
  3. Calcule as esperanças condicionais (\(| X = x\) e \(| X = x, Y > 0\)) e os efeitos parciais.
  4. Que modo você pode testar se as margens intensiva e extensiva são diferentes?


Parte aplicada: Probit


Queremos estimar um modelo com equação estrutural da forma \(Y = 1\{X \beta + U > 0\}\), com \(Y\) sendo estar empregado (employed) e \(X\) contendo as mesmas variáveis independentes da Lista 1. Assuma que \(U\) segue uma distribuição Normal padrão (i.i.d.), e portanto a equação estrutural é \(\Pr (Y = 1 | X = x) = \Phi (x \beta)\).

  1. Estime os coeficientes \(\beta\) por MLE (Probit). Estime a matriz de variância-covariância (assintótica) e cheque quais coeficientes são estatísticamente diferentes de zero.
  2. Estime os efeitos parciais na média e média dos efeitos marginais, assim como a sua variância (assintótica). Interprete os resultados.
  3. Estime um OLS (usando o método “lm”) e compare os resultados.
  4. Realize um teste de Razão de Verossimilhança (LR) sobre a hipótese da idade (“age”) afetar a probabilidade de estar empregado.
  5. Realize um teste de Vuong (1989) sobre se o modelo Probit que você estimou é mais corretamente especificado que um Logit. (Para estimar o modelo Logit vocês podem usar funções automatizadas.)

Observação importante: O exercício é simples exatamente para possibilitar o não-uso de funções pré-programadas nos softwares estatísticos. Use as equações vistas em aula/no livro diretamente.

A resposta da aplicação envolve: 1. as respostas em si; 2. explicação (sucinta) do método de estimação utilizado; 3. o código utilizado.



Preparação dos dados:


# We need to add the dependent variable to the data

# True parameters
true_beta = c(-20.0, 0.4, 7.0, -0.07, 10.0, 13.0, 20.0)

# Now we build the binary outcome variable
# Note that the true DGP is logistic
U <- rlogis(n = 1000, location = 0, scale = 10)
df$employed = ifelse(
  true_beta[1] + df$income * true_beta[2] + df$vote_share * true_beta[3] + 
  df$age * true_beta[4] + df$race_b * true_beta[5] + df$race_c * true_beta[6] + 
  df$race_d * true_beta[7] + U > 0, 
      1, 0)

Acima simulamos os dados para a Lista 2 (para além dos dados da Lista 1, que continuam a ser usados).

# Agora rodemos o Probit
probit_results <- glm(employed ~ income + vote_share + age + race,
                     data=df,
                     family = binomial(link = "probit")
)
kable(summary(probit_results)$coef, digits = 2) %>% kable_styling()
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.59 0.37 -4.36 0.00
income 0.03 0.01 5.41 0.00
vote_share 0.51 0.16 3.27 0.00
age 0.00 0.01 -0.22 0.82
raceb 0.63 0.13 4.80 0.00
racec 0.66 0.17 3.97 0.00
raced 1.11 0.22 5.07 0.00
# Esses são coeficientes apenas! Não tem interpretação. 
# Queremos os efeitos marginais.
probitmfx(employed ~ income + vote_share + age + race, data=df, 
          atmean=TRUE) # Efeitos marginais na média
## Call:
## probitmfx(formula = employed ~ income + vote_share + age + race, 
##     data = df, atmean = TRUE)
## 
## Marginal Effects:
##                  dF/dx   Std. Err.       z     P>|z|    
## income      0.01254371  0.00230225  5.4485 5.081e-08 ***
## vote_share  0.18986987  0.05793441  3.2773  0.001048 ** 
## age        -0.00052417  0.00233653 -0.2243  0.822495    
## raceb       0.21581878  0.04107611  5.2541 1.487e-07 ***
## racec       0.22366982  0.05079259  4.4036 1.065e-05 ***
## raced       0.34710022  0.05363422  6.4716 9.696e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## dF/dx is for discrete change for the following variables:
## 
## [1] "raceb" "racec" "raced"
probitmfx(employed ~ income + vote_share + age + race, data=df, 
          atmean=FALSE) # Média dos efeitos marginais
## Call:
## probitmfx(formula = employed ~ income + vote_share + age + race, 
##     data = df, atmean = FALSE)
## 
## Marginal Effects:
##                  dF/dx   Std. Err.       z     P>|z|    
## income      0.00977272  0.00173712  5.6258 1.846e-08 ***
## vote_share  0.14792628  0.04456563  3.3193 0.0009025 ***
## age        -0.00040838  0.00182034 -0.2243 0.8224912    
## raceb       0.17316064  0.03268270  5.2982 1.169e-07 ***
## racec       0.18825047  0.04469308  4.2121 2.530e-05 ***
## raced       0.31295935  0.05337024  5.8639 4.520e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## dF/dx is for discrete change for the following variables:
## 
## [1] "raceb" "racec" "raced"

Acima eu calculei usando os pacotes estatísticos padrão no R. Não vou repetir o começo do código que coloquei na lista anterior.





Lista 3


Método dos momentos parte I: o GMM Probit.


Na aula derivamos os estimadores do Probit e Logit por MLE, que é reconhecidamente o método mais comum. Mas certamente não é o único!

  1. Descreva o estimador de Logit por GMM dada a especicaçãao correta da esperança condicional de \(Y | X = x\). (Observação: Vimos em sala que podemos escrever todo MLE como um MM (ou GMM). Estou pedindo o estimador de informação limitada usando momentos da esperança condicional.) Faça o mesmo para o Probit. Eles são iguais ao estimador de MLE?
  2. Se \(X = (X_1; X_2)\) e \(X_1\) for endógeno, e se tivermos um instrumento adequado Z (que inclua \(X_2\)), a princípio poderíamos tentar estimar um Probit com instrumentos usando momentos análogos ao de (a), mas com Z ao invés de X. (Isto é, de forma análoga à relação do IV com o OLS.) Acontece que esse estimador não é consistente. Demonstre esse resultado.


Método dos momentos parte II: o estimador de distância mínima clássico


Considere um problema de regressão com a equação estrutural não-linear nos parâmetros:

\[Y = X g(\theta_0) + U \] onde \(g:\mathbb{R}^P \rightarrow \mathbb{R}^K\) é uma função conhecida e continuamente diferenciável. Responda:

  1. Como você estimaria \(\theta_0\) usando método dos momentos?
  2. E usando o estimador de distância mínima (clássico)?


Métodos dos Momentos Simulados: o lendário BLP


Derivaremos a versão (muito) simplificada do famoso paper de Berry, Levinsohn and Pakes (1995). Considere uma cross-section de indivíduos \(i \leq I\) escolhendo entre vários produtos (carros) \(j \leq J\) aquele que lhe dá a maior utilidade: \[U (\zeta_i , p_j , \eta_j ; \theta ) = x_j \bar{\beta} - \alpha p_j + \eta_j + \sum_{k\leq K} x_{jk} \nu_{ik} + \epsilon_{ij}\] Onde \(x_j\) tem dimensão \(K\), e \(\zeta_i = (\nu_{i1}, ..., \nu_{iK})\) é o vetor de preferências idiossincráticas de \(i\) em relação a cada característica \(k\) dos produtos consumidos, e são assumidos ter média zero, variância \(\sigma^2_k\), e distribuição conhecida, assim como \(\epsilon_{ij}\). (Esse é um modelo de coeficientes aleatórios.)

  1. Qual é a utilidade média (entre os indivíduos) gerada pelo produto \(j\) (chame-a de \(\delta_j\))?
  2. Qual é o erro (total) não observável \(u_{ij}\)?
  3. Você acha que o preço é correlacionado com \(u_{ij}\)? Com que parte de \(u_{ij}\) (ou nenhuma)? Por quê?
  4. Dada a exogeneidade de \(p_j\), ou caso contrário, um instrumento \(z_j\) para o preço, use (3) para descrever um momento que pode ser usado para a estimação dos coeficientes \(\theta\), e descreva a função objetivo a ser minimizada.
  5. Calcule as market-shares (\(s_j\)) de cada produto \(j\). Assuma que os erros \(\epsilon_{ij}\) são distribuição de valor extremo (a mesma do logit).
  6. Como você calcularia os market-shares em (4)?

Como \(\delta = \delta + \ln (s_j) - \ln (s_j (p, x, \delta, P_{ns}; \theta )\), o operador \[T(s, \delta, P) = \delta + \ln (s_j) - \ln \left( s_j (p, x, \delta, P; \theta ) \right)\] é uma contração e gera uma solução \(\delta_j (\theta , s, P)\), onde \(P\) é a distribuição de \(\nu_{ik}\). (Para detalhes, ver o paper ou um livro-texto.)

  1. Como você usaria o resultado acima para recuperar o benefício não-observável de cada produto \(\eta_j\)?
  2. Finalmente, usando (1-7), descreva como você faria a estimação do modelo BLP.

Se você chegou até aqui, conseguiu derivar uma versão simplificada de uma das principais contribuições ao estudo da Organização Industrial nas últimas décadas.


Bootstrap parte I: consistência


Para um estimador arbitrário \(\hat{\theta}(x)\), onde \(x = (x_1, ..., x_N)\) é uma amostra aleatória, o estimador de Bootstrap da variância de \(\hat{\theta}(x)\), calculado em \(B\) reamostragens com reposição, é dado por: \[\widehat{\text{Var}_{B}}(\hat{\theta}) = \frac{1}{B - 1} \sum_{b = 1}^{B} ( \hat{\theta}^b_B - \bar{\hat{\theta}}_B )^2\]

Use a Lei dos Grandes Números para mostrar que quando \(B \rightarrow \infty\), \(\widehat{\text{Var}_{B}}(\hat{\theta})\) converge para o estimador de Bootstrap de amostra completa:

\[Var^*(\hat{\theta}) = \frac{1}{N^N - 1} \sum_{i = 1}^{N} ( \hat{\theta}^i_B - \bar{\hat{\theta}}_B )^2,\] onde \(\bar{\hat{\theta}}_B = N^{-N} \sum_{i=1}^{N^N} \hat{\theta}^i_B\) é a média do estimador entre todas as \(N^N\) possíveis reamostragens.




Parte Aplicada: Bootstrap.


Para o modelo e base de dados da Lista 2, calcule: 1. O desvio-padrão do estimador MLE de \(\beta\) por bootstrap não-paramétrico e bootstrap paramétrico. 2. Um intervalo de confiança de 5%, e os bootstrap p-values. Use o método do percentil-t. Compare com os resultados da lista anterior.

Observação importante: O exercício é simples exatamente para possibilitar o não-uso de funções pré-programadas nos softwares estatísticos. Use as equações vistas em aula/no livro diretamente.

A resposta da aplicação envolve: 1. as respostas em si; 2. explicação (sucinta) do método de estimação utilizado; 3. o código utilizado.