IV Lecture 2

34
Instrumental Variables Part II Instrumental Variables, Part II EITM 2011 Chris Berry Chris Berry

description

IV Lecture Causal Inferenec

Transcript of IV Lecture 2

Page 1: IV Lecture 2

Instrumental Variables Part IIInstrumental Variables, Part II

EITM 2011Chris BerryChris Berry

Page 2: IV Lecture 2

Instrumental Variables: BasicsInstrumental Variables: Basics• The standard setup

Yi = α + ρDi + ηi• Suppose there is a concern that Di is endogenous, correlated with ηcorrelated with ηi– Or with covariates: violation of CIAOVB

• Suppose that we have an instrument Zi that is both uncorrelated with ηi and correlated with Di– That is, the instrument predicts treatment but does not affect the outcome other than through treatment. 

• We can use Zi to obtain a causal estimate of Di – The IV estimate is biased but consistent and has lower efficiency than OLS (i.e., comes at a cost)efficiency than OLS (i.e., comes at a cost)

Page 3: IV Lecture 2

Forms of IVForms of IV• The IV Estimator: think of it as a projection of Y on the 

projection of X on Z. Most software packages estimate it in one step but it is equivalent (under certain conditions)toone step, but it is equivalent (under certain conditions)to the following two‐stage methods.

• Two‐stage Least Squares (2SLS): First, use OLS to regress X Z d t X h t th OLS t Y X h t ton Z and get X‐hat, then use OLS to regress Y on X‐hat to 

get βIV.• Ratio of Coefficients: If you have one endogenous variable 

X d i t t Z X Z t t βX and one instrument Z, you can regress X on Z to get βXZ and regress Y on Z to get βYZ, and the IV estimate βIV = βYZ/βXZ. If X is a binary indicator variable, this ratio of coefficients method is known as the Wald estimatorcoefficients method is known as the Wald estimator.

• The Control Function Approach: Use OLS to regress X on Z and get estimated errors ν‐hat, then use OLS to regress Y on X and ν hat to get β (See Wooldridge sec 6 2)on X and ν‐hat to get βIV. (See Wooldridge sec. 6.2)

Page 4: IV Lecture 2

IV AssumptionsIV Assumptions

1.SUTVA

2.Random assignment of Z (in first‐stage)

3.Exclusion restriction (Z does not belong in the second stage)

4.Nonzero causal effect of Z on X

5 M t i it ( d fi )5.Monotonicity (no defiers)

Then the IV estimate is an estimate of the average treatment effect for h h l h ( h f h h b hthose who comply with assignment (that is, for those whose behavior is affected in the predicted way by the instrument). This is called the local average treatment affect, or LATE.

Page 5: IV Lecture 2

IV Papers Discussed Last WeekAcemoglu, Johnson,Robinson

Miguel,  Satyanath, Sergenti

Berry & Gersen

Basic question Do institutions affect  Do economic  Are special interests Basic question Do institutions affect economic performance?

Do economic conditions affect civil conflict?

Are special interests more influential in off‐cycle elections?

Endogeneity Concern Economic prosperity could lead to better

Civil war is bad for the economy

Election timing is chosen by thecould lead to better 

institutionseconomy chosen by the 

government in question

Y Log GDP per capita  Dummy for civil  Teacher salaries today conflict (>25 battle 

deaths)(1999‐2008)

X Contemporary institutional quality

Per capita income growth

Dummy for off‐cycle electionsinstitutional quality 

(protection against appropriation)

growth elections

Z European settler t lit

Change in rainfall 1987 number of l t d ffi i l imortality elected officials in county

Page 6: IV Lecture 2

How to Find a Good Instrument• The biggest challenge in an IV analysis is finding a credible 

instrument; i.e., a Z that is correlated with X but not Y (other than via X)

• Common sources of instruments include– Nature: geography, weather, biology in which a truly random g g p y, , gy y

source of variation influences X (no possible reverse causation)– History: things determined a long time ago, which were possibly 

endogenous contemporaneously, but which no longer plausibly influence Yinfluence Y

– Institutions: formal or informal rules that influence the assignment of X in a way unrelated to Y

• Above all finding a good IV is based on deep substantive• Above all, finding a good IV is based on deep substantive knowledge of the processes shaping X and Y. Fancy econometrics will not help you if you don’t have this substantive knowledgesubstantive knowledge.

Page 7: IV Lecture 2

Diagnosing an IV AnalysisDiagnosing an IV Analysis• A valid instrument must have two properties

– It is (partially) correlated with the endogenous treatment variable, X– It is uncorrelated with the dependent variable, Y, other than through 

its correlation with X• The first condition can be tested directly• The first condition can be tested directly

– You should always report such tests– There should never be any doubt for the reader about the first‐stage 

relationshipp• The second condition, the exclusion restriction, cannot be tested 

directly. Why not?– Sometimes, auxiliary hypotheses or implications can be tested, adding 

l ibili h l i i iplausibility to the exclusion restriction– With multiple instruments, overidentification tests are possible, 

though only based on the assumption that one of the instruments is valid

• The following discussion is based on Mostly Harmless (Chapter 4) and Baum et al. (2007)

Page 8: IV Lecture 2

Diagnosing the First StageDiagnosing the First Stage• The most common diagnostic test of the first‐stage (i e instrument strength) is the F statistic on the(i.e., instrument strength) is the F‐statistic on the excluded instrument– A rule of thumb is that the F should be above 10 (Stock, Wright and Yogo)Wright, and Yogo)

– An F below 10 doesn’t mean all hope is lost• There are a series of additional tests that are possible, and which you may want to report if the F is questionable.– I’ll explain these when we turn to Statap

• More generally, recall that the first stage is just an OLS regression and so all the usual regression diagnostics are availableare available

Page 9: IV Lecture 2

The Problem of Weak Instruments• Recall that the standard OLS estimator is not only consistent but unbiased

– Meaning: in a sample of any size, the estimated OLS coefficient vector has a distribution that is centered on the population coefficient vector

Th 2SLS ti t b t t i i t t b t bi d• The 2SLS estimator, by contrast, is consistent but biased– The 2SLS estimator only promises to be close to the causal effect of interest in 

large samples. In small samples, there can be considerable bias.• The 2SLS estimator is most biased when the instruments are weak, meaning g

the correlation with the endogenous regressor is low, and when there are many overidentifying restrictions. When the instruments are many and weak, the 2SLS estimator is biased toward the probability limit of the corresponding OLS estimate. (This is not desirable since you wouldn’t be instrumenting in the first place if you believed the OLS estimates.)– The theory behind this result is technical. See Mostly Harmless sec. 4.6.4 and 

Bound, Jaeger, and Baker (1995). To the extent that there is an intuition behind the result, it comes from the fact that the formula for the bias of 2SLS has in the d h f h f f ll fdenominator the F‐statistic for the joint significance of all first stage regressors.

• Further note that when instruments are weak, the first stage F‐statistic varies inversely with the number of instruments. (Analogous to F in OLS when adding insignificant variables.) Therefore, adding many weak instruments g g ) g yincreases bias. All else equal, bias is smallest in the just‐identified case with only 1 instrument. That is, you are generally better off with one good, strong instrument than adding more weak ones.

Page 10: IV Lecture 2

Monotonicityy• In a world of potentially heterogeneous treatment effects, an additional 

assumption is needed for IV models: monotonicity– The instrument may have no effect on some subjects, but all those who are 

( )affected are affected in the same way (direction)– That is, everyone who is affected by the instrument is more likely to receive 

the treatment (or everyone is less likely). But it can’t be the case that the instrument makes some more likely and others less likely.

– Example: Rainfall should positively affect GDP in all countries in the sample (or not affect it at all)

• Without monotonicity, IV estimators are not guaranteed to recover the weighted average of the underlying individual causal effects

• In principle, monotonicity in the first stage is testable (within limits)– It is not a standard test reported by software– But simple tests can be constructed, for example, using splines or subsetting

the datathe data– Requires that you have specific hypotheses about likely non‐montonicities in 

the underlying relationship, presumably based on substantive knowledge• You can also seek to increase likelihood of monotonicity by restricting your 

analysis to subsets of the data with common features that should generateanalysis to subsets of the data with common features that should generate common responses to the instrument– Example: Miguel et al. restriction to sub‐Saharan Africa, rainfed agriculture

Page 11: IV Lecture 2

The Exclusion Restriction• The exclusion restriction is distinct from the claim that the 

instrument is as good as randomly assigned. Rather, it is a claim about a unique channel for causal effects of theclaim about a unique channel for causal effects of the instrument. (MH 153) In other words, an instrument can be as good as randomly assigned and still violate the exclusion restrictionrestriction– Example: draft lottery is randomly assigned, but men with high 

numbers might choose to stay in school longer, violating exclusion restriction

– Example: rainfall is randomly assigned in the Miguel et al. paper, but could still affect conflict through channels other than GDP

• While you cannot test the exclusion restriction directly, you y y, ymay be able to test auxiliary hypotheses that lend credence to it– For example, test whether men with worse draft lottery p y

numbers do stay in school longer, test whether combat deaths are lower in months with more rainfall

Page 12: IV Lecture 2

Overidentifcation Tests• With multiple instruments, it is possible to conduct “overidentifcation” 

tests• 2SLS with multiple instruments produces a causal effect that averages IV p p g

estimates using the instruments one at a time (a linear combination of instrument‐specific LATEs), where the weights depend on the relative strength of each instrument in the first stage

• But consider producing the IV estimates for each instrument one at a timeBut consider producing the IV estimates for each instrument one at a time and comparing them. If each just‐identified estimator is consistent, the difference between them should be small

• In short, multiple instruments are validated according to whether or not they produce the same estimates The test is based on the assumptionthey produce the same estimates. The test is based on the assumption that at least one of the instruments is valid.

• Note that this is not a test of the exclusion restriction per se– Failure to reject might be because the estimates are very imprecise– Rejection might imply heterogeneous treatment effects; that is, you wouldn’t 

expect the different instruments to produce the same LATE anyway even if they were all valid

• Aside from overidentification, additional tests for instrument redundancy yare available– If instruments are redundant, better to use just one (see above)

Page 13: IV Lecture 2

LATEi h l ff f h ff d b h i• IV estimates the average causal effect for those affected by the instrument

– The LATE is not informative about effects on never‐takers and always‐takers because, by definition, their treatment status is not affected by the instrument

• How useful is this LATE? No theorem can give you the answer. Again, it g y g ,depends on substantive knowledge of the phenomenon under study

• But it is worth asking:– How large is the group affected by the instrument relative to the population 

you’re interested in?you re interested in?– How representative is the group affected by the instrument relative of the 

population you’re interested in?– Is there any reason to think that those who receive the treatment in a way 

unrelated to the instrument might respond differently to it?unrelated to the instrument might respond differently to it?• Examples

– Miguel et al. rainfall instrument, by the authors’ own admission, likely only works for Africa

d f l f b h h ld h d– Vietnam draft lottery, not informative about those who would have joined anyway

• Remember that each instrumental variable identifies a unique causal parameter, one specific to the subpopulation of compliers for that instrument. Different instruments can therefore produce different estimates for the same causal relationship—and they can all be right, at least in principle. This is why overid tests are not valid with heterogeneous effects.

Page 14: IV Lecture 2

Potential Pitfalls• It is possible to construct 2SLS estimates manually by running 2 

regressions. Note that the standard errors will be wrong. It is possible to adjust them ex post, but, especially with clustering, etc., better to j t l t St t d itjust let Stata do it. 

• Always put the same covariates in the first stage and the second stage.– Consider a potential covariate X. Note that the first stage residuals are 

uncorrelated with X by construction if X is in the first stage If X is not inuncorrelated with X by construction if X is in the first stage. If X is not in the first stage, it is likely to be correlated with first stage residuals. The inconsistency from this correlation spills over to all the other coefficients in the second stage (as in typical OVB).

Al OLS f th fi t t if h d• Always use OLS for the first stage, even if you have a dummy endogenous variable. Only OLS estimation is guaranteed to produce first stage residuals that are uncorrelated with covariates and fitted values. By contrast, logit and probit residuals will be uncorrelated with y , g pcovariates and fitted values only if the underlying first stage functional form truly is logit or probit (which we don’t know). With OLS, you don’t need to worry about whether the first stage is really linear; it is an approximation to the underlying (possibly nonlinear) relationship;an approximation to the underlying (possibly nonlinear) relationship; consistency does not depend on correct specification of the first stage functional form.

Page 15: IV Lecture 2

Rules for Practice• Always report the first stage estimates

– Think about whether they make sense. Are the signs and magnitudes reasonable?• Always report the first stage F for the excluded instruments• Always report the first stage F for the excluded instruments

– F above 10 is desirable (Stock, Wright, and Yogo) but not dispositive– Consider reporting other diagnostics if F is dubious

• Run and examine the reduced form (regression of dependent variable on instruments)– Look at coefficients, t‐stat, F‐stat for excluded instruments– Remember that reduced form is proportional to the causal effect of interest and, 

since they are OLS, also unbiasedy ,– If you can’t see the causal relation in the reduced form, it’s probably not there

• Provide a substantive explanation for the observed difference between 2SLS and OLS estimates

How big is the difference? What does this tell you?– How big is the difference? What does this tell you?– Is the coefficient bigger when theory of endogeneity suggests it should be smaller? 

If so, why? Measurement error? Heterogeneous effects?• Consider reporting a Durbin‐Wu‐Hausman‐like test for the endogeneity of the 

treatment– Goes under different names depending on how you model the standard errors– Essentially a test of whether the 2SLS and OLS coefficients are equal

Page 16: IV Lecture 2

Rules for Multiple InstrumentsRules for Multiple Instruments• If you have multiple instruments, report overidentification

tests• Pick your single best instrument and report just‐identified 

results using only this one. – This result is less likely to be subject to the weak instruments 

critique.– Worry if it is substantially different from what you get using 

l i l imultiple instruments• Reproduce 2SLS model using LIML and/or JIVE. Results 

should come out similar. If not, worry about finding t i t t d i th d fstronger instruments or reducing the degree of overidentification. (Are the multiple instruments are actually independent of each other? This is testable.)

Page 17: IV Lecture 2

Evaluating an IV Paper ( bl )(Possibly Your Own)

• Does the instrument perform well in the first stage?– Does the author report the first stage?– Testable: rule of thumb first stage F‐stat above 10

• Is the exclusion restriction believable?– Would you expect a direct effect of Z on Y?– That is, if you were writing a model of Y, would Z be on the right‐

hand side? If yes, then not a valid instrumenty– Not directly testable

• Except when equation is overidentified, and here only with additional assumptions

h b d?• What LATE is being estimated?– ie., whose behavior is affected by the instrument?– Is this the LATE you would want? Is it a quantity of theoretical 

i ?interest?– Would other LATEs possible yield different estiamtes?

Page 18: IV Lecture 2

EXAMPLE PAPERSInstrumental Variables

EXAMPLE PAPERS

Page 19: IV Lecture 2

“The Colonial Origins of Development”Development

by Acemoglu, Johson, & Robinson

Page 20: IV Lecture 2

The Basic StoryThe Basic Story

Page 21: IV Lecture 2

IV SetupIV Setup• Settler mortality is used as an instrument for current institutionscurrent institutions

• Instrument relevance: Estimates of settler mortality must affect contemporary institutionsmortality must affect contemporary institutions. 

• The exclusion restriction ‐Mortality rates of European settlers more than 100 years ago haveEuropean settlers more than 100 years ago have no effect on current income per capita other than via correlation with institutions.

Page 22: IV Lecture 2

DataData• 75 total colonized nations; 64 observations with complete datawith complete data

• Data on soldier, bishop, sailor mortality rates as indicator of mortality rates thatrates as indicator of mortality rates that European settlers should expect to encounterencounter

• “Risk of expropriation” ‐measures differences in institutions originating fromdifferences in institutions originating from different state policies

• Economic performance ‐ income per capita;Economic performance  income per capita; GDP per capita

Page 23: IV Lecture 2

Results

Page 24: IV Lecture 2

“Economic Shocks and Civil Conflict”by Miguel, Satyanath, & Sergenti

Page 25: IV Lecture 2

Theory & EstimandTheory & Estimand• Motivation 

Ci il h lt d i 3 d th– Civil wars have resulted in 3x as many deaths as wars between states since WWII. What causes civil wars?

• Theory– Economic conditions promote/inhibit civil conflict by one of two mechanisms

• Opportunity costs: in a bad economy, the returns to taking up l ti t i ti iti t (C lli darms relative to economic activities are greater (Collier and 

Hoeffler)• State capacity: In a bad economy, the state (military) is weaker , making it more difficult to repress insurgents (Fearon and Laitin)

• This paper won’t try to distinguish between the two mechanisms • Estimand

– The effect of economic conditions on the probability ofThe effect of economic conditions on the probability of civil war (comparative static) 

Page 26: IV Lecture 2

Identification Strategy• The identification problem

– Because civil conflict negatively affects economic ecause c co ct egat e y a ects eco o cperformance (e.g., GDP), we cannot simply regress war on GDP. Reverse causationendogenity

– It’s also likely that the lead‐up to civil war (expectations) hurt– It s also likely that the lead‐up to civil war (expectations) hurt the economy, so simply lagging GDP won’t suffice either

• Econometric strategy– Use weather (rainfall) as an instrument for GDP– Weather strongly predicts GDP in countries that rely on rainfed agriculture (no irrigation) and are prone to droughtrainfed agriculture (no irrigation) and are prone to drought

• Works for sub‐Saharan Africa, may not work elsewhere– Exclusion restriction: weather should not affect likelihood of conflict except through its influence on economic growthconflict except through its influence on economic growth

Page 27: IV Lecture 2

Estimation Framework

• First‐stage equation

– Where ΔR is proportional change in rainfall from previous year, growth is per capita income growth, X is a vector of county control variables, ai are 

t fi d ff tcountry fixed effects• Second‐stage equation

• Where conflict is a dummy for 25 or 1000• Where conflict is a dummy for 25 or 1000 battle deaths per year

Page 28: IV Lecture 2

First‐stage Results

Page 29: IV Lecture 2

First‐Stage Graph

Page 30: IV Lecture 2

Reduced‐Form ResultsReduced Form Results

See page 737

Page 31: IV Lecture 2

Reduced‐Form Graph

Page 32: IV Lecture 2

Second‐stage Results

Page 33: IV Lecture 2

EXAMPLES IN STATAInstrumental Variables

EXAMPLES IN STATA

Page 34: IV Lecture 2

Instrumental Variables Part IIInstrumental Variables, Part II

EITM 2011Chris BerryChris Berry