Download - Παλινδρόμηση με Βοηθητικές Μεταβλητές

Transcript
Page 1: Παλινδρόμηση με Βοηθητικές Μεταβλητές

1

Παλινδρόμηση με Βοηθητικές Μεταβλητές

Υπάρχουν τρεις σημαντικές απειλές: •Η μεροληψία από την παράλειψη κάποιας μεταβλητής που συσχετίζεται με το X και η οποία δεν είναι παρατηρήσιμη, και, ως εκ τούτου, δεν μπορεί να συμπεριληφθεί στην παλινδρόμηση.

• Η μεροληψία αμφίδρομης αιτιότητας (το X αιτιάζει τοY και το Y αιτιάζει το X).

• Η μεροληψία σφάλματος στις μεταβλητές (το X μετράται με κάποιο σφάλμα).

Η παλινδρόμηση με βοηθητικές μεταβλητές μπορεί να εξαλείψει και τις τρεις αυτές μορφές μεροληψίας.

Page 2: Παλινδρόμηση με Βοηθητικές Μεταβλητές

2

Ορολογία: ενδογένεια και εξωγένεια

Ενδογενής ονομάζεται μία μεταβλητή που συσχετίζεται με το διαταρακτικό όρο του υποδείγματος u.

Εξωγενής ονομάζεται μία μεταβλητή που δε συσχετίζεται με το u.

Παρατήρηση: «Ενδογενής μεταβλητή» είναι μία μεταβλητή που «προσδιορίζεται μέσα στο σύστημα», ή, με άλλα λόγια, προσδιορίζεται από κοινού με την Y, δηλαδή μία μεταβλητή που υπόκειται σε αμφίδρομη αιτιότητα.

Ο ορισμός, όμως, αυτός δεν είναι αρκετά ευρύς: η παλινδρόμηση με βοηθητικές μεταβλητές δε χρησιμοποιείται μόνο για τη διερεύνηση υποδειγμάτων που εμφανίζουν μεροληψία αμφίδρομης αιτιότητας, αλλά και υποδειγμάτων με μεροληψία σφάλματος στις μεταβλητές ή με μεροληψία από παραλειπόμενες μεταβλητές.

Page 3: Παλινδρόμηση με Βοηθητικές Μεταβλητές

3

Ο Εκτιμητής Βοηθητικών Μεταβλητών (IV Εκτιμητής) με μία Ερμηνευτική και μία Βοηθητική Μεταβλητή

Yi = 0 + 1Xi + ui

• Η παλινδρόμηση με βοηθητικές μεταβλητές χωρίζει το X σε δύο μέρη:

- σε ένα μέρος που ενδέχεται να συσχετίζεται με το διαταρακτικό όρο u

- σε ένα δεύτερο που δε συσχετίζεται με το u. Απομονώνοντας το μέρος εκείνο που δε συσχετίζεται με το u, μπορούμε να εκτιμήσουμε το 1.

• Αυτό επιτυγχάνεται με την εισαγωγή μιας βοηθητικής μεταβλητής, έστω Zi, η οποία δε συσχετίζεται με το ui.

• Η Zi ανιχνεύει κινήσεις στο Xi που δε συσχετίζονται με το ui και τις

χρησιμοποιεί για να εκτιμήσει το 1.

Page 4: Παλινδρόμηση με Βοηθητικές Μεταβλητές

4

Δύο συνθήκες για να είναι έγκυρη η βοηθητική μεταβλητή

Yi = 0 + 1Xi + ui

Για να είναι μια βοηθητική μεταβλητή Z έγκυρη, θα πρέπει να ισχύουν οι εξής δύο συνθήκες:

1. Συνθήκη Συσχέτισης:

2. Συνθήκη Εξωγένειας:

Υποθέτουμε για την παρούσα ανάλυση ότι έχουμε μια βοηθητική μεταβλητή Zi που πληρεί τις συνθήκες αυτές (θα

ασχοληθούμε παρακάτω με το πώς βρίσκουμε μια τέτοια μεταβλητή). Πώς μπορούμε να χρησιμοποιήσουμε τη Zi,

για να εκτιμήσουμε το συντελεστή 1;

Page 5: Παλινδρόμηση με Βοηθητικές Μεταβλητές

5

• ο συντελεστής συσχέτισης παίρνει τιμές στο διάστημα [-1,1], δηλαδή:

• αν corr(X,Z) = 1, τότε υπάρχει τέλεια θετική γραμμική συσχέτιση μεταξύ του Χ και του Ζ.

• αν corr(X,Z) = -1, τότε υπάρχει τέλεια αρνητική γραμμική συσχέτιση μεταξύ του Χ και του Ζ.

• αν corr(X,Z) = 0,τότε δεν υπάρχει γραμμική σχέση μεταξύ Χ και Ζ.

Page 6: Παλινδρόμηση με Βοηθητικές Μεταβλητές

6

Ο IV εκτιμητής, η μεταβλητή X και η μεταβλητή Z

Η Μέθοδος των Ελαχίστων Τετραγώνων σε Δύο Στάδια (TSLS): Όπως δηλώνει και η ονομασία της, η TSLS έχει δύο στάδια και, άρα, δύο παλινδρομήσεις:

(α) Στο Στάδιο 1, απομονώνεται το μέρος εκείνο της μεταβλητής X που δε συσχετίζεται με το u: παλινδρομούμε το X στο Z χρησιμοποιώντας την OLS:

Xi = 0 + 1Zi + v (1)

•Επειδή το Zi είναι ασυσχέτιστο με το ui, η παράσταση 0 +

1Zi είναι και αυτή ασυσχέτιστη με το ui. Αν και δε

γνωρίζουμε τις πραγματικές τιμές των 0 και 1, έχουμε,

όμως, τις εκτιμήσεις τους, οπότε…

•Υπολογίζουμε τις εκτιμημένες τιμές του Xi, δηλαδή το

όπου = i = 1,…, n.

Page 7: Παλινδρόμηση με Βοηθητικές Μεταβλητές

7

(β) Στο Στάδιο 2, αντικαθιστούμε το Xi με το και

παλινδρομούμε το Y στο χρησιμοποιώντας την OLS:

Yi = 0 + 1 + ui (2)

•Επειδή το είναι ασυσχέτιστο με το ui για μεγάλα

δείγματα, η 1η Υπόθεση Ελαχίστων Τετραγώνων ισχύει.

•Συνεπώς, το 1 μπορεί να εκτιμηθεί με OLS

χρησιμοποιώντας το υπόδειγμα παλινδρόμησης (2).

•Ο εκτιμητής που προκύπτει ονομάζεται «εκτιμητής ελαχίστων τετραγώνων σε δύο στάδια» ή TSLS εκτιμητής,

Page 8: Παλινδρόμηση με Βοηθητικές Μεταβλητές

8

Notes: 1η Υπόθεση Ελαχίστων Τετραγώνων: E(u|X = x) = 0. Δεδομένου του Χ ο μέσος του u είναι μηδέν.

Page 9: Παλινδρόμηση με Βοηθητικές Μεταβλητές

9

Η Μέθοδος των Ελαχίστων Τετραγώνων σε Δύο Στάδια (συνέχεια)

Έστω ότι έχουμε μία έγκυρη βοηθητική μεταβλητή, Zi.

Στάδιο 1:

Παλινδρομώντας το Xi στο Zi, παίρνουμε τις

προβλεπόμενες τιμές

Στάδιο 2:

Παλινδρομούμε το Yi στο : ο συντελεστής του ,

είναι ο TSLS εκτιμητής,

Οπότε, ο είναι ένας συνεπής εκτιμητής του 1.

Page 10: Παλινδρόμηση με Βοηθητικές Μεταβλητές

10

Ο IV εκτιμητής, η μεταβλητή X και η μεταβλητή Z (συνέχεια)

Χρησιμοποιούμε λίγη (μόνο) άλγεβρα:

Yi = 0 + 1Xi + ui

Άρα,

cov(Yi, Zi) = cov(0 + 1Xi + ui, Zi)

cov(Yi, Zi) = cov(0, Zi) + cov(1Xi, Zi) + cov(ui, Zi)

cov(Yi, Zi) = 0 + cov(1Xi, Zi) + 0

cov(Yi, Zi) = 1cov(Xi,Zi)

όπου cov(ui, Zi) = 0 (Συνθήκη Εξωγένειας)

Άρα,

Page 11: Παλινδρόμηση με Βοηθητικές Μεταβλητές

11

Ο IV εκτιμητής, η μεταβλητή X και η μεταβλητή Z (συνέχεια)

Ο IV Εκτιμητής αντικαθιστά τις συνδιακυμάνσεις αυτές του πληθυσμού με δειγματικές συνδιακυμάνσεις:

sYZ και sXZ είναι οι δειγματικές συνδιακυμάνσεις.

Page 12: Παλινδρόμηση με Βοηθητικές Μεταβλητές

12

Συνέπεια του TSLS εκτιμητή

Οι συνδιακυμάνσεις του δείγματος είναι συνεπείς:

Η συνθήκη συσχέτισης της βοηθητικής μεταβλητής

εξασφαλίζει ότι δε διαιρούμε με το μηδέν.

και

Επομένως:

Page 13: Παλινδρόμηση με Βοηθητικές Μεταβλητές

13

Παράδειγμα #1: Προσφορά και ζήτηση βουτύρου

Η IV παλινδρόμηση αρχικά αναπτύχθηκε για να εκτιμήσει τις ελαστικότητες αγροτικών και κτηνοτροφικών προϊόντων ή παραγώγων τους, όπως, π.χ. του βουτύρου:

1 = ελαστικότητα της τιμής του βουτύρου = ποσοστιαία

μεταβολή της ποσότητας για μια μεταβολή της τιμής κατά 1%.

• Στοιχεία: παρατηρήσεις της τιμής και της ποσότητας βουτύρου για διαφορετικά έτη.

• Η OLS παλινδρόμηση του στο εμφανίζει μεροληψία αμφίδρομης αιτιότητας (γιατί;)

Page 14: Παλινδρόμηση με Βοηθητικές Μεταβλητές

14

Η μεροληψία αμφίδρομης αιτιότητας κατά την παλινδρόμηση του στο οφείλεται στο ότι η τιμή και η ποσότητα καθορίζονται από την αλληλεπίδραση της ζήτησης και της προσφοράς.

Page 15: Παλινδρόμηση με Βοηθητικές Μεταβλητές

15

Η αλληλεξάρτηση αυτή μεταξύ ζήτησης και προσφοράς παράγει…

Θα μπορούσε η καμπύλη ζήτησης να παραχθεί από μία παλινδρόμηση που θα χρησιμοποιούσε τα δεδομένα αυτά;

Page 16: Παλινδρόμηση με Βοηθητικές Μεταβλητές

16

Έστω ότι μετατοπίζαμε μόνο την καμπύλη προσφοράς. Τι θα παίρναμε, τότε;

•Η μέθοδος TSLS εκτιμά την καμπύλη ζήτησης απομονώνοντας τις μεταβολές στην τιμή και την προσφορά που οφείλονται στις μετατοπίσεις της καμπύλης προσφοράς.•Η Z είναι μία μεταβλητή που μεταβάλλει την προσφορά, αλλά όχι τη ζήτηση.

Page 17: Παλινδρόμηση με Βοηθητικές Μεταβλητές

17

Η μέθοδος TSLS στο παράδειγμα προσφοράς και ζήτησης:

Έστω: Z = βροχόπτωση σε περιοχές όπου παράγονται γαλακτοκομικά προϊόντα.

Είναι το Z μια έγκυρη βοηθητική μεταβλητή;(1) Εξωγενής; Λογικός συνειρμός: αν βρέχει ή όχι σε περιοχές όπου παράγονται γαλακτοκομικά προϊόντα, δεν επηρεάζει τη ζήτησή τους. (2) Συσχετίζεται με την ερμηνευτική μεταβλητή που

αντικαθιστά; Λογικός συνειρμός: ανεπαρκής βροχόπτωση συνεπάγεται λιγότερη βοσκή και, άρα, λιγότερο βούτυρο.

Page 18: Παλινδρόμηση με Βοηθητικές Μεταβλητές

18

Η μέθοδος TSLS στο παράδειγμα προσφοράς και ζήτησης (συνέχεια)

Zi = βροχήi = βροχόπτωση σε περιοχές όπου παράγονται

γαλακτοκομικά προϊόντα.

Στάδιο 1: παλινδρομούμε το στο Ζ, και παίρνουμε τον εκτιμητή , ο οποίος απομονώνει τις μεταβολές που προκαλεί η προσφορά (ή μέρος αυτής) στο λογάριθμο της τιμής.

Στάδιο 2: παλινδρομούμε το στο .

Page 19: Παλινδρόμηση με Βοηθητικές Μεταβλητές

19

Παράδειγμα #2: Βαθμοί εξετάσεων και μέγεθος τάξης

•Οι παλινδρομήσεις με στοιχεία βαθμών εξετάσεων και μεγέθους τάξεων από την Καλιφόρνια, είναι πιθανό να εμφανίζουν μεροληψία από παραλειπόμενες μεταβλητές (π.χ. παράλειψη της γονικής συμβολής στις επιδόσεις των παιδιών τους).

•Αυτού του είδους η μεροληψία θα μπορούσε να εξαλειφθεί αν χρησιμοποιούσαμε IV παλινδρόμηση (TSLS).

•Η IV παλινδρόμηση προϋποθέτει μια έγκυρη IV μεταβλητή, δηλαδή, μία μεταβλητή που να είναι:

(1) Σχετική με την ερμηνευτική μεταβλητή που αντικαθιστά:

(2) Εξωγενής:

Page 20: Παλινδρόμηση με Βοηθητικές Μεταβλητές

20

Παράδειγμα #2: Βαθμοί εξετάσεων και μέγεθος τάξης (συνέχεια)

Έστω ότι η IV μεταβλητή που ζητάμε είναι:

Σχολικές μονάδες σε περιοχές που έχουν πληγεί από σεισμό (τυχαίο φυσικό φαινόμενο) και στις οποίες έχει διπλασιαστεί το μέγεθος της κάθε τάξης αναγκαστικά, καθώς ορισμένες σχολικές αίθουσες δεν μπορούν να χρησιμοποιηθούν για διδασκαλία λόγω των ζημιών που υπέστησαν:

Zi = σεισμόςi = 1 αν η περιοχή έχει πληγεί από σεισμό,

= 0 διαφορετικά

Ισχύουν οι δύο συνθήκες που προαναφέραμε, άρα η βοηθητική μεταβλητή που έχουμε υποθέσει να είναι έγκυρη;

Page 21: Παλινδρόμηση με Βοηθητικές Μεταβλητές

21

Η επίδραση της υπόθεσης του σεισμού στις υπό εξέταση σχολικές μονάδες, λειτουργεί, όπως ακριβώς, θα λειτουργούσε και ένα τυχαίο πείραμα. Κατά συνέπεια, η μεταβλητότητα των τιμών του ΛΜΔ που οφείλεται στο σεισμό είναι εξωγενής.

Στο στάδιο 1 της TSLS παλινδρομούμε το ΛΜΔ στο σεισμό, απομονώνοντας έτσι το μέρος εκείνο του ΛΜΔ που είναι εξωγενές (δηλαδή, το μέρος εκείνο που λειτουργεί «σαν» ένα τυχαία εφαρμοσμένο πείραμα).

Θα εξετάσουμε και άλλα παραδείγματα πιο κάτω…

Page 22: Παλινδρόμηση με Βοηθητικές Μεταβλητές

22

Επαγωγή με τη μέθοδο TSLS

•Για μεγάλα δείγματα, η κατανομή δειγματοληψίας του TSLS εκτιμητή είναι η κανονική κατανομή.

•Η στατιστική επαγωγή (έλεγχοι υποθέσεων, διαστήματα εμπιστοσύνης) ακολουθεί τη συνήθη διαδικασία, π.χ.

•Η κανονική κατανομή του TSLS εκτιμητή για μεγάλα δείγματα βασίζεται στην ιδέα ότι διαθέτει τις προϋποθέσεις εκείνες που απαιτούνται για να μπορούμε να εφαρμόσουμε το Κεντρικό Οριακό Θεώρημα (ΚΟΘ).

Page 23: Παλινδρόμηση με Βοηθητικές Μεταβλητές

23

Αρχικά

οπότε:

Page 24: Παλινδρόμηση με Βοηθητικές Μεταβλητές

24

Άρα:

Αφαιρούμε το 1 και από τα δύο σκέλη της εξίσωσης και

παίρνουμε,

Page 25: Παλινδρόμηση με Βοηθητικές Μεταβλητές

25

Πολλαπλασιάζουμε και τα δύο σκέλη με και επειδή κατά προσέγγιση ισχύει , παίρνουμε ότι:

•Εξετάζουμε, πρώτα, τον αριθμητή: για μεγάλα δείγματα,

το κατανέμεται κανονικά:N(0,var[(Z–Z)u]).

Page 26: Παλινδρόμηση με Βοηθητικές Μεταβλητές

26

•Στη συνέχεια, εξετάζουμε τον παρανομαστή:

από το Νόμο των Μεγάλων Αριθμών, όπου

επειδή η συνθήκη συσχέτισης ισχύει εξ’ υποθέσεως.

Τι συμβαίνει αν δεν ισχύει η εν λόγω συνθήκη;

(Περισσότερα για το θέμα αυτό παρακάτω)

Page 27: Παλινδρόμηση με Βοηθητικές Μεταβλητές

27

Συνδυάζοντας τα παραπάνω:

Το κατανέμεται κανονικά:N(0,var[(Z–Z)u])

Τελικά, το κατανέμεται κατά προσέγγιση κανονικά:

όπου σ2 = 1/n {[var[(Zi - μZ)ui] / [cov (Zi, Xi)]}

Page 28: Παλινδρόμηση με Βοηθητικές Μεταβλητές

28

Επαγωγή με τη μέθοδο TSLS (συνέχεια)

Το κατανέμεται κατά προσέγγιση κανονικά:

•Η στατιστική επαγωγή ακολουθεί τη συνήθη διαδικασία.

•Η αιτιολόγηση βασίζεται (όπως συνήθως) στο ότι τα δείγματα είναι μεγάλα.

•Όλη η προηγούμενη ανάλυση προϋποθέτει ότι οι βοηθητικές μεταβλητές είναι έγκυρες – θα συζητήσουμε τι ακριβώς συμβαίνει αν δεν είναι έγκυρες λίγο πιο κάτω.

Page 29: Παλινδρόμηση με Βοηθητικές Μεταβλητές

29

Σημαντική παρατήρηση αναφορικά με τα τυπικά σφάλματα:

•Τα τυπικά σφάλματα που προκύπτουν από την παλινδρόμηση με OLS στο δεύτερο στάδιο της μεθόδου TSLS δεν είναι ορθά - δε λαμβάνουν υπόψη τους την εκτίμηση του πρώτου σταδίου (που εκτιμάται το ).

•Χρειαζόμαστε, λοιπόν, μια ενιαία εξειδικευμένη εντολή που να υπολογίζει τον εκτιμητή, καθώς και τα ορθά τυπικά σφάλματα.

•Ως είθισται, λοιπόν, χρησιμοποιούμε τα ετεροσκεδαστικά -εύρωστα τυπικά σφάλματα.

Page 30: Παλινδρόμηση με Βοηθητικές Μεταβλητές

30

Μια πλήρης παρέκκλιση από την βασική μας ανάλυση: Η ιστορία της IV παλινδρόμησης

•Πόσα χρήματα θα συγκεντρώνονταν από την επιβολή ενός εισαγωγικού δασμού στα ζωικά και φυτικά έλαια (βούτυρο, έλαιο σόγιας, κ.λ.π.);

•Ο υπολογισμός αυτός απαιτεί να γνωρίζουμε τις ελαστικότητες προσφοράς και ζήτησης, τόσο τις εγχώριες, όσο και των κρατών απ’ όπου εισάγονται τα τα έλαια.

•Το πρόβλημα αυτό έλυσε πρώτος ο Wright το 1928 στο Παράρτημα Β του έργου του “The Tariff on Animal and Vegetable Oils”.

Page 31: Παλινδρόμηση με Βοηθητικές Μεταβλητές

31

Διάγραμμα 4, σελ. 296, Παράρτημα Β (1928):

Page 32: Παλινδρόμηση με Βοηθητικές Μεταβλητές

32

Ποιος, όμως, έγραψε το Παράρτημα Β…;

…το παράρτημα αυτό πιστεύεται ότι το έγραψε είτε ο ίδιος ο Philip Wright σε συνεργασία με το γιό του, Sewall Wright, που ήταν εξαίρετος στατιστικολόγος ή ο γιος του μόνος του.

Ποιοι ήταν οι δύο αυτοί άντρες και ποια η ιστορία τους;

Page 33: Παλινδρόμηση με Βοηθητικές Μεταβλητές

33

Philip Wright (1861-1934)άσημος οικονομολόγος και

ποιητήςMA Harvard, Econ, 1887

Lecturer,Harvard,1913-1917

Sewall Wright (1889-1988)διάσημος γενετικός

στατιστικολόγοςScD Harvard, Biology, 1915Prof., U. Chicago, 1930-1954

Page 34: Παλινδρόμηση με Βοηθητικές Μεταβλητές

34

Παράδειγμα: Ζήτηση τσιγάρων

•Πόσο θα μειωνόταν η κατανάλωση τσιγάρων από την επιβολή ενός (υποθετικού) φόρου;

•Για να απαντήσουμε στο ερώτημα αυτό, χρειάζεται να γνωρίζουμε την ελαστικότητα της ζήτησης τσιγάρων, δηλαδή, το συντελεστή παλινδρόμησης 1.

•Ο εκτιμητής OLS θα είναι αμερόληπτος; Εξηγήστε.

Page 35: Παλινδρόμηση με Βοηθητικές Μεταβλητές

35

Παράδειγμα: Ζήτηση τσιγάρων (συνέχεια)

Διαστρωματικά στοιχεία χρονολογικών σειρών (panel data):

•Ετήσια κατανάλωση τσιγάρων και μέσο ύψος τιμών (συμπεριλαμβανομένου του φόρου).

•48 πολιτείες των ΗΠΑ, 1985-1995.

Προτεινόμενη βοηθητική μεταβλητή:

•Zi = γενικός φόρος επί των πωλήσεων ανά πακέτο στην πολιτεία

i = SalesTaxi

•Είναι το Zi μία έγκυρη βοηθητική μεταβλητή; (1) Συσχετίζεται με την ερμηνευτική μεταβλητή του

υποδείγματος: ;

(2) Είναι εξωγενής: corr(SalesTaxi,ui) = 0;

Page 36: Παλινδρόμηση με Βοηθητικές Μεταβλητές

36

Αρχικά, χρησιμοποιούμε στοιχεία μόνο για το έτος 1995.

OLS παλινδρόμηση

Στάδιο 1:

Στάδιο 2:

Συνδυασμένη παλινδρόμηση με ορθά, ετεροσκεδαστικά-εύρωστα τυπικά σφάλματα:

Page 37: Παλινδρόμηση με Βοηθητικές Μεταβλητές

37

STATA Παράδειγμα: Ζήτηση τσιγάρωνΣτάδιο 1: Βοηθητική Μεταβλητή = Z = rtaxso = γενικός φόρος επί των πωλήσεων ($/πακέτο)

Page 38: Παλινδρόμηση με Βοηθητικές Μεταβλητές

38

Στάδιο 2

•Οι συντελεστές αυτοί είναι οι TSLS εκτιμήσεις.

•Τα τυπικά σφάλματα δεν είναι ορθά, καθώς αγνοούν την εκτίμηση του πρώτου σταδίου.

Page 39: Παλινδρόμηση με Βοηθητικές Μεταβλητές

39

Ενώνουμε τα δύο στάδια σε ένα:

Page 40: Παλινδρόμηση με Βοηθητικές Μεταβλητές

40

Ανακεφαλαίωση της IV Παλινδρόμησης με ένα X και ένα Z

• Μία έγκυρη βοηθητική μεταβλητή Z πρέπει να ικανοποιεί τις ακόλουθες δύο συνθήκες:

(1) Συνθήκη συσχέτισης:

(2) Συνθήκη εξωγένειας:

• Η μέθοδος TSLS, ξεκινά με την παλινδρόμηση ανάμεσα στο X και στο Z που μας δίνει το και συνεχίζει με την παλινδρόμηση του Y στο .

• Η βασική ιδέα είναι ότι στο πρώτο στάδιο της παλινδρόμησης απομονώνεται το μέρος εκείνο της μεταβλητότητας των τιμών της X που δε συσχετίζεται με το u.

• Αν η βοηθητική μεταβλητή είναι έγκυρη, τότε η κατανομή δειγματοληψίας του εκτιμητή για μεγάλα δείγματα είναι η κανονική και, άρα, η στατιστική επαγωγή διενεργείται κατά το συνήθη τρόπο.

Page 41: Παλινδρόμηση με Βοηθητικές Μεταβλητές

41

Tο Γενικό Υπόδειγμα Βοηθητικών Μεταβλητών

• Έως τώρα έχουμε εξετάσει την παλινδρόμηση με μία ενδογενή ερμηνευτική μεταβλητή (X) και μία βοηθητική μεταβλητή (Z).

• Χρειάζεται αυτό να το επεκτείνουμε σε:

- πολλαπλές ενδογενείς ερμηνευτικές μεταβλητές (X1,…,Xk).

- πολλαπλές συμπεριληφθείσες εξωγενείς μεταβλητές (W1,

…,Wr).

- πολλαπλές βοηθητικές μεταβλητές (Z1,…,Zm).

Περισσότερες (συσχετισμένες) βοηθητικές μεταβλητές μας δίνουν μικρότερη διακύμανση της TSLS: η τιμή του R2 που προκύπτει από το πρώτο στάδιο αυξάνει, οπότε έχουμε μεγαλύτερη μεταβλητότητα των τιμών του

Page 42: Παλινδρόμηση με Βοηθητικές Μεταβλητές

42

Παράδειγμα: ζήτηση τσιγάρων

•Ένας ακόμα προσδιοριστικός παράγοντας της ζήτησης είναι το εισόδημα, το οποίο αν παραλείψουμε να συμπεριλάβουμε στο υπόδειγμα μπορεί να προκαλέσει μεροληψία.

•Η ζήτηση τσιγάρων με ένα X , ένα W και δύο βοηθητικές μεταβλητές (2 Z), έχει ως εξής:

Z1i = γενικός φόρος επί των πωλήσεων στην πολιτεία i

Z2i = φόρος επί των πωλήσεων τσιγάρων στην πολιτεία i

Κάποια W είναι πιθανό να αναφέρονται σε παράγοντες που επηρεάζουν τη ζήτηση τσιγάρων και που εμφανίζονται σε κάθε μεμονωμένη πολιτεία και/ή σε χρονικούς παράγοντες (στην περίπτωση διαστρωματικών δεδομένων χρονολογικών σειρών).

Page 43: Παλινδρόμηση με Βοηθητικές Μεταβλητές

43

Το γενικό υπόδειγμα IV παλινδρόμησης: ορολογία και συμβολισμοί

Yi = 0 + 1X1i + … + kXki + k+1W1i + … + k+rWri + ui

•Το Yi είναι η εξαρτημένη μεταβλητή.

•Τα X1i,…, Xki είναι οι ενδογενείς ερμηνευτικές μεταβλητές

(που ενδέχεται να συσχετίζονται με το διαταρακτικό όρο ui)

•Τα W1i,…,Wri είναι εξωγενείς ερμηνευτικές μεταβλητές (που

δε συσχετίζονται με το ui)

• Τα 0, 1,…, k+r είναι οι άγνωστοι συντελεστές

παλινδρόμησης

•Τα Z1i,…,Zmi είναι οι m βοηθητικές μεταβλητές (οι εξωγενείς

μεταβλητές που δεν συμπεριλαμβάνονται στο υπόδειγμα).

Page 44: Παλινδρόμηση με Βοηθητικές Μεταβλητές

44

Το γενικό υπόδειγμα IV παλινδρόμησης (συνέχεια)

Yi = 0 + 1X1i + … + kXki + k+1W1i + … + k+rWri + ui

Είναι απαραίτητο να εισάγουμε κάποιες καινούργιες έννοιες και να επεκτείνουμε άλλες που έχουμε ήδη αναφέρει:

•Ορολογία: ταυτοποίηση και υπερταυτοποίηση.

•Οι υποθέσεις στις οποίες στηρίζεται η κανονική κατανομή δειγματοληψίας της TSLS.

-Εγκυρότητα της βοηθητικής μεταβλητής (συσχέτιση

και εξωγένεια).

-Υποθέσεις του γενικού υποδείγματος IV παλινδρόμησης.

Page 45: Παλινδρόμηση με Βοηθητικές Μεταβλητές

45

Ταυτοποίηση

Ταυτοποιημένη εξίσωση είναι αυτή που μπορούν να εκτιμηθούν όλοι οι παράμετροι της συνεπώς.

•Στην IV παλινδρόμηση, η ταυτοποίηση ή μη των συντελεστών εξαρτάται από τη σχέση μεταξύ του πλήθους των βοηθητικών μεταβλητών (m) και του πλήθους των ενδογενών μεταβλητών (k).

•Aν οι βοηθητικές μεταβλητές είναι λιγότερες από τις ενδογενείς ερμηνευτικές μεταβλητές, δεν μπορούμε να εκτιμήσουμε τα 1,

…,k.

Για παράδειγμα, όταν k = 1 αλλά m = 0 (καμία βοηθητική μεταβλητή) τότε το αρχικό υπόδειγμα δεν μπορεί να εκτιμηθεί!

Page 46: Παλινδρόμηση με Βοηθητικές Μεταβλητές

46

Ταυτοποίηση (συνέχεια)

Οι συντελεστές 1,…, k:•Ταυτοποιούνται πλήρως αν m = k.

•Yπερταυτοποιούνται αν m > k.

•Υποταυτοποιούνται αν m < k.

Στην περίπτωση αυτή, υπάρχουν τόσες ακριβώς βοηθητικές μεταβλητές, όσες απαιτούνται για να εκτιμήσουμε τα 1,

…,k.

Εδώ, υπάρχουν περισσότερες βοηθητικές μεταβλητές, απ’ όσες χρειάζονται για να εκτιμήσουμε τα 1,…,k.

Στην περίπτωση αυτή, μπορούμε να ελέγξουμε αν οι βοηθητικές μεταβλητές είναι έγκυρες (έλεγχος των «υπερταυτοποιημένων μεταβλητών») – θα επιστρέψουμε σε αυτό παρακάτω.

Έχουμε λιγότερες βοηθητικές μεταβλητές απ’ όσες χρειαζόμαστε για να εκτιμήσουμε τα 1,…,k. Χρειάζεται να

πάρουμε κι άλλες βοηθητικές μεταβλητές!

Page 47: Παλινδρόμηση με Βοηθητικές Μεταβλητές

47

Το γενικό υπόδειγμα IV παλινδρόμησης: TSLS, μία ενδογενής ερμηνευτική μεταβλητή

Yi = 0 + 1X1i + 2W1i + … + 1+rWri + ui

•Βοηθητικές μεταβλητές: Z1i,…,Zm.

•Στάδιο 1:

•Στάδιο 2:

•Για να πάρουμε ορθά τυπικά σφάλματα, πρέπει η παραπάνω διαδικασία να γίνει σε ένα στάδιο και όχι σε δύο.

-Παλινδρόμηση της X1 σε όλες τις εξωγενείς

ερμηνευτικές μεταβλητές W1,…,Wr,Z1,…,Zm με OLS.

-Υπολογισμός των προβλεπόμενων τιμών , i = 1,…,n.

-Παλινδρόμηση της Y στα ,W1,…,Wr με OLS.

-Οι συντελεστές αυτού του σταδίου είναι οι TSLS εκτιμητές, αλλά τα τυπικά τους σφάλματα δεν είναι ορθά.

Page 48: Παλινδρόμηση με Βοηθητικές Μεταβλητές

48

Παράδειγμα: ζήτηση τσιγάρων

Z1i = γενικός φόρος επί των πωλήσεων

Z2i = φόρος επί των πωλήσεων τσιγάρων

•Ενδογενής μεταβλητή: «ένα Χ».

•Συμπεριληφθείσες στο υπόδειγμα εξωγενείς μεταβλητές ln(Incomei) «ένα W».

• Βοηθητικές μεταβλητές: γενικός φόρος επί των πωλήσεων, φόρος επί των πωλήσεων τσιγάρων «δύο Ζ».

•Τι συμβαίνει με την ελαστικότητα ζήτησης του 1:

υπερταυτοποιείται, ταυτοποιείται ή υποταυτοποιείται

Page 49: Παλινδρόμηση με Βοηθητικές Μεταβλητές

49

Παράδειγμα: Ζήτηση τσιγάρων, μία βοηθητική μεταβλητή

•Αν «τρέξουμε» την IV παλινδρόμηση σαν μία και μοναδική εντολή, παίρνουμε ορθά τυπικά σφάλματα.

Page 50: Παλινδρόμηση με Βοηθητικές Μεταβλητές

50

Παράδειγμα: Ζήτηση τσιγάρων, δύο βοηθητικές μεταβλητές

Page 51: Παλινδρόμηση με Βοηθητικές Μεταβλητές

51

Εκτιμήσεις TSLS, Z = φόρος επί των πωλήσεων (m = 1)

Εκτιμήσεις TSLS, Z = φόρος επί των πωλήσεων τσιγάρων (m = 2)

•Μικρότερα τυπικά σφάλματα για m = 2. Χρησιμοποιώντας 2 βοηθητικές μεταβλητές έχουμε περισσότερη πληροφόρηση.

•Χαμηλή εισοδηματική ελαστικότητα (το αγαθό δε συγκαταλέγεται στα αγαθά πολυτελείας), η οποία δεν είναι σημαντικά διαφορετική από το 0.

•Διαπιστώνουμε ιδιαίτερα υψηλή ελαστικότητα τιμής.

Page 52: Παλινδρόμηση με Βοηθητικές Μεταβλητές

52

Γενική IV παλινδρόμηση: η μέθοδος TSLS με πολλαπλές ενδογενείς ερμηνευτικές μεταβλητές.

Yi = 0 + 1X1i + … + kXki + k+1W1i + … + k+rWri + ui

•Βοηθητικές μεταβλητές: Z1i,…,Zm.

•Τώρα, υπάρχουν k πρώτης τάξεως παλινδρομήσεις: -Παλινδρόμηση της X1 στα W1,…, Wr, Z1,…, Zm με OLS.

-Υπολογισμός των προβλεπόμενων τιμών , i = 1,…,n.

-Παλινδρόμηση της X2 στα W1,…, Wr, Z1,…, Zm με OLS.

-Υπολογισμός των προβλεπόμενων τιμών , i = 1,…,n.

-Επαναλαμβάνουμε τη διαδικασία αυτή για όλα τα X και

παίρνουμε

Page 53: Παλινδρόμηση με Βοηθητικές Μεταβλητές

53

Η μέθοδος TSLS με πολλαπλές ενδογενείς ερμηνευτικές μεταβλητές (συνέχεια)

•Στάδιο 2:

•Για να πάρουμε ορθά τυπικά σφάλματα, πρέπει η παραπάνω διαδικασία να γίνει σε ένα στάδιο και όχι σε δύο.

•Τι θα συνέβαινε στην παλινδρόμηση του δευτέρου σταδίου αν οι συντελεστές υποταυτοποιούνταν; (αν, δηλαδή: πλήθος βοηθητικών μεταβλητών < πλήθος των ενδογενών μεταβλητών);

-Παλινδρόμηση της Y στα ,W1,…, Wr με

OLS.

- Οι συντελεστές αυτού του σταδίου είναι οι TSLS εκτιμητές, αλλά τα τυπικά τους σφάλματα δεν είναι ορθά.

Page 54: Παλινδρόμηση με Βοηθητικές Μεταβλητές

54

Κατανομή δειγματοληψίας του TSLS εκτιμητή στο γενικό υπόδειγμα IV παλινδρόμησης.

•Έννοια της έγκυρης βοηθητικής μεταβλητής στο γενικό υπόδειγμα.

• Οι υποθέσεις της IV παλινδρόμησης.

•Συνέπειες: αν ισχύουν οι υποθέσεις της IV παλινδρόμησης, τότε ο εκτιμητής κατανέμεται κανονικά και η στατιστική επαγωγή (έλεγχος υποθέσεων, διαστήματα εμπιστοσύνης) ακολουθεί τη συνήθη διαδικασία.

Page 55: Παλινδρόμηση με Βοηθητικές Μεταβλητές

55

Ένα σύνολο «έγκυρων» βοηθητικών μεταβλητών για το γενικό υπόδειγμαΟι βοηθητικές μεταβλητές πρέπει να είναι εξωγενείς και να συσχετίζονται με τις ενδογενείς ερμηνευτικές μεταβλητές που αντικαθιστούν:1α. Συσχέτιση: ένα Χ.

1β. Συσχέτιση: πολλά Χς.

2. Εξωγένεια:

Τουλάχιστον μία από τις βοηθητικές μεταβλητές πρέπει να εισέρχεται στην παλινδρόμηση του πρώτου σταδίου στον πληθυσμό.

Δεν εμφανίζεται πλήρης πολυσυγραμμικότητα σε αυτό το (ανεφάρμοστο) δεύτερο στάδιο της παλινδρόμησης

Όλες οι βοηθητικές μεταβλητές είναι ασυσχέτιστες με το διαταρακτικό όρο:corr(Z1i,ui)=0,…, corr(Zm,ui)=0.

Page 56: Παλινδρόμηση με Βοηθητικές Μεταβλητές

56

Οι Υποθέσεις της IV Παλινδρόμησης

Yi = 0 + 1X1i + … + kXki + k+1W1i + … + k+rWri + ui

1. E(ui|W1i,…,Wri) = 0

2. Τα Yi,X1i,…,Xki,W1i,…,Wri,Z1i,…,Zmi είναι ανεξάρτητα και ταυτόνομα κατανεμημένα (i.i.d.).

3. Τα X, W, Z, και Y έχουν μη μηδενικές, πεπερασμένες τέταρτες ροπές.

4. Τα W δεν παρουσιάζουν πλήρη πολυσυγραμμικότητα.

5. Οι βοηθητικές μεταβλητές Z1i,…,Zmi ικανοποιούν τις συνθήκες προκειμένου να είναι έγκυρες.

•Η Υπόθεση 1 σημαίνει ότι «οι εξωγενείς ερμηνευτικές μεταβλητές είναι πράγματι εξωγενείς».

Page 57: Παλινδρόμηση με Βοηθητικές Μεταβλητές

57

Συνέπειες: Κατανομή δειγματοληψίας της μεθόδου TSLS

•Αν οι υποθέσεις της IV παλινδρόμησης ισχύουν, τότε ο TSLS εκτιμητής κατανέμεται κανονικά για μεγάλα δείγματα.

•Η επαγωγή (έλεγχος υποθέσεων, διαστήματα εμπιστοσύνης) ακολουθεί την τυπική διαδικασία.

•Δύο παρατηρήσεις σχετικά με τα τυπικά σφάλματα:

•Όλη η παραπάνω διαδικασία στηρίζεται στο ότι έχουμε πάρει έγκυρες βοηθητικές μεταβλητές…

•Τα τυπικά σφάλματα που προκύπτουν από το δεύτερο στάδιο της παλινδρόμησης δεν είναι ορθά, επειδή δε λαμβάνουν υπόψη τους την εκτίμηση του πρώτου σταδίου. Για να εξάγουμε ορθά τυπικά σφάλματα, πρέπει να «τρέξουμε» την TSLS σε ένα και μοναδικό στάδιο.

•Χρησιμοποιούμε εύρωστα-ετεροσκεδαστικά τυπικά σφάλματα για το λόγο που έχουμε αναφέρει.

Page 58: Παλινδρόμηση με Βοηθητικές Μεταβλητές

58

Έλεγχος της εγκυρότητας των βοηθητικών μεταβλητών

Θυμηθείτε τις συνθήκες που απαιτούνται ώστε οι βοηθητικές μεταβλητές να είναι έγκυρες:1. Συσχέτιση: (ειδική περίπτωση για ένα Χ)

2. Εξωγένεια:

Τουλάχιστον μία από τις βοηθητικές μεταβλητές θα πρέπει να εισέρχεται στην παλινδρόμηση του πρώτου σταδίου στον πληθυσμό.

Όλες οι βοηθητικές μεταβλητές είναι ασυσχέτιστες με το διαταρακτικό όρο:corr(Z1i,ui)=0,…, corr(Zm,ui)=0.

Τι συμβαίνει όταν μία από τις δύο αυτές συνθήκες δεν ικανοποιείται; Πώς μπορεί αυτό να ελεγχθεί; Και τι μπορούμε να κάνουμε για να το διορθώσουμε;

Page 59: Παλινδρόμηση με Βοηθητικές Μεταβλητές

59

Έλεγχος της Υπόθεσης της Συσχέτισης

Θα εστιάσουμε σε μία από τις συμπεριληφθείσες στο υπόδειγμα ενδογενείς ερμηνευτικές μεταβλητές:

Yi = 0 + 1Xi + 2W1i + … + 1+rWri + ui

Παλινδρόμηση Σταδίου 1: Xi = 0 + 1Z1i +…+ miZmi + m+1iW1i +…+ m+kiWki + ui

•Οι βοηθητικές μεταβλητές συσχετίζονται με τις ερμηνευτικές μεταβλητές του υποδείγματος αν ένα τουλάχιστον από τα 1,

…,m είναι μη μηδενικό.•Οι βοηθητικές μεταβλητές ονομάζονται ασθενείς αν όλα τα 1,…,m είναι μηδέν ή κοντά στο μηδέν.• Οι ασθενείς βοηθητικές μεταβλητές ερμηνεύουν πολύ μικρό κομμάτι της μεταβλητότητας των τιμών της Χ, διαφορετικό από αυτό που ερμηνεύεται από τα W.

Page 60: Παλινδρόμηση με Βοηθητικές Μεταβλητές

60

Ποιες επιπτώσεις έχουν οι ασθενείς βοηθητικές μεταβλητές;

Εξετάζουμε την πιο απλή περίπτωση:

Yi = 0 + 1Xi + ui

Xi = 0 + 1Zi + ui

•Ο IV εκτιμητής είναι:

•Αν η συνδιακύμανση μεταξύ των Χ και Ζ, cov (X,Z), είναι μηδέν ή έστω πολύ μικρή, τότε sXZ θα είναι πολύ μικρό: με

ασθενείς ερμηνευτικές μεταβλητές, ο παρανομαστής είναι περίπου μηδέν.

•Σε αυτή την περίπτωση, η κατανομή δειγματοληψίας του (και της t-στατιστικής του) δεν προσεγγίζεται ικανοποιητικά από την κανονική κατανομή του για μεγάλα δείγματα…

Page 61: Παλινδρόμηση με Βοηθητικές Μεταβλητές

61

Παράδειγμα: η κατανομή της TSLS t-στατιστικής με ασθενείς βοηθητικές μεταβλητές

Συνεχής μαύρη γραμμή = βοηθητικές μεταβλητές που παραβιάζουν τη συνθήκη της συσχέτισης

Διακεκομμένη γκρι γραμμή = έγκυρες βοηθητικές μεταβλητές

Page 62: Παλινδρόμηση με Βοηθητικές Μεταβλητές

62

Για ποιο λόγο η αξιόπιστη κανονική κατανομή δεν είναι ικανοποιητική;

•Αν η συνδιακύμανση μεταξύ των Χ και Ζ, cov(X,Z), είναι μικρή (έστω ότι για κάποιο δείγμα υπολογίζουμε ότι sXZ = .00001!), τότε μικρές μεταβολές στο sXZ (από το ένα δείγμα στο επόμενο)

μπορούν να προκαλέσουν μεγάλες μεταβολές στο

•Συνεπώς, η κανονική προσέγγιση για μεγάλα δείγματα αποτελεί μία μη ικανοποιητική προσέγγιση της κατανομής δειγματοληψίας του

•Αν οι βοηθητικές μεταβλητές είναι ασθενείς, οι τυπικές μέθοδοι επαγωγής είναι αναξιόπιστες – ενδεχομένως πολύ αναξιόπιστες.

Page 63: Παλινδρόμηση με Βοηθητικές Μεταβλητές

63

Μέτρηση της ισχύος των βοηθητικών μεταβλητών στην πράξη: Η πρώτου-σταδίου F-στατιστική

•Όταν στο υπόδειγμα υπάρχει ένα Χ, στο Στάδιο1 έχουμε την παλινδρόμηση ανάμεσα στο Χ και στα Z1,..,Zm,W1,…,Wk.

•Πλήρως ασυσχέτιστες βοηθητικές μεταβλητές όλοι οι συντελεστές των Z1,…,Zm είναι μηδέν.

•Η πρώτου-σταδίου F-στατιστική ελέγχει την υπόθεση ότι τα Z1,…,Zm δεν εισέρχονται στην

παλινδρόμηση του πρώτου σταδίου.

•Ασθενείς βοηθητικές μεταβλητές συνεπάγονται μικρή τιμή για την πρώτου-σταδίου F-στατιστική.

Page 64: Παλινδρόμηση με Βοηθητικές Μεταβλητές

64

Έλεγχος για ασθενείς βοηθητικές μεταβλητές όταν το υπόδειγμα έχει μία ερμηνευτική μεταβλητή

•Υπολογίζουμε την τιμή της πρώτου-σταδίου F-στατιστικής.

•Στην περίπτωση αυτή, ο εκτιμητής θα είναι μεροληπτικός και η στατιστική επαγωγή (τυπικά σφάλματα, έλεγχοι υποθέσεων, διαστήματα εμπιστοσύνης) ενδέχεται να είναι παραπλανητικά.

Πρακτικά, αν η τιμή της είναι μικρότερη του 10, τότε οι βοηθητικές μεταβλητές είναι ασθενείς.

Page 65: Παλινδρόμηση με Βοηθητικές Μεταβλητές

65

Η F-στατιστική

Η F-στατιστική ελέγχει ταυτόχρονα όλα τα μέρη μιας από κοινού υπόθεσης.

Για την περίπτωση της από κοινού υπόθεσης 1 = 1,0

και 2 = 2,0 σε μία παλινδρόμηση με δύο

ανεξάρτητες μεταβλητές, είναι:

Όπου το εκτιμά τη συσχέτιση μεταξύ των t1 και t2

Απορρίπτουμε, για μεγάλες τιμές της F.

Page 66: Παλινδρόμηση με Βοηθητικές Μεταβλητές

66

•Η τιμή της F-στατιστικής γίνεται μεγάλη, για μεγάλες τιμές του t1 και/ή t2.

• Η F-στατιστική διορθώνει (με τον κατάλληλο τρόπο) τη συσχέτιση μεταξύ στα t1 και t2 .

•Ο τύπος για περισσότερους από δύο συντελεστές είναι πολύ δύσχρηστος, εκτός και αν χρησιμοποιήσουμε άλγεβρα μητρών.

Page 67: Παλινδρόμηση με Βοηθητικές Μεταβλητές

67

Τι κάνουμε όταν έχουμε ασθενείς βοηθητικές μεταβλητές;

•Παίρνουμε μη ασθενείς!!

•Αν έχουμε πολλές βοηθητικές μεταβλητές, είναι πιθανό κάποιες να είναι ασθενέστερες από άλλες, οπότε μια καλή ιδέα θα ήταν να ξεφορτωθούμε τις πιο ασθενείς (κατ’ αυτό τον τρόπο, η τιμή της πρώτου-σταδίου F -στατιστικής αυξάνει).

•Χρησιμοποιούμε έναν διαφορετικό IV εκτιμητή αντί του TSLS.

-Υπάρχει πλήθος IV εκτιμητών, διαθέσιμων όταν οι συντελεστές του υποδείγματος υπερταυτοποιούνται.-Η μέθοδος της μεγίστης πιθανοφάνειας με περιορισμένη πληροφόρηση έχει βρεθεί να επηρεάζεται λιγότερο από ασθενείς βοηθητικές μεταβλητές.-Όλες αυτές οι μέθοδοι υπερβαίνουν τα όρια του μαθήματος αυτού…

Page 68: Παλινδρόμηση με Βοηθητικές Μεταβλητές

68

Έλεγχος της υπόθεσης της εξωγένειας των βοηθητικών μεταβλητών.

•Εξωγένεια: καμία από τις βοηθητικές μεταβλητές δεν συσχετίζεται με το διαταρακτικό όρο, ui: corr(Z1i,ui) = 0,

…, corr(Zmi,ui) = 0.

• Αν οι βοηθητικές μεταβλητές συσχετίζονται με το ui, το

πρώτο στάδιο της TSLS δεν κατορθώνει να απομονώσει το μέρος εκείνο της μεταβλητότητας των τιμών της X που δε συσχετίζεται με το u, οπότε ο εκτιμητής του X, συσχετίζεται με το u και η TSLS είναι ασυνεπής ως μέθοδος εκτίμησης.

•Αν οι βοηθητικές μεταβλητές είναι περισσότερες από τις ενδογενείς ερμηνευτικές μεταβλητές, είναι εφικτό να ελέγξουμε –μερικώς – για εξωγένεια.

Page 69: Παλινδρόμηση με Βοηθητικές Μεταβλητές

69

Έλεγχος περιορισμών που υπερταυτοποιούνται

Εξετάζουμε την πιο απλή περίπτωση:

Yi = 0 + 1Xi + ui, •Υποθέτουμε ότι έχουμε δύο έγκυρες βοηθητικές μεταβλητές: Z1i, Z2i.

•Μπορούμε να υπολογίσουμε δύο ξεχωριστές TSLS εκτιμήσεις.

•Διαισθητικά, αν οι δύο αυτές εκτιμήσεις διαφέρουν πολύ μεταξύ τους, οδηγούμαστε στο συμπέρασμα ότι κάτι συμβαίνει: κάποια από τις δύο ή και οι δύο βοηθητικές μεταβλητές μάλλον δεν είναι έγκυρες.

•Ο έλεγχος J (J-test) για περιορισμούς που υπερταυτοποιούνται κάνει τη σύγκριση αυτή με στατιστικά ακριβή τρόπο.

•Ο έλεγχος αυτός εφαρμόζεται όταν: πλήθος των Ζ > πλήθος των Χ (υπερταυτοποίηση).

Page 70: Παλινδρόμηση με Βοηθητικές Μεταβλητές

70

Έστω ότι το πλήθος των βοηθητικών μεταβλητών (m) > πλήθος των Xσ (k) (υπερταυτοποίηση).

Yi = 0 + 1X1i + … + kXki + k+1W1i + … + k+rWri + ui

Page 71: Παλινδρόμηση με Βοηθητικές Μεταβλητές

71

1. Αρχικά, εκτιμούμε με TSLS την υπό εξέταση εξίσωση και όλες τις m βοηθητικές μεταβλητές. Υπολογίζουμε τις εκτιμηθείσες τιμές, χρησιμοποιώντας τα πραγματικά Χ (κι όχι τα , τα οποία χρησιμοποιούνται στην εκτίμηση του δευτέρου σταδίου).

2. Υπολογίζουμε τα κατάλοιπα:

3. Εφαρμόζουμε την παλινδρόμηση ανάμεσα στα κατάλοιπα και στις μεταβλητές Z1i,…,Zmi, W1i,…,Wri.

4. Υπολογίζουμε την τιμή της F-στατιστικής ελέγχοντας την υπόθεση ότι οι συντελεστές των Z1i,…,Zmi είναι όλοι μηδέν.

5. Η τιμή της J-στατιστικής δίνεται από τον τύπο J = mF, όπου F = η τιμή της F-στατιστικής που προκύπτει από τον έλεγχο των συντελεστών των Z1i,…,Zmi στην παλινδρόμηση ανάμεσα στα

TSLS κατάλοιπα και τις μεταβλητές Z1i,…,Zmi, W1i,…,Wri.

Ο έλεγχος J (J-test) για περιορισμούς που υπερταυτοποιούνται

Page 72: Παλινδρόμηση με Βοηθητικές Μεταβλητές

72

Κατανομή της J-στατιστικής

•Υπό τη μηδενική υπόθεση ότι όλες οι βοηθητικές μεταβλητές είναι εξωγενείς, η J ακολουθεί την κατανομή χ2 με m–k βαθμούς ελευθερίας.

•Αν κάποιες βοηθητικές μεταβλητές είναι εξωγενείς και κάποιες ενδογενείς, η τιμή της J-στατιστικής θα είναι μεγάλη, και η υπόθεση μηδέν ότι όλες οι βοηθητικές μεταβλητές είναι εξωγενείς απορρίπτεται.

Page 73: Παλινδρόμηση με Βοηθητικές Μεταβλητές

73

Έστω ότι οι τυχαίες μεταβλητές q είναι ανεξάρτητες και ακολουθούν την τυπική κανονική κατανομή. Η κατανομή χ2 με q βαθμούς ελευθερίας , ορίζεται ως η κατανομή του αθροίσματος των q τ.μ. στο τετράγωνο. Για μεγάλα δείγματα, η F κατανέμεται ως

Επιλεγμένες κριτικές τιμές μεγάλου δείγματος της

Page 74: Παλινδρόμηση με Βοηθητικές Μεταβλητές

74

Εφαρμογή στο παράδειγμα της ζήτησης τσιγάρων

Γιατί ενδιαφερόμαστε να μάθουμε την ελαστικότητα ζήτησης των τσιγάρων;

•Η Θεωρία της Άριστης Φορολογίας:

- ο άριστος φόρος είναι αντιστρόφως ανάλογος της ελαστικότητας

- η απώλεια ευημερίας είναι μικρότερη, όσο λιγότερο επηρεάζεται η ποσότητα.

•Εξωτερικές συνέπειες του καπνίσματος κυρίως στην υγεία (ρόλος της κυβερνητικής παρέμβασης για να αποθαρρύνει το κάπνισμα)

Page 75: Παλινδρόμηση με Βοηθητικές Μεταβλητές

75

Σύνολο διαστρωματικών δεδομένων με χρονολογική διάσταση (Panel data set) •Ετήσια κατανάλωση τσιγάρων, μέσο ύψος τιμών που επιβαρύνουν τον τελικό καταναλωτή (συμπεριλαμβανομένου του φόρου), προσωπικό εισόδημα.

•48 ηπειρωτικές πολιτείες των ΗΠΑ, 1985-1995.

Στρατηγική εκτίμησης •Έχοντας δεδομένα panel μπορούμε να ελέγξουμε για μη παρατηρήσιμα χαρακτηριστικά για κάθε μεμονωμένη πολιτεία του δείγματος, τα οποία υπεισέρχονται στη ζήτηση τσιγάρων, στο μέτρο, όμως, που τα χαρακτηριστικά αυτά δε μεταβάλλονται με την πάροδο του χρόνου.

•Ακόμα και έτσι, όμως, απαιτείται η χρησιμοποίηση μεθόδων εκτίμησης με βοηθητικές μεταβλητές, ώστε να αντιμετωπίσουμε τη μεροληψία αμφίδρομης αιτιότητας που πηγάζει από την αλληλεπίδραση της προσφοράς και της ζήτησης.

Page 76: Παλινδρόμηση με Βοηθητικές Μεταβλητές

76

Υπόδειγμα σταθερών επιδράσεων για τη ζήτηση τσιγάρων

•i = 1,…,48, t = 1985, 1986,…,1995

•Το i αντιπροσωπεύει τους μη παρατηρήσιμους

παραλειπόμενους παράγοντες που διαφέρουν μεταξύ των πολιτειών των ΗΠΑ, αλλά όχι και διαχρονικά, π.χ. συμπεριφορά απέναντι στο κάπνισμα.

•Επίσης, η είναι εύλογα διάφορη του μηδενός, εξαιτίας της αλληλεπίδρασης μεταξύ προσφοράς και ζήτησης.

•Στρατηγική εκτίμησης: -Χρησιμοποιούμε μεθόδους παλινδρόμησης με δεδομένα panel, προκειμένου να διαγράψουμε το i. -

Χρησιμοποιούμε τη μέθοδο TSLS για να αντιμετωπίσουμε τη μεροληψία αμφίδρομης αιτιότητας.

Page 77: Παλινδρόμηση με Βοηθητικές Μεταβλητές

77

IV παλινδρόμηση με δεδομένα Panel: δύο προσεγγίσεις

(α) Η μέθοδος των n-1 δυαδικών δεικτών.(β) Η μέθοδος των μεταβολών (όταν T=2).

(α) Η μέθοδος των n-1 δυαδικών δεικτών

Ξαναγράφουμε την εξίσωση

 

ως εξής:

Βοηθητικές μεταβλητές:

Z1it = γενικός φόρος επί των πωλήσεων

Z2it = φόρος επί των πωλήσεων τσιγάρων

Page 78: Παλινδρόμηση με Βοηθητικές Μεταβλητές

78

Έτσι, παίρνουμε το γενικό υπόδειγμα IV παλινδρόμησης:

•X (ενδογενής ερμηνευτική μεταβλητή) =

•48 W (συμπεριλαμβανομένων των εξωγενών ερμηνευτικών μεταβλητών) = ln(Incomeit), D2it,…, D48it

•Δύο βοηθητικές μεταβλητές = Z1it, Z2it.

•Τώρα, εκτιμούμε με TSLS το συνολικό υπόδειγμα!

•Ένα ζήτημα προκύπτει όταν η δυναμική απόκριση (καθυστερημένη προσαρμογή) είναι σημαντική, όπως είναι στο παράδειγμα αυτό: απαιτείται κάποιο διάστημα έως ότου κάποιος «κόψει» το κάπνισμα – με ποιο τρόπο θα υποδειγματοποιήσουμε τα με χρονική υστέρηση αποτελέσματα;

Page 79: Παλινδρόμηση με Βοηθητικές Μεταβλητές

79

(β) Η μέθοδος των μεταβολών (όταν T=2)

•Ένας τρόπος να φτιάξουμε το υπόδειγμα των μακροχρόνιων αποτελεσμάτων είναι να εξετάσουμε τις δεκαετείς μεταβολές, για παράδειγμα τις μεταβολές μεταξύ των ετών 1985 και 1995.

•Ξαναγράφουμε την εξίσωση παλινδρόμησης σε μορφή μεταβολών:

Page 80: Παλινδρόμηση με Βοηθητικές Μεταβλητές

80

•Πρέπει να κατασκευάσουμε μεταβλητές που θα εκφράζουν δεκαετείς μεταβολές, όπως για παράδειγμα η δεκαετής μεταβολή του λογαρίθμου της τιμής των τσιγάρων = ln(Pi1995) – ln(Pi1985).

•Στη συνέχεια, εκτιμούμε με TSLS την ελαστικότητα ζήτησης χρησιμοποιώντας βοηθητικές μεταβλητές, εκφρασμένες σε δεκαετείς μεταβολές.

•Παίρνουμε, λοιπόν, αυτή την προσέγγιση.

Page 81: Παλινδρόμηση με Βοηθητικές Μεταβλητές

81

STATA: Ζήτηση τσιγάρων

Αρχικά, κατασκευάζουμε μεταβλητές εκφρασμένες σε δεκαετείς μεταβολές:

η δεκαετής μεταβολή του λογαρίθμου της τιμής των τσιγάρων, είναι: ln(Pit) – ln(Pit–10) = ln(Pit/Pit–10)

Page 82: Παλινδρόμηση με Βοηθητικές Μεταβλητές

82

Εκτιμούμε με TSLS την ελαστικότητα ζήτησης χρησιμοποιώντας τις μεταβλητές δεκαετών μεταβολών

Page 83: Παλινδρόμηση με Βοηθητικές Μεταβλητές

83

Ελέγχουμε αν οι βοηθητικές μεταβλητές ικανοποιούν τη συνθήκη συσχέτισης: υπολογίζουμε την πρώτου-σταδίου F-στατιστική

Μπορούμε να ελέγξουμε αν ισχύει η συνθήκη εξωγένειας;Όχι,γιατί m=k

Page 84: Παλινδρόμηση με Βοηθητικές Μεταβλητές

84

Τι γίνεται με τις δύο βοηθητικές μεταβλητές (φόρος τσιγάρων, φόρος πωλήσεων);

Αν m>k, μπορούμε να ελέγξουμε τους περιορισμούς που υπερταυτοποιούνται

Page 85: Παλινδρόμηση με Βοηθητικές Μεταβλητές

85

Έλεγχος των περιορισμών που υπερταυτοποιούνται

Page 86: Παλινδρόμηση με Βοηθητικές Μεταβλητές

86

Ο σωστοί βαθμοί ελευθερίας για την J-στατιστική είναι m–k:

•J = mF, όπου F = η τιμή της F-στατιστικής που προκύπτει από τον έλεγχο των συντελεστών των Z1i,…,Zmi στην παλινδρόμηση

ανάμεσα στα TSLS κατάλοιπα και τις μεταβλητές Z1i,…,Zmi, W1i,

…,Wri.

•Υπό την υπόθεση μηδέν ότι όλες οι βοηθητικές μεταβλητές είναι εξωγενείς, η J ακολουθεί την κατανομή χ2 με m–k β.ε.

•Εδώ, η J ισούται με 4.93 και ακολουθεί την κατανομή χ2 με 1 β.ε. Η 5% κριτική τιμή της J είναι 3.84, οπότε απορρίπτουμε την Η0

στο 5% επίπεδο στατιστικής σημαντικότητας.

•Από το STATA, παίρνουμε ότι:

Page 87: Παλινδρόμηση με Βοηθητικές Μεταβλητές

87

Ελέγχουμε αν ισχύει η συνθήκη συσχέτισης: υπολογίζουμε την τιμή της πρώτου-σταδίου F-στατιστικής

Page 88: Παλινδρόμηση με Βοηθητικές Μεταβλητές

88

Συνοπτική περίληψη των αποτελεσμάτων:

Page 89: Παλινδρόμηση με Βοηθητικές Μεταβλητές

89

Πώς ερμηνεύουμε την απόρριψη με βάση το J-test;•Το J-test απορρίπτει την υπόθεση μηδέν ότι και οι δύο βοηθητικές μεταβλητές είναι εξωγενείς.•Αυτό σημαίνει ότι είτε μία από τις μεταβλητές rtaxso και rtax είναι ενδογενής είτε και οι δύο.•Το J-test δε μας αποκαλύπτει τίποτα για την ενδογένεια των μεταβλητών!! θα πρέπει να χρησιμοποιήσουμε το μυαλό μας!•Για ποιους λόγους θα μπορούσε το rtax (φόρος τσιγάρων) να είναι ενδογενές;

•Αυτός ο συλλογισμός δεν ισχύει για το γενικό φόρο επί των πωλήσεων.•Άρα, χρησιμοποιούμε το γενικό φόρο επί των πωλήσεων ως τη μόνη βοηθητική μεταβλητή.

-Πολιτικοί λόγοι: το κάπνισμα μπορεί είτε να αποτελεί μέρος της ιστορίας μιας πολιτείας των ΗΠΑ είτε μια πολιτεία να έχει πολλούς υποστηρικτές του καπνίσματος πίεση από πλευράς πολιτικών δυνάμεων για χαμηλή φορολόγηση των τσιγάρων. -Σε αυτή την περίπτωση, το rtax είναι ενδογενές.

Page 90: Παλινδρόμηση με Βοηθητικές Μεταβλητές

90

Ζήτηση τσιγάρων: Σύνοψη των εμπειρικών αποτελεσμάτων

•Χρησιμοποιούμε την εκτιμημένη με TSLS ελαστικότητα με το γενικό φόρο επί των πωλήσεων ως τη μόνη βοηθητική μεταβλητή: Ελαστικότητα = -.94, Τυπικό Σφάλμα SE = .21

•Η ελαστικότητα αυτή είναι πολύ μεγάλη (ελαστική ζήτηση) – μια αύξηση της τιμής των τσιγάρων κατά 1%, μειώνει τις πωλήσεις σχεδόν κατά 1%. Η τιμή αυτή της ελαστικότητας της ζήτησης τσιγάρων είναι πολύ πιο μεγάλη σε σχέση με τις συνήθεις τιμές της που συναντάμε στη βιβλιογραφία των Οικονομικών της Υγείας.

• Η ελαστικότητα που υπολογίζουμε, είναι η μακροχρόνια ελαστικότητα (που την έχουμε εκφράσει σε δεκαετείς μεταβολές). Τι θα αναμέναμε για την τιμή της βραχυχρόνιας ελαστικότητας που θα την είχαμε εκφράσει σε ετήσιες μεταβολές; θα ήταν περισσότερο ή λιγότερο ελαστική;

Page 91: Παλινδρόμηση με Βοηθητικές Μεταβλητές

91

Ποιες απειλές για την εσωτερική εγκυρότητα εξακολουθούν να υπάρχουν;

•Μεροληψία από παραλειπόμενες μεταβλητές;

•Λανθασμένη εξειδίκευση της συναρτησιακής μορφής;

-Ο εκτιμητής δεδομένων panel είναι πιθανώς ΟΚ.

-Δεν είναι σίγουρο…πρέπει να ελεγχθεί…

- Σχετική με την εξειδίκευση της συναρτησιακής μορφής είναι η ερμηνεία της ελαστικότητας: χρησιμοποιώντας δεκαετείς διαφορές, η ερμηνεία της ελαστικότητας είναι μακροχρόνια. Αν οι διαφορές ήταν μικρότερες των δέκα ετών, τότε και οι εκτιμήσεις που θα παίρναμε θα ήταν διαφορετικές.

Page 92: Παλινδρόμηση με Βοηθητικές Μεταβλητές

92

Ποιες απειλές για την εσωτερική εγκυρότητα εξακολουθούν να υπάρχουν; (συνέχεια)

•Παραμένει η μεροληψία αμφίδρομης αιτιότητας;

•Μεροληψία σφάλματος στις μεταβλητές; Επίκαιρη ερώτηση: μετράμε με ακρίβεια την τιμή που πληρώνουν οι καταναλωτές; τι γίνεται με τις διασυνοριακές πωλήσεις;

•Μεροληψία επιλογής; (όχι, καθώς δεν έχουμε παραλείψει καμία από τις ηπειρωτικές πολιτείες των ΗΠΑ).

Όχι, αν ο γενικός φόρος επί των πωλήσεων είναι μία έγκυρη βοηθητική μεταβλητή:

Επομένως, έχουμε πάρει μια αξιόπιστη εκτίμηση της μακροχρόνιας ελαστικότητας ζήτησης, αν και κάποια προβλήματα ενδέχεται να παραμένουν.

Page 93: Παλινδρόμηση με Βοηθητικές Μεταβλητές

93

Που βρίσκουμε τις έγκυρες αυτές βοηθητικές μεταβλητές;

•Οι έγκυρες βοηθητικές μεταβλητές ικανοποιούν τις συνθήκες (1) της συσχέτισης και (2) της εξωγένειας.

•Μία γενική μέθοδος για την εύρεση έγκυρων βοηθητικών μεταβλητών είναι η αναζήτηση εξωγενούς μεταβλητότητας (μεταβλητότητα που είναι «σαν» τυχαία ορισμένη σε ένα τυχαίο πείραμα), η οποία επηρεάζει το Χ.

•Ας δούμε ένα τελευταίο παράδειγμα…

-Η βροχόπτωση μετατοπίζει την καμπύλη προσφοράς βουτύρου, αλλά όχι και την καμπύλη ζήτησης. Έτσι, η βροχόπτωση είναι «σαν» τυχαία ορισμένη.

-Ο φόρος επί των πωλήσεων μετατοπίζει την καμπύλη προσφοράς τσιγάρων, όχι, όμως, και την καμπύλη ζήτησης. Ο φόρος επί των πωλήσεων είναι «σαν» τυχαία ορισμένος.

Page 94: Παλινδρόμηση με Βοηθητικές Μεταβλητές

94

Παράδειγμα: Καρδιακός καθετηριασμός

Αυξάνει ο καρδιακός καθετηριασμός τη διάρκεια ζωής ασθενών με καρδιακά προβλήματα;

Yi = διάρκεια ζωής (σε ημέρες) ασθενούς με

καρδιακά προβλήματα.

Xi = 1 αν ο ασθενής έχει υποβληθεί σε καρδιακό

καθετηριασμό, = 0 διαφορετικά. •Οι κλινικές δοκιμές δείχνουν ότι ο καρδιακός καθετηριασμός (CardCath) επηρεάζει τη διάρκεια ζωής (SurvivalDays).

•Είναι, όμως, η θεραπεία αποτελεσματική στην περίπτωση που ο καθετηριασμός του ασθενούς γίνει σε μία γενική κλινική κι όχι σε κάποια εξειδικευμένη (καρδιολογική) κλινική;

Page 95: Παλινδρόμηση με Βοηθητικές Μεταβλητές

95

SurvivalDaysi = 0 + 1CardCathi + ui

•Είναι η μέθοδος OLS αμερόληπτη; Η απόφαση να θεραπεύσουμε έναν ασθενή υποβάλλοντάς τον σε καρδιακό καθετηριασμό είναι ενδογενής – το αν ο καθετηριασμός γίνει (έγινε) σε μία γενική κλινική εξαρτάται από το ui (μη

παρατηρήσιμα χαρακτηριστικά της υγείας του ασθενούς).

•Εάν η κατάσταση των ασθενών που υποβλήθηκαν σε καθετηριασμό δεν είχε κριθεί ως ιδιαιτέρως σοβαρή, τότε η μέθοδος OLS εμφανίζει μεροληψία αμφίδρομης αιτιότητας και, άρα, υπερεκτιμά τα αποτελέσματα του καθετηριασμού.

•Προτεινόμενη βοηθητική μεταβλητή: απόσταση μέχρι την εγγύτερη καρδιολογική κλινική ή απόσταση μέχρι την εγγύτερη γενική κλινική.

Page 96: Παλινδρόμηση με Βοηθητικές Μεταβλητές

96

•Z =διαφορική απόσταση μέχρι την εγγύτερη καρδιολογική κλινική

•Αποτελέσματα (McClellan, McNeil, Newhous, JAMA, 1994):

•Συσχετίζεται; Αν η καρδιολογική κλινική είναι πολύ μακριά, ο ασθενής δε θα μεταφερθεί εκεί και, άρα, δε θα υποβληθεί σε καθετηριασμό.• Είναι εξωγενής; Αν η απόσταση μέχρι την καρδιολογική κλινική δεν επηρεάζει τη διάρκεια ζωής του ασθενούς, εκτός μέσω του αποτελέσματος στο CardCathi, τότε corr(distance,ui) = 0, δηλαδή

η βοηθητική μεταβλητή είναι εξωγενής. •Αν το σημείο στο οποίο βρίσκεται ο ασθενής είναι τυχαίο, τότε η διαφορική απόσταση είναι «σαν» τυχαία ορισμένη.•Το Στάδιο 1 είναι ένα υπόδειγμα γραμμικής πιθανότητας: η απόσταση επηρεάζει την πιθανότητα να υποβληθεί ο ασθενής σε θεραπεία.

• Η OLS εκτιμά τα αποτελέσματα της θεραπευτικής μεθόδου του καθετηριασμού που είναι σημαντικά, ενώ•η TSLS εκτιμά τα περιορισμένα, συχνά ασήμαντα αποτελέσματα.

Page 97: Παλινδρόμηση με Βοηθητικές Μεταβλητές

97

Ανακεφαλαίωση: Παλινδρόμηση με βοηθητικές μεταβλητές

•Μία έγκυρη βοηθητική μεταβλητή μας επιτρέπει να απομονώσουμε το μέρος εκείνο της ερμηνευτικής μεταβλητής X που δε συσχετίζεται με το u από το μέρος εκείνο που μπορεί να χρησιμοποιηθεί για την εκτίμηση του αποτελέσματος που επιφέρει μια μεταβολή της X στην Y .

•Η IV παλινδρόμηση βασίζεται στην εγκυρότητα των βοηθητικών μεταβλητών:

• Μία έγκυρη βοηθητική μεταβλητή απομονώνει τη μεταβλητότητα της X που είναι «σαν» τυχαία ορισμένη.

•Η κρίσιμη απαίτηση είναι ότι τουλάχιστον m έγκυρες μεταβλητές δεν μπορούν να ελεγχθούν – θα πρέπει να χρησιμοποιήσουμε το μυαλό μας.

-Συσχέτιση: ελέγχεται μέσω της πρώτου-σταδίου F-στατιστικής. -Εξωγένεια: έλεγχος των υπερταυτοποιημένων περιορισμών μέσω της J-στατιστικής.