8-confounding regression [ ])promesi.med.auth.gr/mathimata/4_sygxitikoi_kai_tropo_paragontes.pdf ·...

Post on 16-May-2019

225 views 0 download

Transcript of 8-confounding regression [ ])promesi.med.auth.gr/mathimata/4_sygxitikoi_kai_tropo_paragontes.pdf ·...

Κλινική Επιδηµιολογία

•Ρυθµιστικοί παράγοντες

•Συγχυτικοί παράγοντες •Συγχυτικοί παράγοντες

•Ενδιάµεσοι παράγοντες

Πρέπει να πιστέψουµε τις

µετρήσεις µας;

Κάπνισµα Καρκίνος Πνεύµονα

OR = 9.1

Τύχη;

Συγχυτικοί παράγοντες;

Συστηµατικό σφάλµα;

Πραγµατική σχέση

αιτιολογική

µη-αιτιολογική

Έκθεση Έκβαση

Άλλη µεταβλητή:

Ρυθµιστικός

παράγοντας

ή Effect modifier

Συγχυτικός

παράγοντας

ή Confounder

Ενδιάµεσος

παράγοντας

ή Mediator

Ρυθµιστικός παράγοντας

ή Εffect Modifier

Αποτελεσµατικότητα

εµβολίων

Εµβόλιο Πληθυσµός Περιστατικά Περιστατικά

/ 1000 RR

ναι 301 545 150 0.49 0.28

όχι 298 655 515 1.72 Ref.

σύνολο 600 200 665 1.11

VE = 1 - RR = 1 - 0.28

VE = 72% αποτελεσµατικότητα

Αποτελεσµατικότητα εµβολίων

κατά ηλικιακή οµάδαηλικία εµβόλιο πληθ. Περιστ.

Περιστ. /1000

RR VE

<1y ναι 35 625 38 1.07 0.87 13% όχι 24 375 30 1.23 1-4y ναι 44 220 34 0.77 0.42 58% όχι 46780 86 1.84 5-9y ναι 78 200 50 0.64 0.19 81% όχι 75 000 250 3.33 10-24y ναι 83 400 18 0.22 0.15 85% όχι 82 600 120 1.45 > 24y ναι 60 100 10 0.17 0.40 60% όχι 69 900 29 0.41

Ρυθµιστικός παράγοντας

ή Εffect Modifier

• Συµβαίνει όταν το OR ή RR διαφέρει µεταξύ υποοµάδων-διαφορετοικών στρωµάτων ενός πληθυσµού (strata)

• Εκφράζει τη διαφορετική έκβαση µιας • Εκφράζει τη διαφορετική έκβαση µιας έκθεσης στα διάφορα επίπεδα µιας τρίτης µεταβλητής

• Χρησιµεύει στην ανίχνευση υποοµάδων χαµηλού ή υψηλού κινδύνου για τον προσανατολισµό των δράσεων της ∆ηµόσιας Υγείας

Συγχυτικός παράγοντας ή

ConfounderΈκθεση Έκβαση

Συγχυτικός παράγοντας

• Πρέπει να σχετίζεται µε την έκθεση χωρίς

να είναι συνέπεια αυτής

• Πρέπει να σχετίζεται µε την έκβαση

ανεξάρτητα από την έκθεση

140

160

180

περ

ιστα

τικά

ανά

100000

γεννή

σεις

ζώ

ντω

ν

Περιστατικά µε σύνδροµο Down

κατά σειρά γέννησης παιδιού

0

20

40

60

80

100

120

1 2 3 4 5

σειρά γέννησης

περ

ιστα

τικά

ανά

100000

γεννή

σεις

ζώ

ντω

ν

600

700

800

900

1000

περ

ιστα

τικ

ά α

νά

10

00

00

γ

ενν

ήσ

εις

ζώ

ντω

ν

Περιστατικά µε σύνδροµο Down

κατά ηλικιακή οµάδα µητέρας

0

100

200

300

400

500

600

< 20 20-24 25-29 30-34 35-39 40+

ηλικιακή οµάδα

περ

ιστα

τικ

ά α

νά

10

00

00

γ

ενν

ήσ

εις

ζώ

ντω

ν

900

1000

περ

ιστα

τικ

ά1

00

00

0

γεν

νή

σεις

ζώ

ντω

ν

Περιστατικά µε σύνδροµο Down

κατά σειρά γέννησης παιδιού και

ηλικιακή οµάδα µητέρας

0

100

200

300

400

500

600

700

800

900

περ

ιστα

τικ

ά1

00

00

0

γεν

νή

σεις

ζώ

ντω

ν

1 2 3 4 5< 20

20-24

25-29

30-34

35-39

40+

σειρά γέννησης

ηλικιακή οµάδα

Σύνδροµο DownΣειρά γέννησης

παιδιού

Συγχυτικός παράγοντας:

Ηλικία µητέρας

Καφές Όχι καφες

Καρκίνος παγκρέατος

450 300

confounding

Οµάδα ελέγχου

200 250

Odds Ratio = 1.9

Μη καπνιστές καπνιστές

Καφές Οχι

ΚαφέςΚαφές Όχι

καφες

confounding

Καρκίνος παγκρέατος

50 100 400 200

Οµάδα ελέγχου

100 200 100 50

Odds Ratio = 1.0 Odds Ratio = 1.0

Κατανάλωση καφέ Καρκίνος παγκρέατος

Συγχυτικός παράγοντας: Κάπνισµα

Ενδιάµεσος παράγοντας ή

Mediator

Έκθεση Έκβαση

Υπερχοληστερολαιµία Έµφραγµα Μυοκαρδίου

Ενδιάµεσος παράγοντας ή

Mediator

mediatorΑθηρωµατώδης πλάκα

Ενδιάµεσος παράγοντας ή

Mediator• Σχετίζεται τόσο µε την έκθεση όσο και µε

την έκβαση

• Είναι µέρος της αλυσίδας της αιτιολογικής

σχέσης µεταξύ έκθεσης και έκβασηςσχέσης µεταξύ έκθεσης και έκβασης

• ∆εν διακρίνεται µε στατιστικές µεθόδους

αλλά κατανοώντας λογικά τη διαδικασία

µεταξύ έκθεσης και έκβασης

Πώς ελέγχονται οι συγχυτικοί

παράγοντες σε µια έρευνα;

• Κατά το σχεδιασµό της έρευνας:

– Περιορισµός της µελέτης σε µια υποοµάδα (stratum)

– Επιλογή ασθενών και οµάδας ελέγχου µε ίδια χαρακτηριστικά (matching)χαρακτηριστικά (matching)

– Τυχαιοποίηση του δείγµατος

• Κατά την ανάλυση των δεδοµένων:

– Ανάλυση κατά στρώµατα (stratification)

– Ανάλυση µε πολυπαραγοντικά µοντέλα (regression modelling)

Συσχέτιση

Correlation

Γραµµική συσχέτιση

Ηλικία ΣΑΠ Ηλικία ΣΑΠ Ηλικία ΣΑΠ

22 131 41 139 52 128

23 128 41 171 54 105

24 116 46 137 56 145

27 106 47 111 57 141

Ηλικία και Συστολική αρτηριακή πίεση (ΣΑΠ) µεταξύ 33 ενηλίκων γυναικών

27 106 47 111 57 141

28 114 48 115 58 153

29 123 49 133 59 157

30 117 49 128 63 155

32 122 50 183 67 176

33 99 51 130 71 172

35 121 51 133 77 178

40 147 51 144 81 217

140

160

180

200

220

ΣΑΠ (mm Hg)

αλικίΗ1.22281.54ΣΑΠ ⋅+=

80

100

120

140

20 30 40 50 60 70 80 90

Ηλικία (έτη)

adapted from Colton T. Statistics in Medicine. Boston: Little Brown, 1974

Γραµµική συσχέτιση• Συσχέτιση ανάµεσα σε δύο συνεχείς µεταβλητές (ηλικία

και ΣΑΠ)

y

xβαy 11+=Κλίση

• Συντελεστής συσχέτισης (correlation coefficient) β1

– Μετράει τη δύναµη της συσχέτισης µεταξύ του y και του x

– Αποτελεί την ποσότητα κατά την οποία µεταβάλλεται το y (κατά µέσο όρο) όταν το x µεταβάλλεται κατά µια µονάδα

– Η ανεξάρτητη µεταβλητή (έκθεση) στο x, η εξαρτηµένη (έκβαση) στο y

x

Γραµµική συσχέτιση

• Συντελεστής συσχέτισης Pearson’s (correlation coefficient):– Μετρά τη διασπορά των σηµείων εκατέρωθεν µιας

ευθείας γραµµής συσχέτισης (τάσης)

– Μπορεί να πάρει τιµές µεταξύ -1 και +1– Μπορεί να πάρει τιµές µεταξύ -1 και +1

– Υπολογίζει για κάθε σηµείο την απόσταση από το µέσο όρο (µέθοδος ελαχίστων τετραγώνων)

– Συντελεστής +1: ευθεία γραµµή, όπου υψηλότερες τιµές του x σχετίζονται µε υψηλότερες τιµές του y

– Οι δύο µεταβλητές πρέπει να έχουν κανονική κατανοµή και να είναι ανεξάρτητες (µια τιµή για κάθε άτοµο)

Γραµµική Παλινδρόµηση

Linear Regression

Γραµµική παλινδρόµηση

• Υπάρχουν πολλές ευθείες που συσχετίζουν δύο µεταβλητές

• Επιλέγουµε την ευθεία που απέχει λιγότερο από κάθε σηµείο, µε τη µέθοδο των ελάχιστων τετραγώνων

• Η ευθεία αυτή λέγεται «ευθεία παλινδρόµησης» (regression line) και αποτελεί την εκτίµηση της µέσης

• Η ευθεία αυτή λέγεται «ευθεία παλινδρόµησης» (regression line) και αποτελεί την εκτίµηση της µέσης τιµής του y για κάθε τιµή του x (παλινδρόµηση του y στο x)

• y= a+bx (a= σηµείο τοµής στον άξονα y, b= κλίση)

• Σε δείγµα πληθυσµού, λαµβάνουµε εκτίµηση του a και του b και µπορούµε να υπολογίσουµε τυπικό σφάλµα (SE) και διαστήµατα εµπιστοσύνης

Πολλαπλή γραµµική

παλινδρόµηση• Η σχέση µεταξύ µιας συνεχούς µεταβλητής και µιας

σειράς από i συνεχείς µεταβλητές:

• Επιµέρους συντελεστές συσχέτισης βi

xβ ... xβ xβαy ii2211 ++++=

• Επιµέρους συντελεστές συσχέτισης βi

– Το ποσό που µεταβάλλεται το y κατά µέσο όρο, όταν το xi

µεταβάλλεται κατά µια µονάδα και όλα τα άλλα xis παραµένουν σταθερά

– Μετρά τη συσχέτιση µεταξύ του xi και του y, σταθµισµένη για όλα τα άλλα xi

• Παράδειγµα:– ΣΑΠ σε σχέση µε την ηλικία, το βάρος, το ύψος κλπ.

Λογιστική παλινδρόµηση

(Logistic regression)

• ∆ηµιουργεί ένα µοντέλο για τη σχέση που υφίσταται µεταξύ µιας σειράς µεταβλητών xi που µπορεί να είναι:– διχοτόµες (έφαγε : ναι/όχι)

– κατηγορικές (κοινωνική τάξη, ... )

– συνεχείς (ηλικία, ...)

ΚαιΜιας διχοτόµου µεταβλητής y

• Η διχοτόµος έκβαση (δυαδική) αποτελεί την πιο συχνή κατάσταση στη βιολογία και την επιδηµιολογία

Λογιστική παλινδρόµηση

Ηλικία ΣΝ Ηλικία ΣΝ Ηλικία ΣΝ

22 0 40 0 54 0

23 0 41 1 55 1

24 0 46 0 58 1

27 0 47 0 60 1

Ηλικία και συµπτώµατα στεφανιαίας νόσου (ΣΝ)

27 0 47 0 60 1

28 0 48 0 60 0

30 0 49 1 62 1

30 0 49 0 65 1

32 0 50 1 67 1

33 0 51 0 71 1

35 1 51 1 77 1

38 0 52 0 81 1

Πως µπορούµε να αναλύσουµε αυτά τα

δεδοµένα;

• Σύγκριση της µέσης ηλικίας των ασθενών

και υγιών

– Υγιείς: 38.6 χρόνια– Υγιείς: 38.6 χρόνια

– Ασθενείς: 58.7 χρόνια (p<0.0001)

• Γραµµική παλινδρόµηση;

Γραφική απεικόνιση των δεδοµένων

Sig

ns o

f co

ron

ary

dis

ea

se

Yes

AGE (years)

Sig

ns o

f co

ron

ary

dis

ea

se

No

0 20 40 60 80 100

Λογιστική παλινδρόµηση

Επιπολασµός (%) των συµπτωµάτων ΣΝ σε σχέση

µε την ηλικιακή οµάδα Ασθενείς

Ηλικιακή οµάδα

Άτοµα # %

20 -29 5 0 0

30 - 39 6 1 17 30 - 39 6 1 17

40 - 49 7 2 29

50 - 59 7 4 57

60 - 69 5 4 80

70 - 79 2 2 100

80 - 89 1 1 100

Γραφική απεικόνιση των δεδοµένων

60

80

100Ασθενείς %

0

20

40

60

0 2 4 6 8

Ηλικία (έτη)

Η λογιστική συνάρτηση

0,8

1,0

Πιθανότητα νόσου

βxα

βxα

e1

e)xP(y

+

+

+=

0,0

0,2

0,4

0,6

x

( )P y x

Η λογιστική συνάρτηση

P y xe

e

x

x( ) =

+

+

+

α β

α β1

ln( )

( )

P y x

P y xx

1−

= +α β

logit του P(y|x)

Η λογιστική συνάρτηση

• Πλεονεκτήµατα του logit

– Απλή µετατροπή του P(y|x)

– Γραµµική συσχέτιση µε το x

– Μπορεί να είναι συνεχές (Logit µεταξύ -∞ και + ∞)– Μπορεί να είναι συνεχές (Logit µεταξύ -∞ και + ∞)

– Γνωστή διωνυµική κατανοµή (P µεταξύ 0 και 1)

– Συνδέεται άµεσα µε το πηλίκο συµπληρωµατικών

πιθανοτήτων της ασθένειας (β = η αύξηση των log-odds

για κάθε µονάδα αύξησης του x)

βxαP-1

P ln +=

e

P-1

P βxα+=

Παράδειγµα• Ηλικία (<55 και 55+ έτη) και κίνδυνος ανάπτυξης ΣΝ

ΣΝ 55+ (1) < 55 (0)

Ασθενείς (1) 21 22

Υγιείς (0) 6 51

Odds της νόσου µεταξύ των εκτεθειµένων = 21/6 Odds της νόσου µεταξύ των µη εκτεθειµένων = 22/51 Odds ratio = 8.1

Ηλικία 2.094 0.841- Ηλικία βαP1-

P ln 1 ×+=×+=

Odds ratio = 8.1

•Αποτέλεσµα από την εφαρµογή µοντέλου Λογιστικής

Παλινδρόµησης:

Coefficient SE Coeff/SE

Ηλικία 2.094 0.529 3.96 Σταθερά -0.841 0.255 -3.30

Log-odds = 2.094 OR = e2.094 = 8.1

Πολλαπλή Λογιστική παλινδρόµηση

• Περισσότερες από µια ανεξάρτητες µεταβλητές– ∆ιχοτόµες, ιεραρχικές, συνεχείς q

β

ii2211 xβ ... xβ xβαP-1

P ln +++=

• Επεξήγηση του βi

– Η αύξηση του log-odds όταν αυξάνεται το xi κατά µια µονάδα, µε όλα τα άλλα xis σταθερά

– Μετρά τη συσχέτιση µεταξύ του xi και του log-odds σταθµισµένη για όλα τα άλλα xi

Παράδειγµα

Παράµετροι B S.E. Wald df p Exp(B) 95,0% C.I. του OR

(OR) Κατώτερο Ανώτερο

Ισχαιµική καρδιοπάθεια 0,865 0,312 7,692 1 0,00555 2,376 1,289 4,380

Οσφυαλγία 0,834 0,342 5,960 1 0,01463 2,304 1,179 4,501

Συµπτώµατα

µυοσκελετικού πλην

οσφυαλγίας

0,798 0,374 4,549 1 0,03295 2,221 1,067 4,625

Ανικανότητα να προσφέρει 0,676 0,342 3,917 1 0,04779 1,966 1,007 3,841 Ανικανότητα να προσφέρει

βοήθεια σε άλλους

Αριθµός αναφερόµενων

χρόνιων προβληµάτων

υγείας

0,433 0,107 16,513 1 0,00005 1,542 1,251 1,901

Αριθµός λαµβανόµενων

φαρµάκων

0,232 0,068 11,711 1 0,00062 1,261 1,104 1,440

GDS score 0,152 0,037 16,603 1 0,00005 1,164 1,082 1,253

ADL score 0,046 0,015 9,610 1 0,00194 1,047 1,017 1,078

Ηλικία -0,074 0,022 10,851 1 0,00099 0,929 0,889 0,971