8-confounding regression [ ])promesi.med.auth.gr/mathimata/4_sygxitikoi_kai_tropo_paragontes.pdf ·...
-
Upload
nguyennguyet -
Category
Documents
-
view
225 -
download
0
Transcript of 8-confounding regression [ ])promesi.med.auth.gr/mathimata/4_sygxitikoi_kai_tropo_paragontes.pdf ·...
Κλινική Επιδηµιολογία
•Ρυθµιστικοί παράγοντες
•Συγχυτικοί παράγοντες •Συγχυτικοί παράγοντες
•Ενδιάµεσοι παράγοντες
Πρέπει να πιστέψουµε τις
µετρήσεις µας;
Κάπνισµα Καρκίνος Πνεύµονα
OR = 9.1
Τύχη;
Συγχυτικοί παράγοντες;
Συστηµατικό σφάλµα;
Πραγµατική σχέση
αιτιολογική
µη-αιτιολογική
Έκθεση Έκβαση
Άλλη µεταβλητή:
Ρυθµιστικός
παράγοντας
ή Effect modifier
Συγχυτικός
παράγοντας
ή Confounder
Ενδιάµεσος
παράγοντας
ή Mediator
Ρυθµιστικός παράγοντας
ή Εffect Modifier
Αποτελεσµατικότητα
εµβολίων
Εµβόλιο Πληθυσµός Περιστατικά Περιστατικά
/ 1000 RR
ναι 301 545 150 0.49 0.28
όχι 298 655 515 1.72 Ref.
σύνολο 600 200 665 1.11
VE = 1 - RR = 1 - 0.28
VE = 72% αποτελεσµατικότητα
Αποτελεσµατικότητα εµβολίων
κατά ηλικιακή οµάδαηλικία εµβόλιο πληθ. Περιστ.
Περιστ. /1000
RR VE
<1y ναι 35 625 38 1.07 0.87 13% όχι 24 375 30 1.23 1-4y ναι 44 220 34 0.77 0.42 58% όχι 46780 86 1.84 5-9y ναι 78 200 50 0.64 0.19 81% όχι 75 000 250 3.33 10-24y ναι 83 400 18 0.22 0.15 85% όχι 82 600 120 1.45 > 24y ναι 60 100 10 0.17 0.40 60% όχι 69 900 29 0.41
Ρυθµιστικός παράγοντας
ή Εffect Modifier
• Συµβαίνει όταν το OR ή RR διαφέρει µεταξύ υποοµάδων-διαφορετοικών στρωµάτων ενός πληθυσµού (strata)
• Εκφράζει τη διαφορετική έκβαση µιας • Εκφράζει τη διαφορετική έκβαση µιας έκθεσης στα διάφορα επίπεδα µιας τρίτης µεταβλητής
• Χρησιµεύει στην ανίχνευση υποοµάδων χαµηλού ή υψηλού κινδύνου για τον προσανατολισµό των δράσεων της ∆ηµόσιας Υγείας
Συγχυτικός παράγοντας ή
ConfounderΈκθεση Έκβαση
Συγχυτικός παράγοντας
• Πρέπει να σχετίζεται µε την έκθεση χωρίς
να είναι συνέπεια αυτής
• Πρέπει να σχετίζεται µε την έκβαση
ανεξάρτητα από την έκθεση
140
160
180
περ
ιστα
τικά
ανά
100000
γεννή
σεις
ζώ
ντω
ν
Περιστατικά µε σύνδροµο Down
κατά σειρά γέννησης παιδιού
0
20
40
60
80
100
120
1 2 3 4 5
σειρά γέννησης
περ
ιστα
τικά
ανά
100000
γεννή
σεις
ζώ
ντω
ν
600
700
800
900
1000
περ
ιστα
τικ
ά α
νά
10
00
00
γ
ενν
ήσ
εις
ζώ
ντω
ν
Περιστατικά µε σύνδροµο Down
κατά ηλικιακή οµάδα µητέρας
0
100
200
300
400
500
600
< 20 20-24 25-29 30-34 35-39 40+
ηλικιακή οµάδα
περ
ιστα
τικ
ά α
νά
10
00
00
γ
ενν
ήσ
εις
ζώ
ντω
ν
900
1000
περ
ιστα
τικ
ά1
00
00
0
γεν
νή
σεις
ζώ
ντω
ν
Περιστατικά µε σύνδροµο Down
κατά σειρά γέννησης παιδιού και
ηλικιακή οµάδα µητέρας
0
100
200
300
400
500
600
700
800
900
περ
ιστα
τικ
ά1
00
00
0
γεν
νή
σεις
ζώ
ντω
ν
1 2 3 4 5< 20
20-24
25-29
30-34
35-39
40+
σειρά γέννησης
ηλικιακή οµάδα
Σύνδροµο DownΣειρά γέννησης
παιδιού
Συγχυτικός παράγοντας:
Ηλικία µητέρας
Καφές Όχι καφες
Καρκίνος παγκρέατος
450 300
confounding
Οµάδα ελέγχου
200 250
Odds Ratio = 1.9
Μη καπνιστές καπνιστές
Καφές Οχι
ΚαφέςΚαφές Όχι
καφες
confounding
Καρκίνος παγκρέατος
50 100 400 200
Οµάδα ελέγχου
100 200 100 50
Odds Ratio = 1.0 Odds Ratio = 1.0
Κατανάλωση καφέ Καρκίνος παγκρέατος
Συγχυτικός παράγοντας: Κάπνισµα
Ενδιάµεσος παράγοντας ή
Mediator
Έκθεση Έκβαση
Υπερχοληστερολαιµία Έµφραγµα Μυοκαρδίου
Ενδιάµεσος παράγοντας ή
Mediator
mediatorΑθηρωµατώδης πλάκα
Ενδιάµεσος παράγοντας ή
Mediator• Σχετίζεται τόσο µε την έκθεση όσο και µε
την έκβαση
• Είναι µέρος της αλυσίδας της αιτιολογικής
σχέσης µεταξύ έκθεσης και έκβασηςσχέσης µεταξύ έκθεσης και έκβασης
• ∆εν διακρίνεται µε στατιστικές µεθόδους
αλλά κατανοώντας λογικά τη διαδικασία
µεταξύ έκθεσης και έκβασης
Πώς ελέγχονται οι συγχυτικοί
παράγοντες σε µια έρευνα;
• Κατά το σχεδιασµό της έρευνας:
– Περιορισµός της µελέτης σε µια υποοµάδα (stratum)
– Επιλογή ασθενών και οµάδας ελέγχου µε ίδια χαρακτηριστικά (matching)χαρακτηριστικά (matching)
– Τυχαιοποίηση του δείγµατος
• Κατά την ανάλυση των δεδοµένων:
– Ανάλυση κατά στρώµατα (stratification)
– Ανάλυση µε πολυπαραγοντικά µοντέλα (regression modelling)
Συσχέτιση
Correlation
Γραµµική συσχέτιση
Ηλικία ΣΑΠ Ηλικία ΣΑΠ Ηλικία ΣΑΠ
22 131 41 139 52 128
23 128 41 171 54 105
24 116 46 137 56 145
27 106 47 111 57 141
Ηλικία και Συστολική αρτηριακή πίεση (ΣΑΠ) µεταξύ 33 ενηλίκων γυναικών
27 106 47 111 57 141
28 114 48 115 58 153
29 123 49 133 59 157
30 117 49 128 63 155
32 122 50 183 67 176
33 99 51 130 71 172
35 121 51 133 77 178
40 147 51 144 81 217
140
160
180
200
220
ΣΑΠ (mm Hg)
αλικίΗ1.22281.54ΣΑΠ ⋅+=
80
100
120
140
20 30 40 50 60 70 80 90
Ηλικία (έτη)
adapted from Colton T. Statistics in Medicine. Boston: Little Brown, 1974
Γραµµική συσχέτιση• Συσχέτιση ανάµεσα σε δύο συνεχείς µεταβλητές (ηλικία
και ΣΑΠ)
y
xβαy 11+=Κλίση
• Συντελεστής συσχέτισης (correlation coefficient) β1
– Μετράει τη δύναµη της συσχέτισης µεταξύ του y και του x
– Αποτελεί την ποσότητα κατά την οποία µεταβάλλεται το y (κατά µέσο όρο) όταν το x µεταβάλλεται κατά µια µονάδα
– Η ανεξάρτητη µεταβλητή (έκθεση) στο x, η εξαρτηµένη (έκβαση) στο y
x
Γραµµική συσχέτιση
• Συντελεστής συσχέτισης Pearson’s (correlation coefficient):– Μετρά τη διασπορά των σηµείων εκατέρωθεν µιας
ευθείας γραµµής συσχέτισης (τάσης)
– Μπορεί να πάρει τιµές µεταξύ -1 και +1– Μπορεί να πάρει τιµές µεταξύ -1 και +1
– Υπολογίζει για κάθε σηµείο την απόσταση από το µέσο όρο (µέθοδος ελαχίστων τετραγώνων)
– Συντελεστής +1: ευθεία γραµµή, όπου υψηλότερες τιµές του x σχετίζονται µε υψηλότερες τιµές του y
– Οι δύο µεταβλητές πρέπει να έχουν κανονική κατανοµή και να είναι ανεξάρτητες (µια τιµή για κάθε άτοµο)
Γραµµική Παλινδρόµηση
Linear Regression
Γραµµική παλινδρόµηση
• Υπάρχουν πολλές ευθείες που συσχετίζουν δύο µεταβλητές
• Επιλέγουµε την ευθεία που απέχει λιγότερο από κάθε σηµείο, µε τη µέθοδο των ελάχιστων τετραγώνων
• Η ευθεία αυτή λέγεται «ευθεία παλινδρόµησης» (regression line) και αποτελεί την εκτίµηση της µέσης
• Η ευθεία αυτή λέγεται «ευθεία παλινδρόµησης» (regression line) και αποτελεί την εκτίµηση της µέσης τιµής του y για κάθε τιµή του x (παλινδρόµηση του y στο x)
• y= a+bx (a= σηµείο τοµής στον άξονα y, b= κλίση)
• Σε δείγµα πληθυσµού, λαµβάνουµε εκτίµηση του a και του b και µπορούµε να υπολογίσουµε τυπικό σφάλµα (SE) και διαστήµατα εµπιστοσύνης
Πολλαπλή γραµµική
παλινδρόµηση• Η σχέση µεταξύ µιας συνεχούς µεταβλητής και µιας
σειράς από i συνεχείς µεταβλητές:
• Επιµέρους συντελεστές συσχέτισης βi
xβ ... xβ xβαy ii2211 ++++=
• Επιµέρους συντελεστές συσχέτισης βi
– Το ποσό που µεταβάλλεται το y κατά µέσο όρο, όταν το xi
µεταβάλλεται κατά µια µονάδα και όλα τα άλλα xis παραµένουν σταθερά
– Μετρά τη συσχέτιση µεταξύ του xi και του y, σταθµισµένη για όλα τα άλλα xi
• Παράδειγµα:– ΣΑΠ σε σχέση µε την ηλικία, το βάρος, το ύψος κλπ.
Λογιστική παλινδρόµηση
(Logistic regression)
• ∆ηµιουργεί ένα µοντέλο για τη σχέση που υφίσταται µεταξύ µιας σειράς µεταβλητών xi που µπορεί να είναι:– διχοτόµες (έφαγε : ναι/όχι)
– κατηγορικές (κοινωνική τάξη, ... )
– συνεχείς (ηλικία, ...)
ΚαιΜιας διχοτόµου µεταβλητής y
• Η διχοτόµος έκβαση (δυαδική) αποτελεί την πιο συχνή κατάσταση στη βιολογία και την επιδηµιολογία
Λογιστική παλινδρόµηση
Ηλικία ΣΝ Ηλικία ΣΝ Ηλικία ΣΝ
22 0 40 0 54 0
23 0 41 1 55 1
24 0 46 0 58 1
27 0 47 0 60 1
Ηλικία και συµπτώµατα στεφανιαίας νόσου (ΣΝ)
27 0 47 0 60 1
28 0 48 0 60 0
30 0 49 1 62 1
30 0 49 0 65 1
32 0 50 1 67 1
33 0 51 0 71 1
35 1 51 1 77 1
38 0 52 0 81 1
Πως µπορούµε να αναλύσουµε αυτά τα
δεδοµένα;
• Σύγκριση της µέσης ηλικίας των ασθενών
και υγιών
– Υγιείς: 38.6 χρόνια– Υγιείς: 38.6 χρόνια
– Ασθενείς: 58.7 χρόνια (p<0.0001)
• Γραµµική παλινδρόµηση;
Γραφική απεικόνιση των δεδοµένων
Sig
ns o
f co
ron
ary
dis
ea
se
Yes
AGE (years)
Sig
ns o
f co
ron
ary
dis
ea
se
No
0 20 40 60 80 100
Λογιστική παλινδρόµηση
Επιπολασµός (%) των συµπτωµάτων ΣΝ σε σχέση
µε την ηλικιακή οµάδα Ασθενείς
Ηλικιακή οµάδα
Άτοµα # %
20 -29 5 0 0
30 - 39 6 1 17 30 - 39 6 1 17
40 - 49 7 2 29
50 - 59 7 4 57
60 - 69 5 4 80
70 - 79 2 2 100
80 - 89 1 1 100
Γραφική απεικόνιση των δεδοµένων
60
80
100Ασθενείς %
0
20
40
60
0 2 4 6 8
Ηλικία (έτη)
Η λογιστική συνάρτηση
0,8
1,0
Πιθανότητα νόσου
βxα
βxα
e1
e)xP(y
+
+
+=
0,0
0,2
0,4
0,6
x
( )P y x
Η λογιστική συνάρτηση
P y xe
e
x
x( ) =
+
+
+
α β
α β1
ln( )
( )
P y x
P y xx
1−
= +α β
logit του P(y|x)
Η λογιστική συνάρτηση
• Πλεονεκτήµατα του logit
– Απλή µετατροπή του P(y|x)
– Γραµµική συσχέτιση µε το x
– Μπορεί να είναι συνεχές (Logit µεταξύ -∞ και + ∞)– Μπορεί να είναι συνεχές (Logit µεταξύ -∞ και + ∞)
– Γνωστή διωνυµική κατανοµή (P µεταξύ 0 και 1)
– Συνδέεται άµεσα µε το πηλίκο συµπληρωµατικών
πιθανοτήτων της ασθένειας (β = η αύξηση των log-odds
για κάθε µονάδα αύξησης του x)
βxαP-1
P ln +=
e
P-1
P βxα+=
Παράδειγµα• Ηλικία (<55 και 55+ έτη) και κίνδυνος ανάπτυξης ΣΝ
ΣΝ 55+ (1) < 55 (0)
Ασθενείς (1) 21 22
Υγιείς (0) 6 51
Odds της νόσου µεταξύ των εκτεθειµένων = 21/6 Odds της νόσου µεταξύ των µη εκτεθειµένων = 22/51 Odds ratio = 8.1
Ηλικία 2.094 0.841- Ηλικία βαP1-
P ln 1 ×+=×+=
Odds ratio = 8.1
•Αποτέλεσµα από την εφαρµογή µοντέλου Λογιστικής
Παλινδρόµησης:
Coefficient SE Coeff/SE
Ηλικία 2.094 0.529 3.96 Σταθερά -0.841 0.255 -3.30
Log-odds = 2.094 OR = e2.094 = 8.1
Πολλαπλή Λογιστική παλινδρόµηση
• Περισσότερες από µια ανεξάρτητες µεταβλητές– ∆ιχοτόµες, ιεραρχικές, συνεχείς q
β
ii2211 xβ ... xβ xβαP-1
P ln +++=
• Επεξήγηση του βi
– Η αύξηση του log-odds όταν αυξάνεται το xi κατά µια µονάδα, µε όλα τα άλλα xis σταθερά
– Μετρά τη συσχέτιση µεταξύ του xi και του log-odds σταθµισµένη για όλα τα άλλα xi
Παράδειγµα
Παράµετροι B S.E. Wald df p Exp(B) 95,0% C.I. του OR
(OR) Κατώτερο Ανώτερο
Ισχαιµική καρδιοπάθεια 0,865 0,312 7,692 1 0,00555 2,376 1,289 4,380
Οσφυαλγία 0,834 0,342 5,960 1 0,01463 2,304 1,179 4,501
Συµπτώµατα
µυοσκελετικού πλην
οσφυαλγίας
0,798 0,374 4,549 1 0,03295 2,221 1,067 4,625
Ανικανότητα να προσφέρει 0,676 0,342 3,917 1 0,04779 1,966 1,007 3,841 Ανικανότητα να προσφέρει
βοήθεια σε άλλους
Αριθµός αναφερόµενων
χρόνιων προβληµάτων
υγείας
0,433 0,107 16,513 1 0,00005 1,542 1,251 1,901
Αριθµός λαµβανόµενων
φαρµάκων
0,232 0,068 11,711 1 0,00062 1,261 1,104 1,440
GDS score 0,152 0,037 16,603 1 0,00005 1,164 1,082 1,253
ADL score 0,046 0,015 9,610 1 0,00194 1,047 1,017 1,078
Ηλικία -0,074 0,022 10,851 1 0,00099 0,929 0,889 0,971