ANALISI MULTIVARIATA - Lungo la via della seta · della retta (che indichiamo con β) L’equazione...
Embed Size (px)
Transcript of ANALISI MULTIVARIATA - Lungo la via della seta · della retta (che indichiamo con β) L’equazione...

1
ANALISI ANALISI MULTIVARIATAMULTIVARIATA
Marcella Montico Marcella Montico Servizio di epidemiologia e Servizio di epidemiologia e biostatisticabiostatistica
... ancora sulla relazione tra due ... ancora sulla relazione tra due variabili: la regressione lineare semplicevariabili: la regressione lineare semplice
VD: quantitativaVD: quantitativaVI: quantitativaVI: quantitativaMisura la forza della relazione lineare tra Misura la forza della relazione lineare tra la VD e la VIla VD e la VI
ES: influenza dellES: influenza dell’’etetàà sulla pressione sulla pressione sistolicasistolica
VD = pressione VD = pressione sistolicasistolicaVI = etVI = etàà

2
ES: influenza dellES: influenza dell’’etetàà sulla pressione sulla pressione sistolicasistolicaVD = pressione VD = pressione sistolicasistolicaVI = etVI = etàà
5010
015
020
025
0P
S m
edia
20 40 60 80 100eta
Per riassumere questa relazione si può Per riassumere questa relazione si può utilizzare una retta (utilizzare una retta (RETTARETTA DI DI REGRESSIONE)REGRESSIONE)
5010
015
020
025
0P
S m
edia
0 20 40 60 80 100eta
PS media rettareg

3
Come si costruisce la rettaCome si costruisce la retta
La pressione varia La pressione varia in funzionein funzione delldell’’etetàà(all(all’’aumentare dellaumentare dell’’etetàà aumenta la pressione)aumenta la pressione)
Pressione Pressione ~~ etetàà
Come Come quantificoquantifico questaquesta relazionerelazione? ? Con un Con un coefficientecoefficiente cheche rappresentirappresenti la la pendenzapendenzadelladella rettaretta ((cheche indichiamoindichiamo con con ββ))
LL’’equazione della rettaequazione della rettaPressione Pressione ~~ ββ X X etetàà
MancaManca un un terminetermine costantecostante ((αα) ) cheche funzionifunzioni dadapuntopunto didi partenzapartenza per la per la rettaretta
Pressione Pressione ~~ αα ++ ββ X X etetàà
La La pressionepressione adessoadesso èè espressaespressa in in funzionefunzionedelldell’’etetàà, ma non , ma non èè ancoraancora unauna formula formula matematicamatematica

4
Per poter passare da Per poter passare da ~~ a a = = inseriamoinseriamoun un erroreerrore: la : la pressionepressione non non èèdeterminatadeterminata solamentesolamente dalldall’’etetàà! ! LL’’equazioneequazione diventadiventa::
Pressione Pressione = = αα ++ ββ X X etetàà + + erroreerrore
GliGli errorierrori rappresentanorappresentano quellaquella parteparte didipressionepressione cheche non non èè spiegataspiegata dalldall’’etetàà e e vengonovengono dettidetti RESIDUIRESIDUI
RisultatoRisultatoNel nostro esempioNel nostro esempioαα = 90.9= 90.9ββ = 0.8= 0.8
Pressione Pressione = = 90.990.9 ++ 0.80.8 X X etetàà + + erroreerrore

5
Metodo dei minimi quadratiMetodo dei minimi quadrati
I parametri I parametri αα ee ββ vengono calcolati in vengono calcolati in modo che rendano minimo lmodo che rendano minimo l’’errore di errore di ““approssimazioneapprossimazione””
Si minimizza il quadrato della somma degli Si minimizza il quadrato della somma degli scarti dalla retta, ovvero il quadrato della scarti dalla retta, ovvero il quadrato della distanza di ogni osservazione dalla retta: distanza di ogni osservazione dalla retta: metodo dei minimi quadrati.metodo dei minimi quadrati.
Alcuni datiAlcuni dati
147.4147.4121.3121.3143.5143.5143.3143.3138.7138.7142.5142.5124.9124.9107.1107.1142.7142.7127.4127.4
20.120.1--1111.3.3--11.8.8--33.3.311.311.317.517.518.418.48.98.9
--22.7.722.622.6
DifferenzaDifferenza
90.9+0.8x90.9+0.8x7171127127717190.9+0.8x90.9+0.8x3838110110383890.9+0.8x90.9+0.8x6666142142666690.9+0.8x90.9+0.8x6565140140656590.9+0.8x90.9+0.8x6060150150606090.9+0.8x90.9+0.8x6464160160646490.9+0.8x90.9+0.8x4242143143424290.9+0.8x90.9+0.8x2020116116202090.9+0.8x90.9+0.8x6565141141656590.9+0.8x90.9+0.8x4646==1501504646
PS stimataPS stimataPS misurataPS misurataetetàà

6
Alcune domandeAlcune domande
Che direzione ha la relazione etChe direzione ha la relazione etàà ––pressione?pressione?
La relazione tra pressione ed etLa relazione tra pressione ed etàà èèsignificativa?significativa?
La variabile etLa variabile etàà fino a che punto spiega la fino a che punto spiega la variabilitvariabilitàà della pressione? della pressione?
ββ: coefficiente angolare: coefficiente angolare
ββ>0 : relazione diretta, al crescere dell>0 : relazione diretta, al crescere dell’’etetààcresce la pressionecresce la pressioneββ<0: relazione inversa, al crescere dell<0: relazione inversa, al crescere dell’’etetààdiminuisce la pressionediminuisce la pressioneββ=0: indipendenza=0: indipendenza
Es.Es.

7
R2= coefficiente di determinazione
SignificativitSignificativitàà di di ββββ
Coefficiente di determinazione RCoefficiente di determinazione R22
Proporzione di Proporzione di varianzavarianza spiegata dalla spiegata dalla regressioneregressione
PiPiùù si avvicina a 1, migliore si avvicina a 1, migliore èè il modelloil modello

8
Generalizzando:Generalizzando:
VD = VD = αα ++ ββ X X VI + VI + erroreerrore
y= y= αα ++ ββxx + + εε
Dove siamoDove siamo
Come verificare se lCome verificare se l’’associazione tra due associazione tra due variabili non variabili non èè dovuta al caso (test e IC)dovuta al caso (test e IC)Altre variabili possono influire su questa Altre variabili possono influire su questa associazioneassociazione
Come misurare la forza di una relazione tra Come misurare la forza di una relazione tra due variabili due variabili indipendentementeindipendentemente da da potenziali variabili confondentipotenziali variabili confondenti????

9
ANALISI MULTIVARIATAANALISI MULTIVARIATAInsieme di metodi per considerare diverse Insieme di metodi per considerare diverse variabili indipendenti simultaneamentevariabili indipendenti simultaneamente
Descrive la relazione tra una variabile di Descrive la relazione tra una variabile di outcomeoutcome (VD) e i suoi diversi determinanti, con (VD) e i suoi diversi determinanti, con lo scopo di valutare la forza delle associazioni o lo scopo di valutare la forza delle associazioni o di predire ldi predire l’’outcomeoutcome in condizioni diversein condizioni diverse
LL’’analisi analisi bivariatabivariata fornisce una visione parziale, fornisce una visione parziale, ll’’analisi analisi multivariatamultivariata una visione piuna visione piùù complessa e complessa e che si avvicina di piche si avvicina di piùù alla realtalla realtàà
Il principale vantaggio dellIl principale vantaggio dell’’analisi analisi multivariatamultivariata consiste nel poter consiste nel poter
apprezzare, simultaneamente ed apprezzare, simultaneamente ed indipendentemente, gli effetti di tutte le indipendentemente, gli effetti di tutte le variabili considerate, depurandoli delle variabili considerate, depurandoli delle
reciproche interferenzereciproche interferenze

10
Spiegazione non matematicaSpiegazione non matematica
ES: vogliamo fare uno studio sulla prognosi ES: vogliamo fare uno studio sulla prognosi di 1 determinata malattia che non ha di 1 determinata malattia che non ha ancora una cura. La lunghezza della ancora una cura. La lunghezza della sopravvivenza di un paziente potrebbe sopravvivenza di un paziente potrebbe dipendere da:dipendere da:
EtEtàà del pazientedel pazienteStadio della malattiaStadio della malattiaPresenza di altre malattie (Presenza di altre malattie (comorbilitcomorbilitàà))Sintomi (Sintomi (eses: dimagrimento): dimagrimento)
età
comorbilità
sintomi
stadio
prognosi

11
Un poUn po’’ di matematicadi matematica
Prognosi Prognosi ~~ etetàà + + stadiostadio + + comorbiditcomorbiditàà + + sintomisintomi
Queste 4 variabili non hanno tutte Queste 4 variabili non hanno tutte necessariamente la stessa importanza, necessariamente la stessa importanza, miglioriamo lmiglioriamo l’’espressione dando un peso ad espressione dando un peso ad ognunaognuna
Prognosi Prognosi ~~ p1p1xxetetàà + + p2p2xxstadio + stadio + p3p3xxcomorbiditcomorbiditàà + + p4p4xxsintomisintomi
Per passare dal Per passare dal ““circacirca”” allall’“’“ugualeuguale””inseriamo un termine di errore e una inseriamo un termine di errore e una costante che ci serve da costante che ci serve da ““ancoraggioancoraggio””
Prognosi = Prognosi = costantecostante ++p1 p1 x x etetàà + + p2 p2 x x stadiostadio + + p3 p3 x x comorbiditcomorbiditàà + + p4 p4 x x sintomisintomi + + erroreerrore

12
Ricorda la regressione lineare, ma non Ricorda la regressione lineare, ma non èè pipiùùsemplice, semplice, èè multiplamultipla
VD = VD = αα ++ ββ11 X X VIVI11 + + ββ22 X X VIVI2 2 ++……. + . + erroreerrore
y= y= αα ++ ββ11xx11 + + ββ22xx2 2 + + ββ33xx3 3 + + …… + + εε
ModelliModelliLL’’equazione rappresenta un modello lineare equazione rappresenta un modello lineare
(generalizzato)(generalizzato)
A seconda del tipo di variabili, dipendente/i e A seconda del tipo di variabili, dipendente/i e indipendenti cambia lindipendenti cambia l’’analisi analisi regressione lineare multiplaregressione lineare multiplaAnovaAnovaAncovaAncovaRegressione logisticaRegressione logisticaRegressione di Regressione di coxcoxEcc.Ecc.

13
Esempio: pressione Esempio: pressione sistolicasistolica
Possibili variabili influenzanti:Possibili variabili influenzanti:EtEtàà (significativa)(significativa)BMI (body mass BMI (body mass indexindex))Sesso (M o F)Sesso (M o F)
PSmedia
eta
bmi
100
150
200
100 150 200
0
50
100
0 50 100
20
30
40
50
20 30 40 50

14
Relazione PS Relazione PS -- bmibmi
αα = 90.5= 90.5 ββ = 1.5= 1.5
p<0.001 Rp<0.001 R22= 0.13= 0.13
Relazione Relazione bmibmi -- etetàà
αα = 21.8= 21.8 ββ = 0.1= 0.1
p<0.001p<0.001

15
Regressione lineare multiplaRegressione lineare multipla
risultatirisultati
0.60.6BMIBMI0.430.430.70.7EtEtàà
PS = f(EtPS = f(Etàà, BMI), BMI)
PS = f(EtPS = f(Etàà))
0.130.131.51.5BMIBMIPS = f(BMI)PS = f(BMI)
0.410.410.80.8EtEtàà
RR22ββ

16
...inseriamo.inseriamo anche il sesso (1=F 2=M)anche il sesso (1=F 2=M)
2.72.7Sesso Sesso 0.60.6BMIBMI 0.440.440.70.7EtEtàà
RR22ββPS = f(EtPS = f(Etàà, BMI, sesso), BMI, sesso)
PS = 74 + 0.7etPS = 74 + 0.7etàà + 0.6BMI + 2.7 sesso + errore+ 0.6BMI + 2.7 sesso + errore
InterpretazioneInterpretazioneLa PS aumenta di 0.7 per ogni anno di etLa PS aumenta di 0.7 per ogni anno di etàà in in pipiùù (indipendentemente da BMI e sesso)(indipendentemente da BMI e sesso)
La PS aumenta di 0.6 per ogni punto di BMI La PS aumenta di 0.6 per ogni punto di BMI in piin piùù (indipendentemente da et(indipendentemente da etàà e sesso)e sesso)
La PS aumenta di 2.7 per i maschi rispetto La PS aumenta di 2.7 per i maschi rispetto alle femmine alle femmine (indipendentemente da et(indipendentemente da etàà e e BMI)BMI)

17
Scopi dellScopi dell’’analisi analisi multivariatamultivariata
SpiegareSpiegare le relazioni tra variabili le relazioni tra variabili (indipendentemente dalle altre)(indipendentemente dalle altre)
PrevederePrevedere in base alle variabili in base alle variabili indipendenti (esplicative) come sarindipendenti (esplicative) come saràà la la variabile dipendentevariabile dipendente
ControllareControllare ll’’effetto di alcune variabili per effetto di alcune variabili per verificare lverificare l’’effetto di altre sulla VDeffetto di altre sulla VD
PrevisionePrevisione
Date le variabili dipendenti, si prevede il valore Date le variabili dipendenti, si prevede il valore che ha la variabile dipendenteche ha la variabile dipendente
EsEs: 74 + 0.7et: 74 + 0.7etàà +0+0.6.6 BMI + 2.7 BMI + 2.7 sesso=sesso= ??
120,822042128,923045119,712540
PS STIMATAsessobmietà

18
Esempio: Esempio: previsione della probabilitprevisione della probabilitàà di di evento cardiovascolare in evento cardiovascolare in funzione di sesso, etfunzione di sesso, etàà, diabete, , diabete, fumo, pressione arteriosa, fumo, pressione arteriosa, colesterolemiacolesterolemia

19
ControlloControllo
Si vuole verificare qual Si vuole verificare qual èè la differenza di la differenza di pressione tra maschi e femminepressione tra maschi e femmine
Maschi e femmine del campione sono Maschi e femmine del campione sono però diversi per etperò diversi per etàà e BMIe BMI
Ho fatto lHo fatto l’’analisi analisi multivariatamultivariata ma vorrei ma vorrei quantificare la differenza tra maschi e quantificare la differenza tra maschi e femminefemmine
Calcolo i valori Calcolo i valori corretticorretti (o aggiustati) per sesso (o aggiustati) per sesso ed eted etàà
124124125125
Pressione media Pressione media aggiustata*aggiustata* PP--valuevalue
F F 0.0060.006
MM
*per età e bmi