Download - ANALISI MULTIVARIATA - Lungo la via della seta · della retta (che indichiamo con β) L’equazione della retta Pressione ~ βX età ¾Manca un termine costante (α) che funzioni

Transcript
Page 1: ANALISI MULTIVARIATA - Lungo la via della seta · della retta (che indichiamo con β) L’equazione della retta Pressione ~ βX età ¾Manca un termine costante (α) che funzioni

1

ANALISI ANALISI MULTIVARIATAMULTIVARIATA

Marcella Montico Marcella Montico Servizio di epidemiologia e Servizio di epidemiologia e biostatisticabiostatistica

... ancora sulla relazione tra due ... ancora sulla relazione tra due variabili: la regressione lineare semplicevariabili: la regressione lineare semplice

VD: quantitativaVD: quantitativaVI: quantitativaVI: quantitativaMisura la forza della relazione lineare tra Misura la forza della relazione lineare tra la VD e la VIla VD e la VI

ES: influenza dellES: influenza dell’’etetàà sulla pressione sulla pressione sistolicasistolica

VD = pressione VD = pressione sistolicasistolicaVI = etVI = etàà

Page 2: ANALISI MULTIVARIATA - Lungo la via della seta · della retta (che indichiamo con β) L’equazione della retta Pressione ~ βX età ¾Manca un termine costante (α) che funzioni

2

ES: influenza dellES: influenza dell’’etetàà sulla pressione sulla pressione sistolicasistolicaVD = pressione VD = pressione sistolicasistolicaVI = etVI = etàà

5010

015

020

025

0P

S m

edia

20 40 60 80 100eta

Per riassumere questa relazione si può Per riassumere questa relazione si può utilizzare una retta (utilizzare una retta (RETTARETTA DI DI REGRESSIONE)REGRESSIONE)

5010

015

020

025

0P

S m

edia

0 20 40 60 80 100eta

PS media rettareg

Page 3: ANALISI MULTIVARIATA - Lungo la via della seta · della retta (che indichiamo con β) L’equazione della retta Pressione ~ βX età ¾Manca un termine costante (α) che funzioni

3

Come si costruisce la rettaCome si costruisce la retta

La pressione varia La pressione varia in funzionein funzione delldell’’etetàà(all(all’’aumentare dellaumentare dell’’etetàà aumenta la pressione)aumenta la pressione)

Pressione Pressione ~~ etetàà

Come Come quantificoquantifico questaquesta relazionerelazione? ? Con un Con un coefficientecoefficiente cheche rappresentirappresenti la la pendenzapendenzadelladella rettaretta ((cheche indichiamoindichiamo con con ββ))

LL’’equazione della rettaequazione della rettaPressione Pressione ~~ ββ X X etetàà

MancaManca un un terminetermine costantecostante ((αα) ) cheche funzionifunzioni dadapuntopunto didi partenzapartenza per la per la rettaretta

Pressione Pressione ~~ αα ++ ββ X X etetàà

La La pressionepressione adessoadesso èè espressaespressa in in funzionefunzionedelldell’’etetàà, ma non , ma non èè ancoraancora unauna formula formula matematicamatematica

Page 4: ANALISI MULTIVARIATA - Lungo la via della seta · della retta (che indichiamo con β) L’equazione della retta Pressione ~ βX età ¾Manca un termine costante (α) che funzioni

4

Per poter passare da Per poter passare da ~~ a a = = inseriamoinseriamoun un erroreerrore: la : la pressionepressione non non èèdeterminatadeterminata solamentesolamente dalldall’’etetàà! ! LL’’equazioneequazione diventadiventa::

Pressione Pressione = = αα ++ ββ X X etetàà + + erroreerrore

GliGli errorierrori rappresentanorappresentano quellaquella parteparte didipressionepressione cheche non non èè spiegataspiegata dalldall’’etetàà e e vengonovengono dettidetti RESIDUIRESIDUI

RisultatoRisultatoNel nostro esempioNel nostro esempioαα = 90.9= 90.9ββ = 0.8= 0.8

Pressione Pressione = = 90.990.9 ++ 0.80.8 X X etetàà + + erroreerrore

Page 5: ANALISI MULTIVARIATA - Lungo la via della seta · della retta (che indichiamo con β) L’equazione della retta Pressione ~ βX età ¾Manca un termine costante (α) che funzioni

5

Metodo dei minimi quadratiMetodo dei minimi quadrati

I parametri I parametri αα ee ββ vengono calcolati in vengono calcolati in modo che rendano minimo lmodo che rendano minimo l’’errore di errore di ““approssimazioneapprossimazione””

Si minimizza il quadrato della somma degli Si minimizza il quadrato della somma degli scarti dalla retta, ovvero il quadrato della scarti dalla retta, ovvero il quadrato della distanza di ogni osservazione dalla retta: distanza di ogni osservazione dalla retta: metodo dei minimi quadrati.metodo dei minimi quadrati.

Alcuni datiAlcuni dati

147.4147.4121.3121.3143.5143.5143.3143.3138.7138.7142.5142.5124.9124.9107.1107.1142.7142.7127.4127.4

20.120.1--1111.3.3--11.8.8--33.3.311.311.317.517.518.418.48.98.9

--22.7.722.622.6

DifferenzaDifferenza

90.9+0.8x90.9+0.8x7171127127717190.9+0.8x90.9+0.8x3838110110383890.9+0.8x90.9+0.8x6666142142666690.9+0.8x90.9+0.8x6565140140656590.9+0.8x90.9+0.8x6060150150606090.9+0.8x90.9+0.8x6464160160646490.9+0.8x90.9+0.8x4242143143424290.9+0.8x90.9+0.8x2020116116202090.9+0.8x90.9+0.8x6565141141656590.9+0.8x90.9+0.8x4646==1501504646

PS stimataPS stimataPS misurataPS misurataetetàà

Page 6: ANALISI MULTIVARIATA - Lungo la via della seta · della retta (che indichiamo con β) L’equazione della retta Pressione ~ βX età ¾Manca un termine costante (α) che funzioni

6

Alcune domandeAlcune domande

Che direzione ha la relazione etChe direzione ha la relazione etàà ––pressione?pressione?

La relazione tra pressione ed etLa relazione tra pressione ed etàà èèsignificativa?significativa?

La variabile etLa variabile etàà fino a che punto spiega la fino a che punto spiega la variabilitvariabilitàà della pressione? della pressione?

ββ: coefficiente angolare: coefficiente angolare

ββ>0 : relazione diretta, al crescere dell>0 : relazione diretta, al crescere dell’’etetààcresce la pressionecresce la pressioneββ<0: relazione inversa, al crescere dell<0: relazione inversa, al crescere dell’’etetààdiminuisce la pressionediminuisce la pressioneββ=0: indipendenza=0: indipendenza

Es.Es.

Page 7: ANALISI MULTIVARIATA - Lungo la via della seta · della retta (che indichiamo con β) L’equazione della retta Pressione ~ βX età ¾Manca un termine costante (α) che funzioni

7

R2= coefficiente di determinazione

SignificativitSignificativitàà di di ββββ

Coefficiente di determinazione RCoefficiente di determinazione R22

Proporzione di Proporzione di varianzavarianza spiegata dalla spiegata dalla regressioneregressione

PiPiùù si avvicina a 1, migliore si avvicina a 1, migliore èè il modelloil modello

Page 8: ANALISI MULTIVARIATA - Lungo la via della seta · della retta (che indichiamo con β) L’equazione della retta Pressione ~ βX età ¾Manca un termine costante (α) che funzioni

8

Generalizzando:Generalizzando:

VD = VD = αα ++ ββ X X VI + VI + erroreerrore

y= y= αα ++ ββxx + + εε

Dove siamoDove siamo

Come verificare se lCome verificare se l’’associazione tra due associazione tra due variabili non variabili non èè dovuta al caso (test e IC)dovuta al caso (test e IC)Altre variabili possono influire su questa Altre variabili possono influire su questa associazioneassociazione

Come misurare la forza di una relazione tra Come misurare la forza di una relazione tra due variabili due variabili indipendentementeindipendentemente da da potenziali variabili confondentipotenziali variabili confondenti????

Page 9: ANALISI MULTIVARIATA - Lungo la via della seta · della retta (che indichiamo con β) L’equazione della retta Pressione ~ βX età ¾Manca un termine costante (α) che funzioni

9

ANALISI MULTIVARIATAANALISI MULTIVARIATAInsieme di metodi per considerare diverse Insieme di metodi per considerare diverse variabili indipendenti simultaneamentevariabili indipendenti simultaneamente

Descrive la relazione tra una variabile di Descrive la relazione tra una variabile di outcomeoutcome (VD) e i suoi diversi determinanti, con (VD) e i suoi diversi determinanti, con lo scopo di valutare la forza delle associazioni o lo scopo di valutare la forza delle associazioni o di predire ldi predire l’’outcomeoutcome in condizioni diversein condizioni diverse

LL’’analisi analisi bivariatabivariata fornisce una visione parziale, fornisce una visione parziale, ll’’analisi analisi multivariatamultivariata una visione piuna visione piùù complessa e complessa e che si avvicina di piche si avvicina di piùù alla realtalla realtàà

Il principale vantaggio dellIl principale vantaggio dell’’analisi analisi multivariatamultivariata consiste nel poter consiste nel poter

apprezzare, simultaneamente ed apprezzare, simultaneamente ed indipendentemente, gli effetti di tutte le indipendentemente, gli effetti di tutte le variabili considerate, depurandoli delle variabili considerate, depurandoli delle

reciproche interferenzereciproche interferenze

Page 10: ANALISI MULTIVARIATA - Lungo la via della seta · della retta (che indichiamo con β) L’equazione della retta Pressione ~ βX età ¾Manca un termine costante (α) che funzioni

10

Spiegazione non matematicaSpiegazione non matematica

ES: vogliamo fare uno studio sulla prognosi ES: vogliamo fare uno studio sulla prognosi di 1 determinata malattia che non ha di 1 determinata malattia che non ha ancora una cura. La lunghezza della ancora una cura. La lunghezza della sopravvivenza di un paziente potrebbe sopravvivenza di un paziente potrebbe dipendere da:dipendere da:

EtEtàà del pazientedel pazienteStadio della malattiaStadio della malattiaPresenza di altre malattie (Presenza di altre malattie (comorbilitcomorbilitàà))Sintomi (Sintomi (eses: dimagrimento): dimagrimento)

età

comorbilità

sintomi

stadio

prognosi

Page 11: ANALISI MULTIVARIATA - Lungo la via della seta · della retta (che indichiamo con β) L’equazione della retta Pressione ~ βX età ¾Manca un termine costante (α) che funzioni

11

Un poUn po’’ di matematicadi matematica

Prognosi Prognosi ~~ etetàà + + stadiostadio + + comorbiditcomorbiditàà + + sintomisintomi

Queste 4 variabili non hanno tutte Queste 4 variabili non hanno tutte necessariamente la stessa importanza, necessariamente la stessa importanza, miglioriamo lmiglioriamo l’’espressione dando un peso ad espressione dando un peso ad ognunaognuna

Prognosi Prognosi ~~ p1p1xxetetàà + + p2p2xxstadio + stadio + p3p3xxcomorbiditcomorbiditàà + + p4p4xxsintomisintomi

Per passare dal Per passare dal ““circacirca”” allall’“’“ugualeuguale””inseriamo un termine di errore e una inseriamo un termine di errore e una costante che ci serve da costante che ci serve da ““ancoraggioancoraggio””

Prognosi = Prognosi = costantecostante ++p1 p1 x x etetàà + + p2 p2 x x stadiostadio + + p3 p3 x x comorbiditcomorbiditàà + + p4 p4 x x sintomisintomi + + erroreerrore

Page 12: ANALISI MULTIVARIATA - Lungo la via della seta · della retta (che indichiamo con β) L’equazione della retta Pressione ~ βX età ¾Manca un termine costante (α) che funzioni

12

Ricorda la regressione lineare, ma non Ricorda la regressione lineare, ma non èè pipiùùsemplice, semplice, èè multiplamultipla

VD = VD = αα ++ ββ11 X X VIVI11 + + ββ22 X X VIVI2 2 ++……. + . + erroreerrore

y= y= αα ++ ββ11xx11 + + ββ22xx2 2 + + ββ33xx3 3 + + …… + + εε

ModelliModelliLL’’equazione rappresenta un modello lineare equazione rappresenta un modello lineare

(generalizzato)(generalizzato)

A seconda del tipo di variabili, dipendente/i e A seconda del tipo di variabili, dipendente/i e indipendenti cambia lindipendenti cambia l’’analisi analisi regressione lineare multiplaregressione lineare multiplaAnovaAnovaAncovaAncovaRegressione logisticaRegressione logisticaRegressione di Regressione di coxcoxEcc.Ecc.

Page 13: ANALISI MULTIVARIATA - Lungo la via della seta · della retta (che indichiamo con β) L’equazione della retta Pressione ~ βX età ¾Manca un termine costante (α) che funzioni

13

Esempio: pressione Esempio: pressione sistolicasistolica

Possibili variabili influenzanti:Possibili variabili influenzanti:EtEtàà (significativa)(significativa)BMI (body mass BMI (body mass indexindex))Sesso (M o F)Sesso (M o F)

PSmedia

eta

bmi

100

150

200

100 150 200

0

50

100

0 50 100

20

30

40

50

20 30 40 50

Page 14: ANALISI MULTIVARIATA - Lungo la via della seta · della retta (che indichiamo con β) L’equazione della retta Pressione ~ βX età ¾Manca un termine costante (α) che funzioni

14

Relazione PS Relazione PS -- bmibmi

αα = 90.5= 90.5 ββ = 1.5= 1.5

p<0.001 Rp<0.001 R22= 0.13= 0.13

Relazione Relazione bmibmi -- etetàà

αα = 21.8= 21.8 ββ = 0.1= 0.1

p<0.001p<0.001

Page 15: ANALISI MULTIVARIATA - Lungo la via della seta · della retta (che indichiamo con β) L’equazione della retta Pressione ~ βX età ¾Manca un termine costante (α) che funzioni

15

Regressione lineare multiplaRegressione lineare multipla

risultatirisultati

0.60.6BMIBMI0.430.430.70.7EtEtàà

PS = f(EtPS = f(Etàà, BMI), BMI)

PS = f(EtPS = f(Etàà))

0.130.131.51.5BMIBMIPS = f(BMI)PS = f(BMI)

0.410.410.80.8EtEtàà

RR22ββ

Page 16: ANALISI MULTIVARIATA - Lungo la via della seta · della retta (che indichiamo con β) L’equazione della retta Pressione ~ βX età ¾Manca un termine costante (α) che funzioni

16

...inseriamo.inseriamo anche il sesso (1=F 2=M)anche il sesso (1=F 2=M)

2.72.7Sesso Sesso 0.60.6BMIBMI 0.440.440.70.7EtEtàà

RR22ββPS = f(EtPS = f(Etàà, BMI, sesso), BMI, sesso)

PS = 74 + 0.7etPS = 74 + 0.7etàà + 0.6BMI + 2.7 sesso + errore+ 0.6BMI + 2.7 sesso + errore

InterpretazioneInterpretazioneLa PS aumenta di 0.7 per ogni anno di etLa PS aumenta di 0.7 per ogni anno di etàà in in pipiùù (indipendentemente da BMI e sesso)(indipendentemente da BMI e sesso)

La PS aumenta di 0.6 per ogni punto di BMI La PS aumenta di 0.6 per ogni punto di BMI in piin piùù (indipendentemente da et(indipendentemente da etàà e sesso)e sesso)

La PS aumenta di 2.7 per i maschi rispetto La PS aumenta di 2.7 per i maschi rispetto alle femmine alle femmine (indipendentemente da et(indipendentemente da etàà e e BMI)BMI)

Page 17: ANALISI MULTIVARIATA - Lungo la via della seta · della retta (che indichiamo con β) L’equazione della retta Pressione ~ βX età ¾Manca un termine costante (α) che funzioni

17

Scopi dellScopi dell’’analisi analisi multivariatamultivariata

SpiegareSpiegare le relazioni tra variabili le relazioni tra variabili (indipendentemente dalle altre)(indipendentemente dalle altre)

PrevederePrevedere in base alle variabili in base alle variabili indipendenti (esplicative) come sarindipendenti (esplicative) come saràà la la variabile dipendentevariabile dipendente

ControllareControllare ll’’effetto di alcune variabili per effetto di alcune variabili per verificare lverificare l’’effetto di altre sulla VDeffetto di altre sulla VD

PrevisionePrevisione

Date le variabili dipendenti, si prevede il valore Date le variabili dipendenti, si prevede il valore che ha la variabile dipendenteche ha la variabile dipendente

EsEs: 74 + 0.7et: 74 + 0.7etàà +0+0.6.6 BMI + 2.7 BMI + 2.7 sesso=sesso= ??

120,822042128,923045119,712540

PS STIMATAsessobmietà

Page 18: ANALISI MULTIVARIATA - Lungo la via della seta · della retta (che indichiamo con β) L’equazione della retta Pressione ~ βX età ¾Manca un termine costante (α) che funzioni

18

Esempio: Esempio: previsione della probabilitprevisione della probabilitàà di di evento cardiovascolare in evento cardiovascolare in funzione di sesso, etfunzione di sesso, etàà, diabete, , diabete, fumo, pressione arteriosa, fumo, pressione arteriosa, colesterolemiacolesterolemia

Page 19: ANALISI MULTIVARIATA - Lungo la via della seta · della retta (che indichiamo con β) L’equazione della retta Pressione ~ βX età ¾Manca un termine costante (α) che funzioni

19

ControlloControllo

Si vuole verificare qual Si vuole verificare qual èè la differenza di la differenza di pressione tra maschi e femminepressione tra maschi e femmine

Maschi e femmine del campione sono Maschi e femmine del campione sono però diversi per etperò diversi per etàà e BMIe BMI

Ho fatto lHo fatto l’’analisi analisi multivariatamultivariata ma vorrei ma vorrei quantificare la differenza tra maschi e quantificare la differenza tra maschi e femminefemmine

Calcolo i valori Calcolo i valori corretticorretti (o aggiustati) per sesso (o aggiustati) per sesso ed eted etàà

124124125125

Pressione media Pressione media aggiustata*aggiustata* PP--valuevalue

F F 0.0060.006

MM

*per età e bmi