Introduction à la régression logistique

23
Introduction `a la r´ egression logistique A. Latouche 1 / 23

Transcript of Introduction à la régression logistique

Page 1: Introduction à la régression logistique

Introduction a la regression logistique

A. Latouche

1 / 23

Page 2: Introduction à la régression logistique

Regression Logistique

I On souhaite expliquer une variable reponse Y qualitativebinaire

I On dispose de variable explicatives X1, X2, . . . , Xk

qualitative ou quantitative

I Regression logistique simple k = 1

I Regression logistique multiple k > 1

2 / 23

Page 3: Introduction à la régression logistique

Regression Logistique simple

I Variable reponse : Y = 0/1

I Variable explicative : X qualitative en 2 (ou plus) classes

I Objectif : Modeliser

P (Y = 1|X = x) = π(x)

I Un modele lineaire n’impose pas de contrainte sur π(x)(∈ [0, 1])

π(x) = a+ b× x

I Alternative : le lien logistique

3 / 23

Page 4: Introduction à la régression logistique

Origine du lien logistique

On s’interesse a un modele de regression entre l’age (en groupe)et la Maladie coronarienne (CHD)

id agrp chd

1 1 02 1 03 1 1. . .

97 8 098 8 1

I Si au lieu de s’interesser a la variable chd

I on s’interesse a la proportion de chd par classe d’age

4 / 23

Page 5: Introduction à la régression logistique

Proportion de CHD par classe d’age

Age n CHD absent CHD present proportion

20-29 10 9 1 0.1030-34 15 13 2 0.1335- 39 12 9 3 0.2540-44 15 10 5 0.3345-49 13 7 6 0.4650-54 8 3 5 0.6355-59 17 4 13 0.7660 -69 10 2 8 0.80Total 100 57 43 0.43

5 / 23

Page 6: Introduction à la régression logistique

Exemple : Age et Coronary Heart Disease Status (chd)

1 2 3 4 5 6 7 8

0.0

0.2

0.4

0.6

0.8

1.0

Age Group

Pro

port

ion

de C

HD

6 / 23

Page 7: Introduction à la régression logistique

Fonction logit

On definit la fonction de [0, 1]→]−∞,+∞[ par

logit(p) = log(p

1− p)

La quantite p1−p s’appelle un odd (cote)

7 / 23

Page 8: Introduction à la régression logistique

Fonction logit

0.0 0.2 0.4 0.6 0.8 1.0

−4

−2

02

4

x

log(

x/(1

− x

))

8 / 23

Page 9: Introduction à la régression logistique

Inversion de la fonction logit

I logit(x) = log(x

1− x)

I l’inverse de la y = logit(x) = log(x

1− x)

I x = exp y1+exp y

9 / 23

Page 10: Introduction à la régression logistique

0.0 0.2 0.4 0.6 0.8 1.0

−6

−4

−2

02

46

π

η

logit function

η = log( π1 − π

)

−6 −4 −2 0 2 4 6

0.0

0.2

0.4

0.6

0.8

1.0

ηπ

logistic function

π =exp(η)

1 + exp(η)

Figure : Fonction Logit et inverse logit

10 / 23

Page 11: Introduction à la régression logistique

Regression Logistique Simple

Si π(x) = P (Y = 1|X = x), le modele s’ecrit

logit(π(x)) = a+ bx

Si on dispose d’observation (Xi, Yi)i=1...,n

Comment estimer (a, b) ?Estimateur du maximum de vraisemblance

11 / 23

Page 12: Introduction à la régression logistique

Regression logistique : Maximum de vraisemblance

On dispose d’observation (xi, yi)i=1...,n ou les yi sont binairesSoit π(x) = P (Y = 1|X = x), le modele de regression logistiques’ecrit

logit(π(x)) = a+ bx

La vraisemblance du modele est

Ln(a, b) =

n∏i=1

π(xi)yi(1− π(xi))

1−yi

a et b sont calcules en utilisant la methode du maximum devraisemblance (solution approchee)log(Ln(a, b)) =

∑ni=1 yi log(π(xi)) + (1− yi) log(1− π(xi))

12 / 23

Page 13: Introduction à la régression logistique

Interpretation des parametresSoit π(x) = P (Y = 1|X = x)Le modele de regression

logit(π(x)) = a+ bx

peut s’ecrire

P (Y = 1|X = x) =exp(a+ bx)

1 + exp(a+ bx)

Si la variable X est aussi binaire alors

exp(b) = OR

ou OR=Odds Ratio= Rapports de Cotes (Voir association.pdf)

OR =

π(1)1−π(1)π(0)

1−π(0)

13 / 23

Page 14: Introduction à la régression logistique

Illustration

Toxicite d’un insecticide sur des insectes (femelles et males)

Table : Nombre d’insectes tues parmis 20

Dose[µg] d’insecticide Males Femelles(dc) (dc)

1 1 02 4 24 9 68 13 1016 18 1232 20 16

14 / 23

Page 15: Introduction à la régression logistique

Unites Statistique

Une observation correspond au nombre d’insectes morts parmis20 insectes exposesLes observations peuvent etre modelisees par une loi Binomiale:Chaque insecte meurt independamment des autres avec uneprobabilite π.Soit

η = logit(π) = logπ

1− π.

Une estimation de π est fournie par π = #insectes morts20

la Fig. 2 represente

I les proportions estimees π = #insectes morts20

I les logits empiriques ≈ log{π/(1− π)}en fonction de log(dose).

15 / 23

Page 16: Introduction à la régression logistique

M

M

M

M

M

M

F

F

F

F

F

F

0.0 1.0 2.0 3.0

0.0

0.2

0.4

0.6

0.8

1.0

log(dose)

prop

ortio

n

proportion

M

M

M

M

M

M

F

F

F

FF

F

0.0 1.0 2.0 3.0

−4

−2

02

4

log(dose)

empi

rical

logi

t

empirical logit

Figure : Binomial data: proportions et logits empirique.

16 / 23

Page 17: Introduction à la régression logistique

2 modeles pour la probabilite de deces π semblent plausibles :

πSD = µ+ αS + γ · log(dose) (1)

log(πSD

1− πSD) = logit(πSD) = µ+ αS + γ · log(dose) (2)

Le premier modele pourrait avoir des valeurs plus grandes que 1pour des doses eleveesLa fonction logit evite ce phenomene : on utilisera donc lemodele 2

17 / 23

Page 18: Introduction à la régression logistique

Interpretation de l’OR

L’etude du lien entre le fait d’etre diabetique et le poids en 10kg donne un OR de 2.

18 / 23

Page 19: Introduction à la régression logistique

Interpretation de l’OR

I On a etudie y=f(x) avec y=diabetique (oui1/non0),x=poids en kg et f une regression logistique.

I Le modele est donc

P (diabetique|Poids = x Kg) = exp(a+bx)/(1+exp(a+bx))

I La probabilite d’etre diabetique augmente avec le poids carOR > 1.

I Le risque d’etre diabetique est multiplie par 2 a chaque foisque le poids augmente de 10kg.

I Si on compare une personne d’un poids P+10 kg avec unepersonne de poids P, la premiere a un risque 2 fois pluseleve d’etre diabetique.

19 / 23

Page 20: Introduction à la régression logistique

Regression logistique et Test

L’estimateur du MV est gaussien ce qui permet de construiredes testspour H0 : b = 0On utilisera soit

1. Test de Wald

2. Test du Score

3. Test du rapport de vraisemblance

A retenir : ces 3 tests sont equivalents et suiventasymptotiquement une loi du χ2(1)

20 / 23

Page 21: Introduction à la régression logistique

Le test de Wald compare l’ecart entre le coefficienttheorique et sa valeur estimee (en abscisse)

21 / 23

Page 22: Introduction à la régression logistique

Le test du RV compare la difference en ordonnee

22 / 23

Page 23: Introduction à la régression logistique

Le test du Score compare a zero la pente de la tangenteau point theorique

23 / 23