RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple...

1Pierre-Louis GONZALEZ

RÉGRESSIONMULTIPLE

2

Vocabulaire

Modèle

Étudier la liaison entre une "variable à expliquer" quantitative

Y et une suite de "variables explicatives" quantitatives X1 ... Xk

.

où

Y

Variable à expliquerVariable dépendanteVariable endogène

Variables explicativesVariables indépendantesVariables exogènes

I INTRODUCTION

ε

Y X Xk k= + + + +β β β ε0 1 1 …= paramètres fixes (mais inconnus)β j

= 0terme aléatoire : de moyenned' écart - type σ

X1 X2 ... Xk

3

Régression multiple

Expliquer en fonction de

Prix d'un appartement

superficiestandingquartiersécuritéproximité de commerce

Prix d'une voiture

cylindréetaillevitesse maximumorigineniveau de finition

budget de rechercheinvestissementspublicitéremises aux grossistesprix de vente

Prévoir des ventes

EXEMPLES

4

2 Évaluer la précision de ces estimations.

3 Mesurer le pouvoir explicatif du modèle.

4 Répondre aux questions :

LES OBJECTIFS

A l'aide d'observations des variables Y, X1 ... Xk, nous allons chercher à

résoudre les problèmes suivants :

La liaison globale entre Y et les Xi est-elle significative ?

L'apport marginal de chaque variable Xi est-il significatif ?

Sélection de variables

β β β σ0 1, . . . . k1 Estimer les paramètres du modèle

6 Évaluer la qualité du modèle en prévision

et

5 Analyser les écarts entre les données et le modèle construit à partir

de celles-ci. Mesures d'influence.

5

Y x xi i k ik= + + + +β β β ε0 1 1 . . . i

où

est une variable aléatoire de moyenne 0

d’écart-type σ

Les v.a. sont supposées être distribuées selon des lois normales.

Elles sont supposées non corrélées entre elles.

ε ε1 . . . n

Nous considérons que yi est la réalisation d’une variable aléatoire Yi définie par :

ε i

II Estimation des paramètres du modèle

1 Le modèle

6

Nous recherchons les estimations :

permettant de reconstituer au mieux les données yi à partir des observations des k variables pour l'individu i.

Critère des moindres carrés

II ESTIMATION DES PARAMÈTRES DU MODÈLE

( )y . . . -ii =1

n− − −∑ β β β0 1 1

2x xi k ik

β β β0 1 . . . k

β β β0 1 … k

β β β0 1 … k

des paramètres

X Xk1…

β β β0 1 … kDéterminer minimisant

2 Estimation des paramètres

7

La résolution du problème passe par la résolution d'un système de

équations à inconnues.

Elle peut se présenter sous forme matricielle.

( )k + 1

( )k + 1

Éléments de solution

8

Y

Y

Y

Y

i

n

=

⎡

⎣

⎢⎢⎢⎢⎢⎢

⎤

⎦

⎥⎥⎥⎥⎥⎥

1

β

β

β

β

=

⎡

⎣

⎢⎢⎢⎢⎢⎢

⎤

⎦

⎥⎥⎥⎥⎥⎥

1

i

k

( )X

n k

x

x

x

x

x

x

i

n

k

i

nk

, +=

⎡

⎣

⎢⎢⎢⎢⎢⎢

⎤

⎦

⎥⎥⎥⎥⎥⎥

1

1

1

1

11

1

1

1

1

…

…

…

ε

ε

ε

ε

=

⎡

⎣

⎢⎢⎢⎢⎢⎢

⎤

⎦

⎥⎥⎥⎥⎥⎥

1

i

n

~

~ ~

En utilisant les notations matricielles ci-dessous:

9

L’ensemble des équations associées à chacune des observations, pour , s’écrit matriciellement :

2 i = 1 n. . .

3 Y X = +β ε

Les hypothèses faites sur les termes aléatoires s’écrivent :ε ε1 . . . n

( )E ε = 0

( )E ε ε σ′ = I2

Enfin, rang (X) supposé = +k 1

~ ~~

~ ~

~~

Pour que les calculs soient possibles, il faut éviter qu'une (ou plusieurs) des

variables explicatives soit une combinaison linéaire exacte des autres variables

explicatives.

10

vecteur des « »

estimation des moindres carrés de

( )β = ′ ′−X X X y1

β β=

= =

==

y Xβ Yi

e y y− vecteur des erreurs

La solution

Remarque: Cette expression est importante: elle montre qu’il est nécessaire d’inverser la matrice X’X. Les problèmes pratiques rencontrés en régression ( par exemple la multicolinéarité ) sont liés à cette inversion.

11

Plus est faible, meilleur est le modèle.

avec e y yi ii = −

σ 2 211= − − ∑n k e i

σ 2

On peut estimer la variance notée des termes .σ 2 ε i

3. La précision des résultats

12

Étant donné que les estimations sont obtenues à partir d'échantillons, on

peut s'interroger sur la précision avec laquelle sont déterminées les

coefficients.

On montre que cette précision est liée à celle de . Plus est faible,

plus les coefficients ont des chances d'être estimés précisément.

σ 2 σ 2

A chaque estimation d’un coefficient, est associé un écart-type estimé à partir

des données traitées (en général noté erreur-type). On peut comparer ces

erreurs-types aux coefficients estimés.

13

( ) ( )V B X X= ′ −σ 2 1

Variance de B

La variance d’un vecteur aléatoire est définie comme la matrice des

covariances entre les différentes coordonnées.

Remarque:

Les variances, les covariances et donc les corrélations des estimateurs des coefficients, dépendent également de l’inverse de la matrice X’X

14

1 Décomposition de la somme des carrés

( ) ( ) ( ) y iy y y y yii

n

i ii

n

i

n− = − + −

= = =∑ ∑ ∑2

1

2

1

2

1

(*)

MESURE DE LA "QUALITÉ" DU MODÈLE LE COEFFICIENT DE CORRÉLATION MULTIPLEIII

S.C. totale S.C. résiduelle S.C. expliquée= +

15

( )y y y yi− −∑2 2 = =

W ⊥

y

yy

y

=

⎛

⎝

⎜⎜⎜⎜

⎞

⎠

⎟⎟⎟⎟

Wy y

~

y

théorème de Pythagore

cqfd.

S. C. résiduelle

( )[ ] = y y−2

⇒ − − + − = y y y y y y2 2

= − − + y y y y2 2

( ) = = y y y y ei i i− − ∑∑2 2 2

~ ~

~ ~ ~ ~ ~~

~ ~ ~ ~

~ ~

~ ~

W

Or :

S.C. totale norme du vecteur

S.C. expliquée

16

2 Coefficient de détermination R2 et de corrélation multiple R

( )

( )R

y y

y y

ii

n

ii

n2

2

1

2

1

= = coefficient de détermination

−

−

=

=

∑

∑

La formule (*) nous suggère de mesurer la qualité de la régression multiple par

le rapport :

La racine carrée R de R2 est le coefficient de corrélation multiple entre la

variable à expliquer Y et les variables explicatives X1, ... Xk.

17

Propriétés

= 1 - S. C. résiduelleS. C. totale

R2 proche de 1 signifie :

Y est "bien expliquée" par les variables X1 ... Xk

R 2 = S. C. expliquéeS. C. totale

0 12R≤ ≤

18

permet de comparer des modèles où le nombre de variables explicative diffère. Il tient compte du nombre de degrés de liberté du modèle.

Plus ajusté est élevé, plus est faible

ajusté (utilisé en régression multiple)

( ) ( )R a2 = R - k

n - k - 1 1 - R2 2

k = nombre de variables explicatives

Ra2

R 2

σ 2R 2

Remarque: ajustéR 2

19

1 Présentation générale

Hypothèses nécessaires

Test Général

Les v.a. i=1 ... n suivent une loi normale de moyenne 0

d'écart-type

Étudier la nullité des k - r derniers coefficients de régression

H ... r k0 1 0 : β β+ = = =

H k 1 : 0 r + 1 j jβ ≠ ≤ ≤

Ce test permet d'étudier l'apport d'une ou d'un groupe de variables Xj sur Y.

σ

LES TESTS USUELS DE LA RÉGRESSION MULTIPLEIV

ε i

au moins 1 de ces

20

Le test revient à comparer les modèles :

⎧⎨⎪

⎩⎪ H X X X Xr r r r k k1 0 1 1 1 1 Y : = + + + + + + ++ +β β β β β ε… …

H X Xr r0 0 1 1 Y : = + + + +β β β ε…

Le modèle associé à l’hypothèse H0 est un modèle restreint

Le modèle associé à l’hypothèse H1 est le modèle complet

21

( ) ( )S C X . . . X = H1 k 1

Pour choisir entre H0 et H1, on utilise la statistique :

Avec :

( ) ( )S C X . . . X = H1 r 0

e i2 = ∑

( )[ ] H 1

Sous H0, la statistique F est 1 réalisation d'une v.a. suivant une loi de

Fischer-Snedecor à (k-r) et (n-k-1) degrés de liberté.

modèle complet

modèle restreint

modèle complet

somme des carrés résiduels estimée avec toutes les variables

somme des carrés expliquée par le modèle

somme des carrés expliquée par le modèle

( ) ( )[ ]F SC X X SC X X k r

e n kk r

i

=− −

− −∑ 1 1

2 1, , /

/… …

22

Tableau d’analyse de la variance

Source devariation

d.d.l. S. carrés Carrémoyen

Fobs

r

k

k r-

résidus(modèle complet)

H1

n k- - 1

On divise

par

le nombre

de d.d.l

( ) ( )SC X X SC X X

k r

en k

k r

i

1 1

2

1

. . . . . .−

−

− −

Σ

→ X1...Xr

→ Xr+1...Xr

→ X1...Xk

( ) ( )SC X X SC X Xk r1 1… …−

( )SC X Xk1…

ei2∑

( )SC X X r1…

23

En notant :

on peut lire dans une table c tel que :

( )( )P F k r n k− − − > =, 1 c α

( ) H H 0 0

Les logiciels statistiques fournissent directement la probabilité

permettant de tester les hypothèses

H0 et H1.

( )( )P F k r n k obs− − − >, 1 F

α risque de première espèce

prob rejeter alors que est vraie=

=

24

2 Le test global

Influence de l’ensemble des variables Xj sur Y.

H : " ... " k0 1 0β β= = =

( ) ( )FSC X k

e n kk n kobs

k

i

= . . . X

= 1

2 11

/

/,

∑ − −− −réalisation d’une v.a. suivant une loi F

au moins un des1 iH : 0

β ≠

⎧⎨⎪

⎩⎪

25

Tableau d’analyse de variance

Source devariation

Degrés deliberté

Somme descarrés

Carrésmoyens Fobs ( )Pr F > Fobs

expliquée

erreur

total

k

n k− − 1

n − 1

( )y yi −∑ 2

( )y yi i−∑ 2

( )y yi −∑ 2

( )y yki −∑ 2

( )y yn k

i i−− −

∑ 2

1

( )

( )

y yk

y yn k

i

i i

−

−− −

∑

∑

2

2

1

Proba

Fobs

σ 2

( )( )

Ry

y2 i

i

y

y=

−

−∑∑

2

2

estimation de notée s2 ou σ 2

26

3 Les tests partiels

On teste l’influence de chaque variable explicative Xj

j fixé H : H :

j

j

0

1

00

ββ

=≠

⎧⎨⎩

( ) ( )F SC X SC X X

n k

K j j k= . . . X . . . X X

e i2

1 1 1 1

1

−

− −

− +

∑

, , . . .

/

F est une réalisation d’une variable aléatoire suivant une loi

de Fisher-Snedecor à 1 et n-k-1 degrés de liberté.

27

4 Autre approche concernant le test d’un coefficient de régression

Sous l’hypothèse

on démontre que la quantité :

H j0 0 : " β = "

estimation du coefficient

estimation de l’écart-typede l’estimateur du coefficient

est une réalisation d’une loi de Student à n-k-1 degrés de liberté

( )t

s j

j

=β

β

28

.On peut donc mettre en oeuvre un test statistique (équivalent au test de

Fisher-partiel).

On peut aussi construire un intervalle de confiance autour du coefficient

estimé.

..( )Loi de Student à n k− − 1 d. d. l.

( )Niveau de confiance 1 − α

( ) ( )Prob β β β β β αα αj j j j jt s < < t s = − +⎡

⎣⎢

⎤

⎦⎥ −

2 2

1

α2

α2

− tα2

tα2

1 − α

29

5 Remarques

Il peut arriver que le test global de Fisher mette en évidence que le modèle

construit a un intérêt du point de vue explicatif, alors que tous les tests de

Student relatifs aux coefficients associés aux variables explicatives

conduisent à ne pas rejeter l’hypothèse de nullité des coefficients.

Il n’y a pas de contradiction entre ces deux résultats. Néanmoins, cela

peut rendre difficile la sélection des variables.

Les méthodes pas à pas permettent de remédier à ce type de problème.

30

1 Recherche exhaustive

Objectifs Économiser le nombre de variables explicatives, simplifier le modèle, éliminer les variables redondantes.

Si k pas trop grand, on peut étudier tous les modèles possibles.

C

C k1

k2

C kk

2 1k −.Si nombre de variables fixé, on choisit le modèle qui a le R2

maximum.. Sinon, on choisit le modèle fournissant le minimum (R2 ajusté max). σ 2 ⇔

LA SÉLECTION DES VARIABLESV

.

modèles à 1 variable explicative

modèles à 2 variables explicatives

modèles à k variables explicatives

31

Principe élimination successive ou ajout successif de variables

2 Les méthodes pas à pas (STEPWISE)

Méthode ascendante (stepwise option FORWARD)

Étape 1 On choisit le meilleur modèle à une variable (R2 le plus élevé).

Étape 2 On ajoute la variable faisant augmenter à son tour le plus le R2.

.

. . . On continue jusqu’à un éventuel test d’arrêt.

.

32

On élimine des variables tant que cela est possible en

fonction du test d’arrêt.

Méthode descendante (stepwise option BACKWARD)

Étape 0 Toutes les variables sont dans le modèle.

Étape 1 On élimine la variable faisant le moins diminuer le R2.

.

. . .

.(celle qui a le t de Student ou le fisher partiel le moins

significatif).

(Fisher Student)⇔

33

Méthode stepwise (méthode ascendante-descendante)

Perfectionnement de l’algorithme ascendant qui consiste à effectuer à

chaque pas des tests de signification du type Student ou F pour ne

pas introduire une variable non significative et pour éliminer

éventuellement les variables déjà introduites qui ne seraient plus

informatives compte tenu de la dernière variable sélectionnée.

Arrêt : quand on ne peut plus ajouter ou retrancher de variables.

34

Remarque

Dans l’étude des meilleurs modèles, on peut également utiliser le

coefficient de Mallows :

( )CSCR

sn pp

p= − −2 2

avec : SCR p =

s2 =

Somme des carrés résiduelle dans le modèle à pparamètres (p - 1 variables + constante)

Estimation de pour le modèle à k + 1 paramètres

(modèle avec toutes les variables)

σ 2

35

Selon Mallows, un modèle satisfaisant est tel que Cp est proche de p

(avec p le plus faible possible).

Pour un tel modèle, les estimations des paramètres sont non biaisées.

Remarque

Plus Cp élevé, plus il y a d’incertitude sur les estimations.

36

1 Source principale d’instabilité dansl’estimation de = multicolinéarité

LA STABILITÉ DES COEFFICIENTS DE RÉGRESSIONVI

( ) ( )V B X X= ′−1 2σ

si les prédicteurs sont très corrélés entre eux

′X X mal conditionnée (déterminant proche de 0)

l’inverse aura des termes élevés.

37

En supposant les données centrées réduites et que l’on effectue donc une

régression sans constante :

( )′X X = n Rkxk

R = matrice de corrélations entre prédicteurs

( )V B Rn

=−

σ 21

( ) ( )V Bn

Rj jj= −σ 2

1

38

11 2− R j

où carré du coefficient de corrélation multiple de et desR j2 = Xj

( )k − 1

11 2− R j

=

1 2− R j =

facteur d’inflation de la variance

tolérance

(VIF)

(TOL)

Or, jème terme diagonal de n’est autre que :( )Rjj

−1 R −1

autres variables explicatives.

Plus cette valeur VIF est élevée, plus la variable est impliquée dans des problèmes de colinéarité. Sa présence augmente les variances desestimateurs des coefficients.

Une variable est mieux tolérée dans le modèle si sa tolérance est proche de 1.

39

CONDITION NUMBER est la racine carrée du rapport entre la plus grande

valeur et une valeur . Ces rapports devraient être égaux à 1 si les sont

indépendantes.

2-a

SAS fournit des indications concernant la multi-colinéarité. Comme en A.C.P.,

on calcule les valeurs propres de la matrice normée. On les édite de la

plus grande à la plus petite (de à ou si on conserve la constante).

Une valeur propre nulle indique une dépendance linéaire, donc une colinéarité

parfaite.

Étudier la matrice des corrélations des estimateurs des coefficients.

2-b

2 Autres diagnostics

′X X

λ 1 λ u Xj

λ 1 λ kλ k+1

40

RÈGLE Une valeur grande met en évidence un problème

valeur 30 avec l’option COLLINOINT

100 avec l’option COLLIN

De plus, SAS fournit des «variance proportions» qui indiquent quelles

variables sont responsables de la colinéarité. (Problème si plusieurs

variables ont des « variance proportions » > 0,50 pour un «CONDITION

NUMBER» élevé).

41

3 Remèdes en cas de multi-colinéarité

Augmenter la taille n de l’échantillon

Sélectionner les régresseurs, si k trop grand par rapport à n

Faire une Ridge-régression transformer en

Travailler sur les composantes principales issues des régresseurs

Régression PLS

( ) ′ ′ +X X X X Iλ

42

1 Levier : hi hat Diag H

ÉTUDE DES RÉSIDUSDÉTECTION DES OBSERVATIONS INFLUENTESVII

( )[ ]( )

h X X X X

X X X X

i1

ii1

= ′ ′

= ′ ′

−

−

k étant le nombre de prédicteurs :

h kii

n= +

=∑ 1

1

⇒ = + h kn

1

Hoaglin et Welsh (1978) recommandent de «s’intéresser» aux observations t.q :

( )hkni >+2 1

ième terme diagonal du projecteur

43

2 Les résidus

Écart-type du résidu Standard Error Residual

e y yi i i= −

Les graphes des résidus en fonction des variables explicatives ne

doivent laisser apparaître aucune tendance.

Résidu standardisé : ei

σ

Détecter les individus pour lesquelsei

σ > 2

Estimation de la variance du résidu :

.

.( ) ( )V y y hi i i− = −σ 2 1

σ 1 − hi

Résidual

44

Résidu standardisé :.interne

y yh

i i

i

−−σ 1

externe( )

y yh

i i

i i

−−−σ 1

Student Residual

R Student

( )σ − =i estimation de l’écart-type des résidus sans que l’individu

i ne participe à la régression

S’intéresser aux individus pour lesquels :

> 2Résidu studentisé

45

Résidu prédit :. PRESIDi

( ) ( )y y yi i i− − − est la prévision obtenue avec l’échantillon de (n - 1)

observations excluant la ième.

On vérifie que résidu prédit :

y yh

i i

i

−−1

prudence si hi grand.

Mesure du pouvoir prédictif du modèle :

( )( )

=−

−=∑

y yh

i i

ii

n 2

21 1

Utile dans le choix d’un modèle destiné à la prévision.

PRESS

où

46

3 Autres mesures d’influence

DFITS :

( )

( )

y yh

i i

i i

− −

−σ

COVRATIO :

( ) ( )( )

σ

σ

− −

−

−

′

′

i iX X

X X

2 1

2 1

Si COVRATIO < 1, la suppression de l’individu i dans l’analyse améliore la

précision des résultats.

( )> + 3 1k n/Belsey, Kuh, Welsh suggèrent d’étudier les écarts à l’unité .

47

Distance de Cook : COOKD

Elle étudie l’influence d’une observation sur les estimations des

coefficients de régression (comparable à DFITS). Une distance Di

supérieure à 1 indique en général une influence anormale (Cook-

Weisberg, 1982).

β j

( )( )( )

Dh y y

kii i i

=−

+−

2

21 σ

( ) ( )D h e

ki

i i=+

2

2 21 1 - hiσ

48

Sa définition en termes de coefficients s’écrit :

( )( ) ( ) ( )( )( )

DX X

ii i

=−

′′ −− −β β β β

σ

k + 1 2

où est l’estimation de obtenue sans la ième observation.( )β − i β

Remarque

49

DFBETAS

Influence de chaque point i sur chaque coefficient

Individu i sur variable j

( )

( ) ( )DFBETAS

X Xj

j j

ijj

i

=−

′

−

−

β β

σ

Belsey, Kuh and Welsh recommandent de détecter les valeurs dépassant 2.

β j

50

P R É V I S I O NVIII

On souhaite prévoir la variable pour un individu pour lequel

on ne connaît que les valeurs prises par les variables explicatives

X k1 2, . . . X X

Y

.

51

1 Prévision ponctuelle

Notons les valeurs prises par ce nouvel individu

pour les variables explicatives

x k01 02 0 x . . . x

. . .y x x xk k0 0 1 01 2 02 0= + + + + β β β β

52

2 Prévision par intervalles

Deux problèmes peuvent être résolus :

Déterminer un intervalle de confiance autour du point moyen y0

Déterminer un intervalle de confiance pour Y y0 0 0= + ε intervalle de prévision

A l’incertitude sur les valeurs des coefficients s’ajoute l’incertitude

que prend pour une observation particulière.

β β β0 1, . . . k

ε

53

Les hypothèses du modèle linéaire permettent de montrer que y x0 0= β

( )( )′ ′ ′−x ; x X X x0 0

10 β σ

Puisque doit être estimé, on en déduit les résultats suivants (par

studentisation).

σ

~ ~ ~

est une réalisation d’une variable aléatoire suivant une loi normale :~

N

54

Intervalle de confiance pour un point moyen

Niveau 1 − α

α2

α2

− tα2

tα2

1 − α

Student àn-k-1 d.d.l.

( ) ( ),y t x X X x y t x X X x02

01

0 02

01

0− ′ ′ + ′ ′− −⎡

⎣⎢

⎤

⎦⎥α ασ σ

~~ ~ ~

55

Intervalle de prévision

Niveau 1 − α

( ) ( ),y t x X X x y t x X X x02

01

0 02

01

01 1− + ′ ′ + + ′ ′− −⎡

⎣⎢

⎤

⎦⎥α ασ σ

Remarque La quantité est appelée «levier».( )′ ′−x X X x0

10

~~~ ~

~~

56

VARIABLES EXPLICATIVES QUALITATIVESIX

On remplace chaque variable qualitative par le tableau de ses indicatrices.

Quand on résout l’équation :

une difficulté surgit puisque les colonnes de X ne sont pas

indépendantes ;

les coefficients ne sont pas uniques.

′ = ′X X X yβ

β j

PRINCIPE

57

RÈGLE

Pour chaque variable qualitative, on va imposer une contrainte sur les

coefficients des modalités. L’approche la plus classique consiste à

imposer un coefficient nul à l’une des modalités.

Ceci revient à supprimer une colonne dans chaque tableau

d’indicatrices, ce qui rend la matrice X de plein rang.

Le résultat est indépendant de la «colonne» supprimée.

58

EXEMPLE

1 équipement de base

2 équipement bon

3 équipement très bon

4 équipement sport

Expliquer le prix d’une voiture en fonction de la puissance (variable

quantitative) et du niveau d’équipement :

Sur le tableau d’indicatrices, on supprime la colonne 4 sport :

1 2 30 1Y puiss 15000X 12000X 3000X= β +β − − −

On supprime base

( )Y X X X= − + + + +β β0 12 3 415000 3000 12000 15000 puiss

X1

X1

X2

X3

X4

59

A N N E X E

CALCUL MATRICIEL

COMPLÉMENTS CONCERNANT LES TESTS

60

L E M O D E L EI

1 Y X Xk k= + + + +β β β ε0 1 1 . . .

Nous observons les variables sur n individus.

Notons les valeurs prises par celles-ci

pour l’individu i.

1 Signification du modèle

yi i i ik, , x x x1 2 …

Y k, X X1 …

61

2 Y x xi i k ik= + + + +β β β ε0 1 1 . . . i

où

est une variable aléatoire de moyenne 0

d’écart-type σ

Les v.a. sont supposées non corrélées entre elles.ε ε1 . . . n

Nous considérons que yi est la réalisation d’une variable aléatoire Yi définie par :

ε i

62

Y

Y

Y

Y

i

n

=

⎡

⎣

⎢⎢⎢⎢⎢⎢

⎤

⎦

⎥⎥⎥⎥⎥⎥

1

β

β

β

β

=

⎡

⎣

⎢⎢⎢⎢⎢⎢

⎤

⎦

⎥⎥⎥⎥⎥⎥

1

i

k

( )X

n k

x

x

x

x

x

x

i

n

k

i

nk

, +=

⎡

⎣

⎢⎢⎢⎢⎢⎢

⎤

⎦

⎥⎥⎥⎥⎥⎥

1

1

1

1

11

1

1

1

1

…

…

…

ε

ε

ε

ε

=

⎡

⎣

⎢⎢⎢⎢⎢⎢

⎤

⎦

⎥⎥⎥⎥⎥⎥

1

i

n

2 Notations matricielles

~

~ ~

63

Les équations pour , s’écrivent matriciellement :2 i = 1 n. . .

3 Y X = +β ε

Les hypothèses faites sur les termes aléatoires s’écrivent :ε ε1 . . . n

4 ( )E ε = 0

5 ( )E ε ε σ′ = I2

Enfin, rang (X) supposé = +k 1

~ ~~

~ ~

~~

64

β β β0 1, . . . k

ESTIMATION DES PARAMÈTRES DU MODÈLEII

Nous recherchons les estimations des paramètres

permettant de reconstituer au mieux les données à partir des

observations .

, . . .β β β0 1 k

1 Estimation des paramètres

yi

β β β0 1, … k

65

Nous recherchons minimisant, . . .β β β0 1 k

6 ( )y x xi ik k iki

n− − −

=∑ β β β0 1

2

1

. . .

Avec ety =

⎡

⎣

⎢⎢⎢⎢⎢⎢

⎤

⎦

⎥⎥⎥⎥⎥⎥

y

y

y

1

i

n

β

β

β

β

=

⎡

⎣

⎢⎢⎢⎢⎢⎢

⎤

⎦

⎥⎥⎥⎥⎥⎥

0

i

k

~ ~

66

6 7 y − =Xβ2

L’ensemble des vecteurs lorsque varie, est le sous-

espace vectoriel de Rn engendré par les

Xβ β

~ ~où norme usuelle

x x xk0 1, …W colonnes de X

notées .

y y−

y X= β

y

W

x0

x1

xk

67

Le minimum de est obtenu en prenant la projection orthogonale7

y X= β

( )y y− ∈ ⊥ W

8

Ainsi :

( )y X j−′

= = , . . .β x j k0 0 1

( )y X X−′

=β 0

soit matriciellement :

9 en transposant :

′ = ′X X X yβ10

Le rang de étant égal au rang de est de rang ,

donc inversible :

′X X X X X, ′ k + 1

du vecteur Y sur le sous-espace vectoriel W.

68

vecteur des « »

estimation des moindres carrés de

11 ( )β = ′ ′−X X X y1

β β=

= =

==

y Xβ Yi

e y y− vecteur des erreurs

⎧

⎨⎪

⎩⎪

69

B de β

Le vecteur est une réalisation du vecteur aléatoire :

( )B X X X Y= ′ ′−1appelé estimateur des moindres carrés de β

( )β = ′ ′−X X X y1

2 Estimateur des moindres carrés

70

( )E B = β

est un estimateur sans biais de

Moyenne de

β

B

B

12

Démonstration : 3

( ) ( ) ( )B X X X Y X X X X= ′ ′ = ′ ′ +− −1 1 β ε

( )B X X X= + ′ ′−β ε1

L’espérance du vecteur étant nulle par hypothèse, on a doncε

( )E B = β

13

Propriétés de cet estimateur

71

( ) ( )V B X X= ′ −σ 2 1

Variance de B

La variance d’un vecteur aléatoire est définie comme la matrice des

covariances entre les différentes coordonnées.

12

( ) ( ) ( )V B E B B= − −′⎡

⎣⎢⎤

⎦⎥β β

( )B X X X− = ′ ′−β ε1Or

et donc :

( ) ( ) ( )[ ]V B E X X X X X X= ′ ′ ′− −′1 1εε

De plus ( )E εε σ′ = I2

14

D’après :

72

σ 2

Le vecteur e des erreurs observées est une réalisation du vecteur aléatoire :

E Y XB= −

En exprimant en fonction du vecteur aléatoire , il vient : Y B ε

15 ( ) ( ) ( )E Mn n n n, , ,1 1

= ε

où :

( )M I X X X X= − ′ ′−1

M est idempotente ′ =M M M

D’où :

3 Estimateur sans biais

M I H= −

et

avec H projecteur sur W, I H− projecteur sur W⊥

73

16 ′ = ′E E Mε ε

Notant mij le terme général de la matrice M, nous avons :

( ) ( )Esp mijj

n

i

n

i j′ ===∑∑E E Esp

11

ε ε

D’après 5 ( )Esp i j i jε ε σ= =2 pour

= 0 pour i j≠

74

Nous en concluons :

18 ( ) ( )Esp E E M′ = σ 2 Trace

L’opérateur «Trace» vérifiant les relations :

( ) ( ) ( )Trace A + B A B= +Trace Trace

( ) ( )Trace AB BA= Trace

19 ( )Trace M n k= − − 1

( )Trace M ( )[ ]= ′ ′−Trace XI - X X X 1

( )[ ]= − ′ ′ −Trace I X X X XTrace 1

( )= − +n k 1

En effet :

75

Par conséquent :

Σ 2

1 = ′

− −E E

n kest un estimateur sans biais de σ 2

et :

σ 2

1 = ′

− −e e

n kest l’estimation de σ 2

c’est-à-dire :

σ 2

2

1

1=

− −=∑ e

n k

ii

n

76

COMPLÉMENTS CONCERNANT LES FORMULES DE DÉCOMPOSITIONIII

Théorème de Cochran

Soit Q1, Q2, ... Qk, k formes quadratiques sur Y telles que :

Q Y Y Yjj

k

i=∑ ∑= ′ =

1

2 ,

χ 2

( ) rang Q pjj

k

=∑ =

1

Chaque Qj est une variable

Les Qj sont indépendantes

c’est-à-dire réalisant une décomposition du carré de norme de Y.

Alors, les trois conditions suivantes sont équivalentes :

77

22i 2

n2 2 suit = χσ σ

∑ε ε

Conséquences

W

ε

Xβ Y

Y

Y XB=

ε β2 2 2= − + −Y XB XB X

Or, est un vecteur gaussien où les suivent indépendamment des lois ( )0,σε i ε

donc :

78

Or, ( )Y XB I HXB X H− = −− =

⎧⎨⎩

εεβ

où H ( )X X X X′ ′−1

I H− =

On a donc :

( )ε ε ε ε ε2 = + −′ ′H I H

Le théorème de Cochran indique alors que :

Y XB−2

2σ

X XBβ

σ

−2

2

χ n p− −12

χp+12

projecteur sur W

projecteur sur W⊥

=

79

ÉLÉMENTS DE DÉMONSTRATIONIV(concernant le test de Fisher Snedecor)

" ... " kβ β β1 2 0= = = =

alors : est une réalisation d’un ( )12 1

2

1σ y y

i

n−

=∑ χn−1

2

(comme variance d’un échantillon aléatoire de variables normales de

mêmes lois)

( )∀β

−∑ : y yi i

2

2σest une réalisation d’un χ n k− −1

2

= SCRσ 2

Si

80

" ... " ( kβ β β β1 2 00= = = = )

( ) ( )SC X y yk i1 X =

2 2

. . .σ σ

−∑

" ... " ( rβ β β β1 2 00= = = = )

( )SC X r1 X 2

. . .σ

( )H k0 0 : r +1 0β β β= = =. . . "

( ) ( )SC X SC X

X Xk r1 12

. . . . . .−σ

Même raisonnement avec un modèle à r variables

quelconque

Si

est une réalisation d’un χk2

Si

quelconque

est une réalisation d’un χ r2

Sous quelconque

est une réalisation d’un χk r−2

81

LES DIFFÉRENTES SOMMES DECARRÉS DANS UN MODÈLE LINÉAIREV

Type I S.S.

Soit un modèle : Y X ... X k k= + + +β β β0 1 1

X1

X2

X3

( )SCE X1

( ) ( )SCE SCE X X X1 2 1, −

( ) ( )SCE SCE X X X X X1 2 3 1 2, , ,−

Les sommes de carrés de type 1 tiennent compte de l’ordre dans lequel

sont citées les variables (ou effets).

( )SCE XX X Xi j i j, . . . , . . .= somme des carrés expliquée par les variablesoù

82

Type II S.S.

X1

X2

X3

( ) ( )1 2 3 2 3SCE X , X , X SCE X , X−

( ) ( )SCE SCE X X X X X1 2 3 1 3, , ,−

( ) ( )SCE SCE X X X X X1 2 3 1 2, , ,−

Quand on utilise les sommes de carrés de type II, on mesure pour

chaque variable (ou effet) de combien diminuerait la somme des

carrés expliquées si on la supprimait du modèle, les autres variables

restant présentes.

L’ordre dans lequel sont citées les variables est sans importance.

83

Type III S.S.

«Il s’agit de l’équivalent en analyse de variance du type II S.S. en

régression multiple». Les variables explicatives sont qualitatives.

RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple...

Documents

Transcript of RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple...