RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple...

83
Pierre-Louis GONZALEZ RÉGRESSION MULTIPLE

Transcript of RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple...

Page 1: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

1Pierre-Louis GONZALEZ

RÉGRESSIONMULTIPLE

Page 2: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

2

Vocabulaire

Modèle

Étudier la liaison entre une "variable à expliquer" quantitative

Y et une suite de "variables explicatives" quantitatives X1 ... Xk

.

Y

Variable à expliquerVariable dépendanteVariable endogène

Variables explicativesVariables indépendantesVariables exogènes

I INTRODUCTION

ε

Y X Xk k= + + + +β β β ε0 1 1 …= paramètres fixes (mais inconnus)β j

= 0terme aléatoire : de moyenned' écart - type σ

X1 X2 ... Xk

Page 3: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

3

Régression multiple

Expliquer en fonction de

Prix d'un appartement

superficiestandingquartiersécuritéproximité de commerce

Prix d'une voiture

cylindréetaillevitesse maximumorigineniveau de finition

budget de rechercheinvestissementspublicitéremises aux grossistesprix de vente

Prévoir des ventes

EXEMPLES

Page 4: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

4

2 Évaluer la précision de ces estimations.

3 Mesurer le pouvoir explicatif du modèle.

4 Répondre aux questions :

LES OBJECTIFS

A l'aide d'observations des variables Y, X1 ... Xk, nous allons chercher à

résoudre les problèmes suivants :

La liaison globale entre Y et les Xi est-elle significative ?

L'apport marginal de chaque variable Xi est-il significatif ?

Sélection de variables

β β β σ0 1, . . . . k1 Estimer les paramètres du modèle

6 Évaluer la qualité du modèle en prévision

et

5 Analyser les écarts entre les données et le modèle construit à partir

de celles-ci. Mesures d'influence.

Page 5: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

5

Y x xi i k ik= + + + +β β β ε0 1 1 . . . i

est une variable aléatoire de moyenne 0

d’écart-type σ

Les v.a. sont supposées être distribuées selon des lois normales.

Elles sont supposées non corrélées entre elles.

ε ε1 . . . n

Nous considérons que yi est la réalisation d’une variable aléatoire Yi définie par :

ε i

II Estimation des paramètres du modèle

1 Le modèle

Page 6: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

6

Nous recherchons les estimations :

permettant de reconstituer au mieux les données yi à partir des observations des k variables pour l'individu i.

Critère des moindres carrés

II ESTIMATION DES PARAMÈTRES DU MODÈLE

( )y . . . -ii =1

n− − −∑ β β β0 1 1

2x xi k ik

β β β0 1 . . . k

β β β0 1 … k

β β β0 1 … k

des paramètres

X Xk1…

β β β0 1 … kDéterminer minimisant

2 Estimation des paramètres

Page 7: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

7

La résolution du problème passe par la résolution d'un système de

équations à inconnues.

Elle peut se présenter sous forme matricielle.

( )k + 1

( )k + 1

Éléments de solution

Page 8: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

8

Y

Y

Y

Y

i

n

=

⎢⎢⎢⎢⎢⎢

⎥⎥⎥⎥⎥⎥

1

β

β

β

β

=

⎢⎢⎢⎢⎢⎢

⎥⎥⎥⎥⎥⎥

1

i

k

( )X

n k

x

x

x

x

x

x

i

n

k

i

nk

, +=

⎢⎢⎢⎢⎢⎢

⎥⎥⎥⎥⎥⎥

1

1

1

1

11

1

1

1

1

ε

ε

ε

ε

=

⎢⎢⎢⎢⎢⎢

⎥⎥⎥⎥⎥⎥

1

i

n

~

~ ~

En utilisant les notations matricielles ci-dessous:

Page 9: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

9

L’ensemble des équations associées à chacune des observations, pour , s’écrit matriciellement :

2 i = 1 n. . .

3 Y X = +β ε

Les hypothèses faites sur les termes aléatoires s’écrivent :ε ε1 . . . n

( )E ε = 0

( )E ε ε σ′ = I2

Enfin, rang (X) supposé = +k 1

~ ~~

~ ~

~~

Pour que les calculs soient possibles, il faut éviter qu'une (ou plusieurs) des

variables explicatives soit une combinaison linéaire exacte des autres variables

explicatives.

Page 10: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

10

vecteur des « »

estimation des moindres carrés de

( )β = ′ ′−X X X y1

β β=

= =

==

y Xβ Yi

e y y− vecteur des erreurs

La solution

Remarque: Cette expression est importante: elle montre qu’il est nécessaire d’inverser la matrice X’X. Les problèmes pratiques rencontrés en régression ( par exemple la multicolinéarité ) sont liés à cette inversion.

Page 11: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

11

Plus est faible, meilleur est le modèle.

avec e y yi ii = −

σ 2 211= − − ∑n k e i

σ 2

On peut estimer la variance notée des termes .σ 2 ε i

3. La précision des résultats

Page 12: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

12

Étant donné que les estimations sont obtenues à partir d'échantillons, on

peut s'interroger sur la précision avec laquelle sont déterminées les

coefficients.

On montre que cette précision est liée à celle de . Plus est faible,

plus les coefficients ont des chances d'être estimés précisément.

σ 2 σ 2

A chaque estimation d’un coefficient, est associé un écart-type estimé à partir

des données traitées (en général noté erreur-type). On peut comparer ces

erreurs-types aux coefficients estimés.

Page 13: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

13

( ) ( )V B X X= ′ −σ 2 1

Variance de B

La variance d’un vecteur aléatoire est définie comme la matrice des

covariances entre les différentes coordonnées.

Remarque:

Les variances, les covariances et donc les corrélations des estimateurs des coefficients, dépendent également de l’inverse de la matrice X’X

Page 14: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

14

1 Décomposition de la somme des carrés

( ) ( ) ( ) y iy y y y yii

n

i ii

n

i

n− = − + −

= = =∑ ∑ ∑2

1

2

1

2

1

(*)

MESURE DE LA "QUALITÉ" DU MODÈLE LE COEFFICIENT DE CORRÉLATION MULTIPLEIII

S.C. totale S.C. résiduelle S.C. expliquée= +

Page 15: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

15

( )y y y yi− −∑2 2 = =

W ⊥

y

yy

y

=

⎜⎜⎜⎜

⎟⎟⎟⎟

Wy y

~

y

théorème de Pythagore

cqfd.

S. C. résiduelle

( )[ ] = y y−2

⇒ − − + − = y y y y y y2 2

= − − + y y y y2 2

( ) = = y y y y ei i i− − ∑∑2 2 2

~ ~

~ ~ ~ ~ ~~

~ ~ ~ ~

~ ~

~ ~

W

Or :

S.C. totale norme du vecteur

S.C. expliquée

Page 16: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

16

2 Coefficient de détermination R2 et de corrélation multiple R

( )

( )R

y y

y y

ii

n

ii

n2

2

1

2

1

= = coefficient de détermination

=

=

La formule (*) nous suggère de mesurer la qualité de la régression multiple par

le rapport :

La racine carrée R de R2 est le coefficient de corrélation multiple entre la

variable à expliquer Y et les variables explicatives X1, ... Xk.

Page 17: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

17

Propriétés

= 1 - S. C. résiduelleS. C. totale

R2 proche de 1 signifie :

Y est "bien expliquée" par les variables X1 ... Xk

R 2 = S. C. expliquéeS. C. totale

0 12R≤ ≤

Page 18: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

18

permet de comparer des modèles où le nombre de variables explicative diffère. Il tient compte du nombre de degrés de liberté du modèle.

Plus ajusté est élevé, plus est faible

ajusté (utilisé en régression multiple)

( ) ( )R a2 = R - k

n - k - 1 1 - R2 2

k = nombre de variables explicatives

Ra2

R 2

σ 2R 2

Remarque: ajustéR 2

Page 19: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

19

1 Présentation générale

Hypothèses nécessaires

Test Général

Les v.a. i=1 ... n suivent une loi normale de moyenne 0

d'écart-type

Étudier la nullité des k - r derniers coefficients de régression

H ... r k0 1 0 : β β+ = = =

H k 1 : 0 r + 1 j jβ ≠ ≤ ≤

Ce test permet d'étudier l'apport d'une ou d'un groupe de variables Xj sur Y.

σ

LES TESTS USUELS DE LA RÉGRESSION MULTIPLEIV

ε i

au moins 1 de ces

Page 20: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

20

Le test revient à comparer les modèles :

⎧⎨⎪

⎩⎪ H X X X Xr r r r k k1 0 1 1 1 1 Y : = + + + + + + ++ +β β β β β ε… …

H X Xr r0 0 1 1 Y : = + + + +β β β ε…

Le modèle associé à l’hypothèse H0 est un modèle restreint

Le modèle associé à l’hypothèse H1 est le modèle complet

Page 21: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

21

( ) ( )S C X . . . X = H1 k 1

Pour choisir entre H0 et H1, on utilise la statistique :

Avec :

( ) ( )S C X . . . X = H1 r 0

e i2 = ∑

( )[ ] H 1

Sous H0, la statistique F est 1 réalisation d'une v.a. suivant une loi de

Fischer-Snedecor à (k-r) et (n-k-1) degrés de liberté.

modèle complet

modèle restreint

modèle complet

somme des carrés résiduels estimée avec toutes les variables

somme des carrés expliquée par le modèle

somme des carrés expliquée par le modèle

( ) ( )[ ]F SC X X SC X X k r

e n kk r

i

=− −

− −∑ 1 1

2 1, , /

/… …

Page 22: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

22

Tableau d’analyse de la variance

Source devariation

d.d.l. S. carrés Carrémoyen

Fobs

r

k

k r-

résidus(modèle complet)

H1

n k- - 1

On divise

par

le nombre

de d.d.l

( ) ( )SC X X SC X X

k r

en k

k r

i

1 1

2

1

. . . . . .−

− −

Σ

→ X1...Xr

→ Xr+1...Xr

→ X1...Xk

( ) ( )SC X X SC X Xk r1 1… …−

( )SC X Xk1…

ei2∑

( )SC X X r1…

Page 23: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

23

En notant :

on peut lire dans une table c tel que :

( )( )P F k r n k− − − > =, 1 c α

( ) H H 0 0

Les logiciels statistiques fournissent directement la probabilité

permettant de tester les hypothèses

H0 et H1.

( )( )P F k r n k obs− − − >, 1 F

α risque de première espèce

prob rejeter alors que est vraie=

=

Page 24: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

24

2 Le test global

Influence de l’ensemble des variables Xj sur Y.

H : " ... " k0 1 0β β= = =

( ) ( )FSC X k

e n kk n kobs

k

i

= . . . X

= 1

2 11

/

/,

∑ − −− −réalisation d’une v.a. suivant une loi F

au moins un des1 iH : 0

β ≠

⎧⎨⎪

⎩⎪

Page 25: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

25

Tableau d’analyse de variance

Source devariation

Degrés deliberté

Somme descarrés

Carrésmoyens Fobs ( )Pr F > Fobs

expliquée

erreur

total

k

n k− − 1

n − 1

( )y yi −∑ 2

( )y yi i−∑ 2

( )y yi −∑ 2

( )y yki −∑ 2

( )y yn k

i i−− −

∑ 2

1

( )

( )

y yk

y yn k

i

i i

−− −

2

2

1

Proba

Fobs

σ 2

( )( )

Ry

y2 i

i

y

y=

−∑∑

2

2

estimation de notée s2 ou σ 2

Page 26: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

26

3 Les tests partiels

On teste l’influence de chaque variable explicative Xj

j fixé H : H :

j

j

0

1

00

ββ

=≠

⎧⎨⎩

( ) ( )F SC X SC X X

n k

K j j k= . . . X . . . X X

e i2

1 1 1 1

1

− −

− +

, , . . .

/

F est une réalisation d’une variable aléatoire suivant une loi

de Fisher-Snedecor à 1 et n-k-1 degrés de liberté.

Page 27: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

27

4 Autre approche concernant le test d’un coefficient de régression

Sous l’hypothèse

on démontre que la quantité :

H j0 0 : " β = "

estimation du coefficient

estimation de l’écart-typede l’estimateur du coefficient

est une réalisation d’une loi de Student à n-k-1 degrés de liberté

( )t

s j

j

β

Page 28: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

28

.On peut donc mettre en oeuvre un test statistique (équivalent au test de

Fisher-partiel).

On peut aussi construire un intervalle de confiance autour du coefficient

estimé.

..( )Loi de Student à n k− − 1 d. d. l.

( )Niveau de confiance 1 − α

( ) ( )Prob β β β β β αα αj j j j jt s < < t s = − +⎡

⎣⎢

⎦⎥ −

2 2

1

α2

α2

− tα2

tα2

1 − α

Page 29: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

29

5 Remarques

Il peut arriver que le test global de Fisher mette en évidence que le modèle

construit a un intérêt du point de vue explicatif, alors que tous les tests de

Student relatifs aux coefficients associés aux variables explicatives

conduisent à ne pas rejeter l’hypothèse de nullité des coefficients.

Il n’y a pas de contradiction entre ces deux résultats. Néanmoins, cela

peut rendre difficile la sélection des variables.

Les méthodes pas à pas permettent de remédier à ce type de problème.

Page 30: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

30

1 Recherche exhaustive

Objectifs Économiser le nombre de variables explicatives, simplifier le modèle, éliminer les variables redondantes.

Si k pas trop grand, on peut étudier tous les modèles possibles.

C

C k1

k2

C kk

2 1k −.Si nombre de variables fixé, on choisit le modèle qui a le R2

maximum.. Sinon, on choisit le modèle fournissant le minimum (R2 ajusté max). σ 2 ⇔

LA SÉLECTION DES VARIABLESV

.

modèles à 1 variable explicative

modèles à 2 variables explicatives

modèles à k variables explicatives

Page 31: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

31

Principe élimination successive ou ajout successif de variables

2 Les méthodes pas à pas (STEPWISE)

Méthode ascendante (stepwise option FORWARD)

Étape 1 On choisit le meilleur modèle à une variable (R2 le plus élevé).

Étape 2 On ajoute la variable faisant augmenter à son tour le plus le R2.

.

. . . On continue jusqu’à un éventuel test d’arrêt.

.

Page 32: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

32

On élimine des variables tant que cela est possible en

fonction du test d’arrêt.

Méthode descendante (stepwise option BACKWARD)

Étape 0 Toutes les variables sont dans le modèle.

Étape 1 On élimine la variable faisant le moins diminuer le R2.

.

. . .

.(celle qui a le t de Student ou le fisher partiel le moins

significatif).

(Fisher Student)⇔

Page 33: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

33

Méthode stepwise (méthode ascendante-descendante)

Perfectionnement de l’algorithme ascendant qui consiste à effectuer à

chaque pas des tests de signification du type Student ou F pour ne

pas introduire une variable non significative et pour éliminer

éventuellement les variables déjà introduites qui ne seraient plus

informatives compte tenu de la dernière variable sélectionnée.

Arrêt : quand on ne peut plus ajouter ou retrancher de variables.

Page 34: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

34

Remarque

Dans l’étude des meilleurs modèles, on peut également utiliser le

coefficient de Mallows :

( )CSCR

sn pp

p= − −2 2

avec : SCR p =

s2 =

Somme des carrés résiduelle dans le modèle à pparamètres (p - 1 variables + constante)

Estimation de pour le modèle à k + 1 paramètres

(modèle avec toutes les variables)

σ 2

Page 35: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

35

Selon Mallows, un modèle satisfaisant est tel que Cp est proche de p

(avec p le plus faible possible).

Pour un tel modèle, les estimations des paramètres sont non biaisées.

Remarque

Plus Cp élevé, plus il y a d’incertitude sur les estimations.

Page 36: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

36

1 Source principale d’instabilité dansl’estimation de = multicolinéarité

LA STABILITÉ DES COEFFICIENTS DE RÉGRESSIONVI

( ) ( )V B X X= ′−1 2σ

si les prédicteurs sont très corrélés entre eux

′X X mal conditionnée (déterminant proche de 0)

l’inverse aura des termes élevés.

Page 37: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

37

En supposant les données centrées réduites et que l’on effectue donc une

régression sans constante :

( )′X X = n Rkxk

R = matrice de corrélations entre prédicteurs

( )V B Rn

=−

σ 21

( ) ( )V Bn

Rj jj= −σ 2

1

Page 38: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

38

11 2− R j

où carré du coefficient de corrélation multiple de et desR j2 = Xj

( )k − 1

11 2− R j

=

1 2− R j =

facteur d’inflation de la variance

tolérance

(VIF)

(TOL)

Or, jème terme diagonal de n’est autre que :( )Rjj

−1 R −1

autres variables explicatives.

Plus cette valeur VIF est élevée, plus la variable est impliquée dans des problèmes de colinéarité. Sa présence augmente les variances desestimateurs des coefficients.

Une variable est mieux tolérée dans le modèle si sa tolérance est proche de 1.

Page 39: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

39

CONDITION NUMBER est la racine carrée du rapport entre la plus grande

valeur et une valeur . Ces rapports devraient être égaux à 1 si les sont

indépendantes.

2-a

SAS fournit des indications concernant la multi-colinéarité. Comme en A.C.P.,

on calcule les valeurs propres de la matrice normée. On les édite de la

plus grande à la plus petite (de à ou si on conserve la constante).

Une valeur propre nulle indique une dépendance linéaire, donc une colinéarité

parfaite.

Étudier la matrice des corrélations des estimateurs des coefficients.

2-b

2 Autres diagnostics

′X X

λ 1 λ u Xj

λ 1 λ kλ k+1

Page 40: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

40

RÈGLE Une valeur grande met en évidence un problème

valeur 30 avec l’option COLLINOINT

100 avec l’option COLLIN

De plus, SAS fournit des «variance proportions» qui indiquent quelles

variables sont responsables de la colinéarité. (Problème si plusieurs

variables ont des « variance proportions » > 0,50 pour un «CONDITION

NUMBER» élevé).

Page 41: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

41

3 Remèdes en cas de multi-colinéarité

Augmenter la taille n de l’échantillon

Sélectionner les régresseurs, si k trop grand par rapport à n

Faire une Ridge-régression transformer en

Travailler sur les composantes principales issues des régresseurs

Régression PLS

( ) ′ ′ +X X X X Iλ

Page 42: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

42

1 Levier : hi hat Diag H

ÉTUDE DES RÉSIDUSDÉTECTION DES OBSERVATIONS INFLUENTESVII

( )[ ]( )

h X X X X

X X X X

i1

ii1

= ′ ′

= ′ ′

k étant le nombre de prédicteurs :

h kii

n= +

=∑ 1

1

⇒ = + h kn

1

Hoaglin et Welsh (1978) recommandent de «s’intéresser» aux observations t.q :

( )hkni >+2 1

ième terme diagonal du projecteur

Page 43: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

43

2 Les résidus

Écart-type du résidu Standard Error Residual

e y yi i i= −

Les graphes des résidus en fonction des variables explicatives ne

doivent laisser apparaître aucune tendance.

Résidu standardisé : ei

σ

Détecter les individus pour lesquelsei

σ > 2

Estimation de la variance du résidu :

.

.( ) ( )V y y hi i i− = −σ 2 1

σ 1 − hi

Résidual

Page 44: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

44

Résidu standardisé :.interne

y yh

i i

i

−−σ 1

externe( )

y yh

i i

i i

−−−σ 1

Student Residual

R Student

( )σ − =i estimation de l’écart-type des résidus sans que l’individu

i ne participe à la régression

S’intéresser aux individus pour lesquels :

> 2Résidu studentisé

Page 45: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

45

Résidu prédit :. PRESIDi

( ) ( )y y yi i i− − − est la prévision obtenue avec l’échantillon de (n - 1)

observations excluant la ième.

On vérifie que résidu prédit :

y yh

i i

i

−−1

prudence si hi grand.

Mesure du pouvoir prédictif du modèle :

( )( )

=−

−=∑

y yh

i i

ii

n 2

21 1

Utile dans le choix d’un modèle destiné à la prévision.

PRESS

Page 46: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

46

3 Autres mesures d’influence

DFITS :

( )

( )

y yh

i i

i i

− −

−σ

COVRATIO :

( ) ( )( )

σ

σ

− −

i iX X

X X

2 1

2 1

Si COVRATIO < 1, la suppression de l’individu i dans l’analyse améliore la

précision des résultats.

( )> + 3 1k n/Belsey, Kuh, Welsh suggèrent d’étudier les écarts à l’unité .

Page 47: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

47

Distance de Cook : COOKD

Elle étudie l’influence d’une observation sur les estimations des

coefficients de régression (comparable à DFITS). Une distance Di

supérieure à 1 indique en général une influence anormale (Cook-

Weisberg, 1982).

β j

( )( )( )

Dh y y

kii i i

=−

+−

2

21 σ

( ) ( )D h e

ki

i i=+

2

2 21 1 - hiσ

Page 48: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

48

Sa définition en termes de coefficients s’écrit :

( )( ) ( ) ( )( )( )

DX X

ii i

=−

′′ −− −β β β β

σ

k + 1 2

où est l’estimation de obtenue sans la ième observation.( )β − i β

Remarque

Page 49: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

49

DFBETAS

Influence de chaque point i sur chaque coefficient

Individu i sur variable j

( )

( ) ( )DFBETAS

X Xj

j j

ijj

i

=−

β β

σ

Belsey, Kuh and Welsh recommandent de détecter les valeurs dépassant 2.

β j

Page 50: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

50

P R É V I S I O NVIII

On souhaite prévoir la variable pour un individu pour lequel

on ne connaît que les valeurs prises par les variables explicatives

X k1 2, . . . X X

Y

.

Page 51: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

51

1 Prévision ponctuelle

Notons les valeurs prises par ce nouvel individu

pour les variables explicatives

x k01 02 0 x . . . x

. . .y x x xk k0 0 1 01 2 02 0= + + + + β β β β

Page 52: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

52

2 Prévision par intervalles

Deux problèmes peuvent être résolus :

Déterminer un intervalle de confiance autour du point moyen y0

Déterminer un intervalle de confiance pour Y y0 0 0= + ε intervalle de prévision

A l’incertitude sur les valeurs des coefficients s’ajoute l’incertitude

que prend pour une observation particulière.

β β β0 1, . . . k

ε

Page 53: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

53

Les hypothèses du modèle linéaire permettent de montrer que y x0 0= β

( )( )′ ′ ′−x ; x X X x0 0

10 β σ

Puisque doit être estimé, on en déduit les résultats suivants (par

studentisation).

σ

~ ~ ~

est une réalisation d’une variable aléatoire suivant une loi normale :~

N

Page 54: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

54

Intervalle de confiance pour un point moyen

Niveau 1 − α

α2

α2

− tα2

tα2

1 − α

Student àn-k-1 d.d.l.

( ) ( ),y t x X X x y t x X X x02

01

0 02

01

0− ′ ′ + ′ ′− −⎡

⎣⎢

⎦⎥α ασ σ

~~ ~ ~

Page 55: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

55

Intervalle de prévision

Niveau 1 − α

( ) ( ),y t x X X x y t x X X x02

01

0 02

01

01 1− + ′ ′ + + ′ ′− −⎡

⎣⎢

⎦⎥α ασ σ

Remarque La quantité est appelée «levier».( )′ ′−x X X x0

10

~~~ ~

~~

Page 56: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

56

VARIABLES EXPLICATIVES QUALITATIVESIX

On remplace chaque variable qualitative par le tableau de ses indicatrices.

Quand on résout l’équation :

une difficulté surgit puisque les colonnes de X ne sont pas

indépendantes ;

les coefficients ne sont pas uniques.

′ = ′X X X yβ

β j

PRINCIPE

Page 57: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

57

RÈGLE

Pour chaque variable qualitative, on va imposer une contrainte sur les

coefficients des modalités. L’approche la plus classique consiste à

imposer un coefficient nul à l’une des modalités.

Ceci revient à supprimer une colonne dans chaque tableau

d’indicatrices, ce qui rend la matrice X de plein rang.

Le résultat est indépendant de la «colonne» supprimée.

Page 58: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

58

EXEMPLE

1 équipement de base

2 équipement bon

3 équipement très bon

4 équipement sport

Expliquer le prix d’une voiture en fonction de la puissance (variable

quantitative) et du niveau d’équipement :

Sur le tableau d’indicatrices, on supprime la colonne 4 sport :

1 2 30 1Y puiss 15000X 12000X 3000X= β +β − − −

On supprime base

( )Y X X X= − + + + +β β0 12 3 415000 3000 12000 15000 puiss

X1

X1

X2

X3

X4

Page 59: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

59

A N N E X E

CALCUL MATRICIEL

COMPLÉMENTS CONCERNANT LES TESTS

Page 60: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

60

L E M O D E L EI

1 Y X Xk k= + + + +β β β ε0 1 1 . . .

Nous observons les variables sur n individus.

Notons les valeurs prises par celles-ci

pour l’individu i.

1 Signification du modèle

yi i i ik, , x x x1 2 …

Y k, X X1 …

Page 61: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

61

2 Y x xi i k ik= + + + +β β β ε0 1 1 . . . i

est une variable aléatoire de moyenne 0

d’écart-type σ

Les v.a. sont supposées non corrélées entre elles.ε ε1 . . . n

Nous considérons que yi est la réalisation d’une variable aléatoire Yi définie par :

ε i

Page 62: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

62

Y

Y

Y

Y

i

n

=

⎢⎢⎢⎢⎢⎢

⎥⎥⎥⎥⎥⎥

1

β

β

β

β

=

⎢⎢⎢⎢⎢⎢

⎥⎥⎥⎥⎥⎥

1

i

k

( )X

n k

x

x

x

x

x

x

i

n

k

i

nk

, +=

⎢⎢⎢⎢⎢⎢

⎥⎥⎥⎥⎥⎥

1

1

1

1

11

1

1

1

1

ε

ε

ε

ε

=

⎢⎢⎢⎢⎢⎢

⎥⎥⎥⎥⎥⎥

1

i

n

2 Notations matricielles

~

~ ~

Page 63: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

63

Les équations pour , s’écrivent matriciellement :2 i = 1 n. . .

3 Y X = +β ε

Les hypothèses faites sur les termes aléatoires s’écrivent :ε ε1 . . . n

4 ( )E ε = 0

5 ( )E ε ε σ′ = I2

Enfin, rang (X) supposé = +k 1

~ ~~

~ ~

~~

Page 64: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

64

β β β0 1, . . . k

ESTIMATION DES PARAMÈTRES DU MODÈLEII

Nous recherchons les estimations des paramètres

permettant de reconstituer au mieux les données à partir des

observations .

, . . .β β β0 1 k

1 Estimation des paramètres

yi

β β β0 1, … k

Page 65: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

65

Nous recherchons minimisant, . . .β β β0 1 k

6 ( )y x xi ik k iki

n− − −

=∑ β β β0 1

2

1

. . .

Avec ety =

⎢⎢⎢⎢⎢⎢

⎥⎥⎥⎥⎥⎥

y

y

y

1

i

n

β

β

β

β

=

⎢⎢⎢⎢⎢⎢

⎥⎥⎥⎥⎥⎥

0

i

k

~ ~

Page 66: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

66

6 7 y − =Xβ2

L’ensemble des vecteurs lorsque varie, est le sous-

espace vectoriel de Rn engendré par les

Xβ β

~ ~où norme usuelle

x x xk0 1, …W colonnes de X

notées .

y y−

y X= β

y

W

x0

x1

xk

Page 67: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

67

Le minimum de est obtenu en prenant la projection orthogonale7

y X= β

( )y y− ∈ ⊥ W

8

Ainsi :

( )y X j−′

= = , . . .β x j k0 0 1

( )y X X−′

=β 0

soit matriciellement :

9 en transposant :

′ = ′X X X yβ10

Le rang de étant égal au rang de est de rang ,

donc inversible :

′X X X X X, ′ k + 1

du vecteur Y sur le sous-espace vectoriel W.

Page 68: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

68

vecteur des « »

estimation des moindres carrés de

11 ( )β = ′ ′−X X X y1

β β=

= =

==

y Xβ Yi

e y y− vecteur des erreurs

⎨⎪

⎩⎪

Page 69: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

69

B de β

Le vecteur est une réalisation du vecteur aléatoire :

( )B X X X Y= ′ ′−1appelé estimateur des moindres carrés de β

( )β = ′ ′−X X X y1

2 Estimateur des moindres carrés

Page 70: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

70

( )E B = β

est un estimateur sans biais de

Moyenne de

β

B

B

12

Démonstration : 3

( ) ( ) ( )B X X X Y X X X X= ′ ′ = ′ ′ +− −1 1 β ε

( )B X X X= + ′ ′−β ε1

L’espérance du vecteur étant nulle par hypothèse, on a doncε

( )E B = β

13

Propriétés de cet estimateur

Page 71: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

71

( ) ( )V B X X= ′ −σ 2 1

Variance de B

La variance d’un vecteur aléatoire est définie comme la matrice des

covariances entre les différentes coordonnées.

12

( ) ( ) ( )V B E B B= − −′⎡

⎣⎢⎤

⎦⎥β β

( )B X X X− = ′ ′−β ε1Or

et donc :

( ) ( ) ( )[ ]V B E X X X X X X= ′ ′ ′− −′1 1εε

De plus ( )E εε σ′ = I2

14

D’après :

Page 72: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

72

σ 2

Le vecteur e des erreurs observées est une réalisation du vecteur aléatoire :

E Y XB= −

En exprimant en fonction du vecteur aléatoire , il vient : Y B ε

15 ( ) ( ) ( )E Mn n n n, , ,1 1

= ε

où :

( )M I X X X X= − ′ ′−1

M est idempotente ′ =M M M

D’où :

3 Estimateur sans biais

M I H= −

et

avec H projecteur sur W, I H− projecteur sur W⊥

Page 73: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

73

16 ′ = ′E E Mε ε

Notant mij le terme général de la matrice M, nous avons :

( ) ( )Esp mijj

n

i

n

i j′ ===∑∑E E Esp

11

ε ε

D’après 5 ( )Esp i j i jε ε σ= =2 pour

= 0 pour i j≠

Page 74: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

74

Nous en concluons :

18 ( ) ( )Esp E E M′ = σ 2 Trace

L’opérateur «Trace» vérifiant les relations :

( ) ( ) ( )Trace A + B A B= +Trace Trace

( ) ( )Trace AB BA= Trace

19 ( )Trace M n k= − − 1

( )Trace M ( )[ ]= ′ ′−Trace XI - X X X 1

( )[ ]= − ′ ′ −Trace I X X X XTrace 1

( )= − +n k 1

En effet :

Page 75: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

75

Par conséquent :

Σ 2

1 = ′

− −E E

n kest un estimateur sans biais de σ 2

et :

σ 2

1 = ′

− −e e

n kest l’estimation de σ 2

c’est-à-dire :

σ 2

2

1

1=

− −=∑ e

n k

ii

n

Page 76: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

76

COMPLÉMENTS CONCERNANT LES FORMULES DE DÉCOMPOSITIONIII

Théorème de Cochran

Soit Q1, Q2, ... Qk, k formes quadratiques sur Y telles que :

Q Y Y Yjj

k

i=∑ ∑= ′ =

1

2 ,

χ 2

( ) rang Q pjj

k

=∑ =

1

Chaque Qj est une variable

Les Qj sont indépendantes

c’est-à-dire réalisant une décomposition du carré de norme de Y.

Alors, les trois conditions suivantes sont équivalentes :

Page 77: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

77

22i 2

n2 2 suit = χσ σ

∑ε ε

Conséquences

W

ε

Xβ Y

Y

Y XB=

ε β2 2 2= − + −Y XB XB X

Or, est un vecteur gaussien où les suivent indépendamment des lois ( )0,σε i ε

donc :

Page 78: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

78

Or, ( )Y XB I HXB X H− = −− =

⎧⎨⎩

εεβ

où H ( )X X X X′ ′−1

I H− =

On a donc :

( )ε ε ε ε ε2 = + −′ ′H I H

Le théorème de Cochran indique alors que :

Y XB−2

X XBβ

σ

−2

2

χ n p− −12

χp+12

projecteur sur W

projecteur sur W⊥

=

Page 79: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

79

ÉLÉMENTS DE DÉMONSTRATIONIV(concernant le test de Fisher Snedecor)

" ... " kβ β β1 2 0= = = =

alors : est une réalisation d’un ( )12 1

2

1σ y y

i

n−

=∑ χn−1

2

(comme variance d’un échantillon aléatoire de variables normales de

mêmes lois)

( )∀β

−∑ : y yi i

2

2σest une réalisation d’un χ n k− −1

2

= SCRσ 2

Si

Page 80: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

80

" ... " ( kβ β β β1 2 00= = = = )

( ) ( )SC X y yk i1 X =

2 2

. . .σ σ

−∑

" ... " ( rβ β β β1 2 00= = = = )

( )SC X r1 X 2

. . .σ

( )H k0 0 : r +1 0β β β= = =. . . "

( ) ( )SC X SC X

X Xk r1 12

. . . . . .−σ

Même raisonnement avec un modèle à r variables

quelconque

Si

est une réalisation d’un χk2

Si

quelconque

est une réalisation d’un χ r2

Sous quelconque

est une réalisation d’un χk r−2

Page 81: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

81

LES DIFFÉRENTES SOMMES DECARRÉS DANS UN MODÈLE LINÉAIREV

Type I S.S.

Soit un modèle : Y X ... X k k= + + +β β β0 1 1

X1

X2

X3

( )SCE X1

( ) ( )SCE SCE X X X1 2 1, −

( ) ( )SCE SCE X X X X X1 2 3 1 2, , ,−

Les sommes de carrés de type 1 tiennent compte de l’ordre dans lequel

sont citées les variables (ou effets).

( )SCE XX X Xi j i j, . . . , . . .= somme des carrés expliquée par les variablesoù

Page 82: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

82

Type II S.S.

X1

X2

X3

( ) ( )1 2 3 2 3SCE X , X , X SCE X , X−

( ) ( )SCE SCE X X X X X1 2 3 1 3, , ,−

( ) ( )SCE SCE X X X X X1 2 3 1 2, , ,−

Quand on utilise les sommes de carrés de type II, on mesure pour

chaque variable (ou effet) de combien diminuerait la somme des

carrés expliquées si on la supprimait du modèle, les autres variables

restant présentes.

L’ordre dans lequel sont citées les variables est sans importance.

Page 83: RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple Expliquer en fonction de Prix d'un appartement superficie standing quartier sécurité

83

Type III S.S.

«Il s’agit de l’équivalent en analyse de variance du type II S.S. en

régression multiple». Les variables explicatives sont qualitatives.