RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple...
Transcript of RÉGRESSION MULTIPLEmaths.cnam.fr/IMG/pdf/Regression_multiple_annexes18-02...3 Régression multiple...
1Pierre-Louis GONZALEZ
RÉGRESSIONMULTIPLE
2
Vocabulaire
Modèle
Étudier la liaison entre une "variable à expliquer" quantitative
Y et une suite de "variables explicatives" quantitatives X1 ... Xk
.
où
Y
Variable à expliquerVariable dépendanteVariable endogène
Variables explicativesVariables indépendantesVariables exogènes
I INTRODUCTION
ε
Y X Xk k= + + + +β β β ε0 1 1 …= paramètres fixes (mais inconnus)β j
= 0terme aléatoire : de moyenned' écart - type σ
X1 X2 ... Xk
3
Régression multiple
Expliquer en fonction de
Prix d'un appartement
superficiestandingquartiersécuritéproximité de commerce
Prix d'une voiture
cylindréetaillevitesse maximumorigineniveau de finition
budget de rechercheinvestissementspublicitéremises aux grossistesprix de vente
Prévoir des ventes
EXEMPLES
4
2 Évaluer la précision de ces estimations.
3 Mesurer le pouvoir explicatif du modèle.
4 Répondre aux questions :
LES OBJECTIFS
A l'aide d'observations des variables Y, X1 ... Xk, nous allons chercher à
résoudre les problèmes suivants :
La liaison globale entre Y et les Xi est-elle significative ?
L'apport marginal de chaque variable Xi est-il significatif ?
Sélection de variables
β β β σ0 1, . . . . k1 Estimer les paramètres du modèle
6 Évaluer la qualité du modèle en prévision
et
5 Analyser les écarts entre les données et le modèle construit à partir
de celles-ci. Mesures d'influence.
5
Y x xi i k ik= + + + +β β β ε0 1 1 . . . i
où
est une variable aléatoire de moyenne 0
d’écart-type σ
Les v.a. sont supposées être distribuées selon des lois normales.
Elles sont supposées non corrélées entre elles.
ε ε1 . . . n
Nous considérons que yi est la réalisation d’une variable aléatoire Yi définie par :
ε i
II Estimation des paramètres du modèle
1 Le modèle
6
Nous recherchons les estimations :
permettant de reconstituer au mieux les données yi à partir des observations des k variables pour l'individu i.
Critère des moindres carrés
II ESTIMATION DES PARAMÈTRES DU MODÈLE
( )y . . . -ii =1
n− − −∑ β β β0 1 1
2x xi k ik
β β β0 1 . . . k
β β β0 1 … k
β β β0 1 … k
des paramètres
X Xk1…
β β β0 1 … kDéterminer minimisant
2 Estimation des paramètres
7
La résolution du problème passe par la résolution d'un système de
équations à inconnues.
Elle peut se présenter sous forme matricielle.
( )k + 1
( )k + 1
Éléments de solution
8
Y
Y
Y
Y
i
n
=
⎡
⎣
⎢⎢⎢⎢⎢⎢
⎤
⎦
⎥⎥⎥⎥⎥⎥
1
β
β
β
β
=
⎡
⎣
⎢⎢⎢⎢⎢⎢
⎤
⎦
⎥⎥⎥⎥⎥⎥
1
i
k
( )X
n k
x
x
x
x
x
x
i
n
k
i
nk
, +=
⎡
⎣
⎢⎢⎢⎢⎢⎢
⎤
⎦
⎥⎥⎥⎥⎥⎥
1
1
1
1
11
1
1
1
1
…
…
…
ε
ε
ε
ε
=
⎡
⎣
⎢⎢⎢⎢⎢⎢
⎤
⎦
⎥⎥⎥⎥⎥⎥
1
i
n
~
~ ~
En utilisant les notations matricielles ci-dessous:
9
L’ensemble des équations associées à chacune des observations, pour , s’écrit matriciellement :
2 i = 1 n. . .
3 Y X = +β ε
Les hypothèses faites sur les termes aléatoires s’écrivent :ε ε1 . . . n
( )E ε = 0
( )E ε ε σ′ = I2
Enfin, rang (X) supposé = +k 1
~ ~~
~ ~
~~
Pour que les calculs soient possibles, il faut éviter qu'une (ou plusieurs) des
variables explicatives soit une combinaison linéaire exacte des autres variables
explicatives.
10
vecteur des « »
estimation des moindres carrés de
( )β = ′ ′−X X X y1
β β=
= =
==
y Xβ Yi
e y y− vecteur des erreurs
La solution
Remarque: Cette expression est importante: elle montre qu’il est nécessaire d’inverser la matrice X’X. Les problèmes pratiques rencontrés en régression ( par exemple la multicolinéarité ) sont liés à cette inversion.
11
Plus est faible, meilleur est le modèle.
avec e y yi ii = −
σ 2 211= − − ∑n k e i
σ 2
On peut estimer la variance notée des termes .σ 2 ε i
3. La précision des résultats
12
Étant donné que les estimations sont obtenues à partir d'échantillons, on
peut s'interroger sur la précision avec laquelle sont déterminées les
coefficients.
On montre que cette précision est liée à celle de . Plus est faible,
plus les coefficients ont des chances d'être estimés précisément.
σ 2 σ 2
A chaque estimation d’un coefficient, est associé un écart-type estimé à partir
des données traitées (en général noté erreur-type). On peut comparer ces
erreurs-types aux coefficients estimés.
13
( ) ( )V B X X= ′ −σ 2 1
Variance de B
La variance d’un vecteur aléatoire est définie comme la matrice des
covariances entre les différentes coordonnées.
Remarque:
Les variances, les covariances et donc les corrélations des estimateurs des coefficients, dépendent également de l’inverse de la matrice X’X
14
1 Décomposition de la somme des carrés
( ) ( ) ( ) y iy y y y yii
n
i ii
n
i
n− = − + −
= = =∑ ∑ ∑2
1
2
1
2
1
(*)
MESURE DE LA "QUALITÉ" DU MODÈLE LE COEFFICIENT DE CORRÉLATION MULTIPLEIII
S.C. totale S.C. résiduelle S.C. expliquée= +
15
( )y y y yi− −∑2 2 = =
W ⊥
y
yy
y
=
⎛
⎝
⎜⎜⎜⎜
⎞
⎠
⎟⎟⎟⎟
Wy y
~
y
théorème de Pythagore
cqfd.
S. C. résiduelle
( )[ ] = y y−2
⇒ − − + − = y y y y y y2 2
= − − + y y y y2 2
( ) = = y y y y ei i i− − ∑∑2 2 2
~ ~
~ ~ ~ ~ ~~
~ ~ ~ ~
~ ~
~ ~
W
Or :
S.C. totale norme du vecteur
S.C. expliquée
16
2 Coefficient de détermination R2 et de corrélation multiple R
( )
( )R
y y
y y
ii
n
ii
n2
2
1
2
1
= = coefficient de détermination
−
−
=
=
∑
∑
La formule (*) nous suggère de mesurer la qualité de la régression multiple par
le rapport :
La racine carrée R de R2 est le coefficient de corrélation multiple entre la
variable à expliquer Y et les variables explicatives X1, ... Xk.
17
Propriétés
= 1 - S. C. résiduelleS. C. totale
R2 proche de 1 signifie :
Y est "bien expliquée" par les variables X1 ... Xk
R 2 = S. C. expliquéeS. C. totale
0 12R≤ ≤
18
permet de comparer des modèles où le nombre de variables explicative diffère. Il tient compte du nombre de degrés de liberté du modèle.
Plus ajusté est élevé, plus est faible
ajusté (utilisé en régression multiple)
( ) ( )R a2 = R - k
n - k - 1 1 - R2 2
k = nombre de variables explicatives
Ra2
R 2
σ 2R 2
Remarque: ajustéR 2
19
1 Présentation générale
Hypothèses nécessaires
Test Général
Les v.a. i=1 ... n suivent une loi normale de moyenne 0
d'écart-type
Étudier la nullité des k - r derniers coefficients de régression
H ... r k0 1 0 : β β+ = = =
H k 1 : 0 r + 1 j jβ ≠ ≤ ≤
Ce test permet d'étudier l'apport d'une ou d'un groupe de variables Xj sur Y.
σ
LES TESTS USUELS DE LA RÉGRESSION MULTIPLEIV
ε i
au moins 1 de ces
20
Le test revient à comparer les modèles :
⎧⎨⎪
⎩⎪ H X X X Xr r r r k k1 0 1 1 1 1 Y : = + + + + + + ++ +β β β β β ε… …
H X Xr r0 0 1 1 Y : = + + + +β β β ε…
Le modèle associé à l’hypothèse H0 est un modèle restreint
Le modèle associé à l’hypothèse H1 est le modèle complet
21
( ) ( )S C X . . . X = H1 k 1
Pour choisir entre H0 et H1, on utilise la statistique :
Avec :
( ) ( )S C X . . . X = H1 r 0
e i2 = ∑
( )[ ] H 1
Sous H0, la statistique F est 1 réalisation d'une v.a. suivant une loi de
Fischer-Snedecor à (k-r) et (n-k-1) degrés de liberté.
modèle complet
modèle restreint
modèle complet
somme des carrés résiduels estimée avec toutes les variables
somme des carrés expliquée par le modèle
somme des carrés expliquée par le modèle
( ) ( )[ ]F SC X X SC X X k r
e n kk r
i
=− −
− −∑ 1 1
2 1, , /
/… …
22
Tableau d’analyse de la variance
Source devariation
d.d.l. S. carrés Carrémoyen
Fobs
r
k
k r-
résidus(modèle complet)
H1
n k- - 1
On divise
par
le nombre
de d.d.l
( ) ( )SC X X SC X X
k r
en k
k r
i
1 1
2
1
. . . . . .−
−
− −
Σ
→ X1...Xr
→ Xr+1...Xr
→ X1...Xk
( ) ( )SC X X SC X Xk r1 1… …−
( )SC X Xk1…
ei2∑
( )SC X X r1…
23
En notant :
on peut lire dans une table c tel que :
( )( )P F k r n k− − − > =, 1 c α
( ) H H 0 0
Les logiciels statistiques fournissent directement la probabilité
permettant de tester les hypothèses
H0 et H1.
( )( )P F k r n k obs− − − >, 1 F
α risque de première espèce
prob rejeter alors que est vraie=
=
24
2 Le test global
Influence de l’ensemble des variables Xj sur Y.
H : " ... " k0 1 0β β= = =
( ) ( )FSC X k
e n kk n kobs
k
i
= . . . X
= 1
2 11
/
/,
∑ − −− −réalisation d’une v.a. suivant une loi F
au moins un des1 iH : 0
β ≠
⎧⎨⎪
⎩⎪
25
Tableau d’analyse de variance
Source devariation
Degrés deliberté
Somme descarrés
Carrésmoyens Fobs ( )Pr F > Fobs
expliquée
erreur
total
k
n k− − 1
n − 1
( )y yi −∑ 2
( )y yi i−∑ 2
( )y yi −∑ 2
( )y yki −∑ 2
( )y yn k
i i−− −
∑ 2
1
( )
( )
y yk
y yn k
i
i i
−
−− −
∑
∑
2
2
1
Proba
Fobs
σ 2
( )( )
Ry
y2 i
i
y
y=
−
−∑∑
2
2
estimation de notée s2 ou σ 2
26
3 Les tests partiels
On teste l’influence de chaque variable explicative Xj
j fixé H : H :
j
j
0
1
00
ββ
=≠
⎧⎨⎩
( ) ( )F SC X SC X X
n k
K j j k= . . . X . . . X X
e i2
1 1 1 1
1
−
− −
− +
∑
, , . . .
/
F est une réalisation d’une variable aléatoire suivant une loi
de Fisher-Snedecor à 1 et n-k-1 degrés de liberté.
27
4 Autre approche concernant le test d’un coefficient de régression
Sous l’hypothèse
on démontre que la quantité :
H j0 0 : " β = "
estimation du coefficient
estimation de l’écart-typede l’estimateur du coefficient
est une réalisation d’une loi de Student à n-k-1 degrés de liberté
( )t
s j
j
=β
β
28
.On peut donc mettre en oeuvre un test statistique (équivalent au test de
Fisher-partiel).
On peut aussi construire un intervalle de confiance autour du coefficient
estimé.
..( )Loi de Student à n k− − 1 d. d. l.
( )Niveau de confiance 1 − α
( ) ( )Prob β β β β β αα αj j j j jt s < < t s = − +⎡
⎣⎢
⎤
⎦⎥ −
2 2
1
α2
α2
− tα2
tα2
1 − α
29
5 Remarques
Il peut arriver que le test global de Fisher mette en évidence que le modèle
construit a un intérêt du point de vue explicatif, alors que tous les tests de
Student relatifs aux coefficients associés aux variables explicatives
conduisent à ne pas rejeter l’hypothèse de nullité des coefficients.
Il n’y a pas de contradiction entre ces deux résultats. Néanmoins, cela
peut rendre difficile la sélection des variables.
Les méthodes pas à pas permettent de remédier à ce type de problème.
30
1 Recherche exhaustive
Objectifs Économiser le nombre de variables explicatives, simplifier le modèle, éliminer les variables redondantes.
Si k pas trop grand, on peut étudier tous les modèles possibles.
C
C k1
k2
C kk
2 1k −.Si nombre de variables fixé, on choisit le modèle qui a le R2
maximum.. Sinon, on choisit le modèle fournissant le minimum (R2 ajusté max). σ 2 ⇔
LA SÉLECTION DES VARIABLESV
.
modèles à 1 variable explicative
modèles à 2 variables explicatives
modèles à k variables explicatives
31
Principe élimination successive ou ajout successif de variables
2 Les méthodes pas à pas (STEPWISE)
Méthode ascendante (stepwise option FORWARD)
Étape 1 On choisit le meilleur modèle à une variable (R2 le plus élevé).
Étape 2 On ajoute la variable faisant augmenter à son tour le plus le R2.
.
. . . On continue jusqu’à un éventuel test d’arrêt.
.
32
On élimine des variables tant que cela est possible en
fonction du test d’arrêt.
Méthode descendante (stepwise option BACKWARD)
Étape 0 Toutes les variables sont dans le modèle.
Étape 1 On élimine la variable faisant le moins diminuer le R2.
.
. . .
.(celle qui a le t de Student ou le fisher partiel le moins
significatif).
(Fisher Student)⇔
33
Méthode stepwise (méthode ascendante-descendante)
Perfectionnement de l’algorithme ascendant qui consiste à effectuer à
chaque pas des tests de signification du type Student ou F pour ne
pas introduire une variable non significative et pour éliminer
éventuellement les variables déjà introduites qui ne seraient plus
informatives compte tenu de la dernière variable sélectionnée.
Arrêt : quand on ne peut plus ajouter ou retrancher de variables.
34
Remarque
Dans l’étude des meilleurs modèles, on peut également utiliser le
coefficient de Mallows :
( )CSCR
sn pp
p= − −2 2
avec : SCR p =
s2 =
Somme des carrés résiduelle dans le modèle à pparamètres (p - 1 variables + constante)
Estimation de pour le modèle à k + 1 paramètres
(modèle avec toutes les variables)
σ 2
35
Selon Mallows, un modèle satisfaisant est tel que Cp est proche de p
(avec p le plus faible possible).
Pour un tel modèle, les estimations des paramètres sont non biaisées.
Remarque
Plus Cp élevé, plus il y a d’incertitude sur les estimations.
36
1 Source principale d’instabilité dansl’estimation de = multicolinéarité
LA STABILITÉ DES COEFFICIENTS DE RÉGRESSIONVI
( ) ( )V B X X= ′−1 2σ
si les prédicteurs sont très corrélés entre eux
′X X mal conditionnée (déterminant proche de 0)
l’inverse aura des termes élevés.
37
En supposant les données centrées réduites et que l’on effectue donc une
régression sans constante :
( )′X X = n Rkxk
R = matrice de corrélations entre prédicteurs
( )V B Rn
=−
σ 21
( ) ( )V Bn
Rj jj= −σ 2
1
38
11 2− R j
où carré du coefficient de corrélation multiple de et desR j2 = Xj
( )k − 1
11 2− R j
=
1 2− R j =
facteur d’inflation de la variance
tolérance
(VIF)
(TOL)
Or, jème terme diagonal de n’est autre que :( )Rjj
−1 R −1
autres variables explicatives.
Plus cette valeur VIF est élevée, plus la variable est impliquée dans des problèmes de colinéarité. Sa présence augmente les variances desestimateurs des coefficients.
Une variable est mieux tolérée dans le modèle si sa tolérance est proche de 1.
39
CONDITION NUMBER est la racine carrée du rapport entre la plus grande
valeur et une valeur . Ces rapports devraient être égaux à 1 si les sont
indépendantes.
2-a
SAS fournit des indications concernant la multi-colinéarité. Comme en A.C.P.,
on calcule les valeurs propres de la matrice normée. On les édite de la
plus grande à la plus petite (de à ou si on conserve la constante).
Une valeur propre nulle indique une dépendance linéaire, donc une colinéarité
parfaite.
Étudier la matrice des corrélations des estimateurs des coefficients.
2-b
2 Autres diagnostics
′X X
λ 1 λ u Xj
λ 1 λ kλ k+1
40
RÈGLE Une valeur grande met en évidence un problème
valeur 30 avec l’option COLLINOINT
100 avec l’option COLLIN
De plus, SAS fournit des «variance proportions» qui indiquent quelles
variables sont responsables de la colinéarité. (Problème si plusieurs
variables ont des « variance proportions » > 0,50 pour un «CONDITION
NUMBER» élevé).
41
3 Remèdes en cas de multi-colinéarité
Augmenter la taille n de l’échantillon
Sélectionner les régresseurs, si k trop grand par rapport à n
Faire une Ridge-régression transformer en
Travailler sur les composantes principales issues des régresseurs
Régression PLS
( ) ′ ′ +X X X X Iλ
42
1 Levier : hi hat Diag H
ÉTUDE DES RÉSIDUSDÉTECTION DES OBSERVATIONS INFLUENTESVII
( )[ ]( )
h X X X X
X X X X
i1
ii1
= ′ ′
= ′ ′
−
−
k étant le nombre de prédicteurs :
h kii
n= +
=∑ 1
1
⇒ = + h kn
1
Hoaglin et Welsh (1978) recommandent de «s’intéresser» aux observations t.q :
( )hkni >+2 1
ième terme diagonal du projecteur
43
2 Les résidus
Écart-type du résidu Standard Error Residual
e y yi i i= −
Les graphes des résidus en fonction des variables explicatives ne
doivent laisser apparaître aucune tendance.
Résidu standardisé : ei
σ
Détecter les individus pour lesquelsei
σ > 2
Estimation de la variance du résidu :
.
.( ) ( )V y y hi i i− = −σ 2 1
σ 1 − hi
Résidual
44
Résidu standardisé :.interne
y yh
i i
i
−−σ 1
externe( )
y yh
i i
i i
−−−σ 1
Student Residual
R Student
( )σ − =i estimation de l’écart-type des résidus sans que l’individu
i ne participe à la régression
S’intéresser aux individus pour lesquels :
> 2Résidu studentisé
45
Résidu prédit :. PRESIDi
( ) ( )y y yi i i− − − est la prévision obtenue avec l’échantillon de (n - 1)
observations excluant la ième.
On vérifie que résidu prédit :
y yh
i i
i
−−1
prudence si hi grand.
Mesure du pouvoir prédictif du modèle :
( )( )
=−
−=∑
y yh
i i
ii
n 2
21 1
Utile dans le choix d’un modèle destiné à la prévision.
PRESS
où
46
3 Autres mesures d’influence
DFITS :
( )
( )
y yh
i i
i i
− −
−σ
COVRATIO :
( ) ( )( )
σ
σ
− −
−
−
′
′
i iX X
X X
2 1
2 1
Si COVRATIO < 1, la suppression de l’individu i dans l’analyse améliore la
précision des résultats.
( )> + 3 1k n/Belsey, Kuh, Welsh suggèrent d’étudier les écarts à l’unité .
47
Distance de Cook : COOKD
Elle étudie l’influence d’une observation sur les estimations des
coefficients de régression (comparable à DFITS). Une distance Di
supérieure à 1 indique en général une influence anormale (Cook-
Weisberg, 1982).
β j
( )( )( )
Dh y y
kii i i
=−
+−
2
21 σ
( ) ( )D h e
ki
i i=+
2
2 21 1 - hiσ
48
Sa définition en termes de coefficients s’écrit :
( )( ) ( ) ( )( )( )
DX X
ii i
=−
′′ −− −β β β β
σ
k + 1 2
où est l’estimation de obtenue sans la ième observation.( )β − i β
Remarque
49
DFBETAS
Influence de chaque point i sur chaque coefficient
Individu i sur variable j
( )
( ) ( )DFBETAS
X Xj
j j
ijj
i
=−
′
−
−
β β
σ
Belsey, Kuh and Welsh recommandent de détecter les valeurs dépassant 2.
β j
50
P R É V I S I O NVIII
On souhaite prévoir la variable pour un individu pour lequel
on ne connaît que les valeurs prises par les variables explicatives
X k1 2, . . . X X
Y
.
51
1 Prévision ponctuelle
Notons les valeurs prises par ce nouvel individu
pour les variables explicatives
x k01 02 0 x . . . x
. . .y x x xk k0 0 1 01 2 02 0= + + + + β β β β
52
2 Prévision par intervalles
Deux problèmes peuvent être résolus :
Déterminer un intervalle de confiance autour du point moyen y0
Déterminer un intervalle de confiance pour Y y0 0 0= + ε intervalle de prévision
A l’incertitude sur les valeurs des coefficients s’ajoute l’incertitude
que prend pour une observation particulière.
β β β0 1, . . . k
ε
53
Les hypothèses du modèle linéaire permettent de montrer que y x0 0= β
( )( )′ ′ ′−x ; x X X x0 0
10 β σ
Puisque doit être estimé, on en déduit les résultats suivants (par
studentisation).
σ
~ ~ ~
est une réalisation d’une variable aléatoire suivant une loi normale :~
N
54
Intervalle de confiance pour un point moyen
Niveau 1 − α
α2
α2
− tα2
tα2
1 − α
Student àn-k-1 d.d.l.
( ) ( ),y t x X X x y t x X X x02
01
0 02
01
0− ′ ′ + ′ ′− −⎡
⎣⎢
⎤
⎦⎥α ασ σ
~~ ~ ~
55
Intervalle de prévision
Niveau 1 − α
( ) ( ),y t x X X x y t x X X x02
01
0 02
01
01 1− + ′ ′ + + ′ ′− −⎡
⎣⎢
⎤
⎦⎥α ασ σ
Remarque La quantité est appelée «levier».( )′ ′−x X X x0
10
~~~ ~
~~
56
VARIABLES EXPLICATIVES QUALITATIVESIX
On remplace chaque variable qualitative par le tableau de ses indicatrices.
Quand on résout l’équation :
une difficulté surgit puisque les colonnes de X ne sont pas
indépendantes ;
les coefficients ne sont pas uniques.
′ = ′X X X yβ
β j
PRINCIPE
57
RÈGLE
Pour chaque variable qualitative, on va imposer une contrainte sur les
coefficients des modalités. L’approche la plus classique consiste à
imposer un coefficient nul à l’une des modalités.
Ceci revient à supprimer une colonne dans chaque tableau
d’indicatrices, ce qui rend la matrice X de plein rang.
Le résultat est indépendant de la «colonne» supprimée.
58
EXEMPLE
1 équipement de base
2 équipement bon
3 équipement très bon
4 équipement sport
Expliquer le prix d’une voiture en fonction de la puissance (variable
quantitative) et du niveau d’équipement :
Sur le tableau d’indicatrices, on supprime la colonne 4 sport :
1 2 30 1Y puiss 15000X 12000X 3000X= β +β − − −
On supprime base
( )Y X X X= − + + + +β β0 12 3 415000 3000 12000 15000 puiss
X1
X1
X2
X3
X4
59
A N N E X E
CALCUL MATRICIEL
COMPLÉMENTS CONCERNANT LES TESTS
60
L E M O D E L EI
1 Y X Xk k= + + + +β β β ε0 1 1 . . .
Nous observons les variables sur n individus.
Notons les valeurs prises par celles-ci
pour l’individu i.
1 Signification du modèle
yi i i ik, , x x x1 2 …
Y k, X X1 …
61
2 Y x xi i k ik= + + + +β β β ε0 1 1 . . . i
où
est une variable aléatoire de moyenne 0
d’écart-type σ
Les v.a. sont supposées non corrélées entre elles.ε ε1 . . . n
Nous considérons que yi est la réalisation d’une variable aléatoire Yi définie par :
ε i
62
Y
Y
Y
Y
i
n
=
⎡
⎣
⎢⎢⎢⎢⎢⎢
⎤
⎦
⎥⎥⎥⎥⎥⎥
1
β
β
β
β
=
⎡
⎣
⎢⎢⎢⎢⎢⎢
⎤
⎦
⎥⎥⎥⎥⎥⎥
1
i
k
( )X
n k
x
x
x
x
x
x
i
n
k
i
nk
, +=
⎡
⎣
⎢⎢⎢⎢⎢⎢
⎤
⎦
⎥⎥⎥⎥⎥⎥
1
1
1
1
11
1
1
1
1
…
…
…
ε
ε
ε
ε
=
⎡
⎣
⎢⎢⎢⎢⎢⎢
⎤
⎦
⎥⎥⎥⎥⎥⎥
1
i
n
2 Notations matricielles
~
~ ~
63
Les équations pour , s’écrivent matriciellement :2 i = 1 n. . .
3 Y X = +β ε
Les hypothèses faites sur les termes aléatoires s’écrivent :ε ε1 . . . n
4 ( )E ε = 0
5 ( )E ε ε σ′ = I2
Enfin, rang (X) supposé = +k 1
~ ~~
~ ~
~~
64
β β β0 1, . . . k
ESTIMATION DES PARAMÈTRES DU MODÈLEII
Nous recherchons les estimations des paramètres
permettant de reconstituer au mieux les données à partir des
observations .
, . . .β β β0 1 k
1 Estimation des paramètres
yi
β β β0 1, … k
65
Nous recherchons minimisant, . . .β β β0 1 k
6 ( )y x xi ik k iki
n− − −
=∑ β β β0 1
2
1
. . .
Avec ety =
⎡
⎣
⎢⎢⎢⎢⎢⎢
⎤
⎦
⎥⎥⎥⎥⎥⎥
y
y
y
1
i
n
β
β
β
β
=
⎡
⎣
⎢⎢⎢⎢⎢⎢
⎤
⎦
⎥⎥⎥⎥⎥⎥
0
i
k
~ ~
66
6 7 y − =Xβ2
L’ensemble des vecteurs lorsque varie, est le sous-
espace vectoriel de Rn engendré par les
Xβ β
~ ~où norme usuelle
x x xk0 1, …W colonnes de X
notées .
y y−
y X= β
y
W
x0
x1
xk
67
Le minimum de est obtenu en prenant la projection orthogonale7
y X= β
( )y y− ∈ ⊥ W
8
Ainsi :
( )y X j−′
= = , . . .β x j k0 0 1
( )y X X−′
=β 0
soit matriciellement :
9 en transposant :
′ = ′X X X yβ10
Le rang de étant égal au rang de est de rang ,
donc inversible :
′X X X X X, ′ k + 1
du vecteur Y sur le sous-espace vectoriel W.
68
vecteur des « »
estimation des moindres carrés de
11 ( )β = ′ ′−X X X y1
β β=
= =
==
y Xβ Yi
e y y− vecteur des erreurs
⎧
⎨⎪
⎩⎪
69
B de β
Le vecteur est une réalisation du vecteur aléatoire :
( )B X X X Y= ′ ′−1appelé estimateur des moindres carrés de β
( )β = ′ ′−X X X y1
2 Estimateur des moindres carrés
70
( )E B = β
est un estimateur sans biais de
Moyenne de
β
B
B
12
Démonstration : 3
( ) ( ) ( )B X X X Y X X X X= ′ ′ = ′ ′ +− −1 1 β ε
( )B X X X= + ′ ′−β ε1
L’espérance du vecteur étant nulle par hypothèse, on a doncε
( )E B = β
13
Propriétés de cet estimateur
71
( ) ( )V B X X= ′ −σ 2 1
Variance de B
La variance d’un vecteur aléatoire est définie comme la matrice des
covariances entre les différentes coordonnées.
12
( ) ( ) ( )V B E B B= − −′⎡
⎣⎢⎤
⎦⎥β β
( )B X X X− = ′ ′−β ε1Or
et donc :
( ) ( ) ( )[ ]V B E X X X X X X= ′ ′ ′− −′1 1εε
De plus ( )E εε σ′ = I2
14
D’après :
72
σ 2
Le vecteur e des erreurs observées est une réalisation du vecteur aléatoire :
E Y XB= −
En exprimant en fonction du vecteur aléatoire , il vient : Y B ε
15 ( ) ( ) ( )E Mn n n n, , ,1 1
= ε
où :
( )M I X X X X= − ′ ′−1
M est idempotente ′ =M M M
D’où :
3 Estimateur sans biais
M I H= −
et
avec H projecteur sur W, I H− projecteur sur W⊥
73
16 ′ = ′E E Mε ε
Notant mij le terme général de la matrice M, nous avons :
( ) ( )Esp mijj
n
i
n
i j′ ===∑∑E E Esp
11
ε ε
D’après 5 ( )Esp i j i jε ε σ= =2 pour
= 0 pour i j≠
74
Nous en concluons :
18 ( ) ( )Esp E E M′ = σ 2 Trace
L’opérateur «Trace» vérifiant les relations :
( ) ( ) ( )Trace A + B A B= +Trace Trace
( ) ( )Trace AB BA= Trace
19 ( )Trace M n k= − − 1
( )Trace M ( )[ ]= ′ ′−Trace XI - X X X 1
( )[ ]= − ′ ′ −Trace I X X X XTrace 1
( )= − +n k 1
En effet :
75
Par conséquent :
Σ 2
1 = ′
− −E E
n kest un estimateur sans biais de σ 2
et :
σ 2
1 = ′
− −e e
n kest l’estimation de σ 2
c’est-à-dire :
σ 2
2
1
1=
− −=∑ e
n k
ii
n
76
COMPLÉMENTS CONCERNANT LES FORMULES DE DÉCOMPOSITIONIII
Théorème de Cochran
Soit Q1, Q2, ... Qk, k formes quadratiques sur Y telles que :
Q Y Y Yjj
k
i=∑ ∑= ′ =
1
2 ,
χ 2
( ) rang Q pjj
k
=∑ =
1
Chaque Qj est une variable
Les Qj sont indépendantes
c’est-à-dire réalisant une décomposition du carré de norme de Y.
Alors, les trois conditions suivantes sont équivalentes :
77
22i 2
n2 2 suit = χσ σ
∑ε ε
Conséquences
W
ε
Xβ Y
Y
Y XB=
ε β2 2 2= − + −Y XB XB X
Or, est un vecteur gaussien où les suivent indépendamment des lois ( )0,σε i ε
donc :
78
Or, ( )Y XB I HXB X H− = −− =
⎧⎨⎩
εεβ
où H ( )X X X X′ ′−1
I H− =
On a donc :
( )ε ε ε ε ε2 = + −′ ′H I H
Le théorème de Cochran indique alors que :
Y XB−2
2σ
X XBβ
σ
−2
2
χ n p− −12
χp+12
projecteur sur W
projecteur sur W⊥
=
79
ÉLÉMENTS DE DÉMONSTRATIONIV(concernant le test de Fisher Snedecor)
" ... " kβ β β1 2 0= = = =
alors : est une réalisation d’un ( )12 1
2
1σ y y
i
n−
=∑ χn−1
2
(comme variance d’un échantillon aléatoire de variables normales de
mêmes lois)
( )∀β
−∑ : y yi i
2
2σest une réalisation d’un χ n k− −1
2
= SCRσ 2
Si
80
" ... " ( kβ β β β1 2 00= = = = )
( ) ( )SC X y yk i1 X =
2 2
. . .σ σ
−∑
" ... " ( rβ β β β1 2 00= = = = )
( )SC X r1 X 2
. . .σ
( )H k0 0 : r +1 0β β β= = =. . . "
( ) ( )SC X SC X
X Xk r1 12
. . . . . .−σ
Même raisonnement avec un modèle à r variables
quelconque
Si
est une réalisation d’un χk2
Si
quelconque
est une réalisation d’un χ r2
Sous quelconque
est une réalisation d’un χk r−2
81
LES DIFFÉRENTES SOMMES DECARRÉS DANS UN MODÈLE LINÉAIREV
Type I S.S.
Soit un modèle : Y X ... X k k= + + +β β β0 1 1
X1
X2
X3
( )SCE X1
( ) ( )SCE SCE X X X1 2 1, −
( ) ( )SCE SCE X X X X X1 2 3 1 2, , ,−
Les sommes de carrés de type 1 tiennent compte de l’ordre dans lequel
sont citées les variables (ou effets).
( )SCE XX X Xi j i j, . . . , . . .= somme des carrés expliquée par les variablesoù
82
Type II S.S.
X1
X2
X3
( ) ( )1 2 3 2 3SCE X , X , X SCE X , X−
( ) ( )SCE SCE X X X X X1 2 3 1 3, , ,−
( ) ( )SCE SCE X X X X X1 2 3 1 2, , ,−
Quand on utilise les sommes de carrés de type II, on mesure pour
chaque variable (ou effet) de combien diminuerait la somme des
carrés expliquées si on la supprimait du modèle, les autres variables
restant présentes.
L’ordre dans lequel sont citées les variables est sans importance.
83
Type III S.S.
«Il s’agit de l’équivalent en analyse de variance du type II S.S. en
régression multiple». Les variables explicatives sont qualitatives.