TD de régression linéaire multiple - math.univ-angers.frloustau/td2.pdf · Ecrire le modèle sous...

5
n (x i ,y i ) y i = β 0 + β 1 x i + i , i ,i =1 ...n σ 2 ˆ β ˆ β 0 ˆ β 1 var( ˆ β) ˆ β 0 ˆ β 1 ˆ β 0 ˆ β 1 ˆ ˆ Y i N (02 ) σ 2 β 0 β 1 β (β 0 1 ) x R ˆ Y (x) Y = β 0 + β 1 X 1 + β 2 X 2 + H 0 :”β 1 = β 2 = 0” 95% R 2 σ 2

Transcript of TD de régression linéaire multiple - math.univ-angers.frloustau/td2.pdf · Ecrire le modèle sous...

Page 1: TD de régression linéaire multiple - math.univ-angers.frloustau/td2.pdf · Ecrire le modèle sous forme matricielle. 2. Estimer le vecteur puis donner l'équation de l'hyperplan

M2 Pro Ingénierie Mathématique Année 2011-2012Université d'Angers, Université de Nantes

TD de régression linéaire multiple

Exercice 1 : Notation matricielle

On considère le modèle de régression linéaire simple du Chapitre 1 où l'on dispose de n obser-vations (xi, yi) véri�ant

yi = β0 + β1xi + εi,

où l'on suppose que les variables εi, i = 1 . . . n sont centrées, de variance σ2 et non-correlées. Onveut retrouver les propriétés du Chapitre 1 à l'aide des notations matricielles du Chapitre 2.

1. Ecrire le modèle sous la forme matricielle d'un modèle de régression linéaire multiple.

2. Calculer l'estimateur des moindres carrés β dans le modèle matriciel et retrouver les estima-teurs β0 et β1 du modèle de régression simple.

3. A l'aide de la formule matricielle de var(β), retrouver les variances de β0 et β1, et la covariance

entre β0 et β1. De même pour les résidus ε et les valeurs estimées Y .

4. On suppose à présent que les εi sont i.i.d. de loi normale N(0, σ2), où σ2 est inconnue. Apartir des lois des estimateurs du modèle matriciel, retrouver les intervalles de con�ance deβ0 et β1.

5. A partir de la région de con�ance simultanée de β du modèle matriciel, retrouver l'ellipse decon�ance de (β0, β1) de la régression simple.

6. On observe un nouveau point x ∈ R. A partir des propriétés de Y (x) du modèle matriciel,retrouver l'intervalle de con�ance de cet estimateur.

Exercice 2 : Tableau ANOVA

On considère le modèle de régression linéaire multiple Y = β0 + β1X1 + β2X2 + ε.

1. Compléter le tableau d'analyse de variance correspondant :

Variance ddl SC MCE FRegression 1504.4Residus n-3 19.6Totale n-1 1680.8

2. Tester l'hypothèse nulle H0 : ”β1 = β2 = 0” au niveau 95%.

3. Quel est le R2 du modèle. Proposer une interprétation géométrique du résultat.

4. Donner une estimation de σ2, la variance de ε.

1

Page 2: TD de régression linéaire multiple - math.univ-angers.frloustau/td2.pdf · Ecrire le modèle sous forme matricielle. 2. Estimer le vecteur puis donner l'équation de l'hyperplan

Exercice 3 : Production industrielle

On étudie l'in�uence des heures de travail et du capital utilisé sur la production industrielle.Pour cela, on dispose des observations de 9 entreprises résumées dans le tableau ci-dessous :

Obs Travail (heures) Capital (machines/heures) Production (100 tonnes)1 1100 300 602 1200 400 1203 1430 420 1904 1500 400 2505 1520 510 3006 1620 590 3607 1800 600 3808 1820 630 4309 1800 610 440

On suppose que la production est expliquée par un modèle de régression linéaire multiple avecdeux variables explicatives, le capital et le travail.

1. Ecrire le modèle sous forme matricielle.

2. Estimer le vecteur β puis donner l'équation de l'hyperplan des moindres carrés. Pour cela,on donne

(X ′X)−1 =

6.304777 −0.007800 0.011620−0.007800 0.000015 −0.0000310.011620 −0.000031 0.000072

3. Calculer les estimations de σ2 et V (β).

4. Calculer les intervalles de con�ance à 95% pour βj , j = 0, 1, 2.

5. Calculer les intervalles de con�ance simultanés pour βj , j = 0, 1, 2 au niveau de con�ance aumoins 95%, par la méthode de Bonferroni et la méthode de Sche�é.

6. Donner l'expression de la région de con�ance de β et calculer les régions de con�ances descouples (βi, βj), i 6= j.

7. Tester l'hypothèse nulle H0 : ”βj = 0” contre l'alternative H1 : ”βj 6= 0” pour j = 0, 1, 2.

8. Construire le tableau d'analyse de variance et réaliser le test de Fisher global d'hypothèsenulle H0 : ”β1 = β2 = 0” au risque α = 5%. Conclure.

2

Page 3: TD de régression linéaire multiple - math.univ-angers.frloustau/td2.pdf · Ecrire le modèle sous forme matricielle. 2. Estimer le vecteur puis donner l'équation de l'hyperplan

Exercice 4 : Attaques cardiaques

Les données que nous étudions présentent le taux de décès par attaque cardiaque chez les hommesde 55 à 59 ans dans di�érents pays industrialisés. Les variables sont Y = 100× log(nbre de décèspar crise cardiaque pour 100000 hommes)−2), X1 = 1000×téléphones par habitants, X2 =caloriesgrasses en pourcentage du total des calories et X3 =calories provenant de protéines animales enpourcentage du total des calories.

Pays X1 X2 X3 YAustralie 124 33 8 81Autriche 49 31 6 55Canada 181 38 8 80Ceylan 4 17 2 24Chili 22 20 4 78

Danemark 152 39 6 52Finlande 75 30 7 88France 54 29 7 45

Allemagne 43 35 6 50Irlande 41 31 5 69Israël 17 23 4 66Italie 22 21 3 45Japon 16 8 3 24Mexique 10 23 3 43Pays-Bas 63 37 6 38

Nouvelle-Zélande 170 40 8 72Norvège 15 38 6 41Portugal 15 25 4 38Suède 221 39 7 52Suisse 171 33 7 52

Grande-Bretagne 97 38 6 66Etats-Unis 254 39 8 89

1. Régresser Y sur X1 et tester la signi�cation de cette régression.

2. Trouver l'équation de la régression multiple de Y sur X1 et X2.

3. E�ectuer un test de Fisher global d'hypothèse nulle H0 : ”β1 = β2 = 0”.

4. E�ectuer un test de Fisher partiel pour tester le modèle 1. contre le modèle Y = β0 +β1X1 +β2X2.

5. Construire la régression multiple de Y sur X1, X2 et X3.

6. Tester le modèle de régression simple 1. contre le modèle complet 5. à l'aide d'un test deFisher partiel puis d'un test d'hypothèse linéaire H0 : ”K ′β = 0” pour K ′ ∈M2×4.

7. Construire un intervalle de con�ance à 95% pour y(x1, x2, x3) lorsque (x1, x2, x3) = (221, 39, 7).

8. Régresser X1 sur X2 et X3.

9. Donner l'intervalle de con�ance à 95% pour les coe�cients de cette régression.

3

Page 4: TD de régression linéaire multiple - math.univ-angers.frloustau/td2.pdf · Ecrire le modèle sous forme matricielle. 2. Estimer le vecteur puis donner l'équation de l'hyperplan

M2 Pro Ingénierie Mathématique Année 2011-2012Université d'Angers, Université de Nantes

TP de régression linéaire multiple

Exercice 1 : Hauteur des eucalyptus

On considère les données du �chier "eucalyptus.txt" qui exprime la hauteur de 1429 eucalyptusen fonction de leur circonférence. Nous avons mentionné dans le TP précédent qu'un modèle dutype

ht = β1 + β2 ∗ circ+ β3

√circ+ ε

améliorait la régression linéaire simple.

1. Après avoir récupéré les données, e�ectuer la phase d'estimation de cette régression via laformule :

>regmult<-lm(ht~circ+I(sqrt(circ)),data=eucalyptus)

L'opérateur I() permet de protéger la racine carrée et sera utilisé à chaque opération sur lesvariables. Commenter les résultats obtenus.

2. Retrouver "à la main" les résultats de la phase d'estimation, à savoir le vecteur β et l'écarttype de chacune des composantes. Calculer pour cela la matrice var(β) de variance covariancedu vecteur β.

3. Calculer les intervalles de con�ances des paramètres βj , j = 1, 2, 3 à l'aide des commandessuivantes :

>t<-qt(0.975,df=regmult$df.res)

>resume<-summary(regmult)

>IC<-rbind(coef(resume)[,1]-t*coef(resume)[,2],coef(resume)[,1]+t*coef(resume)[,2])

4. Tracer l'estimation de la droite de régression, ainsi qu'un intervalle de con�ance à 95% decelle-ci grâce aux commandes suivantes :

>circ<-seq(min(euca[,"circ"]),max(euca[,"circ"]),length=100)

>circ<-data.frame(circ)

>ICdte<-predict(reg2,new=circ,interval="confidence",level=0.95)

>matlines(circ$circ,cbind(ICdte),lty=c(1,2,2),col=1)

Qu'en déduisez-vous quant à la qualité d'ajustement des données au modèle et à la qualitéde l'estimation ?

5. On s'intéresse à présent à la qualité de prévision du modèle. Pour cela, on va tracer unintervalle de con�ance des prévisions de la manière suivante :

>plot(ht~circ,data=eucalyptus)

>circ=seq(min(eucalyptus[,"circ"]),max(eucalyptus[,"circ"]),length=100)

>grille<-data.frame(circ)

>ICprev<-predict(regmult,new=grille,interval="pred",level=0.95)

>matlines(grille$circ,cbind(ICprev),lty=c(1,2,2),col=1)

6. Tester la signi�cativité du modèle à l'aide du test de Fisher globalH0 : ”β = 0 = β1 = β2 = 0”en utilisant la formule faisant intervenir le R2. Retrouver le résultat de summary.

7. Tester l'apport de ce modèle de régression multiple par rapport au modèle de régression simpleà l'aide d'un test emboîtéH0 : ”ht = β0+β1∗circ” contreH1 : ”ht = β0+β1∗circ+β2

√circ” :

>regsimple<-lm(ht~circ,data=eucalyptus)

>anova(regmult,regsimple)

Retrouver le résultat dans la matrice coe�cients.

4

Page 5: TD de régression linéaire multiple - math.univ-angers.frloustau/td2.pdf · Ecrire le modèle sous forme matricielle. 2. Estimer le vecteur puis donner l'équation de l'hyperplan

Exercice 2 : Consommation de glace

On étudie la consommation de glace aux Etats-Unis sur une période de 30 semaines du 18Mars 1950 to 11 Juillet 1953. Les variables sont la période (de la semaine 1 à la semaine 30), laconsommation (Consumption en pintes par habitant), le prix des glaces (Price en dollars), le salairehebdomadaire (Income en dollars), et la température (Temp en degré fahrenheit). Les données sontdisponibles dans le �chier "icecream-R.dat".

1. Extraire les données et représenter la consommation en fonction des di�érentes variables.Représenter l'évolution du salaire (Income) en fonction de la période. Interpréter.

2. On propose de régresser la consommation sur les trois variables Price, Income et Temp.Réaliser la phase d'estimation de cette régression et commenter les résultats obtenus.

3. Déterminer les intervalles de con�ance simultanés au niveau au moins 95% pour les βj ,j = 0, . . . 3 par la méthode de Bonferroni.

4. Construire les régions de con�ance des couples (βi, βj) de paramètres et les comparer gra-phiquement aux intervalles de con�ance grâce aux commandes suivantes :

>library(ellipse)

>plot(ellipse(regmult,c(i+1,j+1),level=0.95,type="l",xlab=paste("beta",i,sep=""),

ylab=paste("beta",j,sep=""))

>points(coef(resume)[i],coef(resume)[j],pch=3)

>IC<-rbind(coef(resume)[,1]-coef(resume)[,2]*qt(0.975,regmult$df.res),coef(resume)

[,1]+qt(0.975,regmult$df.res))

>lines(c(IC[1,i],IC[1,i],IC[2,i],IC[2,i],IC[1,i]),c(IC[1,j],IC[2,j],IC[2,j],

IC[1,j],IC[1,j]),lty=2)

Qu'apporte comme information supplémentaire ces ellipses de con�ance ?

5. Tester la signi�cativité du modèle proposé à l'aide du test de Fisher global : H0 : ”β2 = β3 =β4 = 0”.

6. Tester H0 : ”Intercept = 0” puis H0 : ”Price = 0”. Tester à l'aide de la fonction anova lemodèle (sans constante) réduit aux variables "Income" et "Temp". Commenter.

7. Retrouver ces résultats à l'aide de la fonction linear.hypothesis, qui permet de faire destests d'hypothèses linéaires (documentation disponible à l'adresse suivante : www.math.univ-angers.fr/ loustau).

8. Tester à l'aide de la fonction linear.hypothesis H0 : ”Income = Temp”.

9. On s'intéresse à la prédiction de consommation de nouvelles données. Déterminer l'estimationponctuelle y et l'intervalle de con�ance associé à chacune des données suivantes :� x1=(Price=0.3, Income=85, Temp=65) ;� x2=(Price=0.26, Income=76, Temp=71) ;� x3=(Price=0.26, Income=85, Temp=90).

10. Déterminer par la méthode de Sche�é les intervalles de con�ances simultanés de y(xi), i =1, 2, 3.

11. Régresser la consommation sur le salaire et la température dans un modèle sans constante.Estimer les paramètres de la régression et répéter les questions 9. et 10. Commenter.

5