Chapitre 1 : REGRESSION LINÉAIRE SIMPLE Plan du …ƒε σε, ou A et B sont déduit à partit de...

of 12 /12
Introduction à l’économétrie S6-LEF sc. éco. & gestion Prof. Mohamed El Merouani 1 Chapitre 1 : REGRESSION LINÉAIRE SIMPLE Plan du Chapitre : I. Introduction II. Présentation du modèle III. Hypothèses sur le modèle IV. Estimation des paramètres du modèle (Méthode de moindres carrées) V. Caractéristiques et propriétés des estimateurs VI. Intervalle de confiance sur les paramètres VII. Qualité de l’ajustement VIII. Fiabilité de la représentation IX. Prévisions à l’aide du modèle I.- Introduction : En analyse de régression, on cherche à expliquer une variable Y qui dépend d’une ou de plusieurs variables explicatives X 1 , X 2 , …,X k . Pour cela, un modèle peut représenter la relation existante entre Y et les X i . Ce modèle servira aussi pour faire des prévisions : ε + = ) , , , ( 2 1 k X X X f Y L La variable Y s’appelle la variable expliquée, dépendante ou endogène. Alors que les variables X i s’appellent explicatives, indépendantes ou exogènes. Il est nécessaire de préciser la nature de la fonction f : fonction linéaire, affine, exponentielle,…Dans le cas où : f (X)=aX+b, le modèle est dit linéaire, avec a et b sont des constantes inconnues. Le facteur ε est de nature aléatoire et il suit une loi de probabilité. ε appelé bruit blanc ou facteur de perturbation. Il représente les erreurs sur les observations de Y. S’appuyant sur des observations y 1 , y 2 ,…,y n de la variable Y, l’analyse de régression consiste à élaborer un modèle explicatif qui sera analysé statistiquement par l’estimation de ses paramètres et par divers tests d’hypothèses. II.- Présentation du modèle : Lorsqu’il n’y a qu’une seule variable explicative, on dira que le modèle de régression est simple. Le modèle de régression linéaire simple s’écrit : ε + + = aX b Y , Y est la variable à expliquer, variable dépendante ou variable endogène. X est la variable explicative, variable indépendante ou variable exogène. a et b son les paramètres du modèle. www.elmerouani.jimdo.com

Embed Size (px)

Transcript of Chapitre 1 : REGRESSION LINÉAIRE SIMPLE Plan du …ƒε σε, ou A et B sont déduit à partit de...

  • Introduction lconomtrie S6-LEF sc. co. & gestion Prof. Mohamed El Merouani

    1

    Chapitre 1 : REGRESSION LINAIRE SIMPLE

    Plan du Chapitre :

    I. Introduction II. Prsentation du modle

    III. Hypothses sur le modle IV. Estimation des paramtres du modle (Mthode de moindres carres) V. Caractristiques et proprits des estimateurs

    VI. Intervalle de confiance sur les paramtres VII. Qualit de lajustement

    VIII. Fiabilit de la reprsentation IX. Prvisions laide du modle

    I.- Introduction :

    En analyse de rgression, on cherche expliquer une variable Y qui dpend dune ou de plusieurs variables explicatives X1, X2, ,Xk.

    Pour cela, un modle peut reprsenter la relation existante entre Y et les Xi. Ce modle servira aussi pour faire des prvisions :

    += ),,,( 21 kXXXfY L

    La variable Y sappelle la variable explique, dpendante ou endogne. Alors que les variables Xi sappellent explicatives, indpendantes ou exognes. Il est ncessaire de prciser la nature de la fonction f : fonction linaire, affine, exponentielle,Dans le cas o : f (X)=aX+b, le modle est dit linaire, avec a et b sont des constantes inconnues.

    Le facteur est de nature alatoire et il suit une loi de probabilit. appel bruit blanc ou facteur de perturbation. Il reprsente les erreurs sur les observations de Y.

    Sappuyant sur des observations y1, y2,,yn de la variable Y, lanalyse de rgression consiste laborer un modle explicatif qui sera analys statistiquement par lestimation de ses paramtres et par divers tests dhypothses.

    II.- Prsentation du modle :

    Lorsquil ny a quune seule variable explicative, on dira que le modle de rgression est simple. Le modle de rgression linaire simple scrit :

    ++= aXbY ,

    o Y est la variable expliquer, variable dpendante ou variable endogne.

    X est la variable explicative, variable indpendante ou variable exogne.

    a et b son les paramtres du modle.

    www.elmerouani.jimdo.com

  • Introduction lconomtrie S6-LEF sc. co. & gestion Prof. Mohamed El Merouani

    2

    a est le coefficient de rgression, cest la pente de la droite (il mesure la variation de Y lorsque X augmente dune unit).

    b est la valeur prise par Y lorsque X=0.

    est le facteur erreur alatoire, non observable. Il comprend les erreurs de mesure et les autres facteurs explicatifs non pris en compte.

    III.- Hypothses sur le modle :

    Dabord, on suppose lexistence dune relation linaire entre Y et X.

    La variable explicative X est mesure sans erreur.

    Aussi, on suppose labsence des erreurs de spcification, c'est--dire que toutes les variables X qui sont importantes ou principales pour lexplication de la variable Y sont inclus dans la dfinition du modle.

    Les erreurs alatoires suivent une loi de probabilit normale de moyenne nulle et de variance

    constante : ),0( N .

    Le fait de supposer que 2 est constante, sappelle hypothse de Homoscdasticit .

    Comme est alatoire, alors Y est aussi une variable alatoire. Alors quil nest pas ncessaire que la variable X soit aussi alatoire.

    ( ) ( ) ( ) ( ) iiiiiii axbyEEaxbaxbEyE +=++=++=

    [ ] [ ]222 )( iiiiiY bxabxaEyEyE ++==

    [ ] 22 == iE ( )2);( ii yENy Les erreurs alatoires sont non corrles avec X.

    Les erreurs sont non corrles entre elles. C'est--dire ( ) jiCov ji = ;0, cette hypothse sappelle de non-auto corrlation des erreurs.

    IV.- Estimation des paramtres :

    La mthode que lon utilise pour estimer les paramtres dun modle de rgression est la mthode des moindres carres, bien que lon peut aussi utiliser la mthode de maximum de vraisemblance.. Soient, donc, n observations de la variable Y : y1, y2, , yn. Do, on peut crire le modle :

    yi=b+axi+ ; i=1,2,,n

    Le modle estim partir des n observations sera :

    www.elmerouani.jimdo.com

  • Introduction lconomtrie S6-LEF sc. co. & gestion Prof. Mohamed El Merouani

    3

    ii xaby +=

    Il sagit de trouver a et b telle que si on dfinit le ime rsidu iii yye = , la mthode des moindres carres consiste minimiser la somme des carres des rsidus

    Min =

    n

    iie

    1

    2 Min ( )2

    1

    =

    n

    iii yy

    On pose ( )2

    1

    2 =

    =n

    iii xabye

    Alors, ( ) ( )

    ( ) ( )

    =

    =

    =

    =

    =

    =n

    iiii

    n

    iii

    xxaby

    xaby

    a

    eb

    e

    1

    12

    2

    02

    012

    0

    0

    +++

    =++

    = = =

    = =n

    i

    n

    i

    n

    iiiii

    n

    i

    n

    iii

    xaxbxy

    xabny

    1 1 1

    2

    1 1

    0

    0

    =+

    =+

    = = =

    = =n

    i

    n

    i

    n

    iiiii

    n

    i

    n

    iii

    yxxaxb

    yxabn

    1 1 1

    2

    1 1

    )2(

    )1(

    ==i i

    ii XaYbxnay

    nb

    1

    1)1(

    ( ) == == == =

    =+=+n

    iji

    n

    i

    n

    iii

    n

    i

    n

    iiii

    n

    i

    n

    iii yxxaxXaxYyxxaxXaY

    11 1

    2

    1 11 1

    2 )2(

    ( )( )

    ( )

    =

    =

    =

    =

    =

    =

    n

    ii

    n

    iii

    n

    ii

    n

    iii

    Xx

    YyXx

    Xnx

    YXnyx

    a

    1

    2

    1

    1

    22

    1

    Ces estimateurs sont les mmes que ceux que lon obtiendrait par la mthode de maximum de vraisemblances en supposant que les erreurs thoriques sont normalement distribues.

    V.- Caractristiques des estimateurs :

    Ces estimateurs sont des fonctions linaires des observations nyyy ,,, 21 L . Ces estimateurs

    sont non-biaiss,

    ( ) aaE = et ( ) bbE = en effet :

    www.elmerouani.jimdo.com

  • Introduction lconomtrie S6-LEF sc. co. & gestion Prof. Mohamed El Merouani

    4

    ( )( )( )

    ( ) ( )( ) ( )[ ]( )

    =

    ==

    =

    =

    =

    n

    iiin

    ii

    n

    ii

    n

    iii

    YEyEXxXxXx

    YyXxEaE

    1

    1

    2

    1

    2

    1 )(1

    ( )

    ( )

    =+

    ==

    =

    2

    2

    1

    1

    2 )(

    )())((

    1

    Xx

    XxaXabaxbXx

    Xx i

    in

    iiin

    ii

    ( ) aaE =

    et ( ) ( ) ( ) )( aEXYEXaYEbE ==

    Mais, ( ) [ ] ( ) +=+==

    = Xabaxb

    nyE

    nn

    yEYE ii

    i 1)(1

    , parce que ii axbyE +=)(

    Donc ( ) bXaXabbE =+= Les variances thoriques de ces estimateurs sont :

    ( )( )

    =

    =n

    ii Xx

    aVar

    1

    2

    2

    et ( )( )

    +=

    =

    2

    1

    2

    22 1

    ii Xx

    X

    nbVar

    On peut dmontrer que les estimateurs des moindres carres sont des estimateurs linaires non biaiss variance minimale (c'est--dire efficace). On dit aussi quils sont des estimateurs BLUE Best Linear Unbiased Estimators .

    Connaissant la moyenne et la variance des estimateurs et ayant suppos que les erreurs, et

    donc les yi, sont distribues normalement, on peut conclure que les estimateurs a et b , tant des fonctions linaires des observations, obissent eux-mmes une loi normale.

    VI.- Intervalle de confiance sur les paramtres :

    Les estimateurs a et b suivent une loi normale, parce quils sont des fonctions linaires des observations yi, qui sont distribues selon une loi normale.

    On peut construire des intervalles de confiance pour chacun des paramtres a et b, pour cela,

    il faut au pralable estimer la variance des erreurs, 2 .

    Les rsidus ei tant des estimateurs des erreurs thoriques i, on doit se servir de la variance

    des rsidus (note 2eS ) comme estimateur de la variance des erreurs, la formule est donne

    par :

    www.elmerouani.jimdo.com

  • Introduction lconomtrie S6-LEF sc. co. & gestion Prof. Mohamed El Merouani

    5

    ( ) ( )

    22

    2

    222

    22

    =

    =

    ==

    n

    axby

    n

    yy

    n

    eS i

    iii

    iii

    i

    e

    On peut montrer que cet estimateur est non biais, c'est--dire : ( ) 22 =E . Les estimateurs des paramtres de la droite de rgression sont des statistiques qui suivent des lois de Student (n-2) degrs de libert :

    ( )

    2

    1

    2

    21

    =

    +

    n

    n

    ii

    e

    t

    Xx

    X

    nS

    bb et

    ( )

    2

    1

    2

    1

    =

    n

    n

    ii

    e

    t

    XxS

    aa

    Les intervalles de confiance un seuil pour les paramtres a et b sont donnes par :

    Pour a :

    ( ) ( )

    +

    =

    =

    n

    ii

    enn

    ii

    en

    XxSta

    XxSta

    1

    22;2

    1

    1

    22;2

    1

    1;

    1

    Pour b : ( ) ( )

    ++

    +

    =

    =

    n

    ii

    enn

    ii

    en

    Xx

    X

    nStb

    Xx

    X

    nStb

    1

    2

    2

    2;2

    1

    1

    2

    2

    2;2

    1

    1;1

    Comme 2 tait aussi inconnue et on la estim, on peut aussi construire un intervalle de confiance pour cette variance.

    On sait que 2

    2)2(

    n suit une loi de 2 (n-2) degrs de libert. On part donc de

    =

  • Introduction lconomtrie S6-LEF sc. co. & gestion Prof. Mohamed El Merouani

    6

    1) dans quelle mesure le phnomne est-il bien reprsent par la droite qui vient dtre dfinie?

    2) dans quelle mesure peut-on faire confiance aux coefficients b et a du modle?

    VII.-1.- Validit globale du modle:

    En construisant le modle de rgression nous avons suppos que Y dpendait de X. Il convient de tester cette hypothse en la comparant avec lhypothse nulle selon laquelle Y est indpendant de X, cest--dire que quelle que soit la valeur de X, nous obtenons toujours approximativement la mme valeur de Y.

    Avec lhypothse Y dpend de X, nous obtenons des prvisions plus proches de la ralit. Il sagit de voir si cette seconde hypothse amliore suffisament la prvision pour pouvoir rejeter lhypothse nulle.

    a.- Lois des carts:

    La loi des carts permet de relier lerreur associe lhypothse nulle et lerreur associe lhypothse Y dpend de X.

    Lerreur attache lhypothse nulle est mesure par la dispersion totale des Yi, cest--dire par la somme des carrs des carts des Yi par rapport la moyenne Y:

    Dipersion totale= ( )2 i

    i YY

    Lerreur attache la seconde hypothse, ou encore dispersion rsiduelle est donne par e2, somme des carrs des carts entre les observations Yi et les valeurs estimes i par le modle:

    Dispersion rsiduelle= ( )2 i

    ii YY

    La diffrence entre la dispersion totale et la dispersion rsiduelle correspond la dispersion explique par le modle de rgression, compte tenu du fait que

    (Yi-Y)2=(i-Y)

    2+(i-Yi)2

    On en tire la dcomposition suivante:

    (Yi-Y)2=(i-Y)

    2+(i-Yi)2

    relation connue sous le nom de loi des carts, nous pouvons crire:

    Dispersion explique = (i-Y)2

    Donc on a:

    Dispersion totale=Dispersion explique+Dispersion rsiduelle.

    www.elmerouani.jimdo.com

  • Introduction lconomtrie S6-LEF sc. co. & gestion Prof. Mohamed El Merouani

    7

    b.- Coefficient de dtermination et coefficient de corrlation:

    Coefficient de dtermination R2:

    Un premier indicateur de qualit de la reprsentation consiste mettre en relation la dispersion explique par le modle et la dispersion totale des donnes: le coefficient de dtermination R2 mesure le pouvoir explicatif du modle en valuant le pourcentage de linformation restitue par le modle par rapport la qualit dinformation initiale:

    ( )( ) totaledispersion

    expliquedispersion

    2

    2

    2 =

    =

    ii

    ii

    YY

    YYR

    Coefficient de corrlation linaire R:

    Le coefficient de corrlation est R, racine carr du coefficient de dtermination. Cest lindicateur le plus couramment employ.

    Le coefficient de corrlation linaire a pour objet de mesurer lintensit de la liaison linaire entre deux variables statistiques X et Y.

    On peut le calculer laide de plusieurs formules diffrentes.

    En premier lieu, daprs la dfinition qui vient dtre donne, nous avons:

    ( )( )

    =

    ii

    ii

    YY

    YYR

    2

    2

    On montre que R est obtenu galement laide des formules suivantes, o X et Yreprsentent les carts-type respectives des Xi et des Yi:

    ( )( )[ ] ( )YX

    YXCov

    YVarXVar

    YEYXEXER

    ,

    )()(

    )()( ==

    YX

    XYR

    = et

    Y

    XaR

    =

    Racine care de R2, cest--dire dun chiffre au plus gal 1, R a une valeur absolue galement au plus gale 1. Cette dfinition montre que le coefficient de corrlation possde le mme signe que la covariance et quil est toujours compris entre -1 et 1. Donc -1 R 1.

    Le signe du coefficient de corrlation linaire indique le sens de la relation entre X et Y. R est positif (covariance ou coefficient de rgression a positifs) ou ngatif (cas inverse).

    www.elmerouani.jimdo.com

  • Introduction lconomtrie S6-LEF sc. co. & gestion Prof. Mohamed El Merouani

    8

    Un R trs lev en valeur absolue concrtise une relation troite entre X et Y, croissante si R est positif et dcroissante, si R est ngatif.

    R=1 : dans ce cas les points se trouvent tous sur une mme droite croissante, on parle de correlation linaire positive parfaite.

    R=-1 : dans cas les points se trouvent tous sur une mme droite dcroisaante, on parle de corrlation linaire ngative parfaite.

    R=0 : dans ce cas il ny a aucune dpendance linaire entre les deux variables, on parle de corrlation linaire nulle.

    Une valeur de R faible en termes absolus caractrise une absence de relation linaire entre X et Y, mais pas ncessairement labsence de liaison entre les variables.

    c.- Analyse de la variance pour la rgression (test F):

    La valeur du coefficient de correlation est calcule partir des donnes disponibles.

    Un coefficient de correlation trs lev, mais obtenu sur peu de donnes est moins significatif quun coefficient plus faible, mais dtermine sur un grand nombre de donnes.

    A la limite, si nous navions que deux observations, R serait gal 1, mais aucune conclusion ne saurait en tre dduite.

    Obtenu sur un chantillon de taille rduite, R devrait tre rectifi. La formule suivante est utilise, ou k est le nombre de variables explicatives et n le nombre de donnes:

    1

    11

    =kn

    n

    totaledispersion

    rsiduelledispersionR

    Le test F (analyse de la variance) permet dintgrer la taille de lchantillon dans lapprciation de la qualit de la reprsentation:

    ( )

    ( ) moyennersiduelledispersionmoyenneexpliquedispersion

    1

    2

    2

    =

    =

    kn

    YY

    k

    YY

    Fii

    i

    Cette valeur doit tre compare celle qui est lue dans une table de Fisher-Sndcor pour k degr de libert au numrateur et n-k-1 au dnominateur un seuil de confiance .

    Le tableau suivant rsume cette tude dite Analyse de la variance

    www.elmerouani.jimdo.com

  • Introduction lconomtrie S6-LEF sc. co. & gestion Prof. Mohamed El Merouani

    9

    Tableau danalyse de la variance pour la rgression linaire simple (test F):

    Source Somme des carres

    Degrs de libert

    Moyenne des carrs

    F

    Rgression ( )2 YYi k ( )k

    YYi2

    ( )

    ( )1

    2

    2

    =

    kn

    YY

    k

    YY

    Fii

    i

    Erreur ( ) 2ii YY n-k-1 ( )1

    2

    kn

    YY ii

    Total ( )2 YYi n-1 F lue partir dune table de Fisher-Sndcor pour k degr de libert au numrateur et n-k-1 au dnominateur un seuil de confiance .

    VII.-2.- Validit des coefficients:

    Les tests prcdents permettent davoir une ide de la validit de la rgression dans son ensemble. Il importe de connatre galement la validit des coefficients du modle, cest--dire de a dans le cas de la rgression linaire simple.

    Cette validit est vrifie par le biais du test t et travers le calcul de lintervalle de confiance du paramtre a.

    Si lon admet que les valeurs estimer partir de diffrents chantillons dobservations suivent une loi de Student dcart-type Sa, nous pouvons valuer la probabilit que la valeur a soit diffrente de zro. La statistique t suivante

    aa S

    a

    S

    at == 0

    nous donne le nombre dcarts-type qui sparent la valeur observe de 0.

    La statistique t mesure ainsi le degr de raret, dans une population o la valeur de a est 0, dchantillons dobservations pour lesquels a=a0

    Lintervalle de confiance de a est obtenu comme on a dj vu. Si t est le nombre dcarts-types correspondant au seuil de confiance , il y a une probabilit (1-) que la valeur de a soit comprise dans lintervalle [a-t/2Sa; a+t/2Sa].

    VIII.- Fiabilit de la reprsentation:

    En ajustant le nuage de points reprsentatifs des diffrents observations par une droite, nous avons admis implicitement que la relation liant X et Y tait du type Yi=aXi+b+ei (i=1,2,,n) o ei est un terme derreur alatoire appel aussi le rsidus et respectant les conditions suivantes:

    www.elmerouani.jimdo.com

  • Introduction lconomtrie S6-LEF sc. co. & gestion Prof. Mohamed El Merouani

    10

    ei est une variable alatoire normale de moyenne nulle,

    ei est indpendant de ek: aucune corrlation nexiste entre les rsidus,

    ei est indpendant de Xi: aucune corrlation ne peut tre trouve entre le terme derreur et la valeur de la variable.

    Il convient de vrifier si ces conditions sont bien respectes, en particulier les deux dernires.

    Lorsquil y a autocorrlation entre les rsidus, les erreurs ne sont plus indpendantes:

    Lautocorrlation positive caractrise une situation o

    ei > 0 ei+1 > 0

    ei< 0 ei+1 < 0 .

    Un tel phnomne est enregistr par exemple sur le graphique suivant:

    Lautocorrlation ngative caractrise les situations o

    ei > 0 ei+1 < 0

    ei < 0 ei+1 > 0 .

    le graphique suivant montre un tel cas:

    www.elmerouani.jimdo.com

  • Introduction lconomtrie S6-LEF sc. co. & gestion Prof. Mohamed El Merouani

    11

    Lapparition dun certain degr dautocorrlation entre les erreurs peut indiquer que le modle a t mal spcifi, omettant par exemple dintgrer une variable explicative importante.

    Le test de Durbin-Watson permet de reprer le degr dautocorrlation des rsidus: il demande de calculer

    ( )

    +=2

    21

    i

    ii

    e

    eed

    Un valeur de d proche de 2 manifeste labsence dautocorrelation, alors quune valeur faible correspond une situation dautocorrlation positive et une valeur leve une situation dautocorrlation ngative.

    L htroscdasticit est un phnomne li au fait que la variance des erreurs nest pas constante sur lensemble des observations, mais au contraire dpend de Xi.

    Cest ce qui se produit par exemple si lerreur est de plus en plus importante en valeur absolue pour des valeurs plus leves de Xi, comme on le voit sur le graphique suivant:

    Lapparation de tels phnomnes altre la fiabili des tests prsents prcdement. Lorsquils se produisent, la formulation du modle doit tre revue.

    IX.- Prvisions laide du modle :

    Un modle de rgression est construit dans le but dexpliquer partir des observations dans quelles conditions se dtermine la valeur de la variable dpendante, mais aussi de prvoir les valeurs futures de cette variable.

    En fait, il faut tenir compte de ce que le modle a t construit partir dun chantillon de donnes et quil existe de toute faon un certain ala sur les relations entre X et Y.

    www.elmerouani.jimdo.com

  • Introduction lconomtrie S6-LEF sc. co. & gestion Prof. Mohamed El Merouani

    12

    Deux types de prvisions peuvent tre poss: Prvoir la moyenne des Y pour une valeur donne de X=X0, ou prvoir une valeur individuelle de Y=Y0 pour une valeur donne de X=X0.

    1) Prvision par un intervalle pour la moyenne de Y en un point donn X0 :

    Lintervalle de confiance: un seuil de confiance , pour la moyenne de Y en X=X0 est donn par:

    ( ) ( )

    ++

    +

    222

    0

    2,2

    122

    2

    0

    2,2

    1

    1;1

    00 XnX

    XX

    nSetY

    XnX

    XX

    nStY

    nXe

    nX

    O, on le rappelle, Se est lcart-type des erreurs du modle, avec t1-/2,n-2 lue dans la table de Student n-2 degrs de libert. Lintervalle de confiance est dautant plus important que Se est lev et n est faible.

    2) Prvision dun intervalle pour une observation Y0 en un point donn X0 :

    Lintervalle de prvision ou de confiance pour une seule valeur Y0 pour une valeur donn X0 de X, est donn par :

    ( ) ( )

    +++

    ++

    222

    0

    2,2

    122

    2

    0

    2,2

    1

    11;

    11

    00 XnX

    XX

    nSetY

    XnX

    XX

    nStY

    nXe

    nX

    Cet intervalle de prvision est plus large que celui de la moyenne (pour une mme valeur X0

    de X) parce quil est plus difficile en effet de prvoir une valeur individuelle que de prvoir la

    moyenne dun ensemble de donnes.

    La rgression linaire simple nous a, donc, permis de prsenter les aspects principaux des techniques de rgression qui peuvent tre utilises dans llaboration de modles de prvision.

    www.elmerouani.jimdo.com