h c n n -...

12

Click here to load reader

Transcript of h c n n -...

Page 1: h c n n - perso.uclouvain.beperso.uclouvain.be/rainer.vonsachs/STAT2150/STAT2150_Transp_part6.… · Hypothèse : Soit m fonction de régression r-fois ... ⇒ taux de convergence

Inférence via distribution asymptotique

Objective : Construction des intervalles de confiance

(approximatifs)

Soit h = c n−1/5. Donc, par conséquent d’un TCL, pour

n → ∞ :

• Estimateur localement linéaire :

n2/5 (m̂h(x)−m(x)) = N

(c2

2µ2 m(2)(x),

σ2

cf(x)R(K)

),

où µ2 =∫

u2K(u)du.

• idem pour l’estimateur NW (design équidistant) et

l’estimateur GM

n2/5 (m̂h(x)−m(x)) = N

(c2

2µ2 m(2)(x),

σ2

cf(x)R(K)

).

Donc, si l’on préfère la normalité asymptotique sans biais

asymptotique, il faut choisir h tel que n2/5 h2 → 0 pour

n → ∞, donc le bandwidth doit être (un rien) plus petit

que le h optimal de l’ordre n−1/5 ("undersmoothing").

Application : Construction des intervalles de confiance

75

Page 2: h c n n - perso.uclouvain.beperso.uclouvain.be/rainer.vonsachs/STAT2150/STAT2150_Transp_part6.… · Hypothèse : Soit m fonction de régression r-fois ... ⇒ taux de convergence

Lissage avec des splines

Hypothèse : Soit m fonction de régression r-fois

différentiable.

Approche : Minimisation du critère "moindres carrés

pénalisés"

1

n

n∑

i=1

(Yi − m(Xi))2 + λ

∫(m(r))2dx

par rapport à m ∈ Cr, où λ > 0 paramètre de lissage

("penalty")

La solution (unique sur [X(1), X(n)]) est une fonction

polynômiale par morceaux :

Sur chacun des intervalles [X(i), X(i+1)], i = 1, . . . , n − 1,

un (autre) polynôme du (même) dégré r + 1.

Exemple: r = 2 ⇒ fonction polynômiale de l’ordre 3 par

morceaux ("cubic splines")

Cas extremes :

• λ = ∞ ⇒ fonction linéaire

• λ = 0 ⇒ interpolation

76

Page 3: h c n n - perso.uclouvain.beperso.uclouvain.be/rainer.vonsachs/STAT2150/STAT2150_Transp_part6.… · Hypothèse : Soit m fonction de régression r-fois ... ⇒ taux de convergence

Généralités sur la méthode de lissage par splines :

• Un spline polynômial d’ordre r (du dégré r) est une

fonction polynômiale par morceau sur chaque

intervalle défini par des noeuds consécutifs qui a r

dérivées et r − 1 dérivées continues à l’intérieur de

chacun de ces intervalles. Donc la dérivée d’ordre r

est une fonction étagée avec des sauts aux noeuds.

• L’idée générale est d’estimer une fonction lisse par

balancer entre un bon "fit" (ajustement aux données)

et une estimation lisse. La caractéristique par rapport

à d’autres méthodes de lissage est l’adaptation au

changement rapide de la courbure de la fonction de

régression.

• D’autres formes de pénalisation sont possibles, par

exemple :∫

m(r)(x)2 dx, avec r = 1, 2, ... Pour r = 2

la solution est un "cubic spline" (c.à.d. de l’ordre 3)

avec des dérivées d’ordre 2 et 3 égales à zéro aux

bornes, c.à.d l’estimateur est linéaire à gauche de X(1)

et à droite de X(n).

• L’estimateur est une fonction linéaire des observations

Yi, c.à.d. m̂ = A(λ) Y .

77

Page 4: h c n n - perso.uclouvain.beperso.uclouvain.be/rainer.vonsachs/STAT2150/STAT2150_Transp_part6.… · Hypothèse : Soit m fonction de régression r-fois ... ⇒ taux de convergence

78

Page 5: h c n n - perso.uclouvain.beperso.uclouvain.be/rainer.vonsachs/STAT2150/STAT2150_Transp_part6.… · Hypothèse : Soit m fonction de régression r-fois ... ⇒ taux de convergence

Spline regression avec λ = 0.005

Spline Regression

0.5 1 1.5 2 2.5Net-income

0.5

11.

5

Food

79

Page 6: h c n n - perso.uclouvain.beperso.uclouvain.be/rainer.vonsachs/STAT2150/STAT2150_Transp_part6.… · Hypothèse : Soit m fonction de régression r-fois ... ⇒ taux de convergence

Silverman (1984) montre que, asymptotiquement, un

estimateur de type "spline" est un estimateur à noyau

n∑

i=1

Wi(x) Yi

avec

Wi(x) =1

nh(Xi)K

(Xi − x

h(Xi)

),

bandwidth locale

h(x) =

n f(x)

)1/4

et noyau

K(u) =1

2exp(− |u|√

2) sin

( |u|√2

4

)

80

Page 7: h c n n - perso.uclouvain.beperso.uclouvain.be/rainer.vonsachs/STAT2150/STAT2150_Transp_part6.… · Hypothèse : Soit m fonction de régression r-fois ... ⇒ taux de convergence

Bias et variance asymptotique

• A l’intérieur :

Biais = O (λ)

var = O (n−1λ−1/4)

Donc, MSE optimal est de l’ordre O (n−8/9) pour le

choix optimal de λ = O (n−4/9)

• Aux bornes : Sans conditions supplémentaires sur m

(dérivées d’ordre 2 et 3 égales à zéro), le biais est de

l’ordre O (λ3/4) ou même O (λ1/2).

Ceci correspond à un noyau d’ordre 4 sans corrections

aux bornes avec un choix optimal de bandwidth

h = O (n−1/9) qui mène à un biais h4 = O (n−4/9) (cfr

Silverman, 1984, ci-dessus).

• Choix du paramètre de lissage λ (ou une fonction de

λ) en pratique par la méthode de validation croisée

(généralisée): GCV avec tendance habituelle de

sous-estimer m(x)

81

Page 8: h c n n - perso.uclouvain.beperso.uclouvain.be/rainer.vonsachs/STAT2150/STAT2150_Transp_part6.… · Hypothèse : Soit m fonction de régression r-fois ... ⇒ taux de convergence

Estimation multivariées

Estimation des densités multivariées

Soit x ∈ Rd, H matrice (d × d) des bandwidths, définie

positive, symétrique, et K : Rd → R un noyau multivarié.

L’estimateur à noyau multivarié des densités est défini :

f̂H(x) =1

n det H

n∑

i=1

K(H−1(Xi − x)

)

Cas particuliers :

1. Noyaux radialement symétriques ("Radially

symmetric kernels")

2. Noyaux à produit ("Product kernels")

82

Page 9: h c n n - perso.uclouvain.beperso.uclouvain.be/rainer.vonsachs/STAT2150/STAT2150_Transp_part6.… · Hypothèse : Soit m fonction de régression r-fois ... ⇒ taux de convergence

Radially symmetric kernel

Définition : ∃f : R → R such that K(u) = f(u′u)

Par exemple, le noyau multinormal :

K(u) = (2π)−d/2 exp(−u′u/2)

ou le noyau Epanechnikov multivarié :

K(u) =(d + 2)

2cd

(1 − u′u)I(u′u < 1)

où cd est le volume d’une boule de dimension d (c1 = 2,

c2 = π, c3 = 4π/3, etc.).

Noter la meme échelle pour chaque direction, donc à

utiliser pour des données standardisées.

83

Page 10: h c n n - perso.uclouvain.beperso.uclouvain.be/rainer.vonsachs/STAT2150/STAT2150_Transp_part6.… · Hypothèse : Soit m fonction de régression r-fois ... ⇒ taux de convergence

Product kernels

Produit des noyaux univariés kj :

K(u) =d∏

j=1

kj(uj)

Pour le noyau normal réduit multivarié :

kj(x) =1√2π

e−x2/2

Ce noyau minimise le MISE dans la classe des noyaux à

produit (Epanechnikov, 1969).

Simplication évidente si H est diagonale

(H = diag(h1, . . . , hd)), où même un scalaire (H = h Id).

84

Page 11: h c n n - perso.uclouvain.beperso.uclouvain.be/rainer.vonsachs/STAT2150/STAT2150_Transp_part6.… · Hypothèse : Soit m fonction de régression r-fois ... ⇒ taux de convergence

Régression multivariée

Soit X ∈ Rd et considérer le modèle

Y = m(X) + ε

L’estimateur Nadaraya-Watson est donné par

m̂H(x) =

∑ni=1 K (H−1(Xi − x)) Yi∑n

i=1 K (H−1(Xi − x))

avec H matrice (d × d) des bandwidths, définie positive et

K : Rd → R un noyau multivarié.

Sans contraintes supplémentaire : le problème du “curse

of dimensionality", dans le sens que

MISE(m̂H(x)) = O (n−4/(4+d))

⇒ taux de convergence devient faible si d est grand.

(Provenant d’une variance de l’ordre O ( 1nhd ) et même

comportement du biais comme dans le cas univarié.)

85

Page 12: h c n n - perso.uclouvain.beperso.uclouvain.be/rainer.vonsachs/STAT2150/STAT2150_Transp_part6.… · Hypothèse : Soit m fonction de régression r-fois ... ⇒ taux de convergence

"Solution" : En imposant une structure, c’est parfois

possible de revenir aux taux de convergence univariés, par

exemple par le GAM Generalized Additive Model :

Y = µ + m1(X1) + . . . + md(Xd) + ε

avec des fonctions univariées mj(·). Il y a des méthodes

pour atteindre un taux de convergence univarié, par

exemple

• backfitting

• intégration marginale

Par soucis d’identification, il faut que

IE[mj(Xj)] = 0, j = 1, . . . , d t.q. µ = IE[Y ].

86