h c n n -...
Click here to load reader
Transcript of h c n n -...
Inférence via distribution asymptotique
Objective : Construction des intervalles de confiance
(approximatifs)
Soit h = c n−1/5. Donc, par conséquent d’un TCL, pour
n → ∞ :
• Estimateur localement linéaire :
n2/5 (m̂h(x)−m(x)) = N
(c2
2µ2 m(2)(x),
σ2
cf(x)R(K)
),
où µ2 =∫
u2K(u)du.
• idem pour l’estimateur NW (design équidistant) et
l’estimateur GM
n2/5 (m̂h(x)−m(x)) = N
(c2
2µ2 m(2)(x),
σ2
cf(x)R(K)
).
Donc, si l’on préfère la normalité asymptotique sans biais
asymptotique, il faut choisir h tel que n2/5 h2 → 0 pour
n → ∞, donc le bandwidth doit être (un rien) plus petit
que le h optimal de l’ordre n−1/5 ("undersmoothing").
Application : Construction des intervalles de confiance
75
Lissage avec des splines
Hypothèse : Soit m fonction de régression r-fois
différentiable.
Approche : Minimisation du critère "moindres carrés
pénalisés"
1
n
n∑
i=1
(Yi − m(Xi))2 + λ
∫(m(r))2dx
par rapport à m ∈ Cr, où λ > 0 paramètre de lissage
("penalty")
La solution (unique sur [X(1), X(n)]) est une fonction
polynômiale par morceaux :
Sur chacun des intervalles [X(i), X(i+1)], i = 1, . . . , n − 1,
un (autre) polynôme du (même) dégré r + 1.
Exemple: r = 2 ⇒ fonction polynômiale de l’ordre 3 par
morceaux ("cubic splines")
Cas extremes :
• λ = ∞ ⇒ fonction linéaire
• λ = 0 ⇒ interpolation
76
Généralités sur la méthode de lissage par splines :
• Un spline polynômial d’ordre r (du dégré r) est une
fonction polynômiale par morceau sur chaque
intervalle défini par des noeuds consécutifs qui a r
dérivées et r − 1 dérivées continues à l’intérieur de
chacun de ces intervalles. Donc la dérivée d’ordre r
est une fonction étagée avec des sauts aux noeuds.
• L’idée générale est d’estimer une fonction lisse par
balancer entre un bon "fit" (ajustement aux données)
et une estimation lisse. La caractéristique par rapport
à d’autres méthodes de lissage est l’adaptation au
changement rapide de la courbure de la fonction de
régression.
• D’autres formes de pénalisation sont possibles, par
exemple :∫
m(r)(x)2 dx, avec r = 1, 2, ... Pour r = 2
la solution est un "cubic spline" (c.à.d. de l’ordre 3)
avec des dérivées d’ordre 2 et 3 égales à zéro aux
bornes, c.à.d l’estimateur est linéaire à gauche de X(1)
et à droite de X(n).
• L’estimateur est une fonction linéaire des observations
Yi, c.à.d. m̂ = A(λ) Y .
77
78
Spline regression avec λ = 0.005
Spline Regression
0.5 1 1.5 2 2.5Net-income
0.5
11.
5
Food
79
Silverman (1984) montre que, asymptotiquement, un
estimateur de type "spline" est un estimateur à noyau
n∑
i=1
Wi(x) Yi
avec
Wi(x) =1
nh(Xi)K
(Xi − x
h(Xi)
),
bandwidth locale
h(x) =
(λ
n f(x)
)1/4
et noyau
K(u) =1
2exp(− |u|√
2) sin
( |u|√2
+π
4
)
80
Bias et variance asymptotique
• A l’intérieur :
Biais = O (λ)
var = O (n−1λ−1/4)
Donc, MSE optimal est de l’ordre O (n−8/9) pour le
choix optimal de λ = O (n−4/9)
• Aux bornes : Sans conditions supplémentaires sur m
(dérivées d’ordre 2 et 3 égales à zéro), le biais est de
l’ordre O (λ3/4) ou même O (λ1/2).
Ceci correspond à un noyau d’ordre 4 sans corrections
aux bornes avec un choix optimal de bandwidth
h = O (n−1/9) qui mène à un biais h4 = O (n−4/9) (cfr
Silverman, 1984, ci-dessus).
• Choix du paramètre de lissage λ (ou une fonction de
λ) en pratique par la méthode de validation croisée
(généralisée): GCV avec tendance habituelle de
sous-estimer m(x)
81
Estimation multivariées
Estimation des densités multivariées
Soit x ∈ Rd, H matrice (d × d) des bandwidths, définie
positive, symétrique, et K : Rd → R un noyau multivarié.
L’estimateur à noyau multivarié des densités est défini :
f̂H(x) =1
n det H
n∑
i=1
K(H−1(Xi − x)
)
Cas particuliers :
1. Noyaux radialement symétriques ("Radially
symmetric kernels")
2. Noyaux à produit ("Product kernels")
82
Radially symmetric kernel
Définition : ∃f : R → R such that K(u) = f(u′u)
Par exemple, le noyau multinormal :
K(u) = (2π)−d/2 exp(−u′u/2)
ou le noyau Epanechnikov multivarié :
K(u) =(d + 2)
2cd
(1 − u′u)I(u′u < 1)
où cd est le volume d’une boule de dimension d (c1 = 2,
c2 = π, c3 = 4π/3, etc.).
Noter la meme échelle pour chaque direction, donc à
utiliser pour des données standardisées.
83
Product kernels
Produit des noyaux univariés kj :
K(u) =d∏
j=1
kj(uj)
Pour le noyau normal réduit multivarié :
kj(x) =1√2π
e−x2/2
Ce noyau minimise le MISE dans la classe des noyaux à
produit (Epanechnikov, 1969).
Simplication évidente si H est diagonale
(H = diag(h1, . . . , hd)), où même un scalaire (H = h Id).
84
Régression multivariée
Soit X ∈ Rd et considérer le modèle
Y = m(X) + ε
L’estimateur Nadaraya-Watson est donné par
m̂H(x) =
∑ni=1 K (H−1(Xi − x)) Yi∑n
i=1 K (H−1(Xi − x))
avec H matrice (d × d) des bandwidths, définie positive et
K : Rd → R un noyau multivarié.
Sans contraintes supplémentaire : le problème du “curse
of dimensionality", dans le sens que
MISE(m̂H(x)) = O (n−4/(4+d))
⇒ taux de convergence devient faible si d est grand.
(Provenant d’une variance de l’ordre O ( 1nhd ) et même
comportement du biais comme dans le cas univarié.)
85
"Solution" : En imposant une structure, c’est parfois
possible de revenir aux taux de convergence univariés, par
exemple par le GAM Generalized Additive Model :
Y = µ + m1(X1) + . . . + md(Xd) + ε
avec des fonctions univariées mj(·). Il y a des méthodes
pour atteindre un taux de convergence univarié, par
exemple
• backfitting
• intégration marginale
Par soucis d’identification, il faut que
IE[mj(Xj)] = 0, j = 1, . . . , d t.q. µ = IE[Y ].
86