Redes Neurais: Estimação de Densidades
-
Upload
renato-vicente -
Category
Education
-
view
302 -
download
2
Transcript of Redes Neurais: Estimação de Densidades
Estimação Estimação de Densidadesde Densidades
Renato VicenteRenato [email protected]@if.usp.brbr
10/01, 10/01, mpmmfmpmmf, IME/FEA , IME/FEA –– USPUSP
Estimação de DensidadesEstimação de Densidades
Métodos ParamétricosMétodos ParamétricosMétodos de Núcleo (Métodos de Núcleo (KernelKernel MethodsMethods))Misturas de Distribuições Misturas de Distribuições Algoritmo EMAlgoritmo EM
Métodos ParamétricosMétodos Paramétricos
Uma forma funcional Uma forma funcional específica, parametrizada por específica, parametrizada por é assumida para a densidade de probabilidade.é assumida para a densidade de probabilidade.
..Na ausência de dados há uma incerteza com relação ao valor dos Na ausência de dados há uma incerteza com relação ao valor dos parâmetros representada pela distribuição a priori parâmetros representada pela distribuição a priori
Uma vez os dados Uma vez os dados DD são observados, nossa idéia sobre quais são observados, nossa idéia sobre quais parâmetros melhor ajustam os dados é modificada para o posterioparâmetros melhor ajustam os dados é modificada para o posterior r
( | )p x θ θ
( )p θ
( | )p Dθ
-10 -5 0 5 100
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
θ
p(θ⏐ D)
p(θ)
Métodos ParamétricosMétodos Paramétricos
A densidade que se deseja inferir a partir dos dados D é
Considerando a parametrização
( | )p x D
( | ) ( , | )
( | , ) ( | )
( | ) ( | )densidade assumida posterior
a priori atualizado
p x D p x D d
p x D p D d
p x p D d
θ θ
θ θ θ
θ θ θ=
=
=
=
∫∫∫
Métodos ParamétricosMétodos Paramétricos
O posterior pode ser obtido do a priori via Teorema de O posterior pode ser obtido do a priori via Teorema de BayesBayes::
Assumindo independência entre cada uma das amostras Assumindo independência entre cada uma das amostras do conjunto de dados D a verossimilhança pode ser do conjunto de dados D a verossimilhança pode ser fatoradafatorada::
( | )( | ) ( )( | ) ( )
p Dp D pp D p d
θθ θθ θ θ
=′ ′ ′∫
1
( | ) ( | )N
nn
p D p xθ θ=
=∏
Métodos ParamétricosMétodos Paramétricos
O a priori pode ser escolhido utilizando critériosde tratabilidade das integrais ou critérios informacionais.
Se o a priori e o posterior estiverem na mesma família o a priori é dito conjugado.
A densidade pode ser utilizada como novo a priori e atualizada com um novo dado xN+1 segundo:
( )p θ
( | )p Dθ
11
1
( , | )( | , ) ( | )( , | ) ( | )
NN
N
p D xp D x p Dp D x p D d
θθ θθ θ θ
++
+
=′ ′ ′∫
Exemplo: Estimação Exemplo: Estimação Bayesiana Bayesiana em 1Dem 1D
Suponhamos um conjunto de dados Suponhamos um conjunto de dados
Assumimos que os dados são gerados de forma independente Assumimos que os dados são gerados de forma independente com distribuição gaussiana com desvio padrão com distribuição gaussiana com desvio padrão conhecido.conhecido.
Queremos inferir a média Queremos inferir a média m.m.
AssimAssim
Onde assumimos que Onde assumimos que
( ) ( | ) ( | )p x D p x m p m D dm= ∫
1{ , , }ND x x=
σ
( )221
22
1( )2
x mp x m e σ
πσ
− −=
ExemploExemplo
Assumimos a seguinte estrutura para a densidade a priori:
A densidade posterior para o parâmetro m após a apresentação dos dados é
202
0
1 ( )2
20
1( )2
m m
p m e σ
πσ
− −
=
1
1
( | )( | ) ( )
( ) ( | )
N
nn
N
nn
p x mp m D p m
p m p x m dm
=
=
=′ ′ ′
∏
∏∫
ExemploExemplo
Integral necessária para a avaliação da distribuição inferida somente envolve gaussianas e é, portanto, trivial, resultando em:
2 20
02 2 2 210 0
2 2 20
1
1 1
N
N nn
N
Nm x mN N NN
σ σσ σ σ σ
σ σ σ
=
⎛ ⎞= +⎜ ⎟+ +⎝ ⎠
= +
∑
-3 -2 -1 0 1 2 30
2
4
6
8
10
12
m
P(m⏐ DN
)
N=0 N=1
N=5
N=50
Métodos de Métodos de KernelKernel
A probabilidade de que um vetor x, amostrado de uma densidade p(x) desconhecida, caia em uma região R do espaço dos vetores é
A probabilidade de que em N amostras, K estejam em R é
Um estimador para a probabilidade de R é
( )R
P p d′ ′= ∫ x x
( ) (1 )K N KN
NP K P P
K−⎛ ⎞
= −⎜ ⎟⎝ ⎠
KP EN
⎡ ⎤= ⎢ ⎥⎣ ⎦
Métodos de Métodos de KernelKernel
A variância em torno deste A variância em torno deste estimador estimador é é
Assim Assim
Mas Mas
2 (1 ) 0N
K P PE PN N →∞
⎡ ⎤ −⎛ ⎞− = ⎯⎯⎯→⎢ ⎥⎜ ⎟⎝ ⎠⎢ ⎥⎣ ⎦
KPN ( ) ( )
( )
R
P p d p V
P KpV NV
′ ′=
=
∫ x x x
x
Janela de Janela de ParzenParzen
1
nN
n
K Hh=
⎛ ⎞−= ⎜ ⎟
⎝ ⎠∑ x x
11 , 1,...,( ) 2
0, . .
jse u j dH
c c
⎧ < =⎪= ⎨⎪⎩
u X
h
1
1 1( )nN
dn
Kp HNV N h h=
⎛ ⎞−= = ⎜ ⎟
⎝ ⎠∑ x xx
Mixture ModelsMixture Models
1
1
( ) ( | )
1
M
jj
M
jj
p P p j
w
=
=
=
=
∑
∑
x x
2
22 2
1( | ) exp2(2 )
dj
j
p jμσ
πσ
⎧ ⎫−⎪ ⎪= −⎨ ⎬⎪ ⎪⎩ ⎭
jxx
Mixture ModelsMixture Models
Os parâmetros e podem ser inferidos Os parâmetros e podem ser inferidos minimizando uma função erro (maximizando a minimizando uma função erro (maximizando a verossimilhança)verossimilhança)
μ j σ j
1
1 1
( , ) ln ( )
ln ( | )
N
j j nn
N M
j nn j
E p
P p j
μ σ=
= =
= −
= −
∑
∑ ∑
x
x
Algoritmo EMAlgoritmo EM
A variação da função erro pode ser escrita :A variação da função erro pode ser escrita :
Utilizando a desigualdade de Utilizando a desigualdade de JensenJensen
( )
( )
( )ln
( | ) ( | )ln( | )
n
n n
j n n
n j n n
PEP
P P j P jP P j
⎛ ⎞′Δ = − ⎜ ⎟⎜ ⎟
⎝ ⎠′ ′⎛ ⎞
= − ⎜ ⎟⎜ ⎟⎝ ⎠
∑
∑ ∑
xx
x xx x
ln ln( )j j j jj j
x xλ λ⎛ ⎞
≥⎜ ⎟⎝ ⎠∑ ∑
Algoritmo EMAlgoritmo EM
( )
( )
( | )1ln ( | )( | )
( | )( | ) ln
( | )
nj n
n jn n
j nn
n j n n
P jE P P jP P j
P P jP j
P P j
⎛ ⎞′ ′= − ⎜Δ ⎟⎜ ⎟
⎝ ⎠′ ′⎛ ⎞
≤ − ⎜ ⎟⎜ ⎟⎝ ⎠
∑ ∑
∑∑
xxx x
xx
x x
O erro pode ser minimizado através da minimização de um upper bound para o erro com parâmetros novos:
Com
E E Q′ ≤ +
( )( | ) ln ( | )n j nn j
Q P j P P j′ ′≡ −∑∑ x x
EE--stepstep
Se o modelo for uma mistura de gaussianasSe o modelo for uma mistura de gaussianas
AssumeAssume--se uma distribuição se uma distribuição PPjj e um conjunto de e um conjunto de parâmetros iniciais e calculaparâmetros iniciais e calcula--se a esperança acima.se a esperança acima.
( ) n( | ) ln ln( )2
jn j j
n j j
Q P j P dμ
σσ
⎡ ⎤′−′ ′≡ − − −⎢ ⎥
′⎢ ⎥⎣ ⎦∑∑
xx
MM--StepStep
MinimizaMinimiza--se o se o upper bound upper bound dado por Q sujeito ao vínculo dado por Q sujeito ao vínculo
Imposto pela introdução de um multiplicador de Imposto pela introdução de um multiplicador de LagrangeLagrange::
1jj
P′ =∑
10
N
jj j
Q P NPϕϕ λ λ
=
⎡ ⎤ ∂= + = ⇒ =⎢ ⎥ ∂⎣ ⎦
∑
MM--StepStep
Equações de extremo em relação aos outros parâmetros Equações de extremo em relação aos outros parâmetros fornecem:fornecem:
( | )0
( | )
n nn
jj n
n
P j
P jϕ μμ∂ ′= ⇒ =′∂
∑∑
x x
x
( )2
2( | )
10( | )
n n jn
jj n
n
P j
d P j
μϕ σσ
′−∂ ′= ⇒ =′∂
∑∑
x x
x
10 ( | )j nnj
P P jP Nϕ∂ ′= ⇒ =′∂ ∑ x
BibiliografiaBibiliografia
BishopBishop, Neural , Neural Networks Networks for for Pattern RecognitionPattern Recognition, Cap 2, Cap 2
Bayesian Theory Bayesian Theory
((WileyWiley Series inSeries in Probability and StatisticsProbability and Statistics))Jose M. BernardoJose M. Bernardo, , AdrianAdrian F. M. SmithF. M. Smith