Redes Neurais: Estimação de Densidades

Estimação Estimação de Densidadesde Densidades

Renato VicenteRenato [email protected]@if.usp.brbr

10/01, 10/01, mpmmfmpmmf, IME/FEA , IME/FEA –– USPUSP

Estimação de DensidadesEstimação de Densidades

Métodos ParamétricosMétodos ParamétricosMétodos de Núcleo (Métodos de Núcleo (KernelKernel MethodsMethods))Misturas de Distribuições Misturas de Distribuições Algoritmo EMAlgoritmo EM

Métodos ParamétricosMétodos Paramétricos

Uma forma funcional Uma forma funcional específica, parametrizada por específica, parametrizada por é assumida para a densidade de probabilidade.é assumida para a densidade de probabilidade.

..Na ausência de dados há uma incerteza com relação ao valor dos Na ausência de dados há uma incerteza com relação ao valor dos parâmetros representada pela distribuição a priori parâmetros representada pela distribuição a priori

Uma vez os dados Uma vez os dados DD são observados, nossa idéia sobre quais são observados, nossa idéia sobre quais parâmetros melhor ajustam os dados é modificada para o posterioparâmetros melhor ajustam os dados é modificada para o posterior r

( | )p x θ θ

( )p θ

( | )p Dθ

-10 -5 0 5 100

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

θ

p(θ⏐ D)

p(θ)


A densidade que se deseja inferir a partir dos dados D é

Considerando a parametrização

( | )p x D

( | ) ( , | )

( | , ) ( | )

( | ) ( | )densidade assumida posterior

a priori atualizado

p x D p x D d

p x D p D d

p x p D d

θ θ

θ θ θ

θ θ θ=

=

=

=

∫∫∫


O posterior pode ser obtido do a priori via Teorema de O posterior pode ser obtido do a priori via Teorema de BayesBayes::

Assumindo independência entre cada uma das amostras Assumindo independência entre cada uma das amostras do conjunto de dados D a verossimilhança pode ser do conjunto de dados D a verossimilhança pode ser fatoradafatorada::

( | )( | ) ( )( | ) ( )

p Dp D pp D p d

θθ θθ θ θ

=′ ′ ′∫

1

( | ) ( | )N

nn

p D p xθ θ=

=∏


O a priori pode ser escolhido utilizando critériosde tratabilidade das integrais ou critérios informacionais.

Se o a priori e o posterior estiverem na mesma família o a priori é dito conjugado.

A densidade pode ser utilizada como novo a priori e atualizada com um novo dado xN+1 segundo:

( )p θ

( | )p Dθ

11

1

( , | )( | , ) ( | )( , | ) ( | )

NN

N

p D xp D x p Dp D x p D d

θθ θθ θ θ

++

+

=′ ′ ′∫

Exemplo: Estimação Exemplo: Estimação Bayesiana Bayesiana em 1Dem 1D

Suponhamos um conjunto de dados Suponhamos um conjunto de dados

Assumimos que os dados são gerados de forma independente Assumimos que os dados são gerados de forma independente com distribuição gaussiana com desvio padrão com distribuição gaussiana com desvio padrão conhecido.conhecido.

Queremos inferir a média Queremos inferir a média m.m.

AssimAssim

Onde assumimos que Onde assumimos que

( ) ( | ) ( | )p x D p x m p m D dm= ∫

1{ , , }ND x x=

σ

( )221

22

1( )2

x mp x m e σ

πσ

− −=

ExemploExemplo

Assumimos a seguinte estrutura para a densidade a priori:

A densidade posterior para o parâmetro m após a apresentação dos dados é

202

0

1 ( )2

20

1( )2

m m

p m e σ

πσ

− −

=

1

1

( | )( | ) ( )

( ) ( | )

N

nn

N

nn

p x mp m D p m

p m p x m dm

=

=

=′ ′ ′

∏

∏∫

ExemploExemplo

Integral necessária para a avaliação da distribuição inferida somente envolve gaussianas e é, portanto, trivial, resultando em:

2 20

02 2 2 210 0

2 2 20

1

1 1

N

N nn

N

Nm x mN N NN

σ σσ σ σ σ

σ σ σ

=

⎛ ⎞= +⎜ ⎟+ +⎝ ⎠

= +

∑

-3 -2 -1 0 1 2 30

2

4

6

8

10

12

m

P(m⏐ DN

)

N=0 N=1

N=5

N=50

Métodos de Métodos de KernelKernel

A probabilidade de que um vetor x, amostrado de uma densidade p(x) desconhecida, caia em uma região R do espaço dos vetores é

A probabilidade de que em N amostras, K estejam em R é

Um estimador para a probabilidade de R é

( )R

P p d′ ′= ∫ x x

( ) (1 )K N KN

NP K P P

K−⎛ ⎞

= −⎜ ⎟⎝ ⎠

KP EN

⎡ ⎤= ⎢ ⎥⎣ ⎦

Métodos de Métodos de KernelKernel

A variância em torno deste A variância em torno deste estimador estimador é é

Assim Assim

Mas Mas

2 (1 ) 0N

K P PE PN N →∞

⎡ ⎤ −⎛ ⎞− = ⎯⎯⎯→⎢ ⎥⎜ ⎟⎝ ⎠⎢ ⎥⎣ ⎦

KPN ( ) ( )

( )

R

P p d p V

P KpV NV

′ ′=

=

∫ x x x

x

Janela de Janela de ParzenParzen

1

nN

n

K Hh=

⎛ ⎞−= ⎜ ⎟

⎝ ⎠∑ x x

11 , 1,...,( ) 2

0, . .

jse u j dH

c c

⎧ < =⎪= ⎨⎪⎩

u X

h

1

1 1( )nN

dn

Kp HNV N h h=

⎛ ⎞−= = ⎜ ⎟

⎝ ⎠∑ x xx

Mixture ModelsMixture Models

1

1

( ) ( | )

1

M

jj

M

jj

p P p j

w

=

=

=

=

∑

∑

x x

2

22 2

1( | ) exp2(2 )

dj

j

p jμσ

πσ

⎧ ⎫−⎪ ⎪= −⎨ ⎬⎪ ⎪⎩ ⎭

jxx

Mixture ModelsMixture Models

Os parâmetros e podem ser inferidos Os parâmetros e podem ser inferidos minimizando uma função erro (maximizando a minimizando uma função erro (maximizando a verossimilhança)verossimilhança)

μ j σ j

1

1 1

( , ) ln ( )

ln ( | )

N

j j nn

N M

j nn j

E p

P p j

μ σ=

= =

= −

= −

∑

∑ ∑

x

x

Algoritmo EMAlgoritmo EM

A variação da função erro pode ser escrita :A variação da função erro pode ser escrita :

Utilizando a desigualdade de Utilizando a desigualdade de JensenJensen

( )

( )

( )ln

( | ) ( | )ln( | )

n

n n

j n n

n j n n

PEP

P P j P jP P j

⎛ ⎞′Δ = − ⎜ ⎟⎜ ⎟

⎝ ⎠′ ′⎛ ⎞

= − ⎜ ⎟⎜ ⎟⎝ ⎠

∑

∑ ∑

xx

x xx x

ln ln( )j j j jj j

x xλ λ⎛ ⎞

≥⎜ ⎟⎝ ⎠∑ ∑

Algoritmo EMAlgoritmo EM

( )

( )

( | )1ln ( | )( | )

( | )( | ) ln

( | )

nj n

n jn n

j nn

n j n n

P jE P P jP P j

P P jP j

P P j

⎛ ⎞′ ′= − ⎜Δ ⎟⎜ ⎟

⎝ ⎠′ ′⎛ ⎞

≤ − ⎜ ⎟⎜ ⎟⎝ ⎠

∑ ∑

∑∑

xxx x

xx

x x

O erro pode ser minimizado através da minimização de um upper bound para o erro com parâmetros novos:

Com

E E Q′ ≤ +

( )( | ) ln ( | )n j nn j

Q P j P P j′ ′≡ −∑∑ x x

EE--stepstep

Se o modelo for uma mistura de gaussianasSe o modelo for uma mistura de gaussianas

AssumeAssume--se uma distribuição se uma distribuição PPjj e um conjunto de e um conjunto de parâmetros iniciais e calculaparâmetros iniciais e calcula--se a esperança acima.se a esperança acima.

( ) n( | ) ln ln( )2

jn j j

n j j

Q P j P dμ

σσ

⎡ ⎤′−′ ′≡ − − −⎢ ⎥

′⎢ ⎥⎣ ⎦∑∑

xx

MM--StepStep

MinimizaMinimiza--se o se o upper bound upper bound dado por Q sujeito ao vínculo dado por Q sujeito ao vínculo

Imposto pela introdução de um multiplicador de Imposto pela introdução de um multiplicador de LagrangeLagrange::

1jj

P′ =∑

10

N

jj j

Q P NPϕϕ λ λ

=

⎡ ⎤ ∂= + = ⇒ =⎢ ⎥ ∂⎣ ⎦

∑

MM--StepStep

Equações de extremo em relação aos outros parâmetros Equações de extremo em relação aos outros parâmetros fornecem:fornecem:

( | )0

( | )

n nn

jj n

n

P j

P jϕ μμ∂ ′= ⇒ =′∂

∑∑

x x

x

( )2

2( | )

10( | )

n n jn

jj n

n

P j

d P j

μϕ σσ

′−∂ ′= ⇒ =′∂

∑∑

x x

x

10 ( | )j nnj

P P jP Nϕ∂ ′= ⇒ =′∂ ∑ x

BibiliografiaBibiliografia

BishopBishop, Neural , Neural Networks Networks for for Pattern RecognitionPattern Recognition, Cap 2, Cap 2

Bayesian Theory Bayesian Theory

((WileyWiley Series inSeries in Probability and StatisticsProbability and Statistics))Jose M. BernardoJose M. Bernardo, , AdrianAdrian F. M. SmithF. M. Smith

http://www.amazon.com/exec/obidos/search-handle-url/index=books&field-author=Bernardo%2C Jose M./002-5308921-9107239

http://www.amazon.com/exec/obidos/search-handle-url/index=books&field-author=Smith%2C Adrian F. M./002-5308921-9107239

Redes Neurais: Estimação de Densidades

Education

Transcript of Redes Neurais: Estimação de Densidades