Redes Neurais: Estimação de Densidades

20
Estimação Estimação de Densidades de Densidades Renato Vicente Renato Vicente [email protected]. [email protected]. br br 10/01, 10/01, mpmmf mpmmf , IME/FEA , IME/FEA USP USP

Transcript of Redes Neurais: Estimação de Densidades

Page 1: Redes Neurais: Estimação de Densidades

Estimação Estimação de Densidadesde Densidades

Renato VicenteRenato [email protected]@if.usp.brbr

10/01, 10/01, mpmmfmpmmf, IME/FEA , IME/FEA –– USPUSP

Page 2: Redes Neurais: Estimação de Densidades

Estimação de DensidadesEstimação de Densidades

Métodos ParamétricosMétodos ParamétricosMétodos de Núcleo (Métodos de Núcleo (KernelKernel MethodsMethods))Misturas de Distribuições Misturas de Distribuições Algoritmo EMAlgoritmo EM

Page 3: Redes Neurais: Estimação de Densidades

Métodos ParamétricosMétodos Paramétricos

Uma forma funcional Uma forma funcional específica, parametrizada por específica, parametrizada por é assumida para a densidade de probabilidade.é assumida para a densidade de probabilidade.

..Na ausência de dados há uma incerteza com relação ao valor dos Na ausência de dados há uma incerteza com relação ao valor dos parâmetros representada pela distribuição a priori parâmetros representada pela distribuição a priori

Uma vez os dados Uma vez os dados DD são observados, nossa idéia sobre quais são observados, nossa idéia sobre quais parâmetros melhor ajustam os dados é modificada para o posterioparâmetros melhor ajustam os dados é modificada para o posterior r

( | )p x θ θ

( )p θ

( | )p Dθ

-10 -5 0 5 100

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

θ

p(θ⏐ D)

p(θ)

Page 4: Redes Neurais: Estimação de Densidades

Métodos ParamétricosMétodos Paramétricos

A densidade que se deseja inferir a partir dos dados D é

Considerando a parametrização

( | )p x D

( | ) ( , | )

( | , ) ( | )

( | ) ( | )densidade assumida posterior

a priori atualizado

p x D p x D d

p x D p D d

p x p D d

θ θ

θ θ θ

θ θ θ=

=

=

=

∫∫∫

Page 5: Redes Neurais: Estimação de Densidades

Métodos ParamétricosMétodos Paramétricos

O posterior pode ser obtido do a priori via Teorema de O posterior pode ser obtido do a priori via Teorema de BayesBayes::

Assumindo independência entre cada uma das amostras Assumindo independência entre cada uma das amostras do conjunto de dados D a verossimilhança pode ser do conjunto de dados D a verossimilhança pode ser fatoradafatorada::

( | )( | ) ( )( | ) ( )

p Dp D pp D p d

θθ θθ θ θ

=′ ′ ′∫

1

( | ) ( | )N

nn

p D p xθ θ=

=∏

Page 6: Redes Neurais: Estimação de Densidades

Métodos ParamétricosMétodos Paramétricos

O a priori pode ser escolhido utilizando critériosde tratabilidade das integrais ou critérios informacionais.

Se o a priori e o posterior estiverem na mesma família o a priori é dito conjugado.

A densidade pode ser utilizada como novo a priori e atualizada com um novo dado xN+1 segundo:

( )p θ

( | )p Dθ

11

1

( , | )( | , ) ( | )( , | ) ( | )

NN

N

p D xp D x p Dp D x p D d

θθ θθ θ θ

++

+

=′ ′ ′∫

Page 7: Redes Neurais: Estimação de Densidades

Exemplo: Estimação Exemplo: Estimação Bayesiana Bayesiana em 1Dem 1D

Suponhamos um conjunto de dados Suponhamos um conjunto de dados

Assumimos que os dados são gerados de forma independente Assumimos que os dados são gerados de forma independente com distribuição gaussiana com desvio padrão com distribuição gaussiana com desvio padrão conhecido.conhecido.

Queremos inferir a média Queremos inferir a média m.m.

AssimAssim

Onde assumimos que Onde assumimos que

( ) ( | ) ( | )p x D p x m p m D dm= ∫

1{ , , }ND x x=

σ

( )221

22

1( )2

x mp x m e σ

πσ

− −=

Page 8: Redes Neurais: Estimação de Densidades

ExemploExemplo

Assumimos a seguinte estrutura para a densidade a priori:

A densidade posterior para o parâmetro m após a apresentação dos dados é

202

0

1 ( )2

20

1( )2

m m

p m e σ

πσ

− −

=

1

1

( | )( | ) ( )

( ) ( | )

N

nn

N

nn

p x mp m D p m

p m p x m dm

=

=

=′ ′ ′

∏∫

Page 9: Redes Neurais: Estimação de Densidades

ExemploExemplo

Integral necessária para a avaliação da distribuição inferida somente envolve gaussianas e é, portanto, trivial, resultando em:

2 20

02 2 2 210 0

2 2 20

1

1 1

N

N nn

N

Nm x mN N NN

σ σσ σ σ σ

σ σ σ

=

⎛ ⎞= +⎜ ⎟+ +⎝ ⎠

= +

-3 -2 -1 0 1 2 30

2

4

6

8

10

12

m

P(m⏐ DN

)

N=0 N=1

N=5

N=50

Page 10: Redes Neurais: Estimação de Densidades

Métodos de Métodos de KernelKernel

A probabilidade de que um vetor x, amostrado de uma densidade p(x) desconhecida, caia em uma região R do espaço dos vetores é

A probabilidade de que em N amostras, K estejam em R é

Um estimador para a probabilidade de R é

( )R

P p d′ ′= ∫ x x

( ) (1 )K N KN

NP K P P

K−⎛ ⎞

= −⎜ ⎟⎝ ⎠

KP EN

⎡ ⎤= ⎢ ⎥⎣ ⎦

Page 11: Redes Neurais: Estimação de Densidades

Métodos de Métodos de KernelKernel

A variância em torno deste A variância em torno deste estimador estimador é é

Assim Assim

Mas Mas

2 (1 ) 0N

K P PE PN N →∞

⎡ ⎤ −⎛ ⎞− = ⎯⎯⎯→⎢ ⎥⎜ ⎟⎝ ⎠⎢ ⎥⎣ ⎦

KPN ( ) ( )

( )

R

P p d p V

P KpV NV

′ ′=

=

∫ x x x

x

Page 12: Redes Neurais: Estimação de Densidades

Janela de Janela de ParzenParzen

1

nN

n

K Hh=

⎛ ⎞−= ⎜ ⎟

⎝ ⎠∑ x x

11 , 1,...,( ) 2

0, . .

jse u j dH

c c

⎧ < =⎪= ⎨⎪⎩

u X

h

1

1 1( )nN

dn

Kp HNV N h h=

⎛ ⎞−= = ⎜ ⎟

⎝ ⎠∑ x xx

Page 13: Redes Neurais: Estimação de Densidades

Mixture ModelsMixture Models

1

1

( ) ( | )

1

M

jj

M

jj

p P p j

w

=

=

=

=

x x

2

22 2

1( | ) exp2(2 )

dj

j

p jμσ

πσ

⎧ ⎫−⎪ ⎪= −⎨ ⎬⎪ ⎪⎩ ⎭

jxx

Page 14: Redes Neurais: Estimação de Densidades

Mixture ModelsMixture Models

Os parâmetros e podem ser inferidos Os parâmetros e podem ser inferidos minimizando uma função erro (maximizando a minimizando uma função erro (maximizando a verossimilhança)verossimilhança)

μ j σ j

1

1 1

( , ) ln ( )

ln ( | )

N

j j nn

N M

j nn j

E p

P p j

μ σ=

= =

= −

= −

∑ ∑

x

x

Page 15: Redes Neurais: Estimação de Densidades

Algoritmo EMAlgoritmo EM

A variação da função erro pode ser escrita :A variação da função erro pode ser escrita :

Utilizando a desigualdade de Utilizando a desigualdade de JensenJensen

( )

( )

( )ln

( | ) ( | )ln( | )

n

n n

j n n

n j n n

PEP

P P j P jP P j

⎛ ⎞′Δ = − ⎜ ⎟⎜ ⎟

⎝ ⎠′ ′⎛ ⎞

= − ⎜ ⎟⎜ ⎟⎝ ⎠

∑ ∑

xx

x xx x

ln ln( )j j j jj j

x xλ λ⎛ ⎞

≥⎜ ⎟⎝ ⎠∑ ∑

Page 16: Redes Neurais: Estimação de Densidades

Algoritmo EMAlgoritmo EM

( )

( )

( | )1ln ( | )( | )

( | )( | ) ln

( | )

nj n

n jn n

j nn

n j n n

P jE P P jP P j

P P jP j

P P j

⎛ ⎞′ ′= − ⎜Δ ⎟⎜ ⎟

⎝ ⎠′ ′⎛ ⎞

≤ − ⎜ ⎟⎜ ⎟⎝ ⎠

∑ ∑

∑∑

xxx x

xx

x x

O erro pode ser minimizado através da minimização de um upper bound para o erro com parâmetros novos:

Com

E E Q′ ≤ +

( )( | ) ln ( | )n j nn j

Q P j P P j′ ′≡ −∑∑ x x

Page 17: Redes Neurais: Estimação de Densidades

EE--stepstep

Se o modelo for uma mistura de gaussianasSe o modelo for uma mistura de gaussianas

AssumeAssume--se uma distribuição se uma distribuição PPjj e um conjunto de e um conjunto de parâmetros iniciais e calculaparâmetros iniciais e calcula--se a esperança acima.se a esperança acima.

( ) n( | ) ln ln( )2

jn j j

n j j

Q P j P dμ

σσ

⎡ ⎤′−′ ′≡ − − −⎢ ⎥

′⎢ ⎥⎣ ⎦∑∑

xx

Page 18: Redes Neurais: Estimação de Densidades

MM--StepStep

MinimizaMinimiza--se o se o upper bound upper bound dado por Q sujeito ao vínculo dado por Q sujeito ao vínculo

Imposto pela introdução de um multiplicador de Imposto pela introdução de um multiplicador de LagrangeLagrange::

1jj

P′ =∑

10

N

jj j

Q P NPϕϕ λ λ

=

⎡ ⎤ ∂= + = ⇒ =⎢ ⎥ ∂⎣ ⎦

Page 19: Redes Neurais: Estimação de Densidades

MM--StepStep

Equações de extremo em relação aos outros parâmetros Equações de extremo em relação aos outros parâmetros fornecem:fornecem:

( | )0

( | )

n nn

jj n

n

P j

P jϕ μμ∂ ′= ⇒ =′∂

∑∑

x x

x

( )2

2( | )

10( | )

n n jn

jj n

n

P j

d P j

μϕ σσ

′−∂ ′= ⇒ =′∂

∑∑

x x

x

10 ( | )j nnj

P P jP Nϕ∂ ′= ⇒ =′∂ ∑ x

Page 20: Redes Neurais: Estimação de Densidades

BibiliografiaBibiliografia

BishopBishop, Neural , Neural Networks Networks for for Pattern RecognitionPattern Recognition, Cap 2, Cap 2

Bayesian Theory Bayesian Theory

((WileyWiley Series inSeries in Probability and StatisticsProbability and Statistics))Jose M. BernardoJose M. Bernardo, , AdrianAdrian F. M. SmithF. M. Smith