users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de...

34
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo 73 0 2 4 6 8 10 12 14 16 18 20 0 0.05 0.1 0.15 0.2 0.25 Método de Máxima Verosimilhança (Maximum Likelihood) Seja uma variável aleatória (v. a.) cuja densidade de probabilidade θ depende de um parâmetro desconhecido θ . Admite-se conhecida a forma de θ . Exemplo - Distribuição Gaussiana: ( ) - - = σ θ πσ θ σ 2 - variância (conhecida)

Transcript of users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de...

Page 1: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

73

0 2 4 6 8 10 12 14 16 18 200

0.05

0.1

0.15

0.2

0.25

Método de Máxima Verosimilhança

(Maximum Likelihood)

Seja � uma variável aleatória (v. a.) cuja densidade de probabilidade

� � �� � θ depende de um parâmetro desconhecido θ .

Admite-se conhecida a forma de � � �� � θ .

Exemplo - Distribuição Gaussiana:

( )��

���

� −−=�

����

����

σθ

πσθ �

��

σ2 - variância (conhecida)

Page 2: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

74

Estimador de Máxima Verosimilhança

Dada uma observação de � escolher o valor de θ que maximiza a função

de verosimilhança (likelihood function)

� � � � �� � �θ θ=

ou, equivalentemente

( ){ }�� � θ

Repare-se que � � �� � θ fica uma função apenas de θ quando é feita uma

observação � .

Page 3: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

75

Assim:

( ){ } ������ ���� �θ

θ θ= ou seja ( ){ } �� �

��

� θ θθθ =

∂ =∂

Quando a função de verosimilhança é gaussiana teremos:

( )�

�������

σθ

πσθ −−��

�= ��

��

� �� = −−=

∂∂ θ

σθθ

θ ����

Obviamente, com uma observação apenas, a melhor estimativa para a média de uma

distribuição é o próprio valor da medida. O que sucede quando temos mais medidas ?

Page 4: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

76

Exemplo

e(t)

y(t)= θ +e(t)θ

θ é uma constante desconhecida, que se pretende estimar por observações

de � (que são corrompidas pelo ruído ���� ).

Para cada instante de tempo � a f.d.p. de � é:

���

���−= ����

����

����� ������ π

����� ���������� ≠∀ v.a. independentes (“ruído Branco”)

Page 5: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

77

Pretende-se estimar θ pelo método de Máxima Verosimilhança, em função de

[ ]������ ���� �= .

Para cada uma das observações feita num instante genérico � , tendo em conta o

modelo das observações, a distribuição de y é:

( ) ( )θθπ

θ −=���

��

� −−= �����

����

������

��������� ��

Dado que os ���� são independentes, a distribuição conjunta das observações é:

( )∏=

=�

�� ������

������ θθ

Page 6: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

78

Assim,

( )�

���

� �� � � ��� � � � �

��

� ��

� � � �θ θπ =

� �= − −� �� �

( ) ( ) ( )��

��� � � �� � � �

� �

�� � � �θ π θ

=

= − − −�

A estimativa de máxima verosimilhança satisfaz

( ){ } �� � � �� ��� � θθ∂ =

( ) � ���

=−�=

���� θ sendo a estimativa �

=

=�

�� ��� �

��� θ

Page 7: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

79

Resumo:

Observações independentes, gaussianas, com variância conhecida

As observações consistem em amostras independentes

�� � � � �� � �= �

de uma v. a. gaussiana � com f. d. p.

( ) ���� ��� ������

����

����

�=��

���

� −−= θσπσ

θ

Admite-se σ conhecido !

Page 8: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

80

Sendo as observações independentes, a sua densidade conjunta é o produto

das densidades de probabilidade das observações individuais:

�� � � � � � � �� � � � �θ θ θ= �

Tendo em conta que � é gaussiana:

( ) ( ) ���

��

� −−= � =

� ���

��

����

��� θ

σπσθ

Page 9: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

81

Definindo o resíduo como:

( ) θθε −= �� �

o simétrico do logaritmo da função de verosimilhança escreve-se

( ) ( )�

��

��� �� ���� �

� �

� θ ε θ σ π

σ =

− = + +�

Maximizar ⇔� Minimizar

��

��� �� ���� �

� �

� ε σ π

σ =

− = + +�

Page 10: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

82

Relação com os mínimos quadrados

Se σ é conhecido, maximizar � é equivalente a minimizar o critério de Mínimos

Quadrados

( )�

� �

� θ ε θ=

=�

Assim, para observações independentes, gaussianas e com variância

conhecida, o critério de máxima verosimilhança é equivalente ao critério de

mínimos quadrados. Noutras situações não é assim.

Page 11: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

83

Determinação Numérica do Estimador de Máxima Verosimilhança

O método de Máxima Verosimilhança determina o valor de θ que maximiza

{ }�� � �� θ

Isto é equivalente a minimizar

{ }� � �� � �� �θ θ= −

Para tal, é necessário recorrer, nos casos de interesse, a um algoritmo

numérico iterativo.

Page 12: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

84

Propriedades do Estimador de Máxima Verosimilhança

Consistência : Para observações independentes o estimador ML é

consistente.

-20 -10 0 10 20 30 400

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

N muito grande

N grande

N pequeno

θo

p(θ M

L)θML

A estimativa é uma função das observações

que são v. a., pelo que também é uma

variável aleatória e, como tal, tem uma fdp.

De um modo grosseiro, a consistência

significa que a fdp da estimativa se vai

“apertando” cada vez mais quando o número

de observações aumenta.

Page 13: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

85

Desigualdade de Cramer-Rao

A precisão de um estimador centrado é limitada pela desigualdade de

Cramer-Rao:

�−≥ �

em que:

• [ ]���� � �� � θθθθ −−= é a matriz de covariância do erro de estimação

• ( )�

���

∂∂−= ��� ���

θ é a matriz de informação de Fischer

Page 14: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

86

Propriedades do Estimador de Máxima Verosimilhança

Eficiência : O estimador de Máxima verosimilhança é assimptoticamente

eficiente.

Quer dizer que, quando o número de observações independentes tende para

∞ , a covariância do erro tende para o limite de Cramér-Rao.

Page 15: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

87

θ

θ

θ

e

e

y

y

1

2

1

2

sensor 1

sensor 2

Exercício: Pretende-se medir um parâmetro θ , para o que se dispõe de dois sensores que produzem

medidas �� e �� . Admite-se que o sensor � produz uma medida �� relacionada com o valor

verdadeiro do parâmetro por � �� �= +θ tal que: �� �� � ���

���� � �

��

� � �σπσ

� �= −� �

� � em que σ1=1 e σ2=2.

a) Para um determinado instante t são obtidas medidas

simultâneas dos sensores, ��(t) e �� (t). Determine a estimativa de

máxima verosimilhança do parâmetro θ , calculada a partir dessas

duas medidas.

b) Determine a variância do erro de estimação.

c) Indique o que fazer para obter melhores estimativas de θ,

admitindo que se podem obter medidas noutros instantes de

tempo.

Page 16: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

88

Selecção e Validação da Estrutura do Modelo

A estrutura do modelo é dada pelos valores de m, n, e d.

������������ ������������� +−=

[ ]� ������ ��� ���=θ

1 - Quais os valores de m, n e d mais adequados para obter um bom ajuste

do modelo aos dados experimentais existentes e, simultaneamente atenuar o

efeito do ruído existente na realização da experiência ?

2 – Como avaliar a qualidade do ajuste ?

Page 17: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

89

Exemplo Ilustrativo

Ajuste de dados gerados por um polinómio de terceiro grau + ruído.

-3 -2 -1 0 1 2 3-40

-30

-20

-10

0

10

20

30

x

y

Noisy data

Page 18: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

90

Ajuste de Modelos de Polinómios de “complexidade” crescente

-3 -2 -1 0 1 2 3-50

-40

-30

-20

-10

0

10

20

30

x

y

Two Params

-3 -2 -1 0 1 2 3-50

-40

-30

-20

-10

0

10

20

30

xy

Three Params

-3 -2 -1 0 1 2 3-50

-40

-30

-20

-10

0

10

20

30

40

x

y

Four Params

-3 -2 -1 0 1 2 3-50

-40

-30

-20

-10

0

10

20

30

x

y

Five Params

-3 -2 -1 0 1 2 3-50

-40

-30

-20

-10

0

10

20

30

x

y

Six Params

-3 -2 -1 0 1 2 3-50

-40

-30

-20

-10

0

10

20

30

x

y

Seven Params

Page 19: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

91

Erro no Conjunto de Treino vs Erro no Conjunto de Teste

1 2 3 4 5 6 70

500

1000

1500

2000

2500

3000

3500

4000

4500

Model Order

Erro

r

Train versus Test error

Page 20: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

92

Sobre-ajuste – “Overfitting”

Com o aumento do número de parâmetros, o modelo tende a aproximar-se

demasiado da realização particular do processo estocástico representado

pelos dados e incorporar o ruído existente.

Deveremos escolher um número de parâmetros tal que os dados existentes

sejam bem aproximados, mas que o modelo apresente pouco erro também

para outras realizações do processo.

Page 21: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

93

Avaliação da qualidade do ajuste em sistemas dinâmicos

Erro de Simulação

Sistema real : y(t) = G(q) u(t) + H(q) e(t)

Sistema Simulado: y*(t) = G(q) u(t)

Erro de simulação: ������� ����� −=ε

Pode ser usado para avaliar a qualidade do ajuste em sistemas estáveis.

Para sistemas instáveis, as perturbações desconhecidas não são devidamente

simuladas e provocam desvios da realidade que não se extinguem com o tempo.

Page 22: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

94

Para sistemas instáveis temos que usar o Erro de Predição:

Sistema real : y(t+m) = G(q) u(t+m) + H(q) e(t+m)

Preditor a m passos: y(t+m | t)

Erro de predição: ������� ����� −=ε

Em breve veremos como calcular preditores para diversos horizontes temporais.

Page 23: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

95

Critério de ajuste normalizado

Para comparar ajustes efectuados com diferentes conjuntos de dados temos

que normalizar o critério de erro para ser insensível à amplitude dos sinais:

( )

( )�

�=

��

��

�ε

Caso contrário, estaremos a penalizar experiências efectuadas com

amplitudes dos sinais elevadas, independentemente da qualidade do

ajuste.

Page 24: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

96

Técnicas de Selecção da Ordem do Modelo

Havendo um número de dados suficiente:

o Diferentes conjuntos de treino, validação e teste.

Com número de dados limitados:

o Validação Cruzada o Critério de Informação Bayesiano (BIC) o Critério de Informação de Akaike (AIC) o Minimum Description Length (MDL)

Page 25: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

97

Conjuntos de treino, validação e teste

Repartir os dados experimentais em subconjuntos de treino, validação e teste:

• O conjunto de treino serve para efectuar a estimação dos parâmetros dos

modelos.

• O conjunto de validação serve para verificar o comportamento dos modelos

estimados em dados novos e escolher o modelo que produz erro mínimo no

conjunto de validação.

• O conjunto de teste serve para fazer a avaliação final do modelo escolhido, num

conjunto de dados independentes.

Uma partição típica dos dados é de 50%, 25%, 25%.

Page 26: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

98

Validação Cruzada

• Particionar os dados em K sub-conjuntos de tamanhos aproximados.

• Executar K-1 estimações do modelo, deixando de fora um dos sub-

conjuntos à vez.

• Em cada estimação, avaliar o erro de validação-cruzada no sub-conjunto

deixado de fora.

• Calcular o erro total de validação cruzada como a média dos erros de

validação parciais.

• Escolher o modelo conducente ao menor erro total de validação cruzada.

• Efectuar a avaliação final do modelo escolhido com o sub-conjunto

restante dos dados

Page 27: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

99

Selecção de ordem do modelo com poucos dados

Nos casos em que não é possível obter um número suficiente de dados

para aplicar as técnicas anteriores, utilizam-se critérios estatísticos para

seleccionar a ordem dos modelos:

• Critério de Informação de Akaike

• Critério de Informação Bayesiano

• Minimum Description Length

Page 28: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

100

Estes critérios baseiam-se na minimização de uma função com um termo que

depende do erro de ajuste e de um termo que depende da ordem do modelo.

Ordem do modelo

custo

Termo dependente

dos dados

Termo dependente

da ordem (número

de parâmetros)

Page 29: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

101

Critério de Informação de Akaike

Pretende-se escolher o modelo cuja densidade de probabilidade � �� � seja

mais próxima da verdadeira �� �� .

É pois necessário introduzir uma distância entre densidades de probabilidade.

Akaike (1974) sugeriu a chamada divergência de Kullback:

( ) � � � �� � � �� � � �

� �� � � � � �

� �θ

θ� �

= � �� �

Escolhe-se o modelo com � mínimo.

Page 30: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

102

Isto conduz ao critério de informação de Akaike (AIC). De acordo com este

critério, é escolhido o modelo que minimiza:

����� +−= ��

Este critério pode conduzir a valores de � excessivamente elevados.

Função de

verosimilhança Número de parâmetros

do modelo

Page 31: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

103

Critério de Informação Bayesiano

Seja um conjunto de modelos candidatos (Mm) e correspondentes parâmetros (θm).

Pretende-se maximizar a probabilidade de um modelo, para o conjunto de dados y:

� � � � � � � � � � � � � �� � � � � � �� � � � � � � � � � � � � �θ θ∝ = �

O integral é difícil de calcular. Usa-se a aproximação de Laplace:

�� � � � �� � � � � ��� � ����

�� � �

�� � � � � � �θ= − +

N – número de dados do conjunto de treino, dm – número de parâmetros livres no

modelo.

Page 32: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

104

Isto conduz ao seguinte critério – Minimizar:

�����

�� �

���� +−=

BIC é consistente – selecciona o modelo correcto para N muito grande.

Para N pequeno, BIC tende a penalizar mais os modelos complexos do que o

AIC.

O BIC permite-nos ainda estimar a probabilidade de cada modelo:

� −

=

���

���

��

����

���

Page 33: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

105

Minimum Description Length

Baseado em codificação óptima de sinais. Pretende-se transmitir um conjunto de

mensagens zi, com o menor número possível de bits (length).

Atribuir códigos com menos bits a mensagens mais frequentes e códigos com mais bits

a mensagens raras.

Lower bound (Shannon):

( )�� � � � �� � �� �� ���� � ! � !≥ −�

Aplicando ao problema de estimação:

����������������������������������� !� ��������������������������"������

�� � � � � �� � � ����� � � � � �θ θ=− −� �� � � �� � � � � �

Page 34: users.isr.ist.utl.ptusers.isr.ist.utl.pt/~alex/micd0506/micd4e.pdf · Dada uma observação de escolher o valor de q que maximiza a função ... De um modo grosseiro, a ... temos

Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica

J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo

106

Cálculo do MDL para modelos ARMAX

��� ����� θθε ����� −=

�=

=

� �

� � ��� θελ

���� λ ����� +=