Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
73
0 2 4 6 8 10 12 14 16 18 200
0.05
0.1
0.15
0.2
0.25
Método de Máxima Verosimilhança
(Maximum Likelihood)
Seja � uma variável aleatória (v. a.) cuja densidade de probabilidade
� � �� � θ depende de um parâmetro desconhecido θ .
Admite-se conhecida a forma de � � �� � θ .
Exemplo - Distribuição Gaussiana:
( )��
���
� −−=�
�
�
����
�
����
σθ
πσθ �
��
σ2 - variância (conhecida)
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
74
Estimador de Máxima Verosimilhança
Dada uma observação de � escolher o valor de θ que maximiza a função
de verosimilhança (likelihood function)
� � � � �� � �θ θ=
ou, equivalentemente
( ){ }�� � θ
Repare-se que � � �� � θ fica uma função apenas de θ quando é feita uma
observação � .
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
75
Assim:
( ){ } ������ ���� �θ
θ θ= ou seja ( ){ } �� �
��
� θ θθθ =
∂ =∂
Quando a função de verosimilhança é gaussiana teremos:
( )�
�
�
�
�
�������
σθ
πσθ −−��
�
�
�= ��
��
� �� = −−=
∂∂ θ
σθθ
θ ����
�
Obviamente, com uma observação apenas, a melhor estimativa para a média de uma
distribuição é o próprio valor da medida. O que sucede quando temos mais medidas ?
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
76
Exemplo
e(t)
y(t)= θ +e(t)θ
θ é uma constante desconhecida, que se pretende estimar por observações
de � (que são corrompidas pelo ruído ���� ).
Para cada instante de tempo � a f.d.p. de � é:
���
���−= ����
����
�
����� ������ π
����� ���������� ≠∀ v.a. independentes (“ruído Branco”)
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
77
Pretende-se estimar θ pelo método de Máxima Verosimilhança, em função de
[ ]������ ���� �= .
Para cada uma das observações feita num instante genérico � , tendo em conta o
modelo das observações, a distribuição de y é:
( ) ( )θθπ
θ −=���
��
� −−= �����
����
�
������
��������� ��
Dado que os ���� são independentes, a distribuição conjunta das observações é:
( )∏=
=�
�
�� ������
������ θθ
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
78
Assim,
( )�
���
� �� � � ��� � � � �
��
�
� ��
� � � �θ θπ =
� �= − −� �� �
�
( ) ( ) ( )��
��� � � �� � � �
� �
�
�
�
�� � � �θ π θ
=
= − − −�
A estimativa de máxima verosimilhança satisfaz
( ){ } �� � � �� ��� � θθ∂ =
∂
( ) � ���
=−�=
�
�
���� θ sendo a estimativa �
=
=�
�
�� ��� �
��� θ
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
79
Resumo:
Observações independentes, gaussianas, com variância conhecida
As observações consistem em amostras independentes
�� � � � �� � �= �
de uma v. a. gaussiana � com f. d. p.
( ) ���� ��� ������
����
�
����
�
�=��
���
� −−= θσπσ
θ
Admite-se σ conhecido !
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
80
Sendo as observações independentes, a sua densidade conjunta é o produto
das densidades de probabilidade das observações individuais:
�� � � � � � � �� � � � �θ θ θ= �
Tendo em conta que � é gaussiana:
( ) ( ) ���
��
� −−= � =
� ���
�
�
��
����
�
��� θ
σπσθ
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
81
Definindo o resíduo como:
( ) θθε −= �� �
o simétrico do logaritmo da função de verosimilhança escreve-se
( ) ( )�
��
��� �� ���� �
� �
�
�
� θ ε θ σ π
σ =
− = + +�
Maximizar ⇔� Minimizar
�
��
��� �� ���� �
� �
�
�
� ε σ π
σ =
− = + +�
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
82
Relação com os mínimos quadrados
Se σ é conhecido, maximizar � é equivalente a minimizar o critério de Mínimos
Quadrados
( )�
�
� �
�
�
� θ ε θ=
=�
Assim, para observações independentes, gaussianas e com variância
conhecida, o critério de máxima verosimilhança é equivalente ao critério de
mínimos quadrados. Noutras situações não é assim.
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
83
Determinação Numérica do Estimador de Máxima Verosimilhança
O método de Máxima Verosimilhança determina o valor de θ que maximiza
{ }�� � �� θ
Isto é equivalente a minimizar
{ }� � �� � �� �θ θ= −
Para tal, é necessário recorrer, nos casos de interesse, a um algoritmo
numérico iterativo.
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
84
Propriedades do Estimador de Máxima Verosimilhança
Consistência : Para observações independentes o estimador ML é
consistente.
-20 -10 0 10 20 30 400
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
N muito grande
N grande
N pequeno
θo
p(θ M
L)θML
A estimativa é uma função das observações
que são v. a., pelo que também é uma
variável aleatória e, como tal, tem uma fdp.
De um modo grosseiro, a consistência
significa que a fdp da estimativa se vai
“apertando” cada vez mais quando o número
de observações aumenta.
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
85
Desigualdade de Cramer-Rao
A precisão de um estimador centrado é limitada pela desigualdade de
Cramer-Rao:
�−≥ �
em que:
• [ ]���� � �� � θθθθ −−= é a matriz de covariância do erro de estimação
• ( )�
�
���
�
∂∂−= ��� ���
�
θ é a matriz de informação de Fischer
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
86
Propriedades do Estimador de Máxima Verosimilhança
Eficiência : O estimador de Máxima verosimilhança é assimptoticamente
eficiente.
Quer dizer que, quando o número de observações independentes tende para
∞ , a covariância do erro tende para o limite de Cramér-Rao.
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
87
θ
θ
θ
e
e
y
y
1
2
1
2
sensor 1
sensor 2
Exercício: Pretende-se medir um parâmetro θ , para o que se dispõe de dois sensores que produzem
medidas �� e �� . Admite-se que o sensor � produz uma medida �� relacionada com o valor
verdadeiro do parâmetro por � �� �= +θ tal que: �� �� � ���
���� � �
��
� � �σπσ
� �= −� �
� � em que σ1=1 e σ2=2.
a) Para um determinado instante t são obtidas medidas
simultâneas dos sensores, ��(t) e �� (t). Determine a estimativa de
máxima verosimilhança do parâmetro θ , calculada a partir dessas
duas medidas.
b) Determine a variância do erro de estimação.
c) Indique o que fazer para obter melhores estimativas de θ,
admitindo que se podem obter medidas noutros instantes de
tempo.
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
88
Selecção e Validação da Estrutura do Modelo
A estrutura do modelo é dada pelos valores de m, n, e d.
������������ ������������� +−=
[ ]� ������ ��� ���=θ
1 - Quais os valores de m, n e d mais adequados para obter um bom ajuste
do modelo aos dados experimentais existentes e, simultaneamente atenuar o
efeito do ruído existente na realização da experiência ?
2 – Como avaliar a qualidade do ajuste ?
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
89
Exemplo Ilustrativo
Ajuste de dados gerados por um polinómio de terceiro grau + ruído.
-3 -2 -1 0 1 2 3-40
-30
-20
-10
0
10
20
30
x
y
Noisy data
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
90
Ajuste de Modelos de Polinómios de “complexidade” crescente
-3 -2 -1 0 1 2 3-50
-40
-30
-20
-10
0
10
20
30
x
y
Two Params
-3 -2 -1 0 1 2 3-50
-40
-30
-20
-10
0
10
20
30
xy
Three Params
-3 -2 -1 0 1 2 3-50
-40
-30
-20
-10
0
10
20
30
40
x
y
Four Params
-3 -2 -1 0 1 2 3-50
-40
-30
-20
-10
0
10
20
30
x
y
Five Params
-3 -2 -1 0 1 2 3-50
-40
-30
-20
-10
0
10
20
30
x
y
Six Params
-3 -2 -1 0 1 2 3-50
-40
-30
-20
-10
0
10
20
30
x
y
Seven Params
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
91
Erro no Conjunto de Treino vs Erro no Conjunto de Teste
1 2 3 4 5 6 70
500
1000
1500
2000
2500
3000
3500
4000
4500
Model Order
Erro
r
Train versus Test error
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
92
Sobre-ajuste – “Overfitting”
Com o aumento do número de parâmetros, o modelo tende a aproximar-se
demasiado da realização particular do processo estocástico representado
pelos dados e incorporar o ruído existente.
Deveremos escolher um número de parâmetros tal que os dados existentes
sejam bem aproximados, mas que o modelo apresente pouco erro também
para outras realizações do processo.
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
93
Avaliação da qualidade do ajuste em sistemas dinâmicos
Erro de Simulação
Sistema real : y(t) = G(q) u(t) + H(q) e(t)
Sistema Simulado: y*(t) = G(q) u(t)
Erro de simulação: ������� ����� −=ε
Pode ser usado para avaliar a qualidade do ajuste em sistemas estáveis.
Para sistemas instáveis, as perturbações desconhecidas não são devidamente
simuladas e provocam desvios da realidade que não se extinguem com o tempo.
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
94
Para sistemas instáveis temos que usar o Erro de Predição:
Sistema real : y(t+m) = G(q) u(t+m) + H(q) e(t+m)
Preditor a m passos: y(t+m | t)
Erro de predição: ������� ����� −=ε
Em breve veremos como calcular preditores para diversos horizontes temporais.
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
95
Critério de ajuste normalizado
Para comparar ajustes efectuados com diferentes conjuntos de dados temos
que normalizar o critério de erro para ser insensível à amplitude dos sinais:
( )
( )�
�=
�
�
��
�
��
�ε
Caso contrário, estaremos a penalizar experiências efectuadas com
amplitudes dos sinais elevadas, independentemente da qualidade do
ajuste.
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
96
Técnicas de Selecção da Ordem do Modelo
Havendo um número de dados suficiente:
o Diferentes conjuntos de treino, validação e teste.
Com número de dados limitados:
o Validação Cruzada o Critério de Informação Bayesiano (BIC) o Critério de Informação de Akaike (AIC) o Minimum Description Length (MDL)
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
97
Conjuntos de treino, validação e teste
Repartir os dados experimentais em subconjuntos de treino, validação e teste:
• O conjunto de treino serve para efectuar a estimação dos parâmetros dos
modelos.
• O conjunto de validação serve para verificar o comportamento dos modelos
estimados em dados novos e escolher o modelo que produz erro mínimo no
conjunto de validação.
• O conjunto de teste serve para fazer a avaliação final do modelo escolhido, num
conjunto de dados independentes.
Uma partição típica dos dados é de 50%, 25%, 25%.
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
98
Validação Cruzada
• Particionar os dados em K sub-conjuntos de tamanhos aproximados.
• Executar K-1 estimações do modelo, deixando de fora um dos sub-
conjuntos à vez.
• Em cada estimação, avaliar o erro de validação-cruzada no sub-conjunto
deixado de fora.
• Calcular o erro total de validação cruzada como a média dos erros de
validação parciais.
• Escolher o modelo conducente ao menor erro total de validação cruzada.
• Efectuar a avaliação final do modelo escolhido com o sub-conjunto
restante dos dados
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
99
Selecção de ordem do modelo com poucos dados
Nos casos em que não é possível obter um número suficiente de dados
para aplicar as técnicas anteriores, utilizam-se critérios estatísticos para
seleccionar a ordem dos modelos:
• Critério de Informação de Akaike
• Critério de Informação Bayesiano
• Minimum Description Length
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
100
Estes critérios baseiam-se na minimização de uma função com um termo que
depende do erro de ajuste e de um termo que depende da ordem do modelo.
Ordem do modelo
custo
Termo dependente
dos dados
Termo dependente
da ordem (número
de parâmetros)
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
101
Critério de Informação de Akaike
Pretende-se escolher o modelo cuja densidade de probabilidade � �� � seja
mais próxima da verdadeira �� �� .
É pois necessário introduzir uma distância entre densidades de probabilidade.
Akaike (1974) sugeriu a chamada divergência de Kullback:
( ) � � � �� � � �� � � �
�
� �� � � � � �
� �θ
θ� �
= � �� �
Escolhe-se o modelo com � mínimo.
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
102
Isto conduz ao critério de informação de Akaike (AIC). De acordo com este
critério, é escolhido o modelo que minimiza:
����� +−= ��
Este critério pode conduzir a valores de � excessivamente elevados.
Função de
verosimilhança Número de parâmetros
do modelo
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
103
Critério de Informação Bayesiano
Seja um conjunto de modelos candidatos (Mm) e correspondentes parâmetros (θm).
Pretende-se maximizar a probabilidade de um modelo, para o conjunto de dados y:
� � � � � � � � � � � � � �� � � � � � �� � � � � � � � � � � � � �θ θ∝ = �
O integral é difícil de calcular. Usa-se a aproximação de Laplace:
�� � � � �� � � � � ��� � ����
�� � �
�� � � � � � �θ= − +
N – número de dados do conjunto de treino, dm – número de parâmetros livres no
modelo.
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
104
Isto conduz ao seguinte critério – Minimizar:
�����
�� �
���� +−=
BIC é consistente – selecciona o modelo correcto para N muito grande.
Para N pequeno, BIC tende a penalizar mais os modelos complexos do que o
AIC.
O BIC permite-nos ainda estimar a probabilidade de cada modelo:
� −
−
=
�
���
���
��
�
�
����
�
�
���
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
105
Minimum Description Length
Baseado em codificação óptima de sinais. Pretende-se transmitir um conjunto de
mensagens zi, com o menor número possível de bits (length).
Atribuir códigos com menos bits a mensagens mais frequentes e códigos com mais bits
a mensagens raras.
Lower bound (Shannon):
( )�� � � � �� � �� �� ���� � ! � !≥ −�
Aplicando ao problema de estimação:
����������������������������������� !� ��������������������������"������
�� � � � � �� � � ����� � � � � �θ θ=− −� �� � � �� � � � � �
Modelação, Identificação e Controlo Digital 4-Identificação Paramétrica
J. Miranda Lemos, A. Bernardino IST-Secção de Sistemas e Controlo
106
Cálculo do MDL para modelos ARMAX
��� ����� θθε ����� −=
�=
=
�
� �
� � ��� θελ
���� λ ����� +=
Top Related