SID-PSM Simplex Derivative in Pattern Search Methodcheti/Apre_2.pdf · gradiente simplex é de nido...

SID-PSM

Simplex Derivative in Pattern Search Method

Bruno H. Cervelin

DMA - IMECC - UNICAMP

21 de Maio de 2012

Bruno H. Cervelin (DMA - IMECC - UNICAMP)SID-PSM Simplex Derivative in Pattern Search Method21 de Maio de 2012 1 / 34

1 Busca Padrão

2 Derivadas SimplexGradiente Simplex

3 Método SID-PSMIdenticar conjunto Λ− posicionado e calcular derivada simplexPasso de BuscaOrdenar vetores de Pk

Atualização de parâmetros

4 Testes Numéricos

Busca Padrão

1 INICIALIZAÇÃO: D = conjunto bases geradoras positivas, x0 = pontoinicial e parâmetros necessários.

2 PASSO DE BUSCA: procure x ∈ Mk que diminua o valor da funçãoobjetivo, Mk deve possuir apenas um número nito de pontos.

3 PASSO DE PESQUISA: escolha Bk ⊂ D base geradora positiva.Procure x que diminua o valor da função objetivo nas direções de Bk .

4 ATUALIZAÇÃO DO TAMANHO DO PASSO: se o passo 2 ou 3 foisucesso devemos aumentar ou manter o tamanho do passo, se nãodevemos diminuir.

Derivadas Simplex

Lembrando Simplex

O conjunto y0, y1, . . . , yn é chamado de Simplex.

Os pontos y j são chamados de vértices.

A matriz de direções simplex é S = [y1 − y0, . . . , yn − y0].

O vetor diferença de valor de função éδf (S) = [f (y1)− f (y0), . . . , f (yn − f (y0)]t .

O tamanho orientado é dado por ∆ = max1≤j≤n ‖y0 − yj‖.

Derivadas Simplex

Λ− posicionado

Neste trabalho consideraremos que uma amostra Y = y0, y1, . . . , yqposicionada (posto(S) completo) é Λ− posicionada quando

‖D−1‖ ≤ Λ,

onde D é a matriz diagonal da decomposição SVD da matriz

∆= UDV t .

Derivadas Simplex Gradiente Simplex

Denições de Gradiente Simplex

No caso denido (quando temos uma amostra com n + 1 pontos) ogradiente simplex é denido como

Gradiente simplex denido

∇S f (x0) = S−tδf (S).

Caso tenhamos nossa amostra seja y0, y1, . . . , yq com q 6= n então ogradiente simplex é denido como

Gradiente simplex geral

S t∇S f (x0) = δf (S).

Se q < n resolvemos o problema no sentido de quadrados mínimos, seq > n resolvemos o problema no sentido de solução com norma mínima.

∇S f como aproximação para ∇f

Com a decomposição SVD reduzida de St

∆ temos o seguinte teorema:

Teorema

Se f for continuamente diferenciável em Ω ⊃ B(y0,∆) e ∇f for Lipschitzcontínua em Ω então

‖V t [∇f (y0)−∇S f (y0)]‖ ≤ (√qγ

2‖D−1‖)∆,

onde V = I se q ≥ n, V = V se q < n, e γ > 0 é a constante de Lipschitz.

O que diz o Teorema?

Erro é projetado sobre Nu(St

∆ );

Se q < n não temos garantia sobre a precisão;

O erro depende de ‖D−1‖, que depende unicamente da amostra queestamos utilizando, logo devemos tomar amostras que sejamΛ− posicionadas com Λ pequeno.

Mesmo no caso indeterminado ∇S f pode nos fornecer informaçõesrelevantes sobre ∇f quando q ≈ n;

∆ );

Método SID-PSM

1 Inicialização2 Identicar conjunto Λ− posicionado e calcular derivada simplex3 Passo de busca4 Ordenar vetores do conjunto Pk

5 Passo de pesquisa6 Atualização do tamanho do passo

Método SID-PSMIdenticar conjunto Λ − posicionado e calcular derivada

simplex

Identicar conjunto Λ− posicionado

Em toda iteração armazenamos informações sobre os pontos avaliadosem uma lista.

Vericamos se temos um número mínimo de pontos armazenados.

Se tivermos procuramos nesta lista, um conjunto de pontos quedistam no máximo ∆k de x0 e seja Λ− posicionado.

∆k deve ser um múltiplo σ do raio da menor bola centrada em x0contendo Pk

Se o conjunto encontrado tiver um número mínimo de pontoscalculamos alguma derivada simplex.

simplex

Método SID-PSM Passo de Busca

Passo de Busca

Se soubermos uma direção de descida dk podemos projetar o pontoxk + ∆k

dk‖dk‖

, onde ∆k = σαk maxb∈Bk‖b‖, sobre a malha e teremos

um ponto "indicador de descida".

Podemos tomar dk = −∇S f (xk), dk = −(∇2

S f (xk))−1∇S f (xk) ouainda dk = −H−1k ∇S f (xk) onde Hk é alguma aproximação para ahessiana simplex, essas direções são indicadoras de descida.

Método SID-PSM Passo de Busca

Passo de Busca

Se soubermos uma direção de descida dk podemos projetar o pontoxk + ∆k

dk‖dk‖

, onde ∆k = σαk maxb∈Bk‖b‖, sobre a malha e teremos

um ponto "indicador de descida".

Podemos tomar dk = −∇S f (xk), dk = −(∇2

S f (xk))−1∇S f (xk) ouainda dk = −H−1k ∇S f (xk) onde Hk é alguma aproximação para ahessiana simplex, essas direções são indicadoras de descida.

Método SID-PSM Ordenar vetores de Pk

Algumas idéias de como ordenar

Manter sempre a mesma ordem;

Ordenar baseando-se na direção que ofereceu decrésimo na últimaiteração;

Ordenar de forma randômica;

Ordenar baseando-se em alguma direção indicadora de descida, ouseja, avaliamos primeiro as direções que estajam mais próximas, nosentido de ângulo, da direção de descida,

cos(dk , b1) ≥ cos(dk , b2) ≥ . . . ≥ cos(dk , bq);

Alguma combinação dos itens anteriores.

Método SID-PSM Atualização de parâmetros

Formas de atualizar o passo quando sucesso

Crescer o passo em todo sucesso;

Crescer o passo sempre que a mesma direção oferecer decréscimo emduas iteração sucessivas;

Utilizar a idéia de decréscimo esperado.

Decréscimo esperado

mk(x) é o modelo construido com as derivadas simplex encontradas.

ρk = f (xk)−f (xk+1)mk(xk)−mk(xk+1)

se ρk > γ2 então crescemos o passo,

se γ1 < ρk ≤ γ2 então mantemos o passo,

se ρk ≤ γ1 então diminuimos o passo.

Testes Numéricos

Conjuntos de busca usados

1 B = [I ,−e]

2 B = [I ,−I ]3 B = [e,−e, I ,−I ]4 B = conjunto com vetores com ângulos de amplitude uniforme.

Testes Numéricos

Formas de atualização do passo usadas

1 Crescer o passo em todo sucesso;2 Utilizar a idéia de decréscimo esperado permitindo decrésimo;3 Utilizar a idéia de decréscimo esperado não permitindo decrésimo;4 Crescer o passo sempre que a mesma direção oferecer decréscimo em

duas iteração sucessivas.

Testes Numéricos

Parâmetros de Inicialização

Parâmetro de Crescimento: 2

Parâmetro de decrescimento: 0.5

α0 = max(1, ‖x0‖∞)

Λ = 100

σ = 2

Mínimo de pontos para calcular ∇S f : n + 1

Máximo de pontos para calcular ∇S f : n + 1

Máximo de pontos armazenados: (n + 1)(n + 2)

Testes Numéricos

Etratégia Utilizada

Armazenamos todos os pontos analizados (tanto sucesso quantofracasso)

Calculamos gradiente simplex denidos (n + 1 pontos)

Ordenamos utilizando a última direção que ofereceu sucesso, excetoquando o Λ− posicionamento é atingindo, neste caso usamos adireção indicadora de descida.

Testes Numéricos

Critérios de Parada

Número de iterações ≥ 105

Tamanho do passo ≤ 10−5

Testes Numéricos

Tipos de funções analisadas

Todas os problemas analisados são da forma

minx∈IRn

f (x) =m∑i=1

f 2i (x).

Estes problemas são apresentados no artigo de Moré, Garbow e Hillston"Testing Unconstrained Optimization"

Testes Numéricos

Testes Realizados

Utilizamos os itens de 1 a 20 do artigo.

Utilizando B = [e,−e, I ,−I ] rodamos os métodos para as diferentesformas de atualizar o passo.

Rodamos o método de busca padrão puro (sem o uso de derivadassimplex) para os diferentes tipos de atualização de parâmetros (não épossível usar o decréscimo esperado).

Testes Numéricos

Testes Realizados

Testes Numéricos

Testes Realizados

Testes Numéricos

Testes Realizados

Fazendo α crescer somente se uma mesma direção oferecer decrésimoem duas iterações seguidas, rodamos o método SID-PSM para osdiferentes conjuntos de direções de pesquisa.

Rodamos o método de busca padrão puro para os diferentes conjuntosde direções de pesquisa.

Fizemos grácos comparativos, agrupando funções comcomportamente semelhante.

Testes Numéricos

Testes Realizados

Testes Numéricos

Testes Realizados

Testes Numéricos

Grácos e outros

Fizemos alguns grácos ilustrando como é o decrescimento da função emrelação ao número de iterações realizadas:

(a) Função de Rosen-brock com pss = 0 emesh = 0

(b) Função de Rosen-brock com pss = 1 emesh = 0

(c) Função de Rosen-brock com pss = 2 emesh = 0

Testes Numéricos

(d) Função de BrownBadly Scaled compss = 0 e mesh = 0

(e) Função de BrownBadly Scaled compss = 1 e mesh = 0

(f) Função de BrownBadly Scaled compss = 2 e mesh = 0

Testes Numéricos

Fizemos grácos comparando o número de avaliações de funções domédoto SID-PSM com o método de busca padrão pura variando a formade atualização das malhas.

Testes Numéricos

Dois tipos de atualização de parâmetros caram empatadas comomelhores: usar decréscimo esperado permitindo decréscimo, eaumentar o tamanho do passo quando a mesma direção oferecerdecréscimo para dois iterações seguidas.

Calculamos o #it#itmesh=3

para cada uma das formas de atualização deparâmetros (mesh = 3 indica umentar o tamanho do passo quando amesma direção oferecer decréscimo para dois iterações seguidas).

Calculamos a média e construimos a seguinte tabela:

mesh 0 1 2#itmesh

#itmesh=318,79 1,04 20,08

Testes Numéricos

mesh 0 1 2#itmesh

#itmesh=318,79 1,04 20,08

Testes Numéricos

mesh 0 1 2#itmesh

#itmesh=318,79 1,04 20,08

Testes Numéricos

Fizemos o mesmo processo variando agora o conjunto de pesquisa B .

Testes Numéricos

Usando a base com ângulos uniformes conseguimos o menor númerode avaliação de funções para a maior parte das funções.

Calculamos o #it#itpss=3

para cada uma das forma de atualização deparâmetros (pss = 3 indica base com ângulos uniformes).

pss 0 1 2#itpss

#itpss=41,74 13,20 1,75

Testes Numéricos

pss 0 1 2#itpss

#itpss=41,74 13,20 1,75

Testes Numéricos

pss 0 1 2#itpss

#itpss=41,74 13,20 1,75

Testes Numéricos

PROBLEMAS

Para todos os métodos a função Meyer ou não convergiu em menos de100 mil iterações (no sentido de αk < 10−5), ou quando convergiu,parou em um ponto que não é estacionário.

Para as duas funções mal-escaladas vemos que o método piora muitopara alguns parâmetros, e quando melhora, não melhorasignicativamente.

Para algumas funções, como por exemplo Watson com n = 9, ométodo converge antes de chegar a um ponto estacionário.

Testes Numéricos

PROBLEMAS

Testes Numéricos

PROBLEMAS

Testes Numéricos

VANTANGES

No geral o método diminui muito o número de avaliação de funçõesem relação a método de busca padrão sem o uso de derivadas simplex.

Quando piora (fora nos casos mal-escalados) não piora tanto(raramente chega a dobrar).

Quando o método não converge usando derivadas simplex, tambémnão converge sem usar.

Em alguns casos, como Watson com n = 6, o método convergerapidamente quando usamos as derivadas simplex, porém quando nãousamos demoramos muito para convergir.

Em alguns casos, por exemplo com Biggs EXP6, sem o uso dederivadas simplex a função não converge quando usamos B = [−e, I ]mas converge quando usamos as derivadas simplex.

Testes Numéricos

VANTANGES

Testes Numéricos

VANTANGES

Testes Numéricos

VANTANGES

Testes Numéricos

VANTANGES

SID-PSM Simplex Derivative in Pattern Search Methodcheti/Apre_2.pdf · gradiente simplex é de nido...

Documents

Transcript of SID-PSM Simplex Derivative in Pattern Search Methodcheti/Apre_2.pdf · gradiente simplex é de nido...