3. Valores y Vectores Característicos · PDF fileH. Scaletti - Métodos...

H. Scaletti - Métodos Numéricos: Valores y Vectores Característicos 3 - 1

3. Valores y Vectores Característicos

3.1. Introducción

El producto de una matriz cuadrada, A, por un vector (matriz columna), x, es otro vector,

cuyas componentes son habitualmente no proporcionales a x. Sin embargo, puede

existir un vector φφφφ no nulo tal que:

A φ φ φ φ = λ φ φ φ φ (3.1a)

Se dice entonces que φφφφ es un vector característico (también llamado vector propio,

eigenvector o modo) de la matriz A. El correspondiente escalar λ es un valor

característico (también llamado valor propio, autovalor o eigenvalor). Nótese que si un

vector satisface las ecuaciones (3.1a) también un múltiplo arbitrario (un vector "paralelo")

es solución. Sin embargo, se trata esencialmente de la misma solución; los vectores

característicos sólo se califican como distintos si sus componentes no son

proporcionales.

Por ejemplo,

=

−−

1

11

1

1

21

12

−=

−

−−

1

13

1

1

21

12

en este caso

=1

11φφφφ y

−=

1

12φφφφ son vectores característicos, a los que corresponden

los valores propios 1 y 3, respectivamente. Otros vectores, no paralelos a los dos antes

mencionados, no cumplen la condición (3.1a):

=

−−

3

0

2

1

21

12

El vector

3

0 no puede expresarse como un múltiplo de

2

1.

El problema clásico de valores y vectores característicos consiste en la determinación de

los vectores φφφφ y los correspondientes escalares λ para los que se cumple (3.1a). Con

frecuencia se presenta el problema general:

A φ φ φ φ = λ B φφφφ (3.1b)

En muchas aplicaciones las matrices A y B son simétricas y definidas positivas. En

algunos casos se hacen hipótesis simplificadoras que resultan en B diagonal. El

problema clásico, definido en (3.1a), corresponde al caso particular B = I.

3.1.1 Conversión del Problema General a la Forma C lásica

Un problema de la forma general (3.1b) puede convertirse a otro equivalente de la forma

clásica (3.1a). Así por ejemplo, si B es no singular puede determinarse:

B-1 A φ φ φ φ = λ φ φ φ φ (3.2)


Sin embargo, si A y B son simétricas (como es, por ejemplo, el caso en problemas de

vibración, en los que esas matrices son respectivamente rigideces y masas) conviene

más hacer la descomposición (Cholesky):

B = RT R (3.3a)

y efectuar entonces el cambio de variables

φ φ φ φ = R-1 z (3.3b)

con lo que se obtiene:

(R-1)T A R-1 z = λ z (3.3c)

Esto es particularmente fácil si B es diagonal.

B = B½ B½

φ φ φ φ = B-½ z (3.4)

B-½ A B-½ z = H z = λ z

Donde ji

ijij

bb

ah = .

Nótese que los valores característicos son los mismos que los del problema original; los

correspondientes vectores característicos se relacionan mediante (3.4b).

3.1.2 Polinomio Característico y Valores Propios

Las ecuaciones A φ φ φ φ = λ B φφφφ pueden también rescribirse como:

(A - λ B) φφφφ = 0 (3.5a)

que tiene soluciones no triviales sólo si la matriz (A - λ B) es singular, es decir, si:

( ) ( ) 0det =λ−=λ BAp (3.5b)

( )λp se denomina polinomio característico. Siendo A y B matrices cuadradas de orden

n, ( )λp es un polinomio de grado n, cuyas raíces son λ1, λ2, ٠٠٠ λn. En lo que sigue se

supone, sin perder generalidad, que: nλ≤⋅⋅⋅≤λ≤λ≤λ 321

3.1.3 Independencia Lineal de los Vectores Caracte rísticos

Asociado a cada uno de los n valores característicos λ i se tiene un vector φφφφi. Si λ i es

una raíz de multiplicidad m, el correspondiente vector φφφφi puede obtenerse resolviendo el

sistema de ecuaciones homogéneas: (A - λ i B) φφφφi = 0 suponiendo m componentes

arbitrarias en φφφφi.

Los vectores característicos correspondientes a valores característicos distintos son

linealmente independientes. Supóngase que éste no fuera el caso, pudiéndose obtener

uno de los vectores como combinación lineal de otros que sí son linealmente

independientes:

∑=

=j

i

iis c1

φφφφφφφφ (3.6a)

Y entonces:


∑∑==

==j

i

iιi

j

i

iis λcc11

φφφφφφφφΑφΑφΑφΑφ ΒΒΒΒΑΑΑΑ (3.6b)

Por otro lado, por la definición del problema, (3.1b):

∑=

==j

i

isisss λcλ

1

φφφφφφφφΑφΑφΑφΑφ ΒΒΒΒΒΒΒΒ (3.6c)

Restando (3.6b) de (3.6c) se obtiene: ( ) 0=λ−∑=

j

i

iisi λc1

ΒφΒφΒφΒφ

Si isλ λ≠ debería entonces tenerse ci = 0 para todo i, lo que se opone a la hipótesis.

Excepcionalmente pueden presentarse valores característicos repetidos. Aún en este

caso es factible obtener vectores característicos linealmente independientes. Sin

embargo, el conjunto de vectores asociados a los valores característicos repetidos define

un subespacio, tal que cualquier vector del subespacio (es decir una combinación lineal

de aquellos tomados como base) es también un vector característico:

A φφφφ i = λ i B φφφφi

A φφφφ i = λ i B φφφφi (3.7)

A ( c1 φφφφ1 + c2 φφφφ2 + c3 φφφφ3 + … ) = λ i B ( c1 φφφφ1 + c2 φφφφ2 + c3 φφφφ3 + … )

Teniéndose n vectores característicos linealmente independientes de dimensión n, estos

constituyen una base completa. Cualquier otro vector de tal dimensión puede

expresarse como combinación lineal de los vectores característicos:

v = α1 φφφφ1 + α2 φφφφ2 + α3 φφφφ3 + … + αn φφφφn (3.8)

Por ejemplo, con los vectores característicos antes obtenidos:

−−

=

1

1

1

1

2

121

23

3.1.4 Ortogonalidad de los Vectores Característico s

Si las matrices A y B son Hermitianas (o simplemente simétricas) y definidas positivas,

los valores característicos de A φφφφ = λ B φ φ φ φ son todos reales y positivos. Para probar

esto basta considerar:

rsrrs φφφφφφφφφφφφφφφφ BΑ** λ= (3.9a)

srssr φφφφφφφφφφφφφφφφ BΑ** λ= (3.9b)

El superíndice * denota aquí conjugada traspuesta. La conjugada transpuesta de la

segunda de estas expresiones es (recuérdese que sλ es un escalar):

rssrs φφφφφφφφφφφφφφφφ BΑ*** λ= (3.9c)

y al ser A y B Hermitianas (es decir A* = A y B* = B), restando (3.9c) de (3.9a) se

obtiene:

( ) 0** =λ−λ rssr φφφφφφφφ B (3.9d)

Si r=s, al ser B una matriz definida positiva se tendría 0>rr φφφφφφφφ B* . Por lo tanto, siendo

sr λ=λ , se tendría 0=λ−λ *rr lo que implica que todos los λ son números reales. Si


además A es definida positiva, es decir 0>rr φφφφφφφφ A* , se concluye que los valores

característicos son todos positivos.

Por otro lado, si sr λ≠λ se tiene que 0≠λ−λ *sr y en consecuencia (3.9d) implica que:

rsrrs b δ=φφφφφφφφ B* (es decir, cero si sr ≠ ) (3.10a)

y además, observando las expresiones precedentes:

rsrrs a δ=φφφφφφφφ A* (3.10b)

Las propiedades de ortogonalidad expresadas en (3.10) son la base para la

descomposición modal utilizada al resolver sistemas de ecuaciones diferenciales en

aplicaciones tales como el análisis sísmico lineal.

Refiriéndose nuevamente al ejemplo inicial:

( ) 21

1

21

1211 =

−−

( ) 61

1

21

1211 =

−

−−

−

( ) 01

1

21

1211 =

−

−−

3.1.5 Normalización de los Vectores Característic os

Como se mencionó anteriormente los vectores característicos se definen por la

proporción de sus elementos, pudiéndose escalar o "normalizar" en forma arbitraria. Es

frecuente escalarlos de modo que:

rsrs δ=φφφφφφφφ B* (3.11a)

Se dice entonces que los vectores están normalizados respecto a la matriz B. En tal

caso se tiene también:

rsrrs δλ=φφφφφφφφ A* (3.11b)

3.1.6 Cociente de Rayleigh

Si se conoce un vector característico φφφφi, el correspondiente valor λ i puede determinarse

con el cociente de Rayleigh:

( )i

Ti

iTi

i φφφφφφφφφφφφφφφφφφφφ

B

Α=ρ (3.12)

Esta expresión puede aplicarse también con aproximaciones a los vectores propios. Si x

es una aproximación a un vector característico con un error de orden ε, el cociente de

Rayleigh, ρ(x), aproxima el correspondiente valor característico con un error de orden ε 2.

3.1.7 Teorema de Gershgorin

Supóngase que iλ es un valor característico de la matriz A y que iφφφφ es el

correspondiente vector, con componentes L321 vvv :


iii φφφφφφφφ λ=A (3.13a)

La componente de mayor valor absoluto en iφφφφ es sv . Dividiendo la ecuación s en (3.13a)

entre sv e intercambiando ambos miembros:

++++

+

=λ

s

nsnss

ss

ssi v

vaa

v

va

v

va LL

22

11 (3.13b)

y por lo tanto:

snssssi aaaa +++++=−λ LL 021 (3.13c)

En consecuencia, cada valor característico iλ está dentro de por lo menos uno de los

círculos con centro en ssa y radio igual a la suma de los valores absolutos de la

correspondiente fila s.

Por ejemplo, considerando la matriz:

−−

=41

12A

que es definida positiva, puede asegurarse que sus valores característicos (que son

números reales) están dentro de los intervalos (1,3) y (3,5). Efectivamente, en este caso

23±=λ .

3.1.8 Formas polinómicas

Supóngase que se conocen los valores y vectores característicos de una matriz, A:

A φφφφ = λ φφφφ (3.14a)

¿Cuáles son los valores característicos de la matriz A2 = A A?

(AA) φφφφ = A (A φφφφ) = A (λ φφφφ) = λ (A φφφφ)= λ2 φφφφ

Este resultado puede extenderse para la matriz Ak (siendo k un exponente). Los

vectores característicos son los mismos que los de la matriz A, mientras que los

correspondientes valores característicos son λk:

Ak φφφφ = λk φφφφ (3.14b)

Esto es incluso válido para exponentes negativos. Por ejemplo, multiplicando ambos

miembros de (3.15a) por λ-1A-1 se obtiene:

A-1 φφφφ = λ-1 φφφφ (3.14c)

Por otro lado, combinando linealmente expresiones de la forma (3.14b) y teniendo en

cuenta que A0 = I (así como λ0 = 1):

(c0 I+ c1 A+ c2 A2 + c3 A

3 +...) φφφφ = (c0 + c1 λ+ c2 λ2 + c3 λ3 +...) φφφφ (3.14d)

Por ejemplo, si:

−−

=21

12A

tiene valores característicos 1 y 3, la matriz:

−−

==54

452 AAA


tiene valores característicos 1 y 9 (es decir, los cuadrados de 1 y 3). Los vectores

característicos son los mismos para ambas matrices.

3.2 Métodos de Iteración con Vectores

Los métodos que se presentan en esta sección son los más eficientes cuando sólo se

requieren un valor característico y su vector asociado, o en todo caso cuando el número

de valores y vectores característicos por determinar es pequeño.

3.2.1 Iteración Directa

En la iteración "directa" se considera un vector inicial 0x y se obtiene una secuencia de

vectores corregidos, kx , mediante:

jj xAxB =+1 (3.15a)

1

11

+

++ =

j

jj r

xx (3.15b)

donde rj+1 es un escalar que normaliza el vector utilizado en la iteración. Lo habitual es

tomar rj+1 como el elemento de máximo valor absoluto en 1+jx , lo que significa escalar el

vector de aproximación de modo que la mayor componente sea igual a 1..

Este proceso converge al vector característico nφφφφ , asociado al valor característico de

mayor módulo, nλ . En efecto, la aproximación inicial x0 puede escribirse como:

x0 = α1 φφφφ1 + α2 φφφφ2 + α3 φφφφ3 + … + αn-1 φφφφn-1 + αn φφφφn (3.16a)

Recuérdese que los n vectores característicos son linealmente independientes y

constituyen una base completa en el espacio de dimensión n. Entonces (suponiendo

que B no es singular):

∑∑ λα=α= iiiii φφφφφφφφ BAxA 0 (3.16b)

01

1 AxBx −= = (α1 λ1) φφφφ1 + (α2 λ2) φφφφ2 + …+ (αn λn) φφφφn (3.16c)

y por lo tanto:

( )∑ λα=n

iir11

1x φφφφi (3.16d)

Se observa que, si las componentes de x0 eran αi, aquellas de x1 resultan proporcionales

a αi λi. Repitiendo pasos análogos a los indicados en (3.18), puede comprobarse que la

aproximación xk puede expresarse como combinación lineal de los vectores

característicos con coeficientes proporcionales a kiiλα (en este caso k es un exponente).

En consecuencia, si 121 λ≥≥λ≥λ≥λ −− Lnnn , las componentes según φφφφn crecen

más rápidamente que las otras y se tiene que:

=∞→ k

kLim x φφφφn (3.17a)

nkk

rLim λ=∞→

(3.17b)

Esto es válido aún cuando αn = 0 puesto que, por lo menos al tratar con grandes

matrices, los errores de redondeo (debidos a la aritmética imperfecta del computador)

introducen siempre una componente según φφφφn. La convergencia es muy rápida si


1−λ>>λ nn o si x0 es aproximadamente paralelo a φφφφn (es decir, si la componente αn

es importante en relación a las demás). En cambio, si los últimos valores característicos

son similares la convergencia es en general muy lenta. Por otro lado, no se tienen

dificultades para el caso (más académico que práctico) en que 1−λ=λ nn : en tal caso el

proceso converge a un vector característico que resulta ser la proyección de x0 en el

subespacio definido por los vectores φφφφn y φφφφn-1.

Considérese por ejemplo el problema A φ φ φ φ = λ B φφφφ con las matrices:

−−−

−=

110

132

025

A

=300

020

001

B

Aún cuando en este caso se tienen matrices simétricas, el procedimiento descrito se

aplica a matrices cuadradas cualesquiera.

En este caso se obtienen:

k x k Ax k 1+kx r k+1 ρ (xk+1)

0 1.00000 5.00000 5.00000 5.00000

0.00000 -2.00000 -1.00000

0.00000 0.00000 0.00000 5.481481

1 1.00000 5.40000 5.40000 5.40000

-0.20000 -2.60000 -1.30000

0.00000 0.20000 0.06667 5.502594

2 1.00000 5.48148 5.48148 5.48148

-0.24074 -2.73457 -1.36728

0.01235 0.25309 0.08436 5.503559

3 1.00000 5.49887 5.49887 5.49887

-0.24944 -2.76370 -1.38185

0.01539 0.26483 0.08828 5.503603

4 1.00000 5.50259 5.50259 5.50259

-0.25130 -2.76994 -1.38497

0.01605 0.26735 0.08912 5.503605

5 1.00000 5.50339 5.50339 5.50339

-0.25169 -2.77128 -1.38564

0.01620 0.26789 0.08930 5.503605

6 1.00000 5.50356 5.50356 5.50356

-0.25178 -2.77156 -1.38578

0.01623 0.26801 0.08934 5.503605

El procedimiento converge al valor característico: φφφφ3 =

−01623.0

25180.0

00000.1

que corresponde al valor característico de mayor módulo, λ3 = 5.503605.


El valor de r es aproximadamente λn, pero el cociente de Rayleigh, ρ(x)" proporciona

siempre una aproximación mejor.

3.2.2 Iteración Inversa

El proceso de iteración directa antes descrito converge al vector característico asociado

al valor característico de mayor módulo. Éste puede ser útil al considerar el

condicionamiento de las matrices de coeficientes en grandes sistemas de ecuaciones, o

al analizar la estabilidad numérica de ciertos métodos para integrar sistemas de

ecuaciones diferenciales, pero por lo general tiene poca importancia en la respuesta del

sistema estudiado. Para determinar la respuesta de un sistema se requieren más bien

los valores característicos de menor módulo y sus vectores asociados.

Para determinar el vector característico asociado al valor propio de menor módulo (el

modo fundamental) puede usarse una "iteración inversa":

jj xBxA =+1 (3.18a)

1

11

+

++ =

j

jj r

xx (3.18b)

En este caso si:

x0 = α1 φφφφ1 + α2 φφφφ2 + α3 φφφφ3 + … + αn-1 φφφφn-1 + αn φφφφn (3.19a)

la aproximación xk puede expresarse como combinación lineal de los vectores

característicos con coeficientes proporcionales a kii λα (nuevamente, k es aquí un

exponente):

xk = k1

1

λα

φφφφ1 + k2

2

λα

φφφφ2 + k3

3

λα

φφφφ3 + … + kn

n

1

1

−

−

λα

φφφφn-1 + kn

n

λα

φφφφn (3.19b)

En consecuencia, si nλ≤⋅⋅⋅≤λ≤λ≤λ 321 al emplear la iteración inversa se tiene

que:

=∞→ k

kLim x φφφφ1 (3.20a)

1

1

λ=

∞→ kk

rLim (3.20b)

Los comentarios anteriores relativos a la convergencia de la iteración directa son

también válidos. En este caso la velocidad de convergencia depende de la razón λ2 / λ1.

Para las matrices del caso anterior y considerando, por ejemplo, el vector inicial:

=2

1

0

0x

se obtiene el vector asociado al valor característico de menor módulo, es decir, λ1.

Nótese que r es ahora una aproximación de 1 / λ1, mientras que en la iteración directa lo

era de λn. También en este caso se observa que el cociente de Rayleigh es siempre una

mejor aproximación al valor característico.


k x k Bx k 1+kx r k+1 ρ (xk+1)

0 0.00000 0.00000 2.66667 12.66667

1.00000 2.00000 6.66667

2.00000 6.00000 12.66667 0.154734

1 0.21053 0.21053 1.42105 6.44737

0.52632 1.05263 3.44737

1.00000 3.00000 6.44737 0.154625

2 0.22041 0.22041 1.42993 6.46463

0.53469 1.06939 3.46463

1.00000 3.00000 6.46463 0.154624

3 0.22119 0.22119 1.43102 6.46696

0.53594 1.07187 3.46696

1.00000 3.00000 6.46696 0.154624

4 0.22128 0.22128 1.43116 6.46727

0.53610 1.07221 3.46727

1.00000 3.00000 6.46727 0.154624

5 0.22129 0.22129 1.43118 6.46731

0.53613 1.07225 3.46731

1.00000 3.00000 6.46731 0.154624

6 0.22129 0.22129 1.43118 6.46731

0.53613 1.07226 3.46731

1.00000 3.00000 6.46731 0.154624

En muchas aplicaciones B es diagonal y A no lo es, por lo que la iteración directa es

más simple. Sin embargo, un paso típico de la iteración inversa requiere

aproximadamente el mismo número de operaciones que un paso de iteración directa.

Supóngase que se tienen matrices de orden n y que A es una matriz de alta densidad

(es decir, con pocos coeficientes no significativos). El número de operaciones

requeridas para efectuar el producto Ax es de orden n2. Aquí se cuenta como una

"operación" la combinación de una multiplicación o división con una suma o resta.

También se ha supuesto que n es grande, por lo que n2 es mucho mayor que n. La

división de Ax entre los coeficientes (de la diagonal principal) de B requiere un número

de operaciones de orden n, que puede despreciarse. Es interesante observar que si

previamente se realizó (una sola vez) la factorización A = LU, la solución del sistema de

ecuaciones Ax = b requiere también un número de operaciones de orden n2, mientras

que el producto Bx demanda sólo n operaciones. Por otro lado, si la matriz A es de baja

densidad y tiene un ancho de semibanda promedio m, tanto un producto de la forma Ax

como la solución de las ecuaciones Ax = b requieren aproximadamente mn operaciones.

3.2.3 Traslación

La velocidad de convergencia de la iteración inversa depende de las razones 1 / λi. Si

12 λ≈λ la convergencia es lenta; siendo en cambio muy rápida si 21 λ<<λ . La

convergencia puede acelerarse mediante una "traslación" 1λ≈µ :


A φ φ φ φ = λ B φφφφ (3.21a)

(A - µB) φ φ φ φ = (λ−µ) B φφφφ (3.21b)

Nótese que el nuevo sistema (3.21b) tiene los mismos vectores característicos que el

sistema original (3.21a) y valores característicos λ i - µ. Desde el punto de vista del

polinomio característico, se ha trasladado el origen:

-50

0

50

100

150

0 1 2 3 4 5 6 7

µµµµ

p( µµ µµ

)

Si 1λ≈µ puede lograrse que:

µ−λ>>µ−λ 21

y por tanto:

µ−λ<<

µ−λ 21

11

,

con lo que la convergencia mejora en forma apreciable.

Para el ejemplo anterior, efectuando una traslación µ = 0.154 se tiene:

−−−

−=−

538.010

1692.22

02846.4

154.0 BA

y por iteración inversa:


0 0.00000 0.00000 692.29 3129.01

1.00000 2.00000 1677.41

2.00000 6.00000 3129.01 0.000624

1 0.22125 0.22125 354.79 1603.26

0.53608 1.07216 859.55

1.00000 3.00000 1603.26 0.000624

2 0.22130 0.22130 354.80 1603.29

0.53613 1.07226 859.57

1.00000 3.00000 1603.29 0.000624

Se obtienen: λ1 = 0.154 + 0.000624 = 0.154624 y φφφφ1 =

00000.153613.022129.0

.

El siguiente algoritmo usa el cociente de Rayleigh para efectuar la traslación. Iniciando

el proceso con 00 xBy = y µ0 = 0:

( ) kkk yxBA =µ− +1


11 ++ = kk xBy

11

11

++

++ +µ=µ

kTk

kTk

kkyx

yx (3.22)

( ) 121

111 +−

+++ = kkTkk yyxy

En relación con las expresiones precedentes:

By =∞→ k

kLim φφφφ1 (3.23a)

1λ=µ∞→ k

kLim (3.23b)

La convergencia es cúbica.

3.2.4 Determinación de Otros Vectores Característi cos

En los párrafos precedentes se ha visto cómo mediante iteración directa o inversa

pueden obtenerse φφφφn o φφφφ1 respectivamente. Podría determinarse un valor característico

intermedio y su vector asociado por iteración inversa con una traslación adecuada; sin

embargo, esto requeriría un procedimiento previo para definir la traslación.

En los que sigue se describe la determinación de sucesivos vectores característicos

aprovechando las condiciones de ortogonalidad para el caso en que las matrices A y B

son simétricas. La idea básica consiste en iterar con vectores ortogonales a los

previamente obtenidos. Desafortunadamente, el proceso acumula los errores de los

vectores previos y cada nuevo vector se determina siempre con menos precisión que el

anterior. En la práctica se observa que se pierde una cifra significativa por cada nuevo

vector; por tanto, no es factible determinar por este método más de unos 10 vectores

característicos. En algunas aplicaciones esto puede no ser suficiente.

A partir de un vector arbitrario:

v = α1 φφφφ1 + α2 φφφφ2 + α3 φφφφ3 + ... + αn φφφφn (3.24a)

puede obtenerse un vector ortogonal a los vectores característicos ya conocidos

haciendo uso de las relaciones de ortogonalidad:

φφφφiT B v = α1 φφφφi

T B φφφφ1 + α2 φφφφiT B φφφφ2 + ... + αn φφφφi

T B φφφφn

φφφφiT B v = αi φφφφi

T B φφφφi (3.24b)

es decir:

αi = ( φφφφiT B v ) / ( φφφφi

T B φφφφi ) (3.24c)

Luego es suficiente restar de v los αi φφφφi para obtener un vector que (salvo por la

imprecisión en la aritmética no tiene componentes según los vectores característicos

previamente hallados.

Para el ejemplo antes tratado, suponiendo que se haya obtenido el primer vector

característico:

φφφφ1 =

000000000.1

536128843.0

221295029.0


y considerando v =

010

se obtiene α1 = 0.295889928, de donde:

x0 = v - α1 φφφφ1 =

−

−

29589.0

84136.0

06548.0

es un vector ortogonal a φφφφ1. Si se hace una iteración inversa con x0 se obtiene

(suponiendo que se operara con una aritmética infinitamente precisa) el vector

característico φφφφ2:


0 -0.06548 -0.06548 0.24319 0.64072

0.84136 1.68272 0.64072

-0.29589 -0.88767 -0.24696 1.20534

1 0.37956 0.37956 0.40775 0.82960

1.00000 2.00000 0.82960

-0.38544 -1.15631 -0.32671 1.17649

2 0.49150 0.49150 0.43668 0.84594

1.00000 2.00000 0.84594

-0.39382 -1.18147 -0.33553 1.17517

3 0.51620 0.51620 0.44210 0.84715

1.00000 2.00000 0.84715

-0.39663 -1.18990 -0.34275 1.17504

4 0.52187 0.52187 0.43603 0.82913

1.00000 2.00000 0.82913

-0.40460 -1.21379 -0.38466 1.17113

Es importante hacer notar que, como consecuencia de los errores de redondeo se

introducen en las aproximaciones xj componentes según los vectores característicos

originalmente eliminados.. En los resultados precedentes se tienen las siguientes

componentes según φφφφ1:

k α1

0 -1.565 x 10-6

1 -1.580 x 10-5

2 -0.000123

3 -0.000941

4 -0.007188

5 -0.056063

Como estas componentes tienden a crecer más rápidamente que la propia solución, es

necesario eliminarlas cada 4 ó 5 pasos, utilizando el mismo proceso inicial:


xj = v - ∑−

=

α1

1

j

i

i φφφφi (3.25)

Para el caso del ejemplo:

( )

−=

−−

−=

40787.0

03006.1

53829.0

000000000.1

536128843.0

221295029.0

056093.0

46393.0

00000.1

52588.0

0x

y luego de escalar este vector:

k x k Bx k x k+1 r k+1 ρ (xk+1)

5 0.52258 0.52258 0.44489 0.85094

1.00000 2.00000 0.85094

-0.39597 -1.18790 -0.33696 1.17511

6 0.52282 0.52282 0.44496 0.85098

1.00000 2.00000 0.85098

-0.39599 -1.18796 -0.33698 1.17511

7 0.52288

1.00000

-0.39599

se obtienen: 17511.185098.0

12 ==λ y φφφφ2 =

− 39599.000000.152288.0

3.2.5 Deflación

Otra alternativa es hacer una deflación, obteniendo un nuevo sistema φλ=φ BA~~

, de

orden menor, con los mismos valores característicos del problema original, excepto los

previamente determinados. En lo que sigue se aplica esta idea a un problema de la

forma clásica φφφφφφφφ λ=H .

Considérese una matriz ortogonal, P , cuya última columna es igual al vector

característico 1φ previamente determinado:

( )1121 φ= −npppP L (3.26)

Al hacer el cambio de variable zP=φ se obtiene zPzPH λ= y premultiplicando por TP : ( ) zzPHP λ=T . Sin embargo, al ser la última columna de P igual a 1φ y

suponiendo que ese vector haya sido normalizado de modo que 111 =φφT se tiene:

λ=

1

~

0

0HPHPT (3.27)

Esta matriz tiene los mismos valores característicos que la matriz original, H . Lo mismo

se puede decir de H~

, excepto por 1λ .

Hay múltiples posibilidades para formar P . En el proceso propuesto por Rutishauser se

hacen las operaciones equivalentes a trabajar con 121 −= nJJJP L , donde:


1

1

1

1

+

+

−=

k

k

k

k

kk

kkk cs

sc

columnacolumna

fila

fila

O

O

J (3.28a)

Nótese que ( ) 121121 −−= nTTT

nT JJJHJJJPHP LL , pudiéndose evaluar fácilmente los

sucesivos productos, ya que en cada caso sólo se alteran dos filas y dos columnas.

Los coeficientes kc y ks se determinan a partir de las componentes L321 xxx del

vector característico previamente hallado, 1φφφφ . Definiendo:

223

22

21

2kk xxxxq L+++= (3.28b)

se tiene:

1

1

1

+

+

+

=

=

k

kk

k

kk

q

xc

q

qs

(3.28c)

Para el ejemplo considerado anteriormente, sería necesario primero convertir el

problema a la forma clásica. Al ser B diagonal:

−−−

−==

−−

333333.0408248.00

408248.05.1414214.1

0414214.1521

21

BABH

Y para φφφφφφφφ λ=H pueden obtenerse (por iteración inversa):

Para φφφφφφφφ λ=H pueden obtenerse (por iteración inversa):

=90987.0

39827.0

11625.0

1φφφφ

Luego:

00000.1

90987.041489.041489.0

95994.028019.011625.0

3

222

111

====

===

q

csq

csq

Con el propósito de observar que, efectivamente, la última columna de P es igual a 1φ se está evaluando aquí la referida matriz:

−

−=90987.0414898.00

41489.090987.00

001

100

095994.028019.0

028019.095994.0

P

es decir:


−−=

90987.041489.00

39827.087342.028019.0

11625.025494.095994.0

P

de donde:

−−

=15462.000

019271.127561.0

027561.048594.5

PHPT

Nótese el 1λ en la esquina inferior derecha. Los valores característicos de

−−

=19271.127561.0

27561.048594.5~H son 1751.12 =λ y 5036.53 =λ , es decir, iguales a los

restantes valores característicos del problema original. Los correspondientes vectores resultan:

=9980.0

0638.02z y

−=

0638.0

9980.03z

de donde:

=−

021

kk

zPBφφφφ

El factor 21−

B se requiere para obtener los vectores del problema general en su forma

original.

3.3 Métodos de Transformación

Los métodos de este grupo son eficientes sólo si se requieren todos o una alta

proporción de los valores y vectores característicos. La idea básica de estos procesos

consiste en hacer un cambio de variables:

φ φ φ φ = P z (3.29a)

para transformar A φ φ φ φ = λ B φφφφ en:

( P-1A P ) z = λ ( P-1B P ) z (3.29b)

Este sistema tiene los mismos valores característicos que el sistema original y vectores

propios relacionados por (3.29a). Si las transformaciones son tales que las nuevas

matrices tienen valores y vectores característicos fáciles de determinar, se ha resuelto

indirectamente el problema original.

3.3.1 Método de Jacobi

El método de Jacobi (1846) puede considerarse como prototipo de los métodos de

transformación. En este procedimiento se transforma el problema original a uno de la

forma:

λ=

nnnn z

zz

b

bb

z

zz

a

aa

MOMO2

1

2

1

2

1

2

1

(3.30)


que tiene como vectores característicos las columnas de la matriz identidad y como

valores característicos los iii ba=λ . Los valores característicos del sistema original

son los mismos. P es en este caso una matriz ortogonal:

P-1 = PT (3.31)

cuyas columnas son la propia solución buscada. Ésta se determina mediante un

proceso iterativo que se describe a continuación.

En la forma que aquí se presenta, este método se aplica a problemas de la forma

clásica, A φ φ φ φ = λ φ φ φ φ, siendo A una matriz simétrica (real). Más adelante se consideran las

modificaciones requeridas para problemas de la forma general.

Empezando con A(0) = A y llamando φφφφ(0) a los vectores característicos del problema

original, el paso k del proceso se define como:

φφφφ(k) = Pk φφφφ(k+1) (3.32a)

A(k) ( Pk φφφφ(k+1) ) = λ ( Pk φφφφ(k+1) )

y si P es una matriz ortogonal, premultiplicando por PT se obtiene:

( PkTA(k) Pk ) φφφφ(k+1) = λ φφφφ(k+1)

Lo que equivale a considerar un problema similar al original:

A(k+1) φφφφ(k+1) = λ φφφφ(k+1) (3.32b)

Siendo:

A(k+1) = PkTA(k) Pk (3.32c)

Nótese que se mantiene la simetría de la matriz. Los valores característicos de esta

nueva matriz son los mismos de la matriz original; los correspondientes vectores se

relacionan por expresiones de la forma (3.32a).

En el método de Jacobi las matrices Pk corresponden a una rotación plana:

jfila

ifila

jcolicol

kk

kkk

θθθ−θ=

1

cossen

sencos

1

O

O

P (3.33)

El objetivo de un paso es hacer cero un coeficiente aij = aji. Puede verificarse

fácilmente que:

( ) ( ) 0sencossencos 22)(11 =θ−θ+θθ−== ++kk

kijkk

(k)ii

(k)jj

)(kji

)(kij aaaaa

(3.34a)

y por tanto:

40

22tg

)()(

)( π≤θ≤

−=θ kk

jjk

ii

kij

kaa

a (3.34b)

Sólo los elementos de dos filas y de dos columnas ( )ji, se alteran en cada paso.

Además, como se mantiene la simetría de la matriz A sólo deben calcularse los


coeficientes de la submatriz triangular superior (o inferior) de A(k+1). Con la notación

c = cos θ k; s = sen θ k:

( ) ( ) 0c

2

2

22)(11

2)()(2)(1

221

=−+−==

+=

++=

++

+

+

sacsaaaa

cacsa-sa a

sacsac aa

kij

(k)ii

(k)jj

)(kji

)(kij

kjj

kij

kii

)(kjj

(k)jj

(k)ij

(k)ii

)(kii

(3.35a)

casaaa

sacaaa

kjr

(k)ir

)(krj

)(kjr

kjr

(k)ir

)(kri

)(kir

)(11

)(11

+−==

+==++

++

(3.35b)

En un cierto paso se hacen cero los elementos aij y aji. Sin embargo, las sucesivas

rotaciones reintroducen valores significativos en estas posiciones, por lo que es

necesario repetir el proceso en varios "ciclos" para todos los elementos de fuera de la

diagonal principal. El proceso es convergente. Si en un ciclo dado los cocientes

[ ])()(

2)(

kjj

kii

kij

ijaa

a=γ (3.36)

son de orden ε, éstos se reducen a orden ε2 en el siguiente ciclo.

El número de ciclos completos necesarios para que la matriz A sea suficientemente

aproximada a una matriz diagonal depende del orden de la matriz. Para matrices de

orden 50 ó 60 pueden ser necesarios 8 a 10 ciclos. Cada ciclo demanda O(2n3)

operaciones.

Desde un punto de vista teórico sería más eficiente hacer cero los elementos aij en

orden decreciente de los ijγ , definidos por (3.36), pero las comparaciones necesarias

son relativamente lentas. Por eso se prefiere seguir un orden fijo en la selección de los

elementos y efectuar las rotaciones sólo si ijγ es mayor que una tolerancia, variable en

función del número de ciclo, m (por ejemplo 10-2m). La convergencia del proceso se

puede verificar con una medida similar.

Para determinar los vectores característicos es suficiente efectuar el producto de las

matrices Pk ya que:

φφφφ(k) = Pk φφφφ(k+1) (3.37a)

y por lo tanto:

φφφφ = φ φ φ φ(0) = P1 P2 P3 ... Pm (3.37b)

Para ilustrar el método de Jacobi considérese el problema A φ φ φ φ = λ φ φ φ φ con:

−−

=

4310

363-1

13-63-

013-2

)0(A

En el primer paso se hacen cero los coeficientes a12 y a21. En las expresiones

precedentes:

362 )0(21

)0(12

)0(22

)0(11 −==== aaaa


( ) ( )471858.0sen881675.0cos5.1

62

322tg =θ=θ⇒=

−−

=θ

=

1000

0100

0088167504718580

0047185808816750

1

..

.-.

P

==

4388167504718580

361168835338990

88167501168836055570

4718580533899003944490

1(0)T

1)1(

-..

-.-.-

..-.

..-.

PAPA

Luego se hacen cero los coeficientes a31:

533899.06394449.0 )1(31

)1(13

)1(33

)1(11 −==== aaaa

093978.0sen995574.0cos =θ=θ

=

1000

00.99557400.0939783

0010

00.0939783-00.995574

2P

==

403107388167501878350

031073050461030930

88167501030936055572929190

1878350029291903440510

2(1)T

2)2(

.-..

.-..-

..-..-

..-.

PAPA

Nótese que se tienen nuevamente valores significativos en las posiciones 12 y 21. Por

otro lado:

=

1000

00.99557400.0939783

00.0443444-0.8816750.469770

00.0828582-0.471858-0.877773

21PP

Procediendo en forma similar:

10309.30504.660555.7 )2(32

)2(23

)2(33

)2(22 −==== aaaa

615196.0sen788374.0cos =θ=θ

==

41.84721-2.559790.187835

1.84721-3.6289500.180203-

2.55979010.0270.23093-

0.1878350.180203-0.23093-0.344051

3(2)T

3)3( PAPA


=

1000

00.7848850.612474-0.0939783

00.5074430.722370.46977

00.355609-0.321026-0.877773

321 PPP

187835.04344051.0 )3(41

)3(14

)3(44

)3(11 ==== aaaa

0511758.0sen99869.0cos =θ=θ

==

0096348540115446220

854011628953008543420

5446220027103616270

00854342036162703344260

4(3)T

4)4(

..-.

.-..-

...-

.-.-.

PAPA

=

0.99869000.0511758-

0.004809410.7848850.612474-0.0938551

0.02404080.5074430.7223700.469154

0.04492070.355609-0.321026-0.876622

4321 PPPP

54462.200963.4027.10 )4(42

)4(24

)4(44

)4(22 ==== aaaa

343849.0sen939025.0cos −=θ=θ

==

07785374096101243450

7409616289536375008543420

0637509588103395760

12434500854342033957603344260

5(4)T

5)5(

..-.

.-..-.-

.-..-

..-.-.

PAPA

=

0.93779500.3433980.0511758-

0.2151150.7848850.573474-0.0938551

0.225811-0.5074430.6865900.469154

0.1525660.355609-0.286006-0.876622

54321 PPPPP

74096.107785.362895.3 )5(43

)5(34

)5(44

)5(33 −==== aaaa

649489.0sen760371.0cos =θ=θ

==

5907610414049003905980

011603548473701457220

414049048473709588103395760

03905980145722033957603344260

6(5)T

6)6(

..-.

..-.-

.-.-..-

..-.-.

PAPA

=≈

0.7130720.609087-0.3433980.0511758-

0.6733410.4570890.573474-0.0938551

0.1578780.5325070.6865900.469154

0.114957-0.369485-0.286006-0.876622

654321 PPPPPPΦ

con lo que termina un primer “ciclo”. Análogamente, al terminar el segundo ciclo:


=

1.5727900.00001490.0003418-

05.082720.00151550.0006033-

0.00001490.001515511.02680.007656-

0.0003418-0.0006033-0.007656-0.317649

)12(A

=≈

0.7225180.584532-0.3614670.0750522-

0.6515780.3996230.640155-0.0771368

0.2010620.5665800.6192080.505117

0.11397-0.421440-0.275908-0.856314

1221 PPPΦ L

y al finalizar el tercer ciclo:

=

1.57279

5.08272

11.0269

0.317644

)18(A

No se muestran los coeficientes con valor absoluto menor que 10-6. Los coeficientes

de la diagonal de A(18) son (aproximaciones a) los valores característicos de la matriz

A. Nótese que no se obtienen en orden ascendente o descendente. Las columnas del

producto 1821 PPP L son los correspondientes vectores, que se obtienen normalizados:

ΦΦΦΦT ΦΦΦΦ = I. Esto se comprueba fácilmente, ya que las matrices kP son todas

ortogonales.

=≈

0.7225370.584614-0.3613730.074671-

0.6515580.3997770.640107-0.076907

0.2009230.5663580.6189910.505686

0.114202-0.421478-0.276628-0.856032

1821 PPPΦ L

3.3.2 Caso de Matrices Hermitianas.

El método de Jacobi puede también emplearse para hallar los valores y vectores

característicos de una matriz Hermitiana, H , cuyos coeficientes (en general complejos)

tienen simetría conjugada. En este caso se hacen productos de la forma:

kk

kk UHUH )(*)1( =+ (3.38)

en los que kU es una matriz unitaria, es decir, tal que *1kk UU =− (el superíndice *

denota en este caso la conjugada traspuesta). Para hacer cero el coeficiente ijh se

utiliza:

jfila

ifila

jcolicol

i

ik

e

e

φφφ−φ=

θ

θ

1

cossen

sencos

1

O

O

U (3.39)

Suponiendo que:


icbh

ahk

ji

kii

+=

=)(

)(

dh

icbh

kjj

kij

=

−=)(

)(

(3.40a)

Las partes real e imaginaria de los nuevos coeficientes ( )ji, resultan:

( )( ) 02cossen2sensencossensencos

02sensen2cossencoscossencos222

222

=θφ−θφ−φ+θφφ−

=θφ−θφ−φ+θφφ−

ccbda

cbbad

de donde:

( )da

cbb

c

−θ+θ

=φ

=θ

sencos22tan

tan (3.40b)

3.3.3 Método de Jacobi Generalizado.

Es posible modificar el método de Jacobi "clásico" antes descrito para resolver

directamente el problema general A φ φ φ φ = λ B φφφφ.

En lo que sigue se supone que A y B son simétricas y que esta última es definida

positiva (y posiblemente no diagonal). Debe anotarse que si B fuera diagonal sería

más eficiente transformar el problema a la forma clásica.

Un paso del proceso general se define por:

A(k+1) = PkTA(k) Pk (3.41)

B(k+1) = PkTB(k) Pk

donde Pk es una matriz similar a la utilizada para el proceso clásico:

jfila

ifila

jcolicol

k

kk

γα=

1

1

1

1

O

O

P (3.42)

α y γ se determinan de:

( ) 01 )(11 =γ+γα++α== ++ (k)jjk

kijkk

(k)iik

)(kji

)(kij aaaaa

( ) 01 )(11 =γ+γα++α== ++ (k)jjk

kijkk

(k)iik

)(kji

)(kij bbbbb (3.43)

Estas dos ecuaciones son independientes, excepto en el caso en que

(k)jj

(k)jj

(k)ij

(k)ij

(k)ii

(k)ii

b

a

b

a

b

a== (3.44a)

en el que puede considerase, por ejemplo:

(k)jj

(k)ij

kka

a=γ=α 0 (3.44b)

Definiendo:


( ))()()()(21

3

)()()()(2

)()()()(1

kjj

kii

kjj

kii

kij

kii

kij

kii

kij

kjj

kij

kjj

abbac

abbac

abbac

−=

−=

−=

(3.45a)

212333 )( ccccsignocd ++=

se obtienen:

d

c

d

ckk

12 =α−=γ (3.45b)

El radical en la expresión de d es siempre positivo si B es una matriz definida positiva.

Puede observarse que si B fuera la matriz identidad se obtendrían: θ−=γ−=α tgkk .

Los comentarios precedentes relativos a la convergencia son también aquí aplicables.

El número de operaciones en cada ciclo es de O(3n3).

El siguiente ejemplo ilustra los aspectos nuevos introducidos en esta sección. Se

pretende determinar los valores y vectores característicos del sistema: A φ φ φ φ = λ B φφφφ,

donde:

−−

=11

11A

=

21

12B

Para estas pequeñas matrices con un paso es suficiente:

i=1, j=2

a11 = 1 a22 = 1 a12 = a21 = -1

b11 = 2 b22 = 2 b12 = b21 = 1

c1 = 3 c2 = 3 c3 = 0

d=3 α = -γk =1

A(1) = P1TA(0) P1 =

=

−

−−

−00

04

11

11

11

11

11

11

B(1) = P1TB(0) P1 =

=

−

−60

02

11

11

21

12

11

11

de donde:

λ2 = 4/2 = 2

λ1 = 0/6 = 0

ΦΦΦΦ = P1 diag (bi-½) =

−=

− 4082.07071.0

4082.07071.0

610

021

11

11

La post multiplicación de P1 sólo es necesaria para escalar los vectores de modo que

ijjTi δ=φφφφφφφφ B . Al igual que en el procedimiento clásico los valores característicos (y los

correspondientes vectores) no quedan necesariamente ordenados.

3.3.4 El Método QR

Este proceso se aplica al problema clásico A φφφφ = λ φφφφ, donde A no requiere ser

simétrica, pudiendo tener valores característicos cero (o incluso negativos). En el caso


más general, para una matriz A cualquiera, el método QR es poco eficiente, ya que

requiere O( 34 n3) operaciones por paso. Sin embargo, sólo se requieren O(4n2)

operaciones por paso si A es de la forma Hessemberg:

=

OL

K

5554

454443

35343332

2524232221

1514131211

000

00

0

aa

aaa

aaaa

aaaaa

aaaaa

A (3.46)

es decir si es casi triangular superior, excepto por una codiagonal inferior. Para el caso

particular en que la matriz A es además simétrica (y por lo tanto tridiagonal):

=

OO

O43

332

221

11

ab

bab

bab

ba

A (3.47)

el método QR es aún más eficiente, requiriendo tan solo O(12n) por paso.

En todo caso es siempre posible efectuar la transformación a la forma Hessemberg

(tridiagonal si A y B son simétricas), requiriéndose un total de O( 35 n3) operaciones

(una sola vez).

Debe anotarse además que, a diferencia del método de Jacobi, el método QR mantiene

la posible configuración banda de la matriz y permite efectuar traslaciones (análogas a

las de una iteración inversa), tanto para acelerar la convergencia como para mejorar la

precisión en los valores característicos de interés. El objetivo del proceso conocido

como QR es la determinación de los valores característicos; conocidos estos, los

correspondientes vectores pueden obtenerse por iteración inversa con traslación.

Considerando A(0) = A, el paso básico del método QR consiste en hacer la

descomposición:

kkk RQA =)( (3.48a)

donde kQ es una matriz ortogonal (es decir, IQQ =kTk ) y kR es una matriz triangular

superior. Luego se efectúa el producto en orden cambiado:

kkk QRA =+ )1( (3.48b)

Obsérvese que premultiplicando (3.48a) por TkQ se obtiene:

kkT

k RAQ =)( (3.48c)

y por lo tanto:

kkT

kkkk QAQQRA )()1( ==+ (3.48d)


Nótese que si )(kA es simétrica )1( +kA también resulta simétrica. La expresión (3.48d)

indica además que )1( +kA es "similar" a )(kA : sus valores característicos son los

mismos, los correspondientes vectores se relacionan por una transformación lineal:

)()()( kkk φφφφφφφφ λ=A (3.49a)

al efectuar el cambio de variables:

)1()( += kk

k φφφφφφφφ Q (3.49b)

se obtiene:

)1()1()( ++ λ= kk

kk

k φφφφφφφφ QQA (3.49c)

( ) )1()1()( ++ λ= kkk

kTk φφφφφφφφQAQ (3.49d)

Ambas matrices tienen los mismos valores característicos (que en consecuencia son

los de la matriz original) y vectores característicos relacionados por (3.49b).

A medida que k crece )(kA converge a una matriz triangular superior (cuyos valores

característicos son los elementos de la diagonal principal); para el caso simétrico )(kA

converge a una matriz diagonal. Los valores característicos se obtienen en orden

descendente; así la aproximación al valor característico de menor módulo se obtiene en

la posición nn de la matriz.

La convergencia del proceso es análoga a la de la iteración inversa. Cuando en pasos

sucesivos se obtienen valores similares en el extremo inferior de la diagonal principal,

puede afirmarse que se tiene una aproximación al primer valor característico. La

convergencia puede acelerarse efectuando traslaciones:

)(knnk a=µ (3.50a)

IQRA kkkk µ−=+ )1( (3.50b)

Nótese que los valores característicos de esta nueva matriz son iguales a los de la

matriz original menos la translación. Cuando se logra que 0)( =knna puede hacerse una

traslación:

)(1,1

knnk a −−=µ (3.50c)

para mejorar la convergencia al segundo valor característico y análogamente se

procede para los otros valores requeridos. Por regla general se requieren sólo 2 pasos

por cada valor característico adicional. Al finalizar el proceso debe agregarse a los

valores λ obtenidos la suma de las traslaciones kµ efectuadas.

Los vectores característicos podrían obtenerse con el producto:

L321)0( QQQ=φφφφ (3.51)

pero este proceso es poco eficiente, siendo más conveniente obtener estos vectores

por iteraciones inversas con traslaciones iguales a los valores característicos ya

determinados. Esto permite también mejorar la precisión en los λ .

La determinación de Q y R en un paso puede hacerse en diversas formas. El proceso

más eficiente consiste en transformar A en una matriz triangular superior utilizando

matrices de rotación plana (como en el método de Jacobi):


( ) RAPPP =−TTT

nn 21311, L (3.52a)

y por lo tanto:

1,3121 −= nnPPPQ L (3.52b)

La matriz jiP , que permite hacer cero el coeficiente ji:

jfila

ifila

jcolicol

kk

kkk

θθθ−θ=

1

cossen

sencos

1

O

O

P (3.53a)

se obtiene mediante:

d

a kii

)(

cos =θ

d

a kji

)(

sen =θ (3.53b)

( ) ( )2)(2)( kii

kji aad +=

Sólo se requiere un ciclo de estas transformaciones para obtener R. No es necesario

iterar.

Para un ejemplo del proceso considérese la matriz:

=210

141

012)0(A

Esta es una matriz simétrica (lo cual no es un requisito para emplear el método QR) y,

siendo tridiagonal, tiene la “forma Hessemberg”.

Para transformar A en una matriz triangular superior R se hace primero cero el

coeficiente a21:

0.447214 sen0.894427cos

2.23606812 )0(21

011

=θ=θ=== daa )(

100

0.894427.447214

0.447214-.894427

21

=P

=210

.8944273.1304940

0.4472142.6832812.236068

)0(T21AP

Luego se hace cero a32, con lo que se obtiene una matriz triangular superior:


3042900sen9525790cos

286335311304943 )0(32

022

..

.da.a )(

=θ=θ===

.952579.3042900

.304290-.9525790

001

32

=P

==1.63299300

1.4605323.2863320

0.4472142.6832812.236068

)0(T21

T321 APPR

Y se completa el primer paso efectuando el producto:

===1.555556.4969040

.4969043.2444441.469694

01.4696943.200000

3221111(1) PPRQRA

Análogamente, en el segundo paso:

=100

0.908739.417365

0.417365-.908739

21P

=.978097.2081500

.208150-.9780970

001

32P

==1.42749000

.7654542.3872420

2.6896863.521363

)1(T21

T322

L

APPR

===1.396226.2971320

.2971322.281193.996351

0.9963514.322580

3221222(2) PPRQRA

Y en el tercer paso:

=100

0.974449.224610

0.224610-.974449

21P

=.989134.1470170

.147017-.9891340

001

32P

==1.3385000

.4916632.0210760

.0667391.4832714.435924

)2(T21

T323 APPR


===1.323944.1967800

.1967802.020318.453953

0.4539534.655737

3221333(3) PPRQRA

Suponiendo que el coeficiente 323944.1)3(33 =a sea una buena aproximación al primer

valor característico, se efectúa una traslación:

=−0.1967800

.196780.696375.453953

0.4539533.331794

323944.1(3) IA

obteniéndose en el cuarto paso:

=.055581-.017396-0

.017396-.678541.088938

0.0889383.405209(4)A

Se hace entonces una nueva traslación:

1.268362-.055581 k4 =µ=µ⇒=µ ∑

obteniéndose:

=.000413-.0000100

.000010.731767.018800

0.0188003.463559(5)A

y nuevamente:

1.267949-.000413 k5 =µ=µ⇒=µ ∑

obteniéndose:

=000

0.732056.003973

0.0039733.464096(6)A

Se observa ahora que el coeficiente a33 es menor que 10-6, lo que implica que λ1 es

aproximadamente igual a la suma de las traslaciones previamente realizadas.

Conviene luego hacer una traslación igual al resultado obtenido para a22 a fin de

mejorar la precisión para el segundo valor característico:

2.732051 k6 =µ=µ⇒=µ ∑

=−.732051-00

00.003973

0.0039732.732050

732051.0(6) IA

Y puede trabajarse con la submatriz de un orden menor:

=

0.003973

.0039732.732050(6)A


0.000307sen1cos

2.7320510.0039732.732050 )6(21

611

=θ=θ=== daa )(

==

1.000000.000307

.000307-1.000000721 QP

−==

000001.0

.0008402.732051)6(217 APR T

=

00

073205.2)7(A

Los coeficientes indicados como 0 son menores que 10-6. Los valores característicos

de esta matriz son 0 y 2.732051. Para obtener aquellos de la matriz original deben

sumarse las traslaciones:

λ1 = -0.732051 + 2 = 1.267949

λ2 = 0 + 2 = 2

λ3 = 2.732051 + 2 = 4.732051

3.3.5. Transformación a la Forma Hessemberg

Si el método QR se aplicara a una matriz cualquiera sería en general poco eficiente,

puesto que requiere ( )33

4 nO operaciones por paso. Para reducir el número de

operaciones a ( )24nO por paso debe previamente transformarse la matriz a la forma

"Hessemberg" (es decir, una matriz que es casi triangular superior, teniendo además

coeficientes significativos en la primera codiagonal inferior):

=

− nnnn

n

n

n

n

hh

hhh

hhhh

hhhhh

hhhhh

1,

44443

3343332

224232221

114131211

0000

00

0

OMMMM

L

L

L

L

H (3.54)

Si la matriz original fuera simétrica, la transformación a la forma Hessemberg, que

puede hacerse conservando la simetría, produce una matriz tridiagonal. En tal caso el

QR requiere apenas n12 operaciones por paso. Cabe anotar que la forma

Hessemberg (tridiagonal para el caso simétrico) no se pierde en los sucesivos pasos

del método QR.

La transformación a la forma Hessemberg sólo requiere hacerse una vez. Por lo tanto

las ( )33

5 nO que se gastan en la transformación están plenamente justificadas.

Entre los procedimientos que se encuentran en la literatura para efectuar la

transformación, se propone el cambio de variables φφφφφφφφ B= , con lo que el problema

original φφφφφφφφ λ=Α se reescribiría como φφφφφφφφ λ=− BΑB 1 o bien φφφφφφφφ λ=H . En este

caso HBΑB =−1 o, lo que es lo mismo, HBBΑ = . En el proceso original de

Hessemberg se usa una matriz B de la forma:


=

10

010

0010

00010

00001

432

4342

32

L

M

L

L

L

L

nnn bbb

bb

bB (3.55a)

con coeficientes arbitrarios en la primera columna (que por simplicidad se ha escrito

como la primera columna de la matriz identidad). Los coeficientes de las sucesivas

filas de H y columnas de B pueden entonces obtenerse con las expresiones:

∑ ∑+= =

−+=n

rk

r

k

krikkrikirir hbbaah1 1

1,2,1 += ri L (3.55b)

−+= ∑ ∑

+= =++

n

rk

r

k

krikkrikirrr

ri hbbaah

b1 1,1

1,

1 nri L,2+= (3.55c)

Este procedimiento podría fallar si en algún paso 0,1 =+ rrh . El proceso podría

recomenzarse con una primera columna de B diferente, lo que en general evitaría el

error, aunque esto no puede garantizarse. Por otro lado, el procedimiento antes

expuesto no mantiene la posible simetría de la matriz A .

También puede hacerse la transformación a la forma Hessemberg por rotaciones

planas (método de Givens) o reflexiones (Householder). El método de Householder

utiliza matrices ortogonales y simétricas, de la forma:

TwwIP 2−= (3.56)

donde w es un vector unitario: 1=wwT . Es fácil probar que 1−== PPP T .

La matriz P refleja al espacio en el "plano" que pasa por el orígen y es ortogonal a w .

Considérese un vector cualquiera uwv 10 α+α= donde 0=wuT . Entonces,

( )( ) uwuwwwIvP 10102 α+α−=α+α−= T . Nótese que la componente según w

ha cambiado de signo, es decir, el vector v ha sido reflejado en el plano ortogonal a

w .

La transformación de A en H mediante el método de Householder requiere 2−n

pasos ( n es aquí el orden del sistema) de la forma:

kk

kk PAPA )()1( =+ (3.57a)

donde:

( ) 1)(,1signo

2

+++=

=θ

θ−=

kkk

kkkk

kTk

k

Tkkkk

a evvw

ww

wwIP

(3.57b)

siendo:


=

+

+

)(

)(,2

)(,1

0

0

knk

kkk

kkkk

a

a

a

M

M

v una matriz que contiene los coeficientes de la columna k de

)(kA que están por debajo de la diagonal principal, y

=+

0

1

0

1

M

M

ke

la columna 1+k de la matriz identidad (de orden n).

Para que el proceso sea más eficiente, debe observarse que al premultiplicar A , cuyas

columnas son L321 aaa , por la matriz P , cada columna se modifica en forma

independiente. Las columnas de PAA = resultan:

( ) ( ) kjTkkjj

Tkkkj wawaawwIa θ−=θ−= (3.58a)

Igualmente, al postmultiplicar A por P las filas se modifican en forma independiente.

Llamando ahora ia a la fila i de la matriz PAA = , la correspondiente fila de PAA =

resulta:

( ) ( ) Tkkiki

Tkkkii wwaawwIaa θ−=θ−= (3.58b)

Por ejemplo, considérese la matriz:

)1(

4321

3432

2343

1234

AA =

=

Transformación de la primera columna a la forma Hessemberg:

=

1

2

3

0

1v 74166.31 =v

=

+

=+=

1

2

74166.6

0

0

0

1

0

74166.3

1

2

3

0

2111 evvw 03964.01 =θ

( )93096.023786.138619.100000.1)1(11 =θ AwT


=

3.069041.762140.613810

1.138091.524280.227620

4.27618-5.34522-5.34522-3.74166-

12300000.4

)1(1AP

−=θ

42543.0

22681.0

02190.2

00000.1

1)1(

11 wAP

==

2.643620.911282.25428-0

0.911281.070671.30143-0

2.25428-1.30143-8.285713.74166-

003.74166-00000.4

1)1(

1)2( PAPA

Transformación de la segunda columna a la forma Hessemberg:

−−

=

25428.2

30143.1

0

0

2v 60298.22 =v

−

−=

−

−

−=+=

25428.2

90441.3

0

0

0

1

0

0

60298.2

25428.2

30143.1

0

0

3222 evvw 09840.02 =θ

( )0.93647-0.61346-00000.10)2(22 =θ AwT

=

0.532540.47162-00

2.74510-1.32452-2.602980

2.25428-1.30143-8.285713.74166-

003.74166-00000.4

)2(2AP

=θ

0.06306

1.11774

1

0

2)2(

22 wAP

===

0.674700.22540-00

0.22540-3.039592.602980

02.602988.285713.74166-

003.74166-00000.4

2)2(

2)3( PAPAH


3.4 Métodos Mixtos

Los dos procesos que se describen en lo que sigue son adecuados para sistemas de

orden grande en el caso en que se requieran muchos vectores característicos.

3.4.1 Iteración con la Determinante de (A - µ B)

Los valores propios de φφφφφφφφ BA λ= son los ceros del polinomio característico

( ) ( ) 0det =λ−=λ BAp . Por ejemplo, si:

=

4200

2820

0282

0024

A

=

1000

0200

0020

0001

B

Las raíces del polinomio:

( )

0720864364644

4200

22820

02282

0024

det

234 =+λ−λ+λ−λ=

λ−λ−

λ−λ−

=λp

son los valores característicos. La determinación de los coeficientes del polinomio

característico es factible (utilizando, por ejemplo, el método de Hessemberg). Una vez

obtenidos los coeficientes del polinomio característico, se requiere determinar los

valores de λ para los que ( ) 0=λp . Sin embargo, éste es frecuentemente un

problema mal condicionado: pequeños errores en los coeficientes causan grandes

errores en las raíces. Por ello, los métodos en los que se hace una determinación

explícita del polinomio característico sólo son adecuados para pequeñas matrices.

Para matrices de orden elevado, pero con un ancho de banda comparativamente

pequeño, pueden determinarse los valores característicos por iteración, evaluando la

determinante de BA kµ− para una secuencia de valores kµ que se corrigen con

procesos tales como el método de la secante. Así, dadas las aproximaciones 1−µ k y

kµ a una raíz y habiéndose calculado ( ) BA 11 −− µ−=µ kkp y ( ) BA kkp µ−=µ se

obtiene una mejor aproximación, 1+µ k , mediante:

21)()()( 1

11 ≤η≤µ

µ−µµ−µ

η−µ=µ−

−+ k

kk

kkkk p

pp (3.59)

La evaluación de ( )µp no requiere tener el polinomio ( )λp en forma explícita.

Si BA µ− se descompone en el producto de una matriz triangular inferior, L , con

unos en la diagonal principal, por una matriz triangular superior, U , se tiene que:

( ) ( ) ( ) ( ) ( )ULLUBA detdetdetdet ==µ−=µp (3.60a)

donde:

( )( ) L

L

44332211

44332211

det

1det

uuuu

llll

===

U

L (3.60b)


y por lo tanto: ( ) nnuuuuup L44332211=µ

La descomposición de BA µ− en factores triangulares LU requiere pocas

operaciones si el ancho de banda es pequeño.

Particularmente importante es el caso en el que las matrices A y B son simétricas y

definidas positivas (todos los valores característicos son reales y positivos). En tal caso

puede aplicarse la propiedad de Sturm: el número de coeficientes negativos en la

diagonal principal de U al hacer la descomposición LUBA =µ− es igual al número

de valores característicos menores que kµ . Esta propiedad, combinada con la

iteración (3.59) u otra similar, permite obtener una primera aproximación a una raíz. Sin

embargo, el proceso debe combinarse con iteraciones inversas usando el cociente de

Rayleigh para refinar los valores obtenidos.

Para las matrices A y B antes indicadas, con 5.1=µ :

=

=−

454.1000

2824.300

024.30

0025.2

1523.00

01588.0

001800.

0001

5.2200

2520

0252

0025.2

5.1 BA

( ) 25.47454.1824.34.35.25.1 =⋅⋅⋅=p

Análogamente se obtienen:

kµ )( kp µ Número de coeficientes negativos

en la diagonal principal de U

1.5 47.25 0

1λ 2.0 0 0

2.5 -8.75 1

2λ 3.0 0 1

3.5 11.25 2

4.0 16.00 2

4.5 11.25 2

3λ 5.0 0 2

5.5 -8.75 3

4λ 6.0 0 3

6.5 47.25 4

3.4.2 Iteración en Subespacio

El método tratado en la sección precedente es eficiente cuando las matrices tienen

ancho de banda relativamente pequeño. Cuando el ancho de banda es grande es más

adecuado un proceso de iteración en subespacio, como se describe en este acápite.

Este método tiene por objeto determinar en forma simultánea los p vectores

característicos asociados a los valores característicos de menor módulo. La idea

básica es que es mucho más fácil iterar para obtener un subespacio que contenga a

estos vectores que iterar para obtener cada uno de ellos por separado.

Se trabaja con una colección de q vectores linealmente independientes ( pq > ). Los

q vectores iniciales definen un subespacio que no necesariamente contiene a los p


vectores de interés. Si esos p vectores característicos si estuvieran contenidos en el

subespacio, sería suficiente proyectar φφφφφφφφ BA λ= para obtener el sistema

zBzA λ= , de orden nq << , que sería fácil de resolver por métodos de

transformación. Los valores característicos del problema proyectado serían los mismos

del problema original, mientras que sus vectores característicos, z , corresponderían a

las proyecciones de los vectores φφφφ en el subespacio. No siendo éste el caso, se hacen

iteraciones inversas para mejorar los q vectores con los que se trabaja, de modo que

el subespacio por ellos definido sea más y más “paralelo” a los p vectores propios de

interés.

En lo que sigue, se supone que A y B son matrices simétricas. Siendo kX los q

vectores de aproximación, en cada ciclo del proceso se realizan los pasos siguientes:

a. Iteración inversa:

kk BXXA =+1

La matriz A debe factorizarse antes de iniciar las iteraciones. Los vectores 1+kX

son más “paralelos” a los primeros p vectores característicos.

b. Proyección de A y B en el subespacio definido por los vectores 1+kX :

11)1(

+++ = k

Tk

k XAXA

11)1(

+++ = k

Tk

k XBXB

Las matrices )1( +kA y )1( +kB son cuadradas, simétricas, de orden q .

c. Solución del problema de valores y vectores característicos proyectado:

11)1(

1)1(

+++

++ = kk

kk

k ΛΛΛΛQBQA

1+kΛΛΛΛ es una matriz diagonal, cuyos coeficientes son los valores característicos del

problema proyectado. Si los 1+kX definen un subespacio que contiene a los p

primeros vectores propios, los p menores valores en 1+kΛΛΛΛ son parte de la solución

buscada.

d. Determinación de nuevos vectores:

111 +++ = kkk QXX

Como consecuencia de los pasos c y d:

( ) qkkT

kkkTk

Tkk

Tk ΛΛΛΛ=== +

++++++++ 1

)1(1111111 QAQQXAXQXAX

( ) qkkT

kkkTk

Tkk

Tk IQBQQXBXQXBX === +

++++++++ 1

)1(1111111

es decir, los vectores 1+kX satisfacen las condiciones de ortogonalidad, lo que asegura

que la iteración inversa no produce q vectores todos iguales a 1φφφφ .

Si en las 0X hay componentes según todos los p vectores característicos de interés:

( )LL pk

k λλλ=∞→

21diagLim ΛΛΛΛ

( )LL pk

k φφφφφφφφφφφφ 21diagLim =∞→X

Habiéndose obtenido en dos ciclos sucesivos los estimados )(kpλ y )1( +λ k

p para el mayor

de los valores característicos requeridos, el cociente )1()()1( ++ λλ−λ kp

kp

kp da una


medida adecuada del error relativo y es útil para verificar la convergencia.

Adicionalmente, debe comprobarse que los valores y vectores obtenidos corresponden

a los p menores valores característicos. Para ello puede usarse la propiedad de

Sturm, factorizando BA µ− en LU con valores de µ ligeramente mayores a los λ

calculados.

Si A y B son simétricas, de orden n , ancho de semibanda m , y A es definida

positiva, el número de operaciones iniciales requeridas es de ( )221 nmO ,

esencialmente para la factorización de A . En cada ciclo de la iteración, considerando

nq << , deben hacerse ( )( )324 ++ qmnqO operaciones. Esto puede reducirse a

( )( )322 ++ qmnqO cuando B es diagonal. Para el procedimiento como se ha

descrito en los párrafos precedentes, se trabaja con ( )8,2min += ppq .

Habitualmente unos 10 ciclos de iteración son suficientes para obtener 6 cifras

significativas correctas en los p valores y vectores característicos. Las operaciones

finales requieren ( )pnmO 221 operaciones adicionales.

Aproximación Inicial

Para iniciar el proceso se requieren q vectores linealmente independientes, agrupados

en 0X . Si A y B fueran diagonales, los vectores característicos serían las columnas

ke de la matriz identidad. Aún cuando A y B no sean diagonales, éste puede ser un

buen criterio para construir la aproximación inicial 0X . En particular, deberían

escogerse las columnas cuyo índice k corresponde a los máximos kkkk ab . Con el

propósito de introducir componentes según todos los vectores característicos, se

acostumbra además considerar dos columnas con componentes arbitrarios (que

podrían ser todos iguales a 1, o iguales a los kkkk ab ).

En algunas aplicaciones es fácil obtener una buena aproximación al primer vector

característico, por ejemplo, como solución de un sistema de ecuaciones de la forma

bxA =1 . Las sucesivas columnas kx para una excelente aproximación inicial pueden

entonces obtenerse como vectores de Ritz, mediante un proceso recursivo que

combina pasos de iteración inversa con ortogonalización:

1−= kk xByA

j

k

j jTj

jTk

kk xxBx

xByyx ∑

−

=

−=

1

1

Determinación de Grupos de Vectores Característicos Haciendo Traslaciones

Si se requieren muchos vectores característicos, el procedimiento estándar de iteración

en subespacio puede hacerse más eficiente utilizando sucesivas traslaciones en

combinación con procedimientos de eliminación de las componentes según los

vectores ya conocidos.

En este caso se trabaja con subespacios de dimensión q , con el propósito de

determinar grupos de 2qp ≈ vectores. Habitualmente ( )mq ,4máx= , siendo m el

ancho (promedio) de semibanda. Para cada grupo de vectores, se realizan cómputos

iniciales que incluyen:

a. Determinación de la traslación (el proceso se inicia con 0=µ )


1

~9.01.0 +λ+λ=µ nn

nλ es el último valor característico para el que se ha logrado convergencia;

1

~+λn es la aproximación al siguiente valor característico.

b. Factorización: ULBA =µ−

c. Determinación de q vectores de aproximación inicial, 0X .

La iteración incluye los pasos siguientes:

a. Eliminación de las componentes de kX según los vectores característicos

previamente determinados (ver acápite 3.2.4).

b. Iteración inversa:

11

1

++

+

==

kk

kk

YZUL

XBY

c. Proyección de BA µ− y B en el subespacio definido por los vectores 1+kY :

11)1(

+++ = k

Tk

k YZA

11)1(

+++ = k

Tk

k ZBZB

Las matrices )1( +kA y )1( +kB son cuadradas, simétricas, de orden q .

d. Solución del problema de valores y vectores característicos proyectado:

( ) 11)1(

1)1()1(

+++

+++ =µ+ kk

kk

kk ΛΛΛΛQBQBA

e. Determinación de nuevos vectores:

111 +++ = kkk QZX

f. Verificación de la convergencia

Como en el procedimiento estándar, debe verificarse que se tienen los valores

característicos correctos utilizando la propiedad de Sturm.

Ejemplo simple

Supóngase que se requieren dos vectores característicos de φφφφφφφφ BA λ= , siendo:

−−−

−−−

=

2100

1210

0121

0012

A

=

2

0

1

0

B

En este caso particular la iteración inversa produce en un solo paso el subespacio que

incluye a los dos primeros vectores característicos, ya que dos de los valores

característicos son infinitos. Para hacer más eficiente el proceso debe factorizarse

primero la matriz A :


LUA =

−−

−

−−

−=

25.1000

13333.100

015.10

0012

175.000

016667.0

0015.0

0001

Con la aproximación inicial:

=

01

00

10

00

0X

Se obtiene por iteración inversa:

=

02

00

10

00

0XB 01 XBXUL =

=

0.41.6

0.81.2

1.20.8

0.60.4

1X

Proyectando las matrices A y B en el subespacio definido por los vectores 1X :

==

2.18.0

8.02.311

)1( XAXA T

==

76.124.2

24.276.511

)1( XBXB T

se resuelve el problema proyectado (método de Jacobi generalizado):

1.00

50.0-

56.2 d

-0.64 c

56.2 c

28.1 c

3

2

1

=γ=α

−=⇒

===

−=

γα

=11

5.01

1

1P

=

20.10

000.6PAPT

=

96.00

012PBPT

de donde:

=

=

25.10

050.0

0

0

222

1111

ba

baΛΛΛΛ

−=

621020.1675288.0

310510.0675288.0Q

y finalmente se expresan los vectores en el sistema de referencia original:

( )2111

248408.0350577.0

124204.0350577.0

497816.0350577.0

248408.0675288.0

φφφφφφφφ=

−

== QXX

3. Valores y Vectores Característicos · PDF fileH. Scaletti - Métodos...

Documents

Transcript of 3. Valores y Vectores Característicos · PDF fileH. Scaletti - Métodos...