4. Proiezioni ortogonali - polito.it · 2004. 9. 28. · 4. Proiezioni ortogonali 23 A parole la...

26
4. Proiezioni ortogonali sottospazio Sia V uno s.v. sul campo complesso. Un sottoinsieme S di V si dir` a un sottospazio di V se esso contiene tutte le combinazioni lineari di vettori che gi` a gli appartengano. Formalmente: Definizione 4.1. Sia V uno s.v. su C; S V ` e un sottospazio di V se (α, β C, x, y S) = αx + βy S. Il modo pi` u semplice per costruire un sottospazio di V consiste nello scegliere n vettori in V , siano x 1 , x 2 , ..., x n , e considerare l’insieme di tutte le loro combinazioni lineari: x = c 1 x 1 + c 2 x 2 + ... + c n x n . Diremo che S ` e generato dell’insieme dei vettori considerato e scriveremo S = {x 1 , x 2 ,..., x n }. Se gli n vettori considerati sono linearmente indipendenti, essi costituiscono una base del sottospazio S, ed n sar`a la dimensione di S. In tal caso (e solo in tal caso) ogni x S ammette un’unica rappresentazione nella forma x = c 1 x 1 + c 2 x 2 + ... + c n x n ; le costanti c 1 , c 2 , ... , c n sono le coordinate di x rispetto alla base considerata. Se i vettori x 1 , x 2 , ..., x n costituiscono una famiglia ortogonale, il calcolo delle coordinate di un vettore x appartenente al sottospazio da essi generato ` e immediato: moltiplicando scalarmente per x k i due membri dell’uguaglianza x = c 1 x 1 + c 2 x 2 + ... + c n x n si ottiene (x|x k )= c k (x k |x k ) = c k = (x|x k ) x k 2 . Esempio 4.1. Sia V = L 2 [a, b], s.v. delle funzioni f [a, b] C, che sono di quadrato sommabile, vale a dire tali che b a |f | 2 < +, dove l’integrale ` e inteso nel senso di Lebesgue. Sappiamo che tale s.v. pu` o essere dotato del prodotto scalare (f |g) := b a f (x) g(x) dx. Quanto abbiamo visto nell’esempio 3.5 ci consente di affermare che le funzioni di Walsh w n,i (x), i =1, 2,..., 2 n , generano un sottospazio di dimensione 2 n di L 2 [0, 2 n ], e precisamente costituiscono una base ortogonale di tale sottospazio. Analogamente, in base all’esempio 3.4, possiamo dire che le funzioni 1/2, cos x, cos 2x, ..., cos(nx), sin x, sin 2x, ..., sin(nx), generano un sottospazio di dimensione 2n + 1 di L 2 [π,π], e costituiscono una base ortogonale di tale sottospazio. Nel seguito indicheremo con simbolo F n il sottospazio appena considerato. Abbia- mo scelto come rappresentante delle funzioni costanti 1/2 anzich´ e 1 per ottenere una maggiore uniformit` a in certe formule che otterremo in seguito.

Transcript of 4. Proiezioni ortogonali - polito.it · 2004. 9. 28. · 4. Proiezioni ortogonali 23 A parole la...

Page 1: 4. Proiezioni ortogonali - polito.it · 2004. 9. 28. · 4. Proiezioni ortogonali 23 A parole la (2) afferma che y `e l’elemento di V n avente distanza minima da x. Prima di dare

4. Proiezioni ortogonali

sottospazioSia V uno s.v. sul campo complesso. Un sottoinsieme S di V si dira un sottospazio diV se esso contiene tutte le combinazioni lineari di vettori che gia gli appartengano.Formalmente:

Definizione 4.1. Sia V uno s.v. su C; S ⊆ V e un sottospazio di V se

(∀α, β ∈ C, ∀x, y ∈ S) =⇒ αx + βy ∈ S.

Il modo piu semplice per costruire un sottospazio di V consiste nello scegliere nvettori in V , siano x1, x2, . . ., xn, e considerare l’insieme di tutte le loro combinazionilineari:

x = c1x1 + c2x2 + . . . + cnxn.

Diremo che S e generato dell’insieme dei vettori considerato e scriveremo

S = 〈{x1, x2, . . . ,xn}〉.Se gli n vettori considerati sono linearmente indipendenti, essi costituiscono una

base del sottospazio S, ed n sara la dimensione di S. In tal caso (e solo in tal caso) ognix ∈ S ammette un’unica rappresentazione nella forma x = c1x1 + c2x2 + . . . + cnxn;le costanti c1, c2, . . . , cn sono le coordinate di x rispetto alla base considerata.

Se i vettori x1, x2, . . ., xn costituiscono una famiglia ortogonale, il calcolo dellecoordinate di un vettore x appartenente al sottospazio da essi generato e immediato:moltiplicando scalarmente per xk i due membri dell’uguaglianza x = c1x1 + c2x2 +. . . + cnxn si ottiene

(x|xk) = ck (xk|xk) =⇒ ck =(x|xk)‖xk‖2

.

Esempio 4.1. Sia V = L2[a, b], s.v. delle funzioni f [a, b] → C, che sono di quadratosommabile, vale a dire tali che

∫ b

a|f |2 < +∞, dove l’integrale e inteso nel senso di

Lebesgue. Sappiamo che tale s.v. puo essere dotato del prodotto scalare (f |g) :=∫ b

af(x) g(x) dx.Quanto abbiamo visto nell’esempio 3.5 ci consente di affermare che le funzioni di

Walsh wn,i(x), i = 1, 2, . . . , 2n, generano un sottospazio di dimensione 2n di L2[0, 2n],e precisamente costituiscono una base ortogonale di tale sottospazio.

Analogamente, in base all’esempio 3.4, possiamo dire che le funzioni

1/2, cos x, cos 2x, . . . , cos(nx),

sin x, sin 2x, . . . , sin(nx),

generano un sottospazio di dimensione 2n + 1 di L2[−π, π], e costituiscono una baseortogonale di tale sottospazio.

Nel seguito indicheremo con simbolo Fn il sottospazio appena considerato. Abbia-mo scelto come rappresentante delle funzioni costanti 1/2 anziche 1 per ottenere unamaggiore uniformita in certe formule che otterremo in seguito. �

Page 2: 4. Proiezioni ortogonali - polito.it · 2004. 9. 28. · 4. Proiezioni ortogonali 23 A parole la (2) afferma che y `e l’elemento di V n avente distanza minima da x. Prima di dare

22 G.C. Barozzi: Ortogonalita

Definizione 4.2. Sia V uno s.v. con prodotto scalare, S un sottospazio di V ;chiameremo complemento ortogonale di S l’insieme S⊥ dei vettori di V ortogonaliad ogni elemento di S:

S⊥ :={x ∈ V

∣∣ ∀y ∈ S, (x | y) = 0}.

Lasciamo come esercizio la dimostrazione del fatto che S⊥ e ancora un sottospaziodi V . Se S e generato dai vettori x1, x2, . . . ,xn, appartengono a S⊥ tutti i vettori chesono ortogonali a ciascuno dei vettori che generano S, e soltanto essi. Formalmente:

S⊥ :={x ∈ V

∣∣ ∀k = 1, 2, . . . , n, (x|xk) = 0.

Esempio 4.2. Sia V = L2[a, b] e sia S := 〈{ 1 }〉 il sottospazio generato dalla funzionecostante, uguale a 1; si tratta del sottospazio di V costituito dalle funzioni costanti.La funzione f di L2 e ortogonale a S se e solo se essa e ortogonale alla costante 1,vale a dire se si ha

(f | 1) =∫ b

a

f(x) · 1 dx =∫ b

a

f(x) dx = 0.

In conclusione: le funzioni di L2 ortogonali alle funzioni costanti sono tutte esoltanto quelle che hanno integrale nullo. �

proiezione Supponiamo di avere un sottospazio Vn, di dimensione n, di uno s.v. V munito diortogonale prodotto scalare; dato un vettore x, in generale non appartenente a Vn, ci chiediamo

quale sia il vettore di Vn piu prossimo a x.

Figura 4.1.

La proiezione ortogonale

di x su V2 e anche il

punto di V2 a distanza

minima da x.

0

x

y

V2

x1

x2

y′

proiezione ortogonale Nel caso in cui V e l’ordinario spazio tridimensionale e il sottospazio in questionee un piano passante per l’origine, l’intuizione ci suggerisce che la soluzione si ottieneproiettando ortogonalmente il vettore su tale piano.

Proposizione 4.1. Sia V uno s.v. con prodotto scalare, {x1, x2, . . . ,xn} uninsieme di vettori linearmente indipendenti, Vn il sottospazio da essi generato:Vn := = 〈 {x1, x2, . . . ,xn} 〉. Per ogni x ∈ V esiste un y ∈ Vn (ed uno solo) taleche

x = y + z, con z ∈ V ⊥n , (1)

cioe z := x − y e ortogonale a tutti i vettori di Vn. Diremo che y e la proiezioneortogonale di x su Vn; per tale vettore si ha

∀y′ ∈ Vn

(‖x − y‖ ≤ ‖x − y′‖

). (2)

Se {x1, x2, . . . ,xn} e una famiglia ortogonale, allora y e dato da

y =n∑

k=1

(x |xk)‖xk‖2

xk. (3)

Page 3: 4. Proiezioni ortogonali - polito.it · 2004. 9. 28. · 4. Proiezioni ortogonali 23 A parole la (2) afferma che y `e l’elemento di V n avente distanza minima da x. Prima di dare

4. Proiezioni ortogonali 23

A parole la (2) afferma che y e l’elemento di Vn avente distanza minima da x.Prima di dare la dimostrazione della proposizione enunciata, consideriamo il seguente

Esempio 4.3. Sia, come nell’esempio precedente, V = L2[a, b], V1 := 〈{ 1 }〉 il sot-tospazio di dimensione 1 generato dalla funzione costante 1 (nell’esempio precedenteabbiamo usato il simbolo S). Data la funzione f ∈ L2, vogliamo determinarne laproiezione ortogonale su V1, diciamo g. Si avra dunque

f = g + (f − g)

dove g ∈ V1 (dunque g e una funzione costante, diciamo g(x) = λ per ogni x) e

f − g = f − λ ∈ V ⊥1 .

Ma noi sappiamo che V ⊥1 e costituito dalle funzioni aventi integrale nullo, dunque

dovra essere∫ b

a

(f(x) − λ) dx = 0 ⇐⇒ λ =1

b − a

∫ b

a

f(x) dx.

In conclusione: la proiezione ortogonale di f sul sottospazio delle funzioni costanti ela funzione (costante) uguale alla media integrale di f sull’intervallo [a, b].

Esempio 4.3’. Sia V = Rn munito del prodotto scalare canonico, V1 il sottospazio

di V di dimensione 1 generato dal vettore v1 := (1, 1, . . . , 1). Un vettore x =(x1, x2, . . . , xn) e ortogonale a v1 (dunque appartiene a V ⊥

1 ) se e solo sen∑

k=1

xk = 0.

La proiezione ortogonale di x su V1 si scrive λv1 con λ tale che

x − λv1 ∈ V ⊥1 ⇐⇒

n∑k=1

xk − λn = 0 ⇐⇒ λ =1n

n∑k=1

xk.

A parole: la proiezione ortogonale di x su V1 e data dal vettore con tutte le componentiuguali alla media aritmetica delle componenti di x stesso. �

Dimostrazione della Prop. 4.1. Sia x un assegnato elemento di V . Un genericoelemento di Vn si scrive y =

∑nj=1 cj xj . Se si vuole che il vettore residuo x − y sia

ortogonale a Vn, occorre (e basta) che esso sia ortogonale a tutti i vettori xi dellabase di tale sottospazio, cioe

(x −

n∑j=1

cj xj

∣∣ xi

)= 0,

o, in forma equivalente,n∑

j=1

(xj |xi) cj = (x |xi) (4)

per tutti gli indici i da 1 a n.Abbiamo scritto un sistema di n equazioni nelle n incognite cj ; ammettiamo

per un istante di aver dimostrato che la matrice dei coefficienti di tale sistema siainvertibile (dunque si tratti di un sistema di Cramer). L’esistenza e l’unicita di ysono cosı provate.

L’affermazione appena fatta (di cui ci occuperemo nella prossima proposizione)e ovvia nel caso particolare in cui i vettori xi formano una famiglia ortogonale: intale caso infatti la matrice del sistema (4) si riduce ad una matrice diagonale aventesulla diagonale principale le quantita ‖xi‖2 > 0; il sistema stesso si riduce ad unacollezione di equazioni di primo grado nelle singole incognite c1, c2, . . . , cn:

Page 4: 4. Proiezioni ortogonali - polito.it · 2004. 9. 28. · 4. Proiezioni ortogonali 23 A parole la (2) afferma che y `e l’elemento di V n avente distanza minima da x. Prima di dare

24 G.C. Barozzi: Ortogonalita

‖xi‖2 ci = (x |xi) =⇒ ci =(x |xi)‖xi‖2

, (5)

da cui deriva subito la formula (3).In generale, se y′ e un qualsivoglia elemento di Vn distinto da y, allora y−y′ ∈ Vn,

x − y ∈ V ⊥n , dunque, in virtu del teorema di Pitagora,

‖x − y′‖2 = ‖(x − y) + (y − y′)‖2 = ‖x − y‖2 + ‖y − y′‖2 >

> ‖x − y‖2,

in quanto ‖y − y′‖2 > 0. �

Occupiamoci della matrice costituita dai prodotti scalari (xj |xi).

Proposizione 4.2. Se {x1, x2, . . . ,xn} e un insieme di vettori linearmente in-dipendenti, allora la matrice

G := [ (xj |xi) ], i, j = 1, 2, . . . , n,(cioe la matrice avente come termine di indici (i, j) il prodotto scalare (xj |xi)

)e

definita positiva, dunque e invertibile.

Dimostrazione. La matrice in questione (detta matrice di Gram, dal nome del mate-matico danese J.P. Gram, 1850-1916), e hermitiana nel caso complesso, cioe terminisimmetrici rispetto alla diagonale principale sono tra loro coniugati:

(xj |xi) = (xi |xj),

simmetrica nel caso reale:

(xj |xi) = (xi |xj).

Dimostriamo che essa e definita positiva. Sia

λ := (λ1, λ2, . . . , λn)

un vettore di Cn; valutiamo la forma quadratica associata alla matrice G, vale a dire il

polinomio (Gλ |λ), omogeneo di secondo grado nelle componenti di λ, dove s’intendeche il prodotto scalare indicato sia quello canonico. Se (Gλ)i e la componente i-esimadel vettore Gλ, allora

(Gλ |λ) =n∑

i=1

(Gλ)i λi =n∑

i=1

n∑j=1

(xj |xi) λj λi.

L’espressione ottenuta coincide col quadrato della norma del vettore

λ1 x1 + λ2 x2 + . . . + λn xn;

infatti

‖λ1 x1+λ2 x2+ . . .+ λn xn ‖2 =( n∑

j=1

λjxj

∣∣ n∑i=1

λixi

)=

n∑i=1

n∑j=1

(xj |xi) λj λi.

Se λ �= 0, allora λ1 x1 + λ2 x2 + . . . + λn xn �= 0, quindi(Gλ |λ

)= ‖λ1 x1 + λ2 x2 + . . . + λn xn ‖2 > 0.

Quanto al fatto che una matrice definita positiva e invertibile, basta osservare chese, per assurdo, G fosse singolare, esisterebbe un vettore λ �= 0 per cui Gλ = 0; siavrebbe allora, a piu forte ragione, (Gλ |λ) = (0 |λ) = 0, in contraddizione col fattoche G e definita positiva. �

Esempio 4.4. Vogliamo calcolare in L2[0, 1] la proiezione ortogonale della funzionef(t) := sin(πt/2) sul sottospazio di dimensione 2 generato dalle funzioni x1(t) = 1,x2(t) = t. Si tratta del sottospazio costituito dai polinomi di grado ≤ 1.Calcoliamo i coefficienti e il termine noto del sistema (4). Si trova facilmente

Page 5: 4. Proiezioni ortogonali - polito.it · 2004. 9. 28. · 4. Proiezioni ortogonali 23 A parole la (2) afferma che y `e l’elemento di V n avente distanza minima da x. Prima di dare

4. Proiezioni ortogonali 25

(x1 |x1) = 1, (x1 |x2) = (x2 |x1) =12, (x2 |x2) =

13

(f |x1) =2π

, (f |x2) =4π2

.

La proiezione ortogonale si scrivera y(t) = c1+c2t, dove c1 e c2 si ottengono risolvendoil sistema[

1 1/21/2 1/3

] [c1

c2

]=

[2/π4/π2

].

Si trova c1 = 8(π − 3)/π2 ≈ 0.114... , c2 = 12(4 − π)/π2 ≈ 1.043... , dunque y(t) ≈≈ 0.114 + 1.043 t (v. figura 4-2). �

0.2 0.4 0.6 0.8 1

1

Figura 4.2.

Grafico della funzione

t �→ sin(πt/2) (in colore)

e del polinomio di

primo grado che meglio

l’approssima nella norma

di indice 2.

Osservazione 4.1. La dimostrazione contiene piu di quanto enunciato. Infattiquanto abbiamo dimostrato prova che G e, in ogni caso, una matrice semi-definitapositiva, ed e definita positiva se e soltanto se i vettori a partire dai quali e costruitasono linearmente indipendenti.

Osservazione 4.2. La soluzione del sistema (4) puo essere ottenuta utilizzando levarianti del metodo di Gauss ad hoc per le matrici definite positive: alludiamo alcosiddetto metodo di Choleski, per cui rimandiamo ai testi di Analisi Numerica.

Osservazione 4.3. Quanto dimostrato nella Proposizione 4.2 puo essere riformulatoin termini geometrici dicendo che V e somma diretta dei sottospazi Vn e V ⊥

n :

V = Vn ⊕ V ⊥n .

A parole: ogni vettore di V si puo scrivere (ed in un solo modo) come somma diun vettore di Vn ed un vettore di V ⊥

n .

Osservazione 4.4. Supponiamo che in V si possano trovare n+1 vettori linearmenteindipendenti, diciamo

x1, x2, . . . , xn, xn+1.

Siano rispettivamente Vn e Vn+1 i sottospazi generati dai primi n vettori e da tuttii vettori in questione. Evidentemente si ha

dim Vn = n, dim Vn+1 = n + 1, Vn ⊂ Vn+1.

La determinazione della proiezione ortogonale di un vettore x su Vn+1 conduce adun sistema in tutto simile a (4), ma di dimensione n + 1. La matrice dei coefficientidi tale sistema (cioe la matrice di Gram costruita sui vettori xi, per i da 1 a n + 1)si ottiene dall’analoga matrice del sistema (3) mediante una “orlatura”, vale a direaggiungendo una riga ed una colonna. Alla colonna dei termini noti occorre aggiungereun ulteriore termine.

Page 6: 4. Proiezioni ortogonali - polito.it · 2004. 9. 28. · 4. Proiezioni ortogonali 23 A parole la (2) afferma che y `e l’elemento di V n avente distanza minima da x. Prima di dare

26 G.C. Barozzi: Ortogonalita

Tuttavia, in generale, la soluzione di questo secondo sistema non e in alcunmodo legata alla soluzione del primo. In termini piu espliciti: se, dopo aver calcolatole componenti della proiezione ortogonale di x su Vn, vogliamo calcolare la proiezioneanaloga su Vn+1, dobbiamo rifare da capo tutti i calcoli.

Non e cosı nel caso ortogonale. In tal caso ciascuna delle componenti vienecalcolata indipendentemente dalle altre mediante la formula (5); per passare dallaproiezione di x su Vn alla proiezione su Vn+1 basta calcolare la componente cn+1. �

diseguaglianza Riprendiamo in considerazione la formula (1): l’ortogonalita tra y e z implicadi Bessel l’uguaglianza

‖z‖2 = ‖x − y‖2 = ‖x‖2 − ‖y‖2, (6)

da cui subito la cosiddetta diseguaglianza di Bessel (dal nome dell’astronomo e mate-matico tedesco Friedrich Wilhelm Bessel, 1784-1846):

‖y‖2 ≤ ‖x‖2, (7)

dove vale il segno di uguaglianza se e solo se x = y, cioe x ∈ Vn. Si osservi che‖x‖2 − ‖y‖2 e il quadrato della distanza di x da Vn.

Nel caso in cui Vn e generato da un sistema ortogonale, diciamo

{x1, x2, . . . , xn},possiamo calcolare il quadrato della norma di y =

∑ni=1 ci xi, utilizzando ancora una

volta il teorema di Pitagora: si ottienen∑

i=1

|ci|2 ‖xi‖2 ≤ ‖x‖2, (7′)

dove i coefficienti ci sono dati dalla formula (5):

ci =(x |xi)‖xi‖2

.

Se i vettori xi costituiscono un sistema ortonormale, la diseguaglianza di Besselassume una forma ancora piu semplice:

n∑i=1

|ci|2 ≤ ‖x‖2. (7′′)

Esempio 4.5. Sia V = L2[−π, π], f(x) := |x|; vogliamo calcolare la proiezioneortogonale di f sul sottospazio F1 generato dalle funzioni

1/2, cos x, sin x,

cioe il sottospazio dei polinomi trigonometrici di ordine 1 (v. esempio 4.1). Poichedisponiamo di una base ortogonale di F1, e i quadrati delle norme delle funzioni ditale base valgono ordinatamente π/2, π, π, possiamo utilizzare la formula (3) dellaProposizione 4.1 e scrivere la proiezione ortogonale di f su F1 come

s1(x) =a0

2+ a1 cos x + b1 sin x,

dove

a0 =2π

∫ π

−π

|t| · 12

dt =1π

∫ π

−π

|t|dt,

a1 =1π

∫ π

−π

|t| cos t dt, b1 =1π

∫ π

−π

|t| sin t dt.

Si trova subito b1 = 0, in quanto l’integrando t �→ |t| sin t e dispari. Si ha poi, inbase alla parita delle funzioni integrande,

a0 =2π

∫ π

0

t dt = π, a1 =2π

∫ π

0

t cos t dt = − 4π

.

Page 7: 4. Proiezioni ortogonali - polito.it · 2004. 9. 28. · 4. Proiezioni ortogonali 23 A parole la (2) afferma che y `e l’elemento di V n avente distanza minima da x. Prima di dare

4. Proiezioni ortogonali 27

In definitiva

s1(x) =π

2− 4

πcos x.

-4 -2 2 4

1

2

3

π−π

Figura 4.3.

Grafico delle funzioni

f(x) = |x| (prolungata

periodicamente fuori

dell’intervallo [−π, π]),

s1(x) = π/2 − (4/π) cos x.

polinomio di FourierIl polinomio trigonometrico ottenuto, che chiameremo polinomio di Fourier (diordine 1) della funzione f (dal nome del matematico francese J.B. Fourier, 1768-1830), e la migliore approssimazione di f stessa mediante elementi di F1:

∀p1 ∈ F1, ‖f − s1‖ ≤ ‖f − p1‖.La disuguaglianza di Bessel (7′) diventa

π

2|a0|2 + π|a1|2 =

π3

2+

16π

≤∫ π

−π

t2 dt =23

π3;

in forma equivalente

16π

≤ π3

6⇐⇒ 96 ≤ π4 = 97.409 . . . .

Il quadrato della distanza (secondo la norma di L2) tra la funzione f e il sottospazioF1 e dunque

‖f − s1‖2 =π3

6− 16

π= 0.074754 . . . .

Nel capitolo 6 generalizzeremo le considerazioni fatte sull’esempio appena visto:per ogni funzione f di un opportuno insieme considereremo il relativo polinomio diFourier di ordine n, cioe la proiezione ortogonale di f sul sottospazio Fn.

funzioni di WalshEsempio 4.6. Le funzioni di Walsh, che nell’esempio 3.5 sono state definite nell’inter-vallo [0, 2n], possono essere definite, in modo abbastanza ovvio, su un qualunqueintervallo [a, b]. Basta suddividere tale intervallo in 2n parti uguali e definire lafunzione wn,i(x) prelevando i valori dalla i-esima riga della matrice Wn:

wn,i(x) := Wn, i[k], per a +k − 1

h< x <

k

h, k = 1, 2, . . . , 2n,

avendo posto h := (b − a)/2n. Si hanno le relazioni di ortogonalita

(wn,i|wn,j) =∫ 2n

0

wn,i(x) wn,j(x) dx = h Wn,i • Wn,j ={

b − a, se i = j,0, altrimenti.

Le funzioni wn,i(x) per i = 1, 2, . . . , k, con k ≤ 2n, costituiscono una base orto-gonale di un sottospazio di dimensione k di L2[a, b]. Presa una qualunque funzionef di tale spazio possiamo proiettarla ortogonalmente sul sottospazio considerato. Laproiezione ortogonale (che e anche l’approssimazione ottima) sara data, in base allaformula (3) della Prop. 4.1, dall’espressione

fk(x) :=k∑

i=1

1b − a

(f |wn,i) wn,i(x).

Page 8: 4. Proiezioni ortogonali - polito.it · 2004. 9. 28. · 4. Proiezioni ortogonali 23 A parole la (2) afferma che y `e l’elemento di V n avente distanza minima da x. Prima di dare

28 G.C. Barozzi: Ortogonalita

Scegliamo, ad esempio, la funzione

f(x) = 0.3 sin(2πx) − 0.8 sin(4πx).

sull’intervallo [0, 1]. La figura 4.4 mostra le funzioni costanti a tratti che si ottengonoproiettando tale funzione sui sottospazi generati dalle prime k funzioni w4,i(x), perk da 1 a 8. Per comprendere come mai alcune coppie di grafici siano identici bastaosservare che i primi 8 prodotti scalari (f |w4,i) valgono ordinatamente

0.3, 0.63662, 0, −0.509296, 0, −0.263697, 0, 0;

in altri termini, la funzione f e ortogonale a w4,3, w4,5, w4,7 e w4,8.

1

-1

1

1

-1

1

1

-1

1

1

-1

1

1

-1

1

1

-1

1

1

-1

1

1

-1

1

Figura 4.4. Dall’alto al basso, da sinistra a destra: approssimazione della funzione f(x) =

= 0.3 sin(2πx) − 0.8 sin(4πx) mediante funzioni costanti a tratti generate dalle prime k

funzioni w4,i(x), per k da 1 a 8.

L’approssimazione dunque non migliora passando dal sottospazio di dimensione 6 aquello di dimensione 8. Cio e dovuto al fatto che f e periodica di periodo 1 e non hacomponenti periodiche con periodo inferiore a 1/2.

Modifichiamo la funzione f aggiungendo un termine periodico di periodo 1/4:

f(x) = 0.3 sin(2πx) − 0.8 sin(4πx) + 0.2 sin(8π(x − 1/2)).

Questa volta i prodotti scalari (f |w4,i) valgono ordinatamente

0.3, 0.63662, 0, −0.509296, 0,−0.263697, 0, 0.127324.

La figura 4.5 mostra l’andamento della approssimazioni fk. Ricordando la dise-guaglianza di Bessel (6), possiamo mettere in evidenza i quadrati delle distanze di fdalle approssimazioni fk:

Page 9: 4. Proiezioni ortogonali - polito.it · 2004. 9. 28. · 4. Proiezioni ortogonali 23 A parole la (2) afferma che y `e l’elemento di V n avente distanza minima da x. Prima di dare

4. Proiezioni ortogonali 29

1-1

1

2

1-1

1

2

1-1

1

2

1-1

1

2

1-1

1

2

1-1

1

2

1-1

1

2

1-1

1

2

Figura 4.5. Dall’alto al basso, da sinistra a destra: approssimazione della funzione f(x) =

= 0.3 sin(2πx)−0.8 sin(4πx)+0.2 sin(8π(x−1/2)) mediante funzioni costanti a tratti generate

dalle prime k funzioni w4,i(x), per k da 1 a 8.

k ‖f − fk‖2 = ‖f‖2 − ‖fk‖2

1 0.842 0.4347153 0.4347154 0.1753335 0.1753336 0.1057977 0.1057978 0.089586 �

procedimento diAbbiamo visto nell’Osservazione 4 che la disponibilita di una base ortogonale per ilGram-Schmidtsottospazio Vn su cui si proietta ortogonalmente semplifica notevolmente la situazione.

Mostriamo ora come sia possibile, almeno in linea di principio, ricondursi al caso diuna base ortogonale per Vn a partire da una qualsivoglia base, mediante il cosiddettoprocedimento di ortogonalizzazione di Gram-Schmidt, cosı chiamato dai nomi del giacitato J.P. Gram e del tedesco E. Schmidt (1876-1959).

Proposizione 4.3. Sia {x1, x2, . . . ,xn} un insieme di vettori linearmente indipen-denti nello s.v. V con prodotto scalare ( · | · ); e possibile costruire una famigliaortonormale {e1, e2, . . . ,en} in modo tale che, per ogni indice k compreso tra 1 en, il vettore ek sia combinazione lineare dei vettori {x1, x2, . . . ,xk}.

Dimostrazione. L’ultima affermazione significa che, per ogni k, dove 1 ≤ k ≤ n,

〈{x1, x2, . . . ,xk}〉 = 〈{e1, e2, . . . ,ek}〉.

Page 10: 4. Proiezioni ortogonali - polito.it · 2004. 9. 28. · 4. Proiezioni ortogonali 23 A parole la (2) afferma che y `e l’elemento di V n avente distanza minima da x. Prima di dare

30 G.C. Barozzi: Ortogonalita

Mostriamo un algoritmo costruttivo per i vettori ek. Se k = 1 basta porre

e1 :=1

‖x1‖x1.

Supponiamo di aver gia costruito i vettori e1, e2, . . . ,ek−1 e di voler costruire ek.Il vettore xk puo essere decomposto nella somma della sua proiezione ortogonale sulsottospazio

Vk−1 = 〈{e1, e2, . . . ,ek−1}〉 = 〈{x1, x2, . . . ,xk−1}〉piu un vettore residuo, ortogonale al medesimo sottospazio:

xk = yk + zk, yk ∈ Vk−1, zk ∈ V ⊥k−1.

Il vettore zk non puo essere nullo, perche in tale caso xk = yk sarebbe combi-nazione lineare dei vettori x1, x2, . . . ,xk−1, contro l’ipotesi di lineare indipendenzadei vettori dati. Si osservi che per zk abbiamo l’espressione

zk = xk − yk = xk −k−1∑h=1

(xk | eh) eh.

Basta dunque porre

ek :=1

‖zk‖zk. �

In sintesi, il procedimento puo essere cosı descritto:

1. e1 := x1/‖x1‖2. per k = 2, 3, . . . , n, ripetere:2.1 zk = xk −

∑k−1h=1(xk | eh) eh

2.2 ek := zk/‖zk‖

Se si desidera passare dalla famiglia dei vettori {x1, x2, . . . ,xn} ad una famigliaortogonale {z1, z2, . . . ,zn} (non necessariamente ortonormale), si puo considerare ilprocedimento:

1. z1 := x1

2. per k = 2, 3, . . . , n, ripetere:

2.1 zk = xk −k−1∑h=1

(xk |zh)‖zh‖2

zh

E in sostanza l’algoritmo precedente senza la “normalizzazione” dei vettori zk.

polinomi Esempio 4.7. Consideriamo lo s.v. L2[−1, 1] munito del consueto prodotto scalare.di Legendre Per ogni numero naturale n, le funzioni

x0(t) := 1, x1(t) := t, x2(t) := t2, . . . , xn(t) := tn

sono linearmente indipendenti. Applichiamo ad esse l’algoritmo di Gram-Schmidtnella seconda formulazione. Abbiamo innanzitutto z0(t) = x0(t) = 1. Essendo poi

(x1 | z0) =∫ 1

−1

t dt = 0, ‖z0‖2 = (z0 | z0) =∫ 1

−1

dt = 2,

si trova

z1(t) = x1(t) −(x1 | z0)‖z0‖2

z0(t) = x1(t) = t.

Analogamente, essendo

Page 11: 4. Proiezioni ortogonali - polito.it · 2004. 9. 28. · 4. Proiezioni ortogonali 23 A parole la (2) afferma che y `e l’elemento di V n avente distanza minima da x. Prima di dare

4. Proiezioni ortogonali 31

(x2 | z0) =∫ 1

−1

t2 dt =23, (x2 | z1) =

∫ 1

−1

t3 dt = 0,

‖z1‖2 = (z1 | z1) =∫ 1

−1

t2 dt =23,

si trova

z2(t) = x2(t) −13

z0(t) + 0 · z1(t) = t2 − 13.

Successivamente si trova

z3(t) = t3 − 35

t,

z4(t) = t4 − 67

t2 +335

,

z5(t) = t5 − 109

t3 +521

t,

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Si ottiene una successione di polinomi ortogonali, ciascuno dei quali, essendo ot-tenuto da tn mediante sottrazione di un polinomio di grado inferiore ad n, e monico,cioe ha 1 come coefficiente del termine di grado massimo. I polinomi cosı ottenutisono associati al nome del matematico francese A.M. Legendre (1752-1833). Per essie possibile ottenere un’espressione compatta facendo intervenire le derivate. Si trovainfatti

zn(t) =n!

(2n)!dn

dtn(t2 − 1)n.

Riprenderemo lo studio dei polinomi di Legendre nel capitolo 7. �

Il procedimento di Gram-Schmidt ammette la seguente conseguenza: se lo spazioV ha dimensione n, dunque possiede una base costituita da n vettori, allora essopossiede anche una base ortogonale costituita da altrettanti vettori.

Tale base non e unica. Consideriamo, ad esempio, lo spazio R8: esso ammette la

base ortogonale cosiddetta canonica, cioe quella costituita dai vettori

ei := ( 0, 0, . . . , 0︸ ︷︷ ︸i−1 elementi

, 1, 0, . . . , 0), i = 1, 2, . . . , 8,

ma anche la base costituita dalle righe della matrice di Walsh W3, oppure ancoraquella costituita dalle righe della matrice C8 introdotta nell’esempio 3.6.

Consideriamo il sottospazio di R8 generato dalle prime quattro righe della matrice

W3, che per comodita riportiamo:

1 1 1 1 1 1 1 11 1 1 1 −1 −1 −1 −11 1 −1 −1 −1 −1 1 11 1 −1 −1 1 1 −1 −1

.

Sia V4 tale sottospazio. Ogni suo elemento, in quanto combinazione lineare deivettori appena scritti, e un vettore che ha coppie di elementi contigui tra loro uguali,vale a dire

x = (x1, x2, . . . , x8) ∈ V4 ⇒ x1 = x2, x3 = x4, x5 = x6, x7 = x8.

Una diversa base ortogonale del sottospazio V4 e costituita evidentemente daivettori

v1 = (1, 1, 0, 0, 0, 0, 0, 0),v2 = (0, 0, 1, 1, 0, 0, 0, 0),v3 = (0, 0, 0, 0, 1, 1, 0, 0),v4 = (0, 0, 0, 0, 0, 0, 1, 1).

Page 12: 4. Proiezioni ortogonali - polito.it · 2004. 9. 28. · 4. Proiezioni ortogonali 23 A parole la (2) afferma che y `e l’elemento di V n avente distanza minima da x. Prima di dare

32 G.C. Barozzi: Ortogonalita

Se x ∈ R8 e y e la sua proiezione ortogonale su V4, utilizzando la base appena

considerata si trova l’espressione

y =4∑

k=1

x • vk

2vk =

=x1 + x2

2v1 +

x3 + x4

2v2 +

x5 + x6

2v3 +

x7 + x8

2v4 =

=(x1 + x2

2,x1 + x2

2,x3 + x4

2,x3 + x4

2,x5 + x6

2,x5 + x6

2,x7 + x8

2,x7 + x8

2

).

La corrispondenza che ad x associa le coordinate della sua proiezione ortogonalesu V4, relativamente alla base considerata, cioe

x = (x1, x2, . . . , x8) �→(x1 + x2

2,x3 + x4

2,x5 + x6

2,x7 + x8

2

),

e ovviamente lineare, e pertanto e rappresentata da una matrice 4×8. Per un risultatogenerale di Algebra Lineare, le colonne di tale matrice sono i trasformati dei vettoridella base canonica di R

8, dunque essa si scrive

M8,2 :=

1/2 1/2 0 0 0 0 0 00 0 1/2 1/2 0 0 0 00 0 0 0 1/2 1/2 0 00 0 0 0 0 0 1/2 1/2

.

Lasciamo al lettore la verifica della relazione y = M8,2x.Per ragioni che saranno chiare nel Capitolo 8, matrici come la M8,2 verrano dette

matrici di compressione. In generale, se n e multiplo di k, possiamo definire la matriceMn,k come la matrice n/k×n le cui righe sono costituite da zeri, tranne un blocco dielementi contigui, e precisamente nella riga i-esima quelli di indici da (i−1)k+1 a ik,che sono uguali a 1/k. Formalmente, se indichiamo col simbolo mn,k[i, j] gli elementidi Mn,k, allora

mn,k[i, j] :={

1/k, se (i − 1)k + 1 ≤ j ≤ ik,0, altrimenti.

Ad esempio:

M6,3 :=[

1/3 1/3 1/3 0 0 00 0 0 1/3 1/3 1/3

].

Se x ∈ Rn, allora Mn,k x e il vettore con n/k componenti calcolate nel modo

seguente: si suddivide la lista delle componenti di x in n/k blocchi di k elementiciascuno, e si prende la media aritmetica di ciascun blocco.

Esercizi

4.1. Sia V uno s.v. con prodotto scalare, S un sottospazio di V ; dimostrare che(S⊥)⊥ = S.

4.2. Sia V = R8 munito del prodotto scalare canonico e V2 sia il sottospazio di V di

dimensione 2 generato dai vettori

v1 = ( 1, 1, . . . , 1︸ ︷︷ ︸8 componenti

), v2 = (1, 2, 3, . . . , 8).

V2 e costituito da tutti (e soltanto) i vettori di R8 le cui componenti sono in “pro-

gressione aritmetica”: xk − xk−1 = costante, per k = 2, 3, . . . , 8.Verificare che il procedimento di Gram-Schmidt, applicato ai vettori dati, produce

i vettori

z1 = v1, z2 = v2 − (9/2)v1 = (1 − 9/2, 2 − 9/2, . . . , 8 − 9/2)

Page 13: 4. Proiezioni ortogonali - polito.it · 2004. 9. 28. · 4. Proiezioni ortogonali 23 A parole la (2) afferma che y `e l’elemento di V n avente distanza minima da x. Prima di dare

4. Proiezioni ortogonali 33

1 2 3 4 5 6 7 8

2

4

6

8

1 2 3 4 5 6 7 8

-3-2-1

123

Figura 4.6. A sinistra i vettori v1 e v2, a destra i vettori z1 e z2.

dove 9/2 e la media aritmetica delle componenti di v2.La proiezione ortogonale di x = (x1, x2, . . . , xn) su V2 si scrive dunque

x · z1

‖z1‖2z1 +

x · z2

‖z2‖2z2 =

∑8k=1 xk

8z1 +

∑8k=1 k xk

42z2

42 essendo il quadrato della norma di z2.

4.3. Generalizzare i risultati del precedente esercizio al caso dello spazio Rn, con n

qualunque ≥ 2. Ora abbiamo

v1 = ( 1, 1, . . . , 1︸ ︷︷ ︸n componenti

), v2 = (1, 2, 3, . . . , n),

da cui segue

z1 = v1, z2 = (1 − m, 2 − m, . . . , n − m)

dove m = (n + 1)/2 e la media ritmetica delle componenti di v2. Il quadrato dellanorma di z1 vale n, mentre il quadrato della norma di z2 vale n(n2 − 1)/12. Pereffettuare quest’ultimo calcolo occorre ricordare la formula (v. PCAM, pag. 54)

n∑k=1

k2 =n(n + 1)(2n + 1)

6.

Page 14: 4. Proiezioni ortogonali - polito.it · 2004. 9. 28. · 4. Proiezioni ortogonali 23 A parole la (2) afferma che y `e l’elemento di V n avente distanza minima da x. Prima di dare

5. Il metodo dei minimi quadrati

Sia A una matrice m × n a termini reali, con m > n, e b sia un vettore di Rm.

Consideriamo il sistema di m equazioni lineari in n incognite

Ax = b, (1)

con x ∈ Rn. Supponiamo che le colonne di A, che indicheremo con i simboli aj ,

j = 1, 2, . . . , n, siano linearmente indipendenti e quindi il rango di A sia n, cioe ugualeal numero delle colonne. Se esiste una soluzione x = (x1, x2, . . . , xn) del sistema (1),cio significa che

x1 a1 + x2 a2 + . . . + xn an = b,

dunque b appartiene al sottospazio

Vn := 〈{a1, a2, . . . ,an } 〉generato dalle colonne di A.

Se b e un arbitrario vettore di Rm non v’e alcuna ragione perche esso appartenga

allo spazio Vn, e dunque, in generale, il sistema considerato e privo di soluzioni. Inaltri termini, non esiste alcun x ∈ R

n per cui i residui

ri := bi −n∑

j=1

aij xj , i = 1, 2, . . . , m

siano tutti nulli.Possiamo allora cercare di minimizzare la somma dei quadrati dei residui, cioe la

funzione di xm∑

i=1

r2i =

m∑i=1

(bi −

n∑j=1

aijxj

)2

=∥∥b − (x1 a1 + x2 a2 + . . . + xn an

∥∥2

2.

Cio equivale alla ricerca dell’elemento di Vn avente distanza minima da b: e esat-tamente il problema di cui ci siamo occupati nella Proposizione 4.1, salvo un cambia-mento di notazioni.

Attualmente lo spazio ambiente V e Rm, il prodotto scalare e quello canonico

(v. esempio 3.1), l’elemento da approssimare e b, i coefficienti dell’approssimazioneottima (= proiezione ortogonale di b su Vn) sono le componenti x1, x2, . . . , xn delvettore incognito x.

La matrice di Gram G (v. Prop. 4-2) e data da ATA (dove AT indica la traspostadi A): infatti gli elementi di tale matrice prodotto sono ai • aj = aj • ai. Il vettoredei termini noti, avendo come componenti b • aj = aT

j b (prodotto di una matrice1 × n con una matrice n × 1), si scrive AT b.

equazioni normali Il sistema (4) del capitolo precedente si scrive dunque

ATA x = AT b, (2)

(sistema delle equazioni normali), la cui soluzione e data formalmente da

x =(ATA

)−1AT b. (3)

La matrice n × m

Page 15: 4. Proiezioni ortogonali - polito.it · 2004. 9. 28. · 4. Proiezioni ortogonali 23 A parole la (2) afferma che y `e l’elemento di V n avente distanza minima da x. Prima di dare

5. Il metodo dei minimi quadrati 35

A+ :=(ATA

)−1AT ,

inversache rappresenta la trasformazione lineare che ad ogni vettore b ∈ Rm associa la

generalizzata“soluzione nel senso dei minimi quadrati” del sistema iniziale, si chiama inversa gene-ralizzata (o pseudo-inversa) della matrice A. Se A e quadrata e invertibile, alloraA+ = A−1. Naturalmente, la soluzione del sistema (3) non richiede il calcolo esplicitodell’inversa generalizzata, ma si effettua con metodi di eliminazione.

Osservazione 5.1. Non e difficile riconoscere che l’uguaglianza (2) esprime l’annulla-mento del gradiente della funzione di n variabili

f(x1, x2, . . . , xn) :=m∑

i=1

(bi −

n∑j=1

aijxj

)2

.

Scelto infatti un indice k compreso tra 1 e n, si ha

∂f

∂xk= −2

m∑i=1

aik

(bi −

n∑j=1

aijxj

)

Facendo variare i da 1 a m, il coefficiente aik descrive la k-esima colonna della ma-trice A, dunque la k-esima riga della matrice AT . Pertanto

∑mi=1 aik bi e la k-esima

componente del vettore AT b.Analogamente, la somma

∑nj=1 aijxj fornisce la i-esima componente del vet-

tore A x, dunque∑m

i=1 aik

( ∑nj=1 aijxj

)fornisce la k-esima componente del vettore

ATA x. In definitiva

gradf = −2(AT b − ATA x).

Si osservi che se a e b sono due vettori dello spazio Rk, allora a • b = bT a, a

patto di intendere a e b come vettori colonna, cioe come matrici k × 1. Allora per lafunzione f abbiamo l’espressione

f(x) = (b − Ax | b − Ax) = (b − Ax)T (b − Ax) =

= (bT − xT AT )(b − Ax) =

= ‖b‖2 − bT A x − xT AT b + xT AT A x.

In definitiva f e somma di una funzione costante, di una funzione lineare rispettoalle variabili x1, x2, . . . , xn e di una forma quadratica definita positiva nelle stessevariabili. La condizione di annullamento del gradiente, che e necessaria perche siabbia un punto di minimo, in tal caso e anche sufficiente. �

Esempio 5.1. Supponiamo di disporre di N coppie di dati, siano (ti, yi), dove le primecomponenti ti appartengono ad un insieme qualsivoglia T , e le seconde componenti yi

sono numeri reali. Siano f1, f2, . . . , fn, con n < N , certe funzioni da T a R; vogliamoapprossimare le yi mediante una combinazione lineare opportuna dei valori fj(ti),vale a dire vogliamo determinare gli scalari ξ1, ξ2, . . . , ξn in modo tale che i numeri

ξ1f1(ti) + ξ2f2(ti) + . . . + ξnfn(ti), i = 1, 2, . . . , N

approssimino nel modo migliore possibile l’andamento delle yi.Poiche N > n, non sara, in generale, possibile determinare i pesi ξj in modo da

annullare tutti i residui

ri := yi −n∑

j=1

ξjfj(ti), i = 1, 2, . . . , N ;

possiamo allora cercare di determinare tali pesi in modo da minimizzare la sommadei quadrati dei residui

∑i r2

i .Se si pone

Page 16: 4. Proiezioni ortogonali - polito.it · 2004. 9. 28. · 4. Proiezioni ortogonali 23 A parole la (2) afferma che y `e l’elemento di V n avente distanza minima da x. Prima di dare

36 G.C. Barozzi: Ortogonalita

x :=

ξ1

ξ2...

ξn

, y :=

y1

y2...

yN

, A :=

f1(t1) . . . fn(t1)f1(t2) . . . fn(t2)

.... . .

...f1(tN ) . . . fn(tN )

,

ci siamo riportati al problema di minimizzare∥∥y−Ax

∥∥2

2al variare di x in R

n. Spessol’insieme T e la retta reale e le funzioni fj sono i monomi:

fj(t) = tj−1, j = 1, 2, . . . , n.

la retta dei Il problema e allora quello di approssimare l’andamento delle coppie (ti, yi) delminimi quadrati piano cartesiano mediante un polinomio di grado ≤ n − 1. Nel caso piu semplice,

n = 2, si ottiene il problema della retta dei minimi quadrati , detta anche retta diregressione di y rispetto a t. �

Riformuliamo il problema con cui abbiamo concluso l’esempio precedente, intro-ducendo simboli di uso corrente. Operiamo la seguenti sostituzioni di simboli.

t → x, N → n, ξ1 → q, ξ2 → m.

Il problema e dunque: si hanno nel piano cartesiano n punti di coordinate (xi, yi),i = 1, 2, . . . , n, si cercano m e q in modo da minimizzare la somma dei residui

ri = yi − (mxi + q),

cioe le differenze tra le ordinate “sperimentali” yi e le ordinate “stimate dal modello”

yi := mxi + q.

Figura 5.1.

Il metodo dei minimi quadrati

consiste nella determinazione

dei parametri m e q, da

cui dipende la retta, in

modo da rendere minima

la somma dei quadrati

dei residui ri.

(xi, yi)

( , yi)

ri = yi − yi

xi

xi

In tal caso la matrice A assume la forma

A :=

1 x1

1 x2...

...1 xn

,

e di conseguenza

ATA =

n

∑i xi∑

i xi

∑i x2

i

, AT y =

∑i yi∑

i xiyi

,

dove le somme rispetto all’indice i sono fatte da 1 a n.La coppia di valori (q, m) che individua la retta dei minimi quadrati e dunque

soluzione del sistema

Page 17: 4. Proiezioni ortogonali - polito.it · 2004. 9. 28. · 4. Proiezioni ortogonali 23 A parole la (2) afferma che y `e l’elemento di V n avente distanza minima da x. Prima di dare

5. Il metodo dei minimi quadrati 37

n

∑i xi∑

i xi

∑i x2

i

q

m

=

∑i yi∑

i xiyi

; (2′)

la prima equazione si scrive nq +( ∑

i xi

)m =

∑i yi, cioe, dividendo per n,

m x + q = y,

dove si e posto

x :=∑

i xi

n, y :=

∑i yi

n.

Dunque la retta dei minimi quadrati passa per il punto (x, y), che e il baricentrodei punti (xi, yi). Possiamo dunque ricavare q dall’ultima equazione: q = y − m x, esostituire tale valore nella seconda equazione del sistema sopra considerato, ottenendo

(y − m x)∑

i

xi + m∑

i

x2i =

∑i

xi yi,

che si riscrive

n x y − n m x2 + m∑

i

x2i =

∑i

xi yi,

da cui in definitiva

m =∑

i xiyi − n x y∑i x2

i − n x2 . (4)

Abbiamo tenuto conto del fatto che∑

i xi = n x. La retta dei minimi quadrati sipuo dunque scrivere

y − y = m (x − x), (5)

con m dato dalla (4). Per le ordinate stimate del modello si ha

yi = y + m(xi − x). (6)

Un calcolo elementare mostra che∑i

xiyi − n x y =∑

i

(xi − x)(yi − y),∑

i

x2i − n x2 =

∑i

(xi − x)2,

dunque

m =∑

i(xi − x)(yi − y)∑i(xi − x)2

. (4′)

L’espressione a numeratore e il prodotto scalare canonico in Rn tra i vettori(

x1 − x, x2 − x, . . . , xn − x),

(y1 − y, y1 − y, . . . , yn − y

),

quella a denominatore e il quadrato della norma euclidea in Rn del primo vettore.

Come si vede, le componenti di questi due vettori non sono altro che gli scarti delleascisse xi, e rispettivamente delle ordinate yi, dalle rispettive medie.

Riprendiamo in considerazione i residui; in base alla (6) si ha

ri = yi − yi = yi − y − m(x − x), (7)

dove s’intende che m e calcolato in base alla (4). Dimostriamo che si ha∑i

ri = 0, (8).

La (8) e conseguenza immediata della (7); infatti∑i

ri =∑

i

yi − n y − m( ∑

i

xi − n x);

ma∑

i yi = n y,∑

i x = n x.

Page 18: 4. Proiezioni ortogonali - polito.it · 2004. 9. 28. · 4. Proiezioni ortogonali 23 A parole la (2) afferma che y `e l’elemento di V n avente distanza minima da x. Prima di dare

38 G.C. Barozzi: Ortogonalita

Ne segue che y non e soltanto la media aritmetica delle ordinate sperimentali yi

ma anche la media delle ordinate stimate dal modello, cioe le yi:∑i

ri = 0 ⇐⇒∑

i

yi =∑

i

yi ⇐⇒ y =1n

∑i

yi =1n

∑i

yi.

Consideriamo ancora una volta il vettore dei residui ri = yi − yi e il vettore degliscarti delle ordinate stimate dalla loro media, dunque il vettore di componenti yi − y;questi vettori sono ortogonali tra loro rispetto al prodotto scalare canonico in R

n:∑i

(yi − yi)(yi − y) = 0. (9)

Infatti, sempre in virtu di (7) e (6), si ha∑i

(yi − yi) (yi − y) =∑

i

[(yi − y) − m(xi − x)] m (xi − x) =

= m∑

i

(xi − x)(yi − y) − m2∑

i

(xi − x)2.

Basta sostituire ad m il valore fornito dalla (4′) per riconoscere che l’ultima quantitae nulla.

Una misura della variabilita delle ordinate yi e data dalla loro devianza, cioe dallasomma dei quadrati degli scarti dalla media:∑

i

(yi − y)2.

Se scriviamo ciascun scarto facendo intervenire l’ordinata stimata yi, abbiamo laseguente espressione per la devianza:∑

i

(yi − y)2 =∑

i

[(yi − yi) + (yi − y)]2 =

=∑

i

(yi − yi)2 +∑

i

(yi − y)2 + 2∑

i

(yi − yi)(yi − y) =

=∑

i

(yi − yi)2 +∑

i

(yi − y)2,

in quanto la terza somma nella penultima riga e nulla in forza della (9).Dunque la devianza delle yi si spezza in due somme: la devianza delle yi, cioe

la devianza “spiegata dal modello”, ed una somma residua,∑

i(yi − yi)2, che none spiegata dal modello della retta dei minimi quadrati. Il modello e tanto migliorequanto piu questa seconda parte e una piccola frazione della devianza totale.

Cio induce a scegliere come indice della bonta del modello il rapporto tra ladevianza spiegata e la devianza totale, dunque il rapporto∑

i(yi − y)2∑i(yi − y)2

.

Evidentemente tale rapporto e compreso tra 0 e 1: il modello e tanto migliorequanto piu esso e prossimo a 1.

Possiamo dare un’espressione diversa al rapporto in esame se ricordiamo che ledifferenze yi − y si scrivono m(xi − x) e successivamente utilizziamo il valore di mfornito dalla formula (4′). Otteniamo∑

i(yi − y)2∑i(yi − y)2

= m2

∑i(xi − x)2∑i(yi − y)2

=

=[∑

i(xi − x)(yi − y)∑i(xi − x)2

]2 ∑i(xi − x)2∑i(yi − y)2

=

=[∑

i(xi − x)(yi − y)]2∑i(xi − x)2

∑i(yi − y)2

.

Page 19: 4. Proiezioni ortogonali - polito.it · 2004. 9. 28. · 4. Proiezioni ortogonali 23 A parole la (2) afferma che y `e l’elemento di V n avente distanza minima da x. Prima di dare

5. Il metodo dei minimi quadrati 39

1 2 3

1

r = 0.753869

1 2 3

-6

-4

-2

r = -0.998305

1 2 3

1

r = 0.024349

1 2 3

1

r = 0.940811

Figura 5.2. Il valore del coefficiente di correlazione fornisce una misura delle bonta del

modello fornito dalla retta dei minimi quadrati. Esso e tanto migliore quanto piu |r| si

approssima a 1.

Dunque il rapporto in esame puo essere considerato come il quadrato del rapporto(compreso tra −1 e 1)

r :=∑

i(xi − x)(yi − y)√∑i(xi − x)2

√∑i(yi − y)2

;

coefficiente diesso viene chiamato coefficiente di correlazione tra le xi e le yi. In effetti esso e ilcorrelazionecoefficiente di correlazione tra il vettore di componenti xi − x e quello di componenti

yi − y, secondo la terminologia introdotta al termine del capitolo 3.Se r > 0 si ha una correlazione positiva tra le xi e le yi (intuitivamente: le ordinate

crescono al crescere delle ascisse); il contrario accade se il coefficiente di correlazionee negativo.

Per concludere, osserviamo che le due variabili x e y giocano due ruoli completa-mente distinti. La retta che abbiamo calcolato va sotto il nome di retta di regressionedi y rispetto a x, secondo una terminologia che risale al biologo inglese Francis Galton(1822-1911).

Essa viene utilizzata per stimare i valori delle ordinate y a partire da valori misu-rati della x. Si pensi ad una categoria di pazienti su cui e necessario rilevare undato clinico y, di difficile misurazione: se esso e “fortemente correlato” con un datox di facile misurazione (nel senso che la retta di regressione di y rispetto ad x, sullabase di dati sperimentali ottenuti suun campione di pazienti, presenta un valore di |r!prossimo a 1), allora e conveniente una misura indiretta di y a partire da una misuradiretta di x.

Si dice anche che la variabile x gioca il ruolo di “predittore”.

Page 20: 4. Proiezioni ortogonali - polito.it · 2004. 9. 28. · 4. Proiezioni ortogonali 23 A parole la (2) afferma che y `e l’elemento di V n avente distanza minima da x. Prima di dare

6 Filtraggio numerico

Consideriamo una grandezza variabile nel tempo (un segnale) che viene campionataad intervalli di tempo regolari, dunque agli istanti tn, dove tn+1 − tn = costante. Seindichiamo con x(t) la grandezza in esame, possiamo porre

xn := x(tn),

ottenendo una sequenza di numeri reali.Se i valori xn sono affetti da errori di misura, a cui possono sommarsi errori di

trasmissione lungo un canale disturbato, puo essere utile procedere ad un filtraggionumerico.

Ad esempio possiamo sostituire ad ogni xn la media aritmetica dei valori che lasuccessione stessa assume nei punti tn+k, con k che va da −m a m, con m > 0. Perfissare le idee, per m = 2, l’operazione di filtraggio consiste nel sostituire xn con

xn =xn−2 + xn−1 + xn + xn+1 + xn+2

5. (1)

Figura 6.1.

La retta dei minimi quadrati

viene calcolata relativamente a

una finestra mobile contenente

5 punti.

15

1

5 10 20

Non e difficile verificare che questa operazione equivale a calcolare la retta deiminimi quadrati relativa ai punti (tn+k, xn+k), con |k| ≤ m, e sostituire xn conl’ordinata corrispondente all’ascissa tn su tale retta.

Sappiamo infatti che la retta dei minimi quadrati passa per il baricentro dei punti(tn+k, xn+k); per evidenti ragioni di simmetria, la media aritmetica delle ascisse coin-cide con tn, dunque l’ordinata sulla retta, corrispondente a tn, e la media aritmeticadelle ordinate

xn =1

2m + 1

m∑k=−m

xn+k. (1′)

Il valore xn e una media mobile, cioe la media di 2m + 1 valori centrati sul valore xn.Nelle stesse condizioni del precedente esempio, supponiamo di voler effettuare

un filtraggio numerico utilizzando una media pesata su 5 punti, siano quelli cor-rispondenti alle ascisse tn+k con k che va da −2 a 2, ma scegliendo come funzioneapprossimante un polinomio di secondo grado p2(t) := at2 + bt + c.

Page 21: 4. Proiezioni ortogonali - polito.it · 2004. 9. 28. · 4. Proiezioni ortogonali 23 A parole la (2) afferma che y `e l’elemento di V n avente distanza minima da x. Prima di dare

6 Filtraggio numerico 41

10 20 30 40 50 60

-1

1

10 20 30 40 50 60

-1

1

Figura 6.2. A sinistra una sequenza numerica; a destra la stessa sequenza filtrata mediante

una media mobile su 5 punti.

Calcoliamo il polinomio che meglio approssima, nel senso dei minimi quadrati, lacinquina (tn+k, xn+k), con |k| ≤ 2, e poi scegliamo come valore “filtrato”

xn := p2(tn) = at2n + btn + c.

Il secondo membro dipende linearmente dalla terna (a, b, c) e questa dipende line-armente dalla cinquina (xn−2, xn−1, xn, xn+1, xn+2): in definitiva xn e una funzionelineare della cinquina appena scritta e pertanto si avra

xn = w−2 xn−2 + w−1 xn−1 + w0 xn + w1 xn+1 + w2 xn+2, (2)

per opportuni valori dei pesi wk, con |k| ≤ 2.

1

5 10 15 20 Figura 6.3.

La parabola dei minimi

quadrati viene calcolata

relativamente a una finestra

mobile contenente 5 punti.

Per semplificare al massimo i calcoli, supponiamo che le ascisse siano tk = k, concon |k| ≤ 2. Il sistema che ha come soluzione la terna (a, b, c) ha come matrice deicoefficienti quella che si ottiene calcolando i valori che le funzioni t2, t e 1 assumononei punti −2, −1, 0, 1, 2:

A =

4 −2 11 −1 10 0 11 1 14 2 1

Come sappiamo dal Capitolo precedente, la soluzione del nostro problema e dataformalmente da

a

bc

= A+

x−2

x−1

x0

x1

x2

,

Page 22: 4. Proiezioni ortogonali - polito.it · 2004. 9. 28. · 4. Proiezioni ortogonali 23 A parole la (2) afferma che y `e l’elemento di V n avente distanza minima da x. Prima di dare

42 G.C. Barozzi: Ortogonalita

dove A+ = (AT A)−1AT e la pseudo-inversa della matrice A.Se disponiamo di un sistema di calcolo algebrico (Mathematica, Maple, . . .) pos-

siamo calcolare direttamente tale pseudo-inversa:

A+ =

1/7 −1/14 −1/7 −1/14 1/7

−1/5 −1/10 0 1/10 1/5−3/35 12/35 17/35 12/35 −3/35

.

Poiche p2(0) = x0 = c, nell’ultima riga leggiamo i pesi cercati:

w−2 = − 335

, w−1 =1235

, w0 =1735

, w1 =1235

, w2 = − 335

.

Figura 6.4.

Rappresentazione dei

pesi relativi al filtraggio

mediante un polinomio di

secondo grado.

-2-1

-2

0 1

22

-0.1

0.1

0.2

0.3

0.4

0.5

Si osservi che la somma di tali pesi e uguale a 1; questa condizione deve neces-sariamente essere soddisfatta: infatti se fosse xk = 1 per ogni k, si dovrebbe averex0 = 1.

Tuttavia abbiamo calcolato piu di quanto ci serva. A noi interessa soltanto laterza riga della matrice A+ e questa si puo calcolare moltiplicando la terza riga dellamatrice (AT A)−1 per AT .

Ora

AT A =

34 0 10

0 10 010 0 5

Ricordiamo come si calcola l’inversa di una matrice M : essa e la trasposta dellamatrice che ha come elementi i rapporti tra i complementi algebrici degli elementidella matrice data e il suo determinante.

In simboli: se M = [aij ], se Aij e il complemento algebrico di aij e D e ildeterminante di M , allora:

M−1 = [Aji/D].

Il determinante di AT A vale 700; quanto ai complementi algebrici degli elementidella terza colonna, abbiamo

A13 = −100, A23 = 0, A33 = 340.

A questo punto possiamo scrivere la terza riga della matrice (AT A)−1 e post-moltiplicarla per AT :

[− 17 0 17

35 ]

4 1 0 1 4−2 −1 0 1 2

1 1 1 1 1

= [− 3

351235

1735

1235 − 3

35 ] ,

ottenendo la cinquina dei pesi richiesti.In generale possiamo dunque scrivere

xn = − 335

xn−2 +1235

xn−1 +1735

xn +1235

xn+1 −335

xn+2. (2′)

Page 23: 4. Proiezioni ortogonali - polito.it · 2004. 9. 28. · 4. Proiezioni ortogonali 23 A parole la (2) afferma che y `e l’elemento di V n avente distanza minima da x. Prima di dare

6 Filtraggio numerico 43

10 20 30 40 50 60

-1

1

Figura 6.5. La sequenza numerica mostrata nella figura 6.2 (a sinistra) viene filtrata

mediante mediante un polinomio di secondo grado.

Finora abbiamo considerato successioni a valori reali, ma quanto abbiamo dettovale senza mutamenti per successioni n �→ xn a valori complessi, cioe per funzioni daZ a C.

Abbiamo osservato in precedenza che una successione i cui termini siano tuttiuguali a 1 (o, piu in generale, una successione costante) viene trasformata in se stessada un’operazione di filtraggio numerico.

Se

F : (xn) �→ (xn)

e una trasformazione del tipo fin qui considerato, possiamo dire che le successionicostanti sono punti fissi della trasformazione F , o, se si preferisce, sono autovettori(saremmo tentati di dire: auto-successioni) corrispondenti all’autovalore 1.

Ci chiediamo se esistano altri autovettori, in particolare se esistano autovettoritra le successioni ottenute campionando ad intervalli di tempo regolari dei segnali ditipo sinusoidale. L’interesse per tali segnali nasce dal fatto che ogni segnale perio-dico, sotto opportune ipotesi, si lascia rappresentare come somma di segnali di tiposinusoidale. A questo argomento e dedicato il capitolo seguente.

La notazione complessa si rivela singolarmente utile per risolvere il problemaposto. Osserviamo innanzitutto che il campionamento della funzione t �→ eiωt neipunti tn = n · h, dove h > 0 e il passo di campionamento, produce lo stesso risultatodel campionamento della funzione t �→ ei(ω·h)t nei punti di ascissa intera.

Possiamo dunque limitarci a considerare le successioni ottenute campionando fun-zioni del tipo t �→ eiωt = cos(ωt) + i sin(ωt), ω reale, per t ∈ Z, dunque successionidel tipo

n �→ xn = eiωn, n ∈ Z.

La quantita ω e la pulsazione del fenomeno descritto dal segnale t �→ eiωt; lafrequenza f dello stesso fenomeno e legata alla pulsazione dall’uguaglianza ω = 2πf .

Inoltre possiamo ulteriormente limitarci a considerare valori di ω appartenentia un intervallo semi-aperto di lunghezza 2π, ad esempio l’intervallo (−π, π]. Infattise ω e un valore non appartenente a tale intervallo, esiste un ben determinato ω′

nell’intervallo stesso che e congruo a ω modulo 2π, cioe tale da aversi

ω = ω′ + 2kπ

con k intero. Ma

eiωn = ei(ω′+2kπ)n = eiω′n · ei2kπn = eiω′n.

In termini intuitivi: campionare in corrispondenza dei valori interi una funzioneesponenziale t �→ eiωt con ω in valore assoluto maggiore di π produce lo stesso risultato

Page 24: 4. Proiezioni ortogonali - polito.it · 2004. 9. 28. · 4. Proiezioni ortogonali 23 A parole la (2) afferma che y `e l’elemento di V n avente distanza minima da x. Prima di dare

44 G.C. Barozzi: Ortogonalita

del campionamento di una funzione analoga con |ω| ≤ π. Si tratta di un fenomenoaliasing noto col nome di aliasing, neologismo inglese coniato a partire dal latino alias =

altrimenti.E il fenomeno che si osserva al cinema quando, in un film western, la diligenza

si avvia: i raggi delle ruote improvvisamente sembrano girare in senso contrario almoto della diligenza. In termini piu attuali: dalla telecamera montata su una vetturadi Formula 1 si possono osservare le scritte all’interno dei pneumatici delle ruoteanteriori. Tali scritte in alcuni momenti sembrano ferme, altre volte sembrano ruotarelentamente nel verso giusto, oppure nel verso sbagliato.

Si tratta in entrambi i casi del fatto che un fenomeno che si svolge nel tempo vienecampionato ad intervalli regolari (1/24 oppure 1/25 di secondo).

-4 -2 2 4

-1

1

Figura 6.6. Il campionamento della funzione t �→ ei5t nei punti di ascissa intera coincide col

campionamento della funzione t �→ ei(5−2π)t negli stessi punti. In figura sono rappresentate

le parti reali delle funzioni considerate.

In conclusione: possiamo limitarci a considerare successioni del tipo

n �→ xn = eiωn, ω ∈ (−π, π], n ∈ Z.

Consideriamo dapprima la trasformazione lineare (1); la chiamiamo F2 in quantoessa corrisponde al filtraggio lineare su 2n + 1 punti, con n = 2:

F2 :(xn

)�→

(xn

)=

(15

2∑k=−2

xn−k

).

Scrivendo eiωn al posto di xn otteniamo

xn =15[eiω(n−2) + eiω(n−1) + eiωn + eiω(n+1) + eiω(n+2)] =

=15[e−2iω + e−iω + 1 + eiω + e2iω] eiωn =

=1 + 2 cos ω + 2 cos(2ω)

5eiωn =

1 + 2 cos ω + 2 cos(2ω)5

xn.

Conclusione: la successione xn = eiωn e un autovettore della trasformazione F2,corrispondente all’autovalore

λ(ω) =1 + 2 cos ω + 2 cos(2ω)

5. (3)

Possiamo dare un’espressione diversa all’autovalore calcolato se si osserva che

e−2iω + e−iω + 1 + eiω + e2iω = e−2iω [1 + eiω + e2iω + e3iω + e4iω] =

= e−2iω 1 − e5iω

1 − eiω=

e−2iω − e3iω

1 − eiω=

=e−5iω/2 − e5iω/2

e−iω/2 − eiω/2.

L’ultima uguaglianza e stata ottenuta moltiplicando numeratore e denominatoreper e−iω/2. Dunque

Page 25: 4. Proiezioni ortogonali - polito.it · 2004. 9. 28. · 4. Proiezioni ortogonali 23 A parole la (2) afferma che y `e l’elemento di V n avente distanza minima da x. Prima di dare

6 Filtraggio numerico 45

λ(ω) =sin(5ω/2)5 sin(ω/2)

. (3′)

Per ω “piccolo” tanto il numeratore quanto il denominatore si comportano come5ω/2; il grafico della funzione ottenuta, nota come funzione di trasferimento, e mo-strato nella figura 6.7, dove essa viene ribattezzata λ2(ω).

In generale, per l’operatore di filtraggio Fn definito dalla (1′), che consiste nel fareuna media mobile su una finestra di 2n + 1 valori, si trova, con un calcolo del tuttosimile,

λn(ω) =1 + 2 cos ω + 2 cos(2ω) + . . . + 2 cos(2nω)

2n + 1=

sin[(2n + 1)ω/2](2n + 1) sin(ω/2)

. (4)

-3 -2 -1 1 2 3

1

λ1(ω)

λ2(ω)Figura 6.7.

Grafici delle funzioni

λ1(ω) =sin(3ω/2)

3 sin(ω/2),

λ2(ω) =sin(5ω/2)

5 sin(ω/2),

−π ≤ ω ≤ π.

Per l’operatore di filtraggio (2′) si trova un risultato analogo: la successione n �→eiωn e un autovettore corrispondente all’autovalore

λ(ω) =17 + 24 cos ω − 6 cos(2ω)

35. (5)

-3 -2 -1 1 2 3

1

Figura 6.8.

Grafico della funzione λ(ω) =

(17 + 24 cos ω − 6 cos(2ω))/35,

−π ≤ ω ≤ π.

Torniamo a considerare le operazioni di filtraggio lineare su 3 e 5 punti, torniamocioe alle trasformazioni F1 e F2. Si osservi che la funzione λ1(ω) si annulla perω = ±2π/3, la funzione λ2(ω) si annulla per ω = ±2π/5 e ±4π/5.

Se dunque diamo in ingresso al filtro F1 una successione del tipo

xn := c0 + c1ei2πn/3,

otterremo in uscita la successione costante xn = c0. Se la successione in ingresso edel tipo xn := c0 + c1e

iωn, con ω che discosta “di poco” da 2π/3, avremo in uscita

Page 26: 4. Proiezioni ortogonali - polito.it · 2004. 9. 28. · 4. Proiezioni ortogonali 23 A parole la (2) afferma che y `e l’elemento di V n avente distanza minima da x. Prima di dare

46 G.C. Barozzi: Ortogonalita

una successione “quasi uguale” alla successione costante c0, nel senso che avremo inuscita la successione

xn := c0 + c1 λ(ω) eiωn,

dove λ(ω) e prossimo a 0.Considerazioni analoghe per il filtro F2.Se “mettiamo in serie” le trasformazioni F1 e F2, in un ordine qualunque, cioe con-

sideriamo la trasformazione composta F1 ◦F2, abbiamo in corrispondenza la funzionedi trasferimento

λ(ω) =sin(3ω/2) sin(5ω/2)

15 sin2(ω/2), (6)

il cui grafico viene mostrato nella figura 6.9.

Figura 6.9.

Grafico della funzione

λ(ω) =sin(3ω/2) sin(5ω/2)

15 sin2(ω/2),

−π ≤ ω ≤ π. -3 -2 -1 1 2 3

1

Come si vede, le frequenze basse “passano” attraverso il filtro, mentre man manoche |ω| si avvicina a π abbiamo una forte penalizzazione.

Si intuisce quindi come la progettazione di un filtro numerico consista nel fare inmodo che la funzione λ(ω) abbia determinate caratteristiche in ordine alle frequenzeche devono (o non devono) essere penalizzate.

L’argomento e di grande importanza nell’ambito della Teoria delle Comunicazioni.Il lettore interessato trovera nella bibliografia al termine di queste note opportuneindicazioni bibliografiche al riguardo.