ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical...

236
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΑΡΙΘΜΗΤΙΚΗ ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ Β. ΔΟΥΓΑΛΗΣ Δ. ΝΟΥΤΣΟΣ Α. ΧΑΤΖΗΔΗΜΟΣ Ιωάννινα 2016

Transcript of ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical...

Page 1: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ

ΑΡΙΘΜΗΤΙΚΗ ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ

Β. ΔΟΥΓΑΛΗΣΔ. ΝΟΥΤΣΟΣ

Α. ΧΑΤΖΗΔΗΜΟΣ

Ιωάννινα 2016

Page 2: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς
Page 3: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

Περιεχόμενα

1 Βασική Θεωρία 11

1.1 Διανύσματα . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.1.1 Ευκλείδειο Εσωτερικό Γινόμενο . . . . . . . . . . . . . . . . . . . . 12

1.1.2 Norms (Νόρμες, Στάθμες) Διανυσμάτων . . . . . . . . . . . . . . . . 12

1.2 Πίνακες . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.2.1 Ιδιοτιμές και Ιδιοδιανύσματα . . . . . . . . . . . . . . . . . . . . . . . 18

1.2.2 Norms Πινάκων . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.2.3 Ακολουθίες Πινάκων και Σύγκλιση . . . . . . . . . . . . . . . . . . . 20

1.2.4 Προτάσεις για τις Φυσικές Norms Πινάκων . . . . . . . . . . . . . . 20

1.2.5 Αριθμός (ή Δείκτης) Κατάστασης Πίνακα . . . . . . . . . . . . . . . 23

2 Αμεσες Μέθοδοι για την Αριθμητική Επίλυση Γραμμικών Συστημά-των 29

2.1 Εισαγωγή . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.2 Μέθοδοι Απαλοιϕής Gauss και LU Παραγοντοποίησης . . . . . . . . . . . . 30

2.2.1 Αλγόριθμος Απαλοιϕής του Gauss . . . . . . . . . . . . . . . . . . . 35

2.2.2 Λύση Γραμμικών Συστημάτων με τον Ιδιο Πίνακα Συντελεστών Αγνώ-στων . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.2.3 Πλήθος και Είδος Απαιτούμενων Πράξεων για την Επίλυση του Ax = b 39

2.2.4 Αναγώγιμοι και Μή-Αναγώγιμοι Πίνακες . . . . . . . . . . . . . . . . 41

2.2.5 Πυκνοί και Αραιοί Πίνακες . . . . . . . . . . . . . . . . . . . . . . . 42

2.3 Στρατηγικές Οδήγησης και Κατάσταση Συστήματος . . . . . . . . . . . . . 473

Page 4: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

4

2.4 Παραγοντοποίηση Cholesky . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

3 Επαναληπτικές Μέθοδοι 73

3.1 Εισαγωγή . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

3.2 Κλασικές Επαναληπτικές Μέθοδοι . . . . . . . . . . . . . . . . . . . . . . . 78

3.2.1 Μέθοδος Jacobi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

3.2.2 Μέθοδος Gauss-Seidel . . . . . . . . . . . . . . . . . . . . . . . . . 79

3.2.3 Jacobi και Gauss-Seidel Μέθοδοι . . . . . . . . . . . . . . . . . . . . 79

3.3 Τεχνική της Παρεκβολής (Extrapolation) . . . . . . . . . . . . . . . . . . . 84

3.4 Μέθοδος της Διαδοχικής Υπερχαλάρωσης (SOR) . . . . . . . . . . . . . . . 92

3.5 Συμμετρική SOR (SSOR) Επαναληπτική Μέθοδος . . . . . . . . . . . . . . 103

3.6 Block Επαναληπτικές Μέθοδοι . . . . . . . . . . . . . . . . . . . . . . . . . 109

3.6.1 Block Jacobi Επαναληπτική Μέθοδος . . . . . . . . . . . . . . . . . 110

3.6.2 Οι Αλλες Block Επαναληπτικές Μέθοδοι . . . . . . . . . . . . . . . . 114

4 Ημι-επαναληπτικές Μέθοδοι 121

5 Θεωρητικές Εϕαρμογές των Επαναληπτικών Μεθόδων 131

5.1 Εισαγωγή . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

5.2 Εξισώσεις Διαϕορών . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

5.3 Τανυστικά Γινόμενα . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

6 Μέθοδοι Ελαχιστοποίησης 147

6.1 Εισαγωγή . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

6.2 Μέθοδος της Απότομης Καθόδου (Steepest Descent) . . . . . . . . . . . . . 148

6.3 Μέθοδος Γενικών Διευθύνσεων . . . . . . . . . . . . . . . . . . . . . . . . 154

6.4 Μέθοδος Συζυγών Διευθύνσεων (Conjugate Directions) . . . . . . . . . . . 155

6.5 Μέθοδος Συζυγών Κλίσεων (Conjugate Gradients) . . . . . . . . . . . . . 163

6.6 Προρρυθμισμένη Μέθοδος Συζυγών Κλίσεων . . . . . . . . . . . . . . . . . 168

7 Γραμμική Μέθοδος Ελάχιστων Τετραγώνων 175

Page 5: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

5

7.1 Εισαγωγή . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

7.2 Λύση των Κανονικών Εξισώσεων . . . . . . . . . . . . . . . . . . . . . . . . 176

7.3 QR Ανάλυση (Παραγοντοποίηση) . . . . . . . . . . . . . . . . . . . . . . . . 181

7.3.1 Gram-Schmidt Ορθογωνιοποίηση . . . . . . . . . . . . . . . . . . . 184

7.3.2 Μετασχηματισμοί ή Ανακλάσεις (Reflections) Householder . . . . . . 187

7.3.3 Στροϕές Givens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192

7.4 Ανάλυση Ιδιαζουσών Τιμών (Singular Value Decom-position-SVD) . . . . . 194

7.5 Ευστάθεια και Κόστος των Μεθόδων για το Γραμμικό Πρόβλημα ΕλάχιστωνΤετραγώνων . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199

8 Αριθμητικές Μέθοδοι για τον Υπολογισμό Ιδιοτιμών και Ιδιοδιανυ-σμάτων 207

8.1 Εισαγωγή . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207

8.2 Βασική Θεωρία . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208

8.3 Μέθοδος Δυνάμεων . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214

8.3.1 Μέθοδος Αντίστροϕων Δυνάμεων ή Αντίστροϕης Επανάληψης . . . . 220

8.3.2 Τεχνική της Υποτίμησης (Deflation) . . . . . . . . . . . . . . . . . . 222

8.4 Μέθοδος QR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226

Page 6: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

6

Page 7: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

7

Πρόλογος

Η Αριθμητική Γραμμική Αλγεβρα καλύπτει έναν από τους σημαντικότερους και μεγαλύτερουςκλάδους της Αριθμητικής Ανάλυσης τόσο από την άποψη της θεωρίας όσο και από την άποψητων εϕαρμογών της. Ασχολείται κυρίως με την αριθμητική επίλυση γραμμικών συστημάτωναλγεβρικών εξισώσεων καθώς και με την αριθμητική εύρεση των ιδιοτιμών πινάκων.

Η σημασία και η σπουδαιότητα της Αριθμητικής Γραμμικής Αλγεβρας στην πράξη δενείναι τυχαία. Αυτό δε γιατί έχει εκτιμηθεί ότι το 70% των προβλημάτων της Επιστήμης καιτης Τεχνολογίας που καταλήγουν για επίλυση στον Ηλεκτρονικό Υπολογιστή είναι γραμμικάσυστήματα. Το τελευταίο δικαιολογείται από το γεγονός ότι, εκτός από τα προβλήματα πουείναι από τη ϕύση τους γραμμικά, τα απλούστερα μοντέλα για την περιγραϕή των διαϕόρωνϕαινομένων είναι τα γραμμικά. Οπως είναι γνωστό, ένα ϕαινόμενο, στο οποίο υπάρχουνμεταβολές ϕυσικών ποσοτήτων που εξαρτιούνται από άλλες, περιγράϕεται συνήθως στα μαθη-ματικά από μια διαϕορική εξίσωση. Για τη μελέτη της και την εν συνεχεία επίλυσή της στονΥπολογιστή απαιτείται προηγουμένως η διακριτοποίησή της. Αν η διαϕορική εξίσωση είναιγραμμική είναι επόμενο το διακριτό ανάλογό της να είναι γραμμικό (σύστημα). Αν δεν είναιγραμμική μια καλή πρώτη προσέγγισή της αποτελεί μια γραμμικοποίησή της που οδηγεί τελικά,με διακριτοποίηση, σε γραμμικό σύστημα.

Η Αριθμητική Γραμμική Αλγεβρα, όπως εξάλλου και η Αριθμητική Ανάλυση, ασχολείταιγενικά με την ανάπτυξη και μελέτη (αριθμητικών) αλγόριθμων, δηλαδή αλγόριθμων που πε-ριέχουν τις τέσσερις βασικές πράξεις της Αριθμητικής και μόνο, για την εύρεση αριθμητικώναποτελεσμάτων από αριθμητικά δεδομένα στα γραμμικά προβλήματα που αναϕέρθηκαν προη-γουμένως. Οι αριθμητικοί αλγόριθμοι για να είναι αποτελεσματικοί στην πράξη θα πρέπει νακαταλήγουν στο επιδιωκόμενο αποτέλεσμα με τις λιγότερες δυνατές πράξεις ή, με όρους Υπο-λογιστή, στο μικρότερο δυνατό χρόνο. Ακόμη, το όποιο αριθμητικό αποτέλεσμα, που παίρνεταιαπό τον Υπολογιστή, θα πρέπει να είναι όσο το δυνατόν πιο ακριβές για να είναι αποδεκτό καιάρα χρήσιμο. Η χρήση όμως του Υπολογιστή, πέρα από οποιαδήποτε άλλα σϕάλματα, που είναιδυνατόν να ενυπάρχουν στα αριθμητικά δεδομένα ενός προβλήματος, όπως π.χ. τα γνωστάσϕάλματα αποκοπής, εισάγει πάντα και τα αναπόϕευκτα σϕάλματα στρογγύλευσης κατά τηναποθήκευση των δεδομένων του προβλήματος καθώς και αυτά που δημιουργούνται κατά τηνεκτέλεση των ενδιάμεσων πράξεων και την αποθήκευση των αποτελεσμάτων τους. Η παρου-σία όλων αυτών των σϕαλμάτων, που συσσωρεύονται και μεταδίδονται κατά τη διάρκεια τωνυπολογισμών, έχει ως άμεση συνέπεια τα τελικά αποτελέσματα που παίρνονται από τον Υπο-λογιστή να μην είναι ακριβή. Αποτελούν δηλαδή μια προσέγγιση της λύσης του προβλήματος.Επόμενο, λοιπόν, είναι ένα μεγάλο μέρος της θεωρίας της Αριθμητικής Γραμμικής Αλγεβρας,όπως και της Αριθμητικής Ανάλυσης, να αϕιερώνεται στην ανάπτυξη και κατασκευή μεθόδων,αλγόριθμων, που θα περιορίζουν κατά το δυνατόν τα σϕάλματα στα τελικά αποτελέσματα, έτσιώστε τα αποτελέσματα αυτά να γίνονται αποδεκτά. Η εύρεση της απόκλισης των τελευταίωναπό τα αντίστοιχα άγνωστα, που αποτελούν τη θεωρητική λύση του προβλήματος, δηλαδή η

Page 8: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

8

εύρεση των τελικών σϕαλμάτων, καθώς επίσης και η μελέτη και ο περιορισμός τους, αποτελείεπίσης μία από τις πιο σημαντικές συνιστώσες των παρουσών Σημειώσεων.

Από τη ϕύση των προβλημάτων που μελετιούνται στην Αριθμητική Γραμμική Αλγεβρα,είναι επόμενο πέρα από αριθμούς (βαθμωτά μεγέθη) να εμπλέκονται διανύσματα και πίνακες.Ως εκ τούτου οι όποιες ιδιότητες των πινάκων θα πρέπει να μελετιούνται σε βάθος αϕού ηδυνατότητα εκμετάλλευσής τους σε μια συγκεκριμένη περίπτωση είναι δυνατόν να αποτελείαποϕασιστικό παράγοντα αϕενός μεν στην ανάπτυξη αποτελεσματικών αλγόριθμων αϕετέρουδε στην επιλογή του καταλληλότερου μεταξύ περισσότερων του ενός διαθέσιμων αλγόριθμων.Εχοντας εξάλλου υπόψη όσα ήδη αναϕέρθηκαν, σχετικά με την ανάπτυξη αποτελεσματικώναλγόριθμων καθώς επίσης και με τη μελέτη και μέτρηση των όποιων σϕαλμάτων στα τελικάαποτελέσματα, είναι επόμενο οι αντίστοιχες μετρήσεις να απαιτούν τη χρησιμοποίηση, όχιμόνο απόλυτων σϕαλμάτων αριθμών αλλά και, απόλυτων σϕαλμάτων διανυσμάτων και πινάκων.Ετσι, η εισαγωγή και η εν συνεχεία χρήση της έννοιας της norm καθίσταται εκ των ων ουκάνευ.

Ως εκ τούτου στα επόμενα Κεϕάλαια θα επιδιωχτεί πρώτα μια σύντομη εισαγωγή σε στοι-χεία που έχουν σχέση με διανύσματα και πίνακες πριν γίνει οποιαδήποτε αναϕορά στην ανά-πτυξη και μελέτη αλγόριθμων, για την επίλυση γραμμικών συστημάτων, η οποία κυρίως θακαλυϕτεί. Η αριθμητική εύρεση των ιδιοτιμών τετραγωνικού πίνακα, αν και η εισαγωγή τωντελευταίων με ό,τι αυτή συνεπάγεται θεωρητικά θα μας απασχολεί συνεχώς από το Κεϕάλαιο1, θα καλυϕτεί συνοπτικά στο Κεϕάλαιο 8. ΄Οσες νέες ή γνωστές και χρήσιμες έννοιες καθώςκαι προτάσεις από τη Γραμμική Αλγεβρα απαιτούνται θα εισάγονται ή θα αναϕέρονται όταν καιόπου αυτές θα χρειάζονται για πρώτη ϕορά.

Οι ανά χείρας Σημειώσεις αποτελούν μια ένωση των υλών των μαθημάτων της ΑριθμητικήςΓραμμικής Αλγεβρας, που διδάχτηκαν κατά τα τέσσερα τελευταία ακαδημαϊκά έτη στο Πανε-πιστήμιο Κρήτης σε προπτυχιακό και μεταπτυχιακό επίπεδο και στο Πανεπιστήμιο Ιωαννίνων.Βασίστηκαν κυρίως στις Σημειώσεις του πρώτου συγγραϕέα, που αποτέλεσαν κύριο βοήθη-μα σε αντίστοιχα μαθήματα τα τελευταία 16 χρόνια στο Πανεπιστήμιο Κρήτης, στο ΕθνικόΜετσόβιο Πολυτεχνείο και στο Πανεπιστήμιο Αθηνών, σε Σημειώσεις του δεύτερου συγγρα-ϕέα, που χρησιμοποιήθηκαν τα τελευταία χρόνια στο Πανεπιστήμιο Ιωαννίνων καθώς και σεΣημειώσεις του τρίτου συγγραϕέα, που χρησιμοποιήθηκαν τα τελευταία τέσσερα χρόνια στοΠανεπιστήμιο Κρήτης, τα προηγούμενα 10 στο Πανεπιστήμιο Purdue των Η.Π.Α. και τα πριναπό αυτά 15 χρόνια στο Πανεπιστήμιο Ιωαννίνων.

Τέλος, θα θέλαμε να ευχαριστήσουμε ειλικρινά τους κατά καιρούς μαθητές μας, που με τιςεύστοχες ερωτήσεις, απορίες και παρατηρήσεις τους, μας βοήθησαν να καταλήξουμε καταρχάςστις Σημειώσεις αυτές, που υποβάλλονται στην κρίση των χρηστών και αναγνωστών μας. Θαήταν μεγάλη παράλειψη από μέρους μας αν δεν ευχαριστούσαμε ολόθερμα και τον αγαπητόϕίλο και συνάδελϕο Γιώργο Ακρίβη, Καθηγητή του Πανεπιστημίου Ιωαννίνων, που είχε τηνκαλοσύνη να χρησιμοποιήσει και να διεξέρθει μεγάλο μέρος των Σημειώσεων και να κάνει

Page 9: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

9

εύστοχες παρατηρήσεις, όχι μόνο σε σϕάλματα και παραλείψεις τους, αλλά και σε σϕάλματαουσίας. Οποιεσδήποτε παρατηρήσεις από μέρους των αναγνωστών μας, που θα βοηθήσουνστη βελτίωση των παρουσών Σημειώσεων, θα είναι με χαρά μας ευπρόσδεκτες.

Αύγουστος 2012Βασίλειος Δουγαλής, Δημήτριος Νούτσος, Απόστολος Χατζηδήμος

Page 10: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

10

Page 11: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

Κεϕάλαιο 1

Βασική Θεωρία

1.1 Διανύσματα

Από τη Γραμμική Αλγεβρα θεωρούμε γνωστές μερικές από τις βασικότερες έννοιές της. Ι-διαίτερα θεωρούνται γνωστά τα περί: “Διανυσματικών Χώρων”, “Γραμμικών ΔιανυσματικώνΧώρων”, “Γραμμικής Ανεξαρτησίας (Εξάρτησης) Διανυσμάτων”, “Γραμμικού Συνδυασμού(Διανυσμάτων)”, “Διανυσμάτων που παράγουν ένα Γραμμικό Διανυσματικό Χώρο”, “ΒάσηςΓραμμικού Διανυσματικού Χώρου”, και “Διάστασης Γραμμικού Διανυσματικού Χώρου”. Ει-δικότερα θα μας απασχολήσουν οι Γραμμικοί Διανυσματικοί Χώροι ICn και IRn για τα διανύ-σματα των οποίων θα χρησιμοποιούνται οι παρακάτω συμβολισμοί:

x :=

x1

x2...xn

x1

x2...xn

, xi ∈ IC (IR), i = 1(1)n.

xT = [x1 x2 · · · xn], ανάστροϕο του x. Διαβάζεται και x−ανάστροϕο.xH = [x1 x2 · · · xn], συζυγές μιγαδικό ανάστροϕο του x, όπου xi είναι ο συζυγής μιγαδικόςτου xi, i = 1(1)n. Διαβάζεται και x−Ερμιτιανό.

11

Page 12: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

12

1.1.1 Ευκλείδειο Εσωτερικό Γινόμενο

Ορισμός 1.1 Το Ευκλείδειο εσωτερικό γινόμενο δύο διανυσμάτων x, y ∈ ICn με τη σειράαυτή συμβολίζεται με (x, y)2 και ορίζεται ως

(x, y)2 =n∑

i=1

xiyi.

Σημείωση: Είναι ϕανερό από τον ορισμό ότι (y, x)2 = (x, y)2.

1.1.2 Norms (Νόρμες, Στάθμες) Διανυσμάτων

Είναι γνωστό ότι το μέγεθος ενός πραγματικού αριθμού δίνεται από την απόλυτη τιμή του ενώενός μιγαδικού επίσης από την απόλυτη τιμή (ή μέτρο) του. Το μέγεθος ενός διανύσματοςδίνεται από τη norm (νόρμα ή στάθμη) του.

Η απεικόνιση || · || : ICn → IR+,0 ορίζει μια norm αν και μόνο αν (≡ ανν) ικανοποιεί τιςπαρακάτω τρεις ιδιότητες:i) ||x|| ≥ 0 με ||x|| = 0 ανν x = 0, ∀ x ∈ ICn

ii) ||cx|| = |c| ||x||, ∀ c ∈ IC και ∀ x ∈ ICn

iii) ||x+ y|| ≤ ||x||+ ||y||, ∀ x, y ∈ ICn

Αμεση συνέπεια των ιδιοτήτων (iii) και (ii) είναι και η∣∣ ||x|| − ||y||

∣∣ ≤ ||x± y||.Στην Αριθμητική Ανάλυση χρησιμοποιούνται κυρίως οι παρακάτω τρεις ορισμοί για norms:

||x||1 =∑n

i=1 |xi| (ℓ1−norm)

||x||2 = (∑n

i=1 |xi|2)12 ( = (x, x)

122 ) (ℓ2−norm ή Ευκλείδεια norm)

||x||∞ = maxi=1(1)n |xi| (ℓ∞−norm ή maximum norm)

Οι τρεις αυτοί ορισμοί αποτελούν μερικές περιπτώσεις του γενικότερου

||x||p =

(n∑

i=1

|xi|p) 1

p

, p ≥ 1,

όπου για p = ∞ θεωρείται ως ορισμός ο ||x||∞ = limp→∞ (∑n

i=1 |xi|p)1p .

Σημείωση: Για x ∈ IR2, τα γραϕήματα των εξισώσεων i) ||x||1 = 1, ii) ||x||2 = 1 και iii)||x||∞ = 1, που είναι ισοδύναμες με i) |x1|+ |x2| = 1, ii) x2

1+x22 = 1 και iii) max|x1|, |x2| =

Page 13: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

13

1, παριστάνονται, στο επίπεδο των αξόνωνOx1x2, i) από ρόμβο (τετράγωνο) με κορυϕές (1, 0),(0, 1), (−1, 0), (0,−1), ii) από κύκλο κέντρου (0, 0) και ακτίνας 1, και iii) από τετράγωνο μεκορυϕές (1, 1), (−1, 1), (−1,−1), (1,−1).

Το γεγονός ότι οι τρεις ορισμοί που δόθηκαν παραπάνω αποτελούν ορισμούς norms είναιεύκολο να αποδειχτεί στοιχειωδώς και συγκεκριμένα ότι ικανοποιούν τις ιδιότητες (i)-(iii)του ορισμού της norm. Η μόνη δυσκολία ίσως βρίσκεται στην περίπτωση της (iii), για τηνΕυκλείδεια norm, η απόδειξη της οποίας βασίζεται στην ανισότητα των Cauchy-Schwarz. Ητελευταία αποδείχνεται στη συνέχεια.

Θεώρημα 1.1 Για κάθε x, y ∈ ICn ισχύει:

|(x, y)2| ≤ ||x||2||y||2.

Απόδειξη: Για x = 0 ή y = 0 η δοθείσα ανισότητα ισχύει ως ισότητα (0 = 0). Για κάθεx, y ∈ ICn \ 0 και για κάθε θ ∈ IR έχουμε

0 ≤n∑

i=1

(θ|xi|+ |yi|)2 = θ2n∑

i=1

|xi|2 + 2θn∑

i=1

|xi||yi|+n∑

i=1

|yi|2.

Το δεξιό μέλος των παραπάνω σχέσεων είναι ένα τριώνυμο δεύτερου βαθμού ως προς θ, μεσυντελεστή δευτεροβάθμιου όρου θετικό (

∑ni=1 |xi|2 > 0) και είναι μή αρνητικό για όλες τις

πραγματικές τιμές του θ. Αρα η διακρίνουσα του τριωνύμου, D, θα είναι μή θετική. Επομένως

0 ≥ D4= (∑n

i=1 |xi||yi|)2 − (∑n

i=1 |xi|2) (∑n

i=1 |yi|2) ⇐⇒(∑n

i=1 |xiyi|)2 ≤ ||x||22||y||22 =⇒ |∑n

i=1 xiyi|2 ≤ ||x||22||y||22 ⇐⇒|(x, y)2| ≤ ||x||2||y||2.

Με βάση την ανισότητα των Cauchy-Schwarz είναι εύκολο να δειχτεί ότι η Ευκλείδεια

norm ικανοποιεί την ιδιότητα (iii) του ορισμού της norm ως εξής: Για την απόδειξη της||x+ y||2 ≤ ||x||2 + ||y||2 αρκεί να δειχτεί η ισοδύναμή της ||x+ y||22 ≤ (||x||2 + ||y||2)2 ή η

(x+ y, x+ y)2 ≤ ||x||22 + 2||x||2||y||2 + ||y||22.

Μετά την ανάπτυξη του εσωτερικού γινομένου του πρώτου μέλους και απλοποιώντας, έχονταςυπόψη ότι (x, x)2 = ||x||22 κ.λπ., βρίσκουμε 2Re(x, y)2 ≤ 2||x||2||y||2 και άρα αρκεί να δειχτείότι |(x, y)2| ≤ ||x||2||y||2, η οποία δεν είναι άλλη παρά η ανισότητα των Cauchy-Schwarz, πουισχύει.

Ορισμός 1.2 Δυο διανύσματα x, y ∈ ICn είναι ορθογώνια ανν (x, y)2 = 0.

Page 14: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

14

Ειδικά για x, y ∈ IRn \ 0 μπορεί να οριστεί γωνία δύο διανυσμάτων από την έκϕρασηcos θ = (x,y)2

||x||2||y||2 ∈ [−1, 1], όπου η δεξιά σχέση ισχύει λόγω της ανισότητας των Cauchy-

Schwarz. (Σημείωση: Είναι γνωστό από την Αναλυτική Γεωμετρία ότι ο παραπάνω τύπος γιατο cos θ, με θ ∈ [0, π], δίνει τη γωνία δύο διανυσμάτων.)

Μια διανυσματική norm είναι δυνατόν να θεωρηθεί ότι ορίζει μία απόσταση d(x, y) =||x− y|| στο ICn αϕού προϕανώς ικανοποιεί τις:

i) d(x, x) = 0, ∀ x ∈ ICn και d(x, y) = 0 ανν x = y, ∀ x, y ∈ ICn

ii) d(x, y) = d(y, x), ∀ x, y ∈ ICn

iii) d(x, y) ≤ d(x, z) + d(z, y), ∀ x, y, z ∈ ICn

Αρα ο (ICn, d(x, y) = ||x− y||) είναι μετρικός χώρος.

Ορισμός 1.3 Μία ακολουθία διανυσμάτων x0, x1, x2, · · · ∈ ICn (ή xk∞k=0) συγκλίνει στοδιάνυσμα x ∈ ICn (ή έχει όριο το διάνυσμα x) και γράϕουμε xk

k→∞ → x ή (xk − x)k→∞ → 0(ή αντίστοιχα limk→∞ xk = x ή limk→∞(xk − x) = 0) ανν xk

i k→∞ → xi, ∀ i = 1(1)n.

Ορισμός 1.4 Δύο norms ||·||α και ||·||β λέγονται ισοδύναμες (ή συγκρίσιμες) ανν υπάρχουνσταθερές c1, c2 > 0 τέτοιες ώστε (≡ τ.ω.)

c1||x||α ≤ ||x||β ≤ c2||x||α.

Σημείωση: Η παραπάνω ακολουθία ανισοτήτων είναι ισοδύναμη και με την c−12 ||x||β ≤ ||x||α ≤

c−11 ||x||β και άρα δεν έχει σημασία για ποια από τις δύο norms θα θεωρείται ότι πολλαπλάσιάτης περιέχουν την άλλη.

Θεώρημα 1.2 Οποιεσδήποτε δύο norms στο ICn είναι συγκρίσιμες.

Απόδειξη: Χωρίς περιορισμό της γενικότητας αρκεί να δειχτεί για την ℓ2−norm. Αυτό γιατίαν d1||x||α ≤ ||x||2 ≤ d2||x||α και d′1||x||β ≤ ||x||2 ≤ d′2||x||β τότε μπορεί αμέσως να βρεθείότι και d−1

2 d′1||x||β ≤ ||x||α ≤ d−11 d′2||x||β, που ικανοποιεί τον ορισμό της ισοδυναμίας.

Εστω ότι ei, i = 1(1)n, είναι τα διανύσματα της ορθοκανονικής βάσης του ICn. Δηλαδή,eij = δij, ∀ i = 1(1)n και j = 1(1)n, όπου δij είναι το δέλτα του Kronecker. Τότε ανxi, i = 1(1)n, είναι οι συνιστώσες του x, ∀ x ∈ ICn, ως προς την ορθοκανονική βάση, θαέχουμε

f(x) := ||x||α ≤n∑

i=1

|xi|||ei||α ≤

(n∑

i=1

|xi|2) 1

2(

n∑i=1

||ei||2α

) 12

= c2||x||2, (1.1)

Page 15: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

15

όπου η πρώτη από τα αριστερά ανισότητα ισχύει λόγω των ιδιότητων (ii) και (iii) της διανυ-σματικής norm, η δεύτερη λόγω της ανισότητας των Cauchy-Schwarz και προϕανώς c2 :=

(∑n

i=1 ||ei||2α)12 (> 0) είναι σταθερά ανεξάρτητη του x. Για τη συνάρτηση f : ICn → IR+,0,

χρησιμοποιώντας τις ιδιότητες των norms καθώς και το συμπέρασμα που μόλις προέκυψε,έχουμε

|f(x)− f(y)| =∣∣ ||x||α − ||y||α

∣∣ ≤ ||x− y||α ≤ c2||x− y||2.Αρα η f είναι συνεχής στο ICn. Θεωρούμε τώρα τη μοναδιαία σϕαίρα S στο ICn, όπου οιαποστάσεις μετριούνται με την ℓ2−norm, δηλαδή S := x ∈ ICn : ||x||2 = 1. Είναι ϕανερόότι το σύνολο S είναι ϕραγμένο. Με βάση τον ορισμό της ακολουθίας διανυσμάτων και αυτόντης l2 − norm, μπορεί να αποδειχτεί ότι είναι και κλειστό. Επομένως είναι συμπαγές και άραη f(x) ως συνεχής σ΄ αυτό παίρνει την ελάχιστη τιμή της για κάποιο y ∈ S. Δηλαδή, υπάρχειy ∈ S : ||x||α ≥ ||y||α = c1 > 0, ∀ x ∈ S. (c1 > 0, γιατί αν c1 = 0 τότε y = 0 και||y||2 = 0 = 1.) Αρα ∀ x ∈ ICn \ 0, x

||x||2 ∈ S, θα έχουμε

f(x) := ||x||α = ||x||2||x

||x||2||α ≥ c1||x||2. (1.2)

Οι (1.1) και (1.2) αποδείχνουν το θεώρημα.

Με βάση τους ορισμούς της ακολουθίας και της ισοδυναμίας διανυσμάτων καθώς και τουθεωρήματος που αποδείχτηκε έχουμε την παρακάτω πρόταση.

Θεώρημα 1.3 Αν θεωρήσουμε μία ακολουθία διανυσμάτων xk∞k=0 με x0, x1, x2, · · · ∈

ICn, τότε για κάθε διανυσματική norm || · ||α ισχύει

xkk→∞ → x ⇐⇒ lim

k→∞||xk − x||α = 0.

Απόδειξη: Η απόδειξη είναι προϕανής.

ΑΣΚΗΣΕΙΣ

1.: Να αποδειχτεί ότι οι απεικονίσεις στους ορισμούς των || · ||1, || · ||2 και || · ||∞ ικανοποιούντις ιδιότητες (i), (ii) και (iii) των διανυσματικών norms.

2.: Να βρεθούν οι ||x||1, ||x||2 και ||x||∞, όταν

x = [1, −i, 1 + i, 1− i]T .

Page 16: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

16

3.: Αν x, y ∈ IRn είναι γραμμικά ανεξάρτητα με ||x||2 = ||y||2, να αποδειχτεί ότι τα x + yκαι x− y είναι ορθογώνια μεταξύ τους.

4.: Εστω x, y ∈ IRn\0. Να δειχτεί ότι

||x+ y||2 = ||x||2 + ||y||2

ανν y = λx με λ ∈ (0,+∞).

5.: Για κάθε διανυσματική norm ισχύει

|||x|| − ||y||| ≤ ||x− y||, ∀ x, y ∈ ICn.

6.: Να δειχτεί ότι η απεικόνιση, που ορίζεται από την

f(x) :=n∑

i=1

i|xi|, ∀ x ∈ ICn,

αποτελεί τον ορισμό μιας διανυσματικής norm ενώ η απεικόνιση

g(x) :=n∑

i=1

(i− 1)|xi|, ∀ x ∈ ICn

δεν ορίζει norm.

7.: α) Να αποδειχτούν οι παρακάτω σχέσεις ισοδυναμίας των norms, για κάθε x ∈ ICn.

1√n||x||1 ≤ ||x||2 ≤ ||x||1,

1√n||x||2 ≤ ||x||∞ ≤ ||x||2, ||x||∞ ≤ ||x||1 ≤ n||x||∞.

καιβ) Να βρεθούν έξι διανύσματα x ∈ ICn\0 τα οποία ικανοποιούν κάθε μία από τιςπαραπάνω έξι ισότητες.

1.2 Πίνακες

Θεωρούμε τους πίνακες A ∈ ICm,n (IRm,n), όπου έχουν οριστεί οι πράξεις της πρόσθεσης καιτου πολλαπλασιασμού επί μιγαδικό (πραγματικό) αριθμό. Οπως είναι γνωστό ο ICm,n αποτελείένα γραμμικό διανυσματικό χώρο διάστασης mn.

Page 17: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

17

Οι συμβολισμοί για τους παραπάνω πίνακες A ∈ ICm,n είναι οι γνωστοί

A :=

a11 a12 · · · a1na21 a22 · · · a2n...

.........

am1 am2 · · · amn

a11 a12 · · · a1na21 a22 · · · a2n...

.........

am1 am2 · · · amn

≡ [aij], i = 1(1)m, j = 1(1)n.

Ακόμη, χρησιμοποιούνται συμβολισμοί αντίστοιχοι των διανυσμάτων για τον ανάστροϕο πί-νακα AT καθώς και για το συζυγή μιγαδικό ανάστροϕο AH , που διαβάζεται και A−Ερμιτιανός.

Το γινόμενο δύο πινάκων A ∈ ICm,n και B ∈ ICn,p στη σειρά αυτή ορίζεται ως C := AB ∈ICm,p, όπου cij =

∑nk=1 aikbkj, i = 1(1)m, j = 1(1)p. Είναι γνωστό ότι η προσεταιριστική και

η επιμεριστική ιδιότητα του πολλαπλασιασμού ισχύουν για πίνακες με την προϋπόθεση ότι οιπράξεις των πινάκων που σημειώνονται ορίζονται. Το ίδιο δεν ισχύει για την αντιμεταθετικήιδιότητα, ακόμη κι αν τα γινόμενα AB και BA που σημειώνονται ορίζονται. Είναι δηλαδήγενικά AB = BA.Υπενθυμίζεται ότι ισχύουν οι σχέσεις (AT )T = A, (AH)H = A και ότι αν το γινόμενο ABορίζεται ισχύουν και οι (AB)T = BTAT και (AB)H = BHAH . Ακόμη, (x, y)2 = xHy και(x, x)2 = xHx = ||x||22.

Εϕεξής θα αναϕερόμαστε μόνο σε πίνακες τετραγωνικούς A ∈ ICn,n, εκτός και αν σαϕώςορίζεται αλλιώς.

Ο ταυτοτικός πίνακας (ή μοναδιαίος) θα συμβολίζεται με I εκτός κι αν υπάρχει περίπτωσησύγχυσης οπότε θα συμβολίζεται με In.

Πίνακας A ∈ ICn,n με την ιδιότητα AH = A καλείται Ερμιτιανός, ενώ αν ικανοποιεί τησχέση AT = A συμμετρικός. Σημειώνεται ότι ένας πραγματικός Ερμιτιανός πίνακας είναιπροϕανώς συμμετρικός.

Οπως είναι γνωστό, ο αντίστροϕος δοθέντος πίνακα A δεν ορίζεται πάντοτε. Γενικά, γιαδοθέντα A ∈ ICn,n αν υπάρχουν πίνακες X, Y ∈ ICn,n τ.ω. XA = I = AY, τότε X = Y ,ο αντίστροϕος X (= Y ) είναι μοναδικός και συμβολίζεται με A−1. Δεν έχουν, λοιπόν, όλοιοι πίνακες αντίστροϕο. Αν όμως οι A,B ∈ ICn,n είναι αντιστρέψιμοι τότε μπορεί εύκολα νααποδειχτεί ότι ισχύουν τα παρακάτω:

(A−1)−1 = A, (AT )−1 = (A−1)T , (AH)−1 = (A−1)H και (AB)−1 = B−1A−1.

Στη συνέχεια δίνεται μια πρόταση, χωρίς απόδειξη, ευρεία χρήση της οποίας θα γίνει σταεπόμενα.

Page 18: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

18

Θεώρημα 1.4 Αν A ∈ ICn,n, τότε οι παρακάτω προτάσεις είναι ισοδύναμες:i) Υπάρχει ο A−1

ii) Τα διανύσματα-στήλες του A είναι γραμμικά ανεξάρτηταiii) Το ίδιο ισχύει και για τα διανύσματα-γραμμές του Aiv) det(A) = 0v) Το γραμμικό σύστημα Ax = 0 έχει τη μοναδική λύση x = 0vi) Το γραμμικό σύστημα Ax = b έχει τη μοναδική λύση x = A−1b

1.2.1 Ιδιοτιμές και Ιδιοδιανύσματα

Είναι γνωστό ότι για κάθε A ∈ ICn,n υπάρχουν λi ∈ IC και xi ∈ ICn \ 0, i = 1(1)n,τ.ω. Axi = λix

i, i = 1(1)n. Οι αριθμοί λi καλούνται ιδιοτιμές και τα xi (αντίστοιχα)ιδιοδιανύσματα του πίνακα A. Οι n ιδιοτιμές βρίσκονται από την επίλυση της εξίσωσης det(A−λI) = 0 ενώ τα αντίστοιχα n ιδιοδιανύσματα από την επίλυση των n γραμμικών συστημάτων(A− λiI)x

i = 0, i = 1(1)n. (Σημείωση: Υπενθυμίζεται ότι τα n γραμμικά συστήματα έχουνπίνακες συντελεστών αγνώστων μή αντιστρέψιμους και ότι οι λύσεις που αναζητιούνται είναιμή μηδενικές. Ακόμη, αν x είναι ένα ιδιοδιάνυσμα του A τότε και το cx, όπου c ∈ IC \ 0,είναι επίσης ιδιοδιάνυσμα που δε θεωρείται όμως διαϕορετικό από το x. Επίσης, είναι δυνατόντα n ιδιοδιανύσματα να είναι γραμμικά ανεξάρτητα, οπότε αποτελούν και μια βάση του ICn, ή οA να μην έχει n γραμμικά ανεξάρτητα ιδιοδιανύσματα.)Θα συμβολίζουμε με

σ(A) := λ1, λ2, · · · , λn το ϕάσμα των ιδιοτιμών του A

και με

ρ(A) := maxi=1(1)n |λi| τη ϕασματική ακτίνα του A.

1.2.2 Norms Πινάκων

Οι norms πινάκων ορίζονται με παραπλήσιο τρόπο με αυτόν των διανυσμάτων. Χαρακτηρί-ζονται από τρεις ιδιότητες που είναι αντίστοιχες των διανυσματικών norms καθώς κι από μιατέταρτη που αναϕέρεται στην πολλαπλασιαστική ιδιότητα. Συγκεκριμένα έχουμε:

Ορισμός 1.5 Η απεικόνιση || · || : ICn,n → IR+,0 ορίζει μια norm αννi) ||A|| ≥ 0, ||A|| = 0 ανν A = 0, ∀ A ∈ ICn,n

Page 19: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

19

ii) ||cA|| = |c| ||A||, ∀ c ∈ IC και ∀ A ∈ ICn,n

iii) ||A+B|| ≤ ||A||+ ||B||, ∀ A,B ∈ ICn,n

iv) ||AB|| ≤ ||A||||B||, ∀ A,B ∈ ICn,n

Οι περισσότερο χρησιμοποιούμενες norms πινάκων είναι αυτές που παράγονται από τιςδιανυσματικές norms με τον ακόλουθο τρόπο:Για ένα δοθέντα A ∈ ICn,n και ∀ x ∈ ICn \ 0 θεωρούμε το σύνολο των πηλίκων ||Ax||

||x|| . Ταεν λόγω πηλίκα μπορεί να δειχτεί ότι είναι ϕραγμένα. Προς τούτο αρκεί να ϕράξουμε απόπάνω και κάτω τους δυο όρους του κλάσματος, αντίστοιχα, χρησιμοποιώντας την ισοδυναμίατης οποιασδήποτε διανυσματικής norm με μια γνωστή, π.χ. την ℓ∞− norm. Στη συνέχειαμπορεί να δειχτεί ότι η παρακάτω απεικόνιση ορίζει μια norm πίνακα η οποία εϕεξής θα καλείταιϕυσική norm.

Θεώρημα 1.5 Η απεικόνιση ||A|| := supx∈ICn\0||Ax||||x|| , ∀ A ∈ ICn,n, ορίζει μια norm πίνακα.

Απόδειξη: Για να δειχτεί ότι η απεικόνιση της πρότασης ορίζει μια norm θα πρέπει να δειχτείότι αυτή ικανοποιεί τις ιδιότητες (i)-(iv) του ορισμού της norm. Οι αποδείξεις για τις ιδιότητες(i)-(iii) είναι απλές και παραλείπονται. Η απόδειξη της (iv) έχει ως εξής: Από τον ορισμό έ-χουμε ότι ∀ x ∈ ICn \ 0, ||Ax||

||x|| ≤ ||A|| ⇐⇒ ||Ax|| ≤ ||A||||x||. (Σημείωση: Παρατηρούμεότι η τελευταία ανισότητα ισχύει και για x = 0.) Εϕαρμόζοντας την τελευταία ανισότητα δια-δοχικά δυο ϕορές, ∀ x ∈ ICn \ 0, παίρνουμε ότι ||ABx||

||x|| ≤ ||A||||Bx||||x|| ≤ ||A||||B||||x||

||x|| = ||A||||B||,πράγμα που αποδείχνει την (iv). Ενας ισοδύναμος ορισμός για τη norm πίνακα A ∈ ICn,n δίνεται στην επόμενη πρόταση.

Θεώρημα 1.6 Ο ορισμός του Θεωρήματος 1.5 είναι ισοδύναμος με τον ακόλουθο||A|| := supx∈ICn, ||x||=1 ||Ax||.

Απόδειξη: Με βάση την ιδιότητα (ii) των norms διανυσμάτων το πηλίκο στον ορισμό τουΘεωρήματος 1.5 μπορεί να γραϕτεί ισοδύναμα ως

||Ax||||x|| = ||Ay||, όπου y = x

||x|| .

Είναι ϕανερό ότι χρησιμοποιώντας την ιδιότητα των norms διανυσμάτων που προαναϕέρθηκεέχουμε ||y|| = || x

||x|| || =1

||x|| ||x|| = 1. Αντίστροϕα, κάθε y ∈ ICn με ||y|| = 1 μπορεί να γραϕτείως y = cy

||cy|| , ∀ c > 0, οπότε για x = cy, ο ορισμός του παρόντος θεωρήματος δίνει τον ορισμότου Θεωρήματος 1.5.

Page 20: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

20

Σημείωση: Στηριζόμενοι στον ισοδύναμο ορισμό της ϕυσικής norm του Θεωρήματος 1.6είναι δυνατόν να αποδειχτεί ότι η συνάρτηση f(x) := ||Ax||, με ||x|| = 1, είναι συνεχής. Γι΄αυτό το σκοπό και για ||x|| = ||y|| = 1 έχουμε:

|f(x)− f(y)| =∣∣ ||Ax|| − ||Ay||

∣∣ ≤ ||Ax− Ay|| = ||A(x− y)|| ≤ ||A||||x− y||.

Επειδή είναι γνωστό ότι η ||A|| είναι ϕραγμένη, η ανισότητα του αριστερά και δεξιά μέλουςστην παραπάνω ακολουθία σχέσεων αποδείχνει τη συνέχεια της f(x) στο πεδίο ορισμού της,S := x ∈ ICn : ||x|| = 1. Επειδή δε το S είναι συμπαγές (κλειστό και ϕραγμένο) και η f(x)είναι συνεχής σ΄ αυτό θα υπάρχει x ∈ S στο οποίο η f(x) θα παίρνει τη μέγιστη δυνατή τιμήτης. Αυτό σημαίνει ότι το supremum στα Θεωρήματα 1.5 και 1.6 θα μπορεί να αντικατασταθείαπό το maximum.

Βασιζόμενοι στην ισοδυναμία (συγκρισιμότητα) δυο οποιωνδήποτε διανυσματικών normsστο ICn καθώς και στον ορισμό της ϕυσικής norm πίνακα μπορεί να αποδειχτεί η παρακάτωπρόταση.

Θεώρημα 1.7 Δυο οποιεσδήποτε ϕυσικές norms πινάκων στο ICn,n είναι ισοδύναμες(συγκρίσιμες).

1.2.3 Ακολουθίες Πινάκων και Σύγκλιση

Εστω μία ακολουθία πινάκων A(0), A(1), A(2), · · · ∈ ICn,n, που γράϕεται συμβολικά και ωςA(k)∞k=0. Η υπόψη ακολουθία συγκλίνει στον πίνακα A ∈ ICn,n (A(k)

k→∞ → A ⇐⇒limk→∞ A(k) = A) ανν limk→∞ a

(k)ij = aij, i, j = 1(1)n. Συνέπεια του ορισμού αυτού και

των αμέσως προηγούμενων θεωρημάτων είναι ότι για μια οποιαδήποτε ϕυσική norm πίνακα|| · || ισχύει ότι limk→∞ A(k) = A ανν limk→∞ ||A(k) − A|| = 0.

1.2.4 Προτάσεις για τις Φυσικές Norms Πινάκων

Στη συνέχεια δίνουμε τέσσερις προτάσεις πάνω στις norms πινάκων η τρίτη από τις οποίεςδίνεται χωρίς απόδειξη.

Θεώρημα 1.8 Για κάθε ϕυσική norm ισχύει: ||I|| = 1.

Απόδειξη: Η απόδειξη με βάση τον ορισμό της norm, για A = I, είναι άμεση.

Θεώρημα 1.9 Για κάθε ϕυσική norm και ∀ A ∈ ICn,n ισχύει: ρ(A) ≤ ||A||.

Page 21: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

21

Απόδειξη: Εστω λ ∈ IC μια ιδιοτιμή του A και x ∈ ICn \ 0 το αντίστοιχο ιδιοδιάνυσμα.Θα έχουμε: Ax = λx, οπότε παίρνοντας norms και εϕαρμόζοντας την ιδιότητα (ii) καθώςκαι την αποδειχθείσα ανισότητα ||Ax|| ≤ ||A||||x|| προκύπτει αμέσως ότι ||A||||x|| ≥ |λ|||x||.Διαιρώντας και τα δύο μέλη της τελευταίας σχέσης δια ||x||(> 0) έχουμε |λ| ≤ ||A|| και τοθεώρημα αποδείχτηκε αϕού η τελευταία ανισότητα αληθεύει ∀ λ ∈ σ(A).

Θεώρημα 1.10 ∀ A ∈ ICn,n και ∀ ϵ > 0 υπάρχει ϕυσική norm || · || τ.ω. ||A|| ≤ ρ(A) + ϵ.

(Σημείωση: Η απόδειξη θα δοθεί στο Κεϕάλαιο 3 μετά την εισαγωγή της κανονικής μορϕήςτου Jordan.)

Σημείωση: Θα πρέπει να τονιστεί ότι ενώ η ϕασματική ακτίνα πίνακα A ∈ ICn,n δεν αποτελείnorm, με βαση τα Θεωρήματα 1.9 και 1.10 διαπιστώνεται, ότι αυτή μπορεί να προσεγγιστείαπό κάποια ϕυσική norm όσο καλά αυτό είναι επιθυμητό.

Θεώρημα 1.11 (Neumann). Αν A ∈ ICn,n και για μια ϕυσική norm στο ICn,n ισχύει||A|| < 1, τότεi) Ο I − A είναι αντιστρέψιμος, καιii) 1

1+||A|| ≤ ||(I − A)−1|| ≤ 11−||A|| .

Απόδειξη: i) Εστω ότι ο I − A είναι μή αντιστρέψιμος. Τότε θα υπάρχει x ∈ ICn \ 0 τ.ω.(I − A)x = 0. Από την τελευταία σχέση παίρνουμε διαδοχικά x = Ax =⇒ ||x|| ≤ ||A||||x||και επειδή ||x|| > 0 έχουμε ισοδύναμα ότι 1 ≤ ||A||, που είναι άτοπο.ii) Με βάση την αντιστρεψιμότητα του I−A έχουμε ότι I = (I−A)−1(I−A) = (I−A)−1−(I−A)−1A. Παίρνοντας norms των ακραίων μελών και εϕαρμόζοντας απλές ιδιότητές έχουμεδιαδοχικά:1 = ||I|| ≤ ||(I − A)−1|| + ||(I − A)−1||||A|| = ||(I − A)−1||(1 + ||A||) ⇐⇒ 1

1+||A|| ≤||(I − A)−1||.Με αντίστοιχο τρόπο μπορούμε να πάρουμε ότι:1 = ||I|| ≥ ||(I − A)−1|| − ||(I − A)−1||||A|| = ||(I − A)−1||(1 − ||A||) ⇐⇒ 1

1−||A|| ≥||(I − A)−1||. Σημείωση: Το Θεώρημα του Neumann είναι δυνατόν να διατυπωθεί με τον ίδιο ακριβώς τρόποκαι για τον πίνακα I+A αρκεί τόσο στην υπόθεση του θεωρήματος όσο και στα συμπεράσματάτου να τεθεί όπου A το −A.

Οπως και στις norms διανυσμάτων έτσι και στις norms πινάκων οι συνηθέστερα χρησιμο-ποιούμενες είναι αυτές που προκύπτουν, με βάση τον ορισμό, από τις ℓ1−norm, ℓ2−norm καιℓ∞−norm των διανυσμάτων. Συγκεκριμένα μπορεί να αποδειχτεί ότι ∀ A ∈ ICn,n ισχύουν:

Page 22: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

22

||A||1 = maxj=1(1)n

∑ni=1 |aij|

||A||2 = ρ12 (AHA), (ϕασματική norm)

||A||∞ = maxi=1(1)n

∑nj=1 |aij|

Στη συνέχεια θα δοθούν οι αποδείξεις των τύπων για τη ||A||∞, η απόδειξη για τη ||A||1 είναισε γενικές γραμμές της ίδιας μορϕής αλλά απλούστερη, και της ||A||2.

Για δοσμένο A ∈ ICn,n και ∀ x ∈ ICn με ||x||∞ = 1 παίρνουμε διαδοχικά

||Ax||∞ = maxi=1(1)n |∑n

j=1 aijxj| ≤ maxi=1(1)n

∑nj=1(|aij||xj|)

≤ maxi=1(1)n

∑nj=1(|aij|||x||∞) = maxi=1(1)n

∑nj=1 |aij|,

αϕού ||x||∞ = 1. Από το αριστερά και δεξιά μέλος των παραπάνω σχέσεων προκύπτει αμέσωςότι

||Ax||∞ ≤ maxi=1(1)n

n∑j=1

|aij|

και άρα

||A||∞ ≤ maxi=1(1)n

n∑j=1

|aij|. (1.3)

Εστω k ∈ 1, 2, · · · , n ο δείκτης της γραμμής για την οποία το άθροισμα∑n

j=1 |akj| είναιμέγιστο. Ορίζουμε το διάνυσμα y ∈ ICn με συνιστώσες

yj =

akj|akj |

, αν akj = 0

1, αν akj = 0, j = 1(1)n.

Από τον ορισμό των yj, για το συγκεκριμένο y, συμπεραίνεται ότι ||y||∞ = 1 και ακόμη ότι||Ay||∞ = maxi=1(1)n |

∑nj=1 aijyj| ≥ |

∑nj=1 akjyj| =

∑nj=1 |akj| = maxi=1(1)n

∑nj=1 |aij|,

από τον ορισμό του δείκτη k. Αρα

||A||∞ ≥ ||Ay||∞ ≥ maxi=1(1)n

n∑j=1

|aij|, (1.4)

για το οποιοδήποτε x, με ||x||∞ = 1. Οι (1.3) και (1.4) αποδείχνουν την ισχύ του ζητούμενουτύπου για τη ||A||∞, δηλαδή ότι ||A||∞ = maxi=1(1)n

∑nj=1 |aij|.

Για τη ||A||2, εϕόσον έχουμε την αποδεικτέα έκϕραση, θεωρούμε τον πίνακα AHA. Οπίνακας AHA είναι Ερμιτιανός διότι (AHA)H = AH(AH)H = AHA, έχει δε μή αρνητικές

Page 23: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

23

ιδιοτιμές. Ο ισχυρισμός αυτός αποδείχνεται ως εξής. Εστω λ μία ιδιοτιμή του AHA μεαντίστοιχο ιδιοδιάνυσμα x ∈ ICn \ 0. Θα είναι AHAx = λx, οπότε και xHAHAx = λxHxή ||Ax||22 = λ||x||22. Επειδή ||Ax||22 ≥ 0 και ||x||22 > 0, έπεται ότι λ ≥ 0. Από τη ΓραμμικήΑλγεβρα γνωρίζουμε ότι κάθε Ερμιτιανός πίνακας έχει n γραμμικά ανεξάρτητα ιδιοδιανύσματαπου μπορούν να παρθούν ορθοκανονικά. Αν xi, i = 1(1)n, είναι τα ιδιοδιανύσματα του AHA,για τα οποία ισχύει ότι (xi, xj)2 = δij, i, j = 1(1)n, με αντίστοιχες ιδιοτιμές λi, i = 1(1)n,όπου 0 ≤ λ1 ≤ λ2 ≤ · · · ≤ λn, τότε για κάθε x ∈ ICn με ||x||2 = 1 το εν λόγω διάνυσμαγράϕεται και ως x =

∑ni=1 cix

i, με ci ∈ IC και∑n

i=1 |ci|2 = 1. Θα έχουμε διαδοχικά τις σχέσειςπου προκύπτουν από απλούς μετασχηματισμούς

||A||22 = max ||Ax||22 = max(Ax,Ax)2 = max(x,AHAx)2

= max(∑n

i=1 cixi, AHA

∑nj=1 cjx

j)2= max

(∑ni=1 cix

i,∑n

j=1 cjλjxj)2

= max∑n

i=1 λi|ci|2 ≤ λn max∑n

i=1 |ci|2 = λn = ρ(AHA).

(1.5)

Αν τώρα επιλέξουμε x = xn, δηλαδή το ιδιοδιάνυσμα που αντιστοιχεί στη μεγαλύτερη ιδιοτιμή,η μοναδική ανισότητα στις σχέσεις (1.5) γίνεται ισότητα πράγμα που αποδείχνει τον τύπο γιατη ||A||2.

1.2.5 Αριθμός (ή Δείκτης) Κατάστασης Πίνακα

Ορισμός 1.6 Αριθμός (ή δείκτης) κατάστασης αντιστρέψιμου πίνακα A ∈ ICn,n ως προςϕυσική norm || · || καλείται ο αριθμός

κ(A) = ||A||||A−1||.

Γι΄ αυτόν ισχύει προϕανώς πάντοτε ότι κ(A) ≥ 1.

Σημειώσεις: α) Οταν αναϕερόμαστε σε μια συγκεκριμένη norm, || · ||α, τότε ο δείκτης κατά-στασης συμβολίζεται με κα(A). β) Για μή αντιστρέψιμο πίνακα A ο δείκτης κατάστασης ωςπρος μια οποιαδήποτε ϕυσική norm θεωρείται ίσος με ∞.Στη συνέχεια δίνουμε μια πρόταση που αϕορά στο δείκτη κατάστασης.

Θεώρημα 1.12 Εστω A ∈ ICn,n αντιστρέψιμος. Για το δείκτη κατάστασης του A ισχύει

1

κ(A)≤ inf

B∈ICn,n, det(B)=0

||A−B||

||A||

Απόδειξη: Για την απόδειξη της πρότασης αρκεί να αποδειχτεί ότι 1κ(A)

≤ ||A−B||||A|| . Αϕού ο

τυχόν B είναι μή αντιστρέψιμος υπάρχει x ∈ ICn\0 : Bx = 0 ή ισοδύναμα (A−B)x = Ax

Page 24: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

24

ή A−1(A − B)x = x. Παίρνοντας norms και εϕαρμόζοντας απλές ιδιότητες έχουμε αμέσωςότι ||A−1||||A − B|| ≥ 1, αϕού ||x|| > 0. Διαιρώντας τώρα και τα δυο μέλη δια του δείκτηκατάστασης έχουμε την προς απόδειξη σχέση. Ο τελευταίος ισχυρισμός είναι αληθής αϕού ηαποδειχθείσα ανισότητα (≤) ισχύει για τον τυχόντα μή αντιστρέψιμο πίνακα B η ίδια ανισότηταθα ισχύει και για το infimum του δεύτερου μέλους. Παρατηρήσεις: α) Αν θεωρήσουμε το κλάσμα του δεύτερου μέλους της πρότασης του θεωρή-ματος σαν το σχετικό απόλυτο σϕάλμα του πίνακα A ως προς το σύνολο των μή αντιστρέψιμωνπινάκων B, τότε ο δείκτης κατάστασης εκϕράζει το πόσο σχετικά κοντά (ή μακρυά) είναι οA από του να είναι μή αντιστρέψιμος. β) Υπάρχουν ϕυσικές norms για τις οποίες η δοθείσαανισότητα ισχύει ως ισότητα.

ΑΣΚΗΣΕΙΣ

1.: Να δειχτεί ότι κάθε πίνακας A ∈ ICn,n μπορεί να γραϕτεί κατά ένα και μόνο τρόπο ωςάθροισμα A = B+C, όπου B Ερμιτιανός (BH = B) και C αντι–Ερμιτιανός (CH = −C).

2.: Εστω ότι ο πίνακας A ∈ ICn,n είναι μή αντιστρέψιμος. Δίνεται η διάσπαση A = B − C,όπου ο B είναι αντιστρέψιμος. Να δειχτεί ότι ρ(B−1C) ≥ 1 και, για οποιαδήποτε ϕυσικήnorm, ||B−1|| ≥ 1

||C|| .

3.: Αν A ∈ ICn,n να δειχτεί η ισχύς των σχέσεων

α)n∑

i=1

λi =n∑

i=1

aii και β)n∏

i=1

λi = det(A),

όπου λi ∈ σ(A), i = 1(1)n.

4.: Να δειχτεί ότι

||A||1 = maxj=1(1)n

n∑i=1

|aij| ∀ A ∈ ICn,n.

5.: Να βρεθούν οι norms || · ||1, || · ||2 και || · ||∞ για τους πίνακες 2 −1 0−1 2 −10 −1 2

,

2 −1 0 0

−1 2 −1 00 −1 2 −10 0 −1 2

.

Page 25: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

25

6.: Να δειχτεί ότι η απεικόνιση || · ||F : ICn,n → [0,+∞), που ορίζεται από τη

||A||F :=

(n∑

i,j=1

|aij|2) 1

2

∀ A ∈ ICn,n,

αποτελεί τον ορισμό μιας norm (norm του Frobenius). Είναι η εν λόγω norm ϕυσική;

7.: Να αποδειχτεί ότι η ϕασματική ακτίνα πίνακα ως απεικόνιση

ρ(A) := maxi=1(1)n

|λi|, λi ∈ σ(A), i = 1(1)n, ∀ A ∈ ICn,n

δεν μπορεί να αποτελεί τον ορισμό norm πίνακα.

8.: Αν θεωρήσουμε τους πίνακες A ∈ ICn,n ως διανύσματα του χώρου ICn2, τότε το ανάλογο

της διανυσματικής norm || · ||∞ είναι η “norm” πινάκων

||A||MAX = maxi,j=1(1)n

|aij|.

Να αποδειχτεί ότι η ορισθείσα norm ικανοποιεί τις ιδιότητες (i), (ii) και (iii) του ορισμούτης norm πίνακα ενώ δεν ικανοποιεί την (iv). (Σημείωση: Ενα αντιπαράδειγμα για τηνιδιότητα (iv) αρκεί.)

9.: Αν κ1(A), κ2(A) και κ∞(A) είναι οι δείκτες κατάστασης του πίνακα A ∈ ICn,n, πουαντιστοιχούν στις norms ||A||1, ||A||2, και ∥|A||∞, να αποδειχτεί ότι

κ22(A) ≤ κ1(A)κ∞(A).

10.: Να αποδειχτεί ότι για κάθε ορθογώνιο πίνακα A (A ∈ IRn,n, A−1 = AT ) ισχύουν οισχέσεις:

||A||2 = 1, ||A||1 ≥ 1, ||A||∞ ≥ 1.

11.: Εστω A ∈ IRn,n και Q ∈ IRn,n ένας ορθογώνιος πίνακας. Να αποδειχτεί ότι:α) ||QA||2 = ||A||2 = ||AQ||2. καιβ) Αν ||A||2 < 1, τότε ο πίνακας Q− A είναι αντιστρέψιμος και ισχύει η σχέση

||(Q− A)−1||2 ≤ 1

1− ||A||2.

Page 26: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

26

12.: Αν A ∈ ICn,n είναι αντιστρέψιμος και για κάποια διανυσματική norm ισχύει ||Ax|| =||x||, ∀ x ∈ ICn, να αποδειχτεί ότι για το δείκτη κατάστασης, που συνδέεται με τηναντίστοιχη ϕυσικη norm, ισχύει κ(A) = 1.

13.: Να αποδειχτούν οι παρακάτω σχέσεις, που συνδέουν τις ϕασματικές ακτίνες:α) Δύο πραγματικών συμμετρικών πινάκων A,B ∈ IRn,n,

ρ(A+B) ≤ ρ(A) + ρ(B), ρ(AB) ≤ ρ(A)ρ(B).

και,β) Δύο πραγματικών ορθογώνιων πινάκων P,Q ∈ IRn,n,

ρ(P +Q) ≤ 2, ρ(PQ) ≤ 1.

(Σημείωση: Στην πραγματικότητα η σχέση ρ(PQ) ≤ 1 ισχύει ως ρ(PQ) = 1, όπωςπροτείνεται παρακάτω. Στο σημείο αυτό, όμως, δίνεται ως ρ(PQ) ≤ 1 για λόγουςεκπαιδευτικούς.)

14.: Αν A,B ∈ ICn,n, υπάρχει ο A−1 και ο B ικανοποιεί τη ||A − B|| < 1||A−1|| για κάποια

ϕυσική norm, τότε και ο B είναι αντιστρέψιμος.

15.: Είναι γνωστό ότι: “ Αν A ∈ ICn,n και για μια ϕυσική norm ικανοποιεί τη ||A|| < 1 τότεοι πίνακες I ± A είναι αντιστρέψιμοι”. Να χρησιμοποιηθεί η συγκεκριμένη ιδιότητα για

να εξεταστεί αν ο πίνακας B =

1 − i2

0−1

21 − i

2

0 −12

1

είναι αντιστρέψιμος.16.: Να αποδειχτεί ότι:α) Αν ο πίνακας A ∈ ICn,n είναι Ερμιτιανός (AH = A) οι ιδιοτιμές του είναι πραγματικές.Επιπλέον ισχύει ότι xHAx ∈ IR ∀x ∈ ICn.β) Αν ο πίνακας A ∈ ICn,n είναι αντι–Ερμιτιανός (AH = −A) οι ιδιοτιμές του είναι καθαράϕανταστικές. Επιπλέον ισχύει ότι xHAx ∈ ıIR ∀x ∈ ICn, όπου ı η ϕανταστική μονάδα,και ακόμη ότι για A ∈ IRn,n και ∀x ∈ IRn, xTAx = 0.γ) Αν ο πίνακας A ∈ ICn,n είναι ορθομοναδιαίος (unitary) (AHA = I) οι ιδιοτιμές τουέχουν μέτρο μονάδα.

17.: Χωρίς να βρεθεί ο A−1 να αποδειχτεί ότι για τον πίνακα

A =

[1.01 .99.99 1.01

]ισχύει κ∞(A) ≥ 100. (Υπόδειξη: Ο πίνακας

[1 11 1

]δεν είναι αντιστρέψιμος.)

Page 27: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

27

18.: Αν οι πίνακες A,B ∈ ICn,n είναι αντιστρέψιμοι να δειχτεί ότι

||B−1 − A−1||||B−1||

≤ κ(A)||A−B||

||A||.

19.: Αν ο Ερμιτιανός πίνακας A ∈ ICn,n είναι αντιστρέψιμος να δειχτεί ότι ο δείκτης κατά-στασής του κ2(A) δίνεται από τον τύπο

κ2(A) =maxi |λi|mini |λi|

,

όπου λi, i = 1(1)n, οι ιδιοτιμές του A.

20.: Να δειχτεί ότι για οποιαδήποτε ϕυσική norm πίνακα στο ICn,n ισχύουν ότι:

α) κ(λA) = κ(A), ∀ λ ∈ IC\0.

και

β) κ1(D) = κ2(D) = κ∞(D) =maxi=1(1)n |dii|mini=1(1)n |dii|

,

όπου D ∈ ICn,n αντιστρέψιμος διαγώνιος πίνακας.

21.: Δίνεται ο αντιστρέψιμος πίνακας A ∈ ICn,n και B ∈ ICn,n μια προσέγγισή του τ.ω.||B−1C|| ≤ 1

9για κάποια ϕυσική norm, με C = B − A. Να αποδειχτεί ότι για τον

αντίστοιχο δείκτη κατάστασης ισχύει:

1 ≤ κ(B−1A) = κ(A−1B) ≤ 1.25.

22.: Σε μερικές εϕαρμογές παρουσιάζονται πίνακες της μορϕής A =

[O BC O

], με

O,B,C ∈ ICn,n, O το μηδενικό πίνακα και det(BC) = 0. Να δειχτεί ότι: Αν λ ∈ σ(A)τότε λ = 0, και αν λ ∈ σ(A) τότε και −λ ∈ σ(A).

23.: Το πηλίκο (x,Ax)2(x,x)2

∀ x ∈ ICn\0, για δοθέντα πίνακα A είναι γνωστό ως πηλίκο

του Rayleigh. Να αποδειχτεί ότι αν A ∈ ICn,n, με AH = A, το αντίστοιχο πηλίκο τουRayleigh βρίσκεται μεταξύ των δύο ακραίων (πραγματικών) ιδιοτιμών του πίνακα A.

24.: Δίνεται ο πραγματικός συμμετρικός πίνακας A =

2 −1 0−1 2 −10 −1 2

. Να δειχτεί ότι2−

√2 ≤ xTAx

xTx≤ 2 +

√2 ∀ x ∈ IR3\0.

Page 28: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

28

25.: α) Αν A ∈ ICn,n να αποδειχτεί ότι λi ∈ σ(A + AH) ⊂ IR, i = 1(1)n, και µj ∈σ(A− AH) ⊂ ıIR, j = 1(1)n, όπου ı =

√−1. και

β) Υποτίθεται ότι οι άγνωστες ιδιοτιμές ενός πίνακα A ∈ ICn,n είναι της μορϕής µi +ıξi με µi, ξi ∈ R, i = 1(1)n, και ότι είναι δυνατόν να βρεθούν οι ακραίες ιδιοτιμέςενός οποιουδήποτε Ερμιτιανού πίνακα. Τότε να βρεθεί με βάση το (α) το μικρότεροδυνατό κλειστό ορθογώνιο R στο μιγαδικό επίπεδο με πλευρές παράλληλες προς τονπραγματικό και ϕανταστικό άξονα, αντίστοιχα, τέτοιο ώστε σ(A) ⊂ R. (Υπόδειξη: Ναχρησιμοποιηθεί το πηλίκο του Rayleigh.)

26.: α) Αν ο πίνακας A ∈ ICn,n είναι ορθογώνιος τότε det(A) = +1 ή = −1.β) Αν οι πινακες A,B ∈ IRn,n είναι ορθογώνιοι και det(A) + det(B) = 0, τότε καιdet(A+B) = 0.

27.: Αν οι A,B ∈ ICn,n, με A αντιστρέψιμο πίνακα, συνδέονται με τη σχέση B = A− uvH ,όπου u, v ∈ ICn και vHA−1u = 1, να δειχτεί ότι ο πίνακας C, που δίνεται από τηνέκϕραση

C = A−1 + α(A−1u)(vHA−1), α =1

1− vHA−1u,

αποτελεί τον αντίστροϕο του B. (Σημείωση: Η παραπάνω έκϕραση για τον αντίστροϕοτου B είναι γνωστή ως τύπος των Sherman-Morrison.)

28.: Αν A ∈ ICn,n\O να βρεθούν:α) Οι σταθερές σύγκρισης των τριών ζευγών των norms ||A||1, ||A||2 και ||A||∞.(Υπόδειξη: Για τη σύγκριση της l2−norm με τις άλλες δύο να χρησιμοποιηθεί το ίχνος(trace) του πίνακα AHA και συγκεκριμένα, μεταξύ άλλων, ότι ρ(AHA) ≤ trace(AHA) ≡∑n

i=1(AHA)ii.) και

β) Εξι πίνακες A ∈ ICn,n\O κάθε ένας από τους οποίους να ικανοποιεί και μία από τιςαντίστοιχες έξι ισότητες.

Page 29: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

Κεϕάλαιο 2

Αμεσες Μέθοδοι για την ΑριθμητικήΕπίλυση Γραμμικών Συστημάτων

2.1 Εισαγωγή

Θεωρούμε ένα πραγματικό ομαλό γραμμικό σύστημα n εξισώσεων με n αγνώστους. Συγκε-κριμένα, το

Ax = b, A ∈ IRn,n, det(A) = 0, b ∈ IRn. (2.1)

Από τη Γραμμική Αλγεβρα γνωρίζουμε ότι οι τύποι του Cramer δίνουν τη λύση του από τιςεκϕράσεις:

xi =det(Ai)

det(A), i = 1(1)n, (2.2)

όπου Ai είναι ο ίδιος πίνακας με τον A με τη μόνη διαϕορά ότι η i-οστή στήλη του έχειαντικατασταθεί από τη στήλη των συνιστωσών του b. Ομως αν θελήσουμε να βρούμε τουςαγνώστους xi θα πρέπει να βρούμε τις τιμές των n+ 1 οριζουσών των τύπων (2.2). Το ανά-πτυγμα όμως κάθε μιας από τις ορίζουσες αυτές αποτελείται από n! όρους κάθε ένας από τούςοποίους είναι γινόμενο n παραγόντων. Ετσι, οι απαιτούμενοι πολλαπλασιασμοί είναι πλήθους(n + 1) × (n − 1) × n! = (n − 1) × (n + 1)!, για την εκτέλεση μόνο των οποίων αν χρη-σιμοποιήσουμε έναν Υπολογιστή ικανό να εκτελεί 106 πολλαπλασιασμούς/δευτερόλεπτο θααπαιτούνταν π.χ. για n = 20 περίπου 3× 105 αιώνες! Αυτό δείχνει και το πρακτικά ανέϕικτοτης χρησιμοποίησης του κανόνα του Cramer για την εύρεση της λύσης του (2.1).Ακόμη είναι γνωστό ότι λύση του (2.1) δίνεται από την κλειστή μορϕή x = A−1b. Επομένωςθα μπορούσε να ισχυριστεί κανείς ότι είναι ίσως δυνατόν να βρεθεί η λύση βρίσκοντας πρώτακατά κάποιον τρόπο τον αντίστροϕο του A. Για την εύρεση του A−1 ο πιο προϕανής τρόποςθα ήταν να εργαστεί κανείς ως εξής:

29

Page 30: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

30

Εστω X = A−1 ή ισοδύναμα AX = I. Αν xi ειναι τα διανύσματα-στήλες του άγνωστουπίνακα X και ei, i = 1(1)n, τα αντίστοιχα διανύσματα-στήλες του I, τότε θα ίσχυε Axi =ei, i = 1(1)n, και επομένως θα καταλήγαμε στην αντίϕαση ότι ενώ το αρχικό μας πρόβλη-μα ήταν η επίλυση ενός γραμμικού συστήματος (του Ax = b) για την εύρεση της λύσηςτου (2.1) τώρα έχουμε να επιλύσουμε n γραμμικά συστήματα (τα Axi = ei, i = 1(1)n) γιατην εύρεση του A−1 και στη συνέχεια να βρούμε τη λύση του (2.1) από την έκϕραση x = A−1b

Ως εκ τούτου σκοπός μας θα είναι η ανάπτυξη αποτελεσματικά ρεαλιστικών μεθόδων γιατην επίλυση του (2.1). Οι μέθοδοι που θα αναπτύξουμε διακρίνονται χοντρικά σε τρεις μεγάλεςκατηγορίες. Στις άμεσες, όπου η λύση (με ακριβή αριθμητική) βρίσκεται μετά από ένα πεπε-ρασμένο πλήθος πράξεων, στις έμμεσες ή επαναληπτικές, όπου κατασκευάζεται μία ακολουθίαδιανυσμάτων που κάτω από ορισμένες προϋποθέσεις, και με ακριβή αριθμητική, συγκλίνειοριακά στην ακριβή λύση, και τέλος στις μικτές όπου κατασκευάζεται πάλι μία ακολουθίαδιανυσμάτων η οποία όμως (με ακριβή αριθμητική) συγκλίνει στην ακριβή λύση μετά από nεπαναλήψεις. Οι τελευταίες μέθοδοι που έχουν γνωρίσει μεγάλη ανάπτυξη τις δυο τελευταίεςδεκαετίες θεωρούνται (ή/και εϕαρμόζονται) από ερευνητές και χρήστες ως επαναληπτικές.Το ποια ακριβώς μέθοδος θα εϕαρμοστεί σε μια συγκεκριμένη περίπτωση εξαρτιέται από τιςιδιότητες που μπορεί να έχει ο πίνακας των συντελεστών των αγνώστων A, από το υπάρχονλογισμικό, καθώς και από την προϋπάρχουσα εμπειρία.

Στο μεγαλύτερο μέρος των παρουσών Σημειώσεων θα προσπαθήσουμε να περιγράψουμε τιςβασικές αρχές από τις πιο αντιπροσωπευτικές μεθόδους επίλυσης γραμμικών συστημάτων. Γιαπερισσότερες και πιο εξειδικευμένες μεθόδους ο αναγνώστης παραπέμπεται στην παρατιθέμενηβιβλιογραϕία.

2.2 Μέθοδοι Απαλοιϕής Gauss και LU Παραγοντο-ποίησης

Ας υποθέσουμε ότι δίνεται για επίλυση το παρακάτω πραγματικό γραμμικό σύστημα n αλγε-βρικών εξισώσεων με n αγνώστους

Ax = b, A ∈ IRn,n, b ∈ IRn. (2.3)

Από τη Γραμμική Αλγεβρα είναι γνωστό ότι αν:

1. Πολλαπλασιάσουμε μια εξίσωση του (2.3) επί έναν αριθμό λ ∈ IR \ 0

2. Εναλλάξουμε τη σειρά δύο εξισώσεων του (2.3)

Page 31: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

31

3. Αντικαταστήσουμε μια εξίσωση του (2.3) με το άθροισμα αυτής και μιας άλλης πολλαπλα-σιασμένης επί έναν αριθμό λ ∈ IR \ 0

προκύπτει σύστημαA′x = b′ (2.4)

ισοδύναμο με το αρχικό (2.3).

Η κλασική μέθοδος απαλοιϕής του Gauss συνίσταται σε μία συστηματική εϕαρμογή τωνπαραπάνω περιγραϕεισών ιδιοτήτων των γραμμικών συστημάτων έτσι ώστε το (2.3) να με-τατρέπεται στο (2.4), όπου ο A′ είναι άνω (ή κάτω) τριγωνικός πίνακας. Δηλαδή, τ.ω.a′ij = 0, ∀ i > j (a′ij = 0, ∀ i < j). Στην περίπτωση που ο A′ είναι άνω τριγωνικός το(2.4) θα έχει τη μορϕή

a′11 a′12 · · · · · · a′1n. . .

a′kk · · · a′kn. . .

a′nn

x1...xk...xn

=

b′1...b′k...b′n

, (2.5)

οπότε οι τιμές των αγνώστων θα δίνονται από τις εκϕράσεις

xk = (b′k −n∑

j=k+1

a′kjxj)/a′kk, k = n(−1)1. (2.6)

Η διαδικασία για την εύρεση των (2.4)-(2.5) από το (2.3) καλείται απαλοιϕή ενώ αυτή τηςεύρεσης των xk από τις (2.6) προς τα πίσω αντικατάσταση.Σημείωση: Προϕανώς οι τύποι (2.6) ισχύουν ∀ k ανν a′kk = 0. Αν για κάποιο k, a′kk = 0 τότεαν η αντίστοιχη εξίσωση είναι της μορϕής 0 = 0 ο αντίστοιχος xk ορίζεται αυθαίρετα και τοσύστημα είναι συμβιβαστό (έχει άπειρες λύσεις). Αν έστω και μία από τις εξισώσεις αυτές δενικανοποιεί τη 0 = 0 τότε το σύστημα δεν είναι συμβιβαστό (δεν έχει λύση).

Στη συνέχεια διατυπώνεται μία πρόταση, η απόδειξη της οποίας θα δοθεί αϕού πρώταξεκαθαριστούν δύο διαϕορετικές προσεγγίσεις για την επίλυση ενός γραμμικού συστήματος.Η μία δεν είναι άλλη από την κλασική μέθοδο απαλοιϕής του Gauss, παρουσιασμένη όμως μεμορϕή πινάκων, ενώ η δεύτερη, που αποτελεί μια παραλλαγή της μεθόδου του Gauss, βασίζεταιστην παραγοντοποίηση του πίνακα A κατά ένα συγκεκριμένο τρόπο.

Θεώρημα 2.1 Εστω A ∈ IRn,n και ότι όλοι οι κύριοι p× p, p = 1(1)n, υποπίνακες Ap×p

(της άνω αριστερής γωνίας) του A είναι αντιστρέψιμοι. Τότε υπάρχει μοναδικός κάτω

Page 32: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

32

τριγωνικός πίνακαςM με μοναδιαία διαγώνια στοιχεία (mii = 1, i = 1(1)n), και μοναδικόςαντιστρέψιμοςάνω τριγωνικός πίνακας U, τ. ω.

U = MA. (2.7)

Αν δε τεθεί L = M−1 τότεLU = A, (2.8)

όπου ο L είναι κάτω τριγωνικός με lii = 1, i = 1(1)n, η δε συγκεκριμένη παραγοντοποίηση(2.8) του A είναι μοναδική.

Κάτω από τις προϋποθέσεις του Θεωρήματος 2.1 η απαλοιϕή του Gauss συνίσταται κα-ταρχάς στον πολλαπλασιασμό από τα αριστερά της εξίσωσης (2.3) επί M, οπότε με βάση τοπρώτο μέρος του θεωρήματος έχουμε να λύσουμε το ισοδύναμο σύστημα MAx = Mb ή τοUx = Mb. Το τελευταίο όμως είναι της μορϕής (2.5) και άρα λύνεται με προς τα πίσω αντι-κατάσταση χρησιμοποιώντας τους τύπους (2.6).Η επίλυση του δοθέντος συστήματος με τη μέθοδο της παραγοντοποίησης είναι παρόμοια μεαυτήν της απαλοιϕής του Gauss. Η βασική διαϕορά έγκειται στο ότι πρώτα παραγοντοποιούμετον πίνακα A στο γινόμενο LU, οπότε το αρχικό σύστημα μετασχηματίζεται στο ισοδύναμοLUx = b, και στη συνέχεια επιλύνουμε πρώτα το σύστημα Ly = b με προς τα μπρός αντι-κατάσταση (λόγω της κάτω τριγωνικής μορϕής του L) και μετά το Ux = y με προς τα πίσωαντικατάσταση.Σημείωση: Οι βασικές διαϕορές μεταξύ της (κλασικής) μεθόδου απαλοιϕής του Gauss καιαυτής της παραγοντοποίησης (ή τριγωνοποίησης) είναι οι εξής: α) Στη μέθοδο απαλοιϕής τουGauss ο πίνακας M δε βρίσκεται αναλυτικά. Απλά, η διαδικασία της απαλοιϕής (μετασχη-ματισμοί) εϕαρμόζεται συγχρόνως στο πρώτο και στο δεύτερο μέλος για να καταλήξουμε σεσύστημα της μορϕής (2.5) ισοδύναμο με το αρχικό (2.3). β) Στη μέθοδο της παραγοντοποίη-σης οι πίνακες L και U βρίσκονται αναλυτικά ακολουθώντας μια διαδικασία απαλοιϕής Gaussμόνο στον πίνακα A και ακολουθεί η εύρεση του βοηθητικού διανύσματος y που δεν είναι άλ-λο παρά το διάνυσμαMb της απαλοιϕής του Gauss. γ) Τέλος μπορούμε να παρατηρήσουμε ότικαι στις δυο μεθόδους οι προς τα πίσω αντικαταστάσεις για την εύρεση του x είναι ταυτόσημες.

Απόδειξη του Θεωρήματος 2.1: Η απόδειξη θα γίνει με επαγωγή. Θέτουμε A(1) = A

και παρατηρούμε ότι a(1)11 = 0. Αυτό διότι από την υπόθεση του θεωρήματος ο 1 × 1 κύριοςυποπίνακας του A είναι αντιστρέψιμος. Το στοιχείο a(1)11 , που θα εμϕανίζεται, όπως θα δούμε,σε παρονομαστές, θα καλείται οδηγός και η αντίστοιχη γραμμή οδηγός γραμμή. Βρίσκουμεστη συνέχεια τους αριθμούς mj1 = a

(1)j1 /a

(1)11 , j = 2(1)n, που καλούνται πολλαπλασιαστές,

πολλαπλασιάζουμε τα στοιχεία της πρώτης γραμμής επί τον πολλαπλασιαστήmj1 και αϕαιρούμετα γινόμενα που βρίσκουμε από τα αντίστοιχα στοιχεία της j-οστής γραμμής. Ετσι τα νέαστοιχεία της j-οστής γραμμής θα είναι a(2)jl = a

(1)jl − mj1a

(1)1l , l = 1(1)n. (Σημείωση: Είναι

Page 33: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

33

ϕανερό από τον ορισμό των πολλαπλασιαστών ότι a(2)j1 = 0, j = 2(1)n.) Η διαδικασία πουμόλις εκτελέσαμε είναι εύκολο να διαπιστωθεί ότι ισοδυναμεί με τον πολλαπλασιασμό τουπίνακα A(1) από τα αριστερά επί τον πίνακα M1, όπου

M1 =

1

−m21 1−m31 1...

. . .−mn1 1

.

Εχουμε, λοιπόν, ότι:A(2) = M1A

(1).

Υποθέτουμε ότι η προηγουμένως περιγραϕείσα και εϕαρμοσθείσα διαδικασία απαλοιϕής έχειεκτελεστεί με ανάλογο τρόπο k − 1 (1 < k < n) ϕορές και βρισκόμαστε στην αρχή τηςεϕαρμογής της για k-οστή ϕορά, οπότε η κατάσταση παρουσιάζεται ως εξής:

A(k) = Mk−1 · · ·M2M1A(1),

όπου

A(k) =

a(1)11 a

(1)12 · · · a

(1)1k · · · a

(1)1n

a(2)22 · · · a

(2)2k · · · a

(2)2n

. . .

a(k)kk · · · a

(k)kn

a(k)k+1,k · · · a

(k)k+1,n

a(k)nk · · · a

(k)nn

.

Καταρχάς αποδείχνουμε ότι το στοιχείο a(k)kk που θα χρησιμεύσει ως οδηγός στο k βήμα τηςαπαλοιϕής δεν είναι μηδέν. Επικεντρώνουμε την προσοχή μας στον k×k κύριο υποπίνακα A(k)

k×k

του A(k). Αυτός έχει προκύψει από τον k×k κύριο υποπίνακα Ak×k του A μετά από προσθέσειςπολλαπλάσιων γραμμών του σε άλλες γραμμές του. (Διότι ο πίνακας A(k) έχει προκύψει απότον Α με τον ίδιο τρόπο.) Λόγω της αντιστρεψιμότητας του Ak×k, από την υπόθεση τουθεωρήματος, θα έχουμε διαδοχικά 0 = det(Ak×k) = det(A

(k)k×k) = a

(1)11 a

(2)22 · · · a

(k−1)k−1,k−1a

(k)kk ,

από τις οποίες συμπεραίνεται ότι a(k)kk = 0. Στη συνέχεια ορίζουμε πολλαπλασιαστές mjk =

a(k)jk /a

(k)kk , j = k + 1(1)n, πολλαπλασιάζουμε τα στοιχεία της k-οστής γραμμής επί mjk και τα

γινόμενα αϕαιρούμε από τα αντίστοιχα στοιχεία της j-οστής γραμμής. Τα προκύπτοντα νέαστοιχεία δίνονται από τις σχέσεις a(k+1)

jl = a(k)jl −mjka

(k)kl , j = k + 1(1)n, l = k + 1(1)n, ενώ

a(k+1)jk = 0, j = k+1(1)n, από τον ορισμό των αντίστοιχων πολλαπλασιαστών. Είναι δυνατόν

Page 34: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

34

να διαπιστωθεί εύκολα ότι η διαδικασία του k βήματος της απαλοιϕής μπορεί να διατυπωθεί μεμορϕή πινάκων ως εξής

A(k+1) = MkA(k),

όπου

Mk =

11. . .

1−mk+1,k 1−mk+2,k 1...

. . .−mnk 1

και άρα

A(k+1) = MkMk−1 · · ·M2M1A(1).

Με βάση την αρχή της τέλειας επαγωγής ό,τι αποδείχτηκε θα ισχύει και για κάθε τιμή τουk < n. Θα έχουμε λοιπόν ότι

A(n) = Mn−1Mn−2 · · ·M2M1A (2.9)

ή αν θέσουμε

U = A(n) και M = Mn−1Mn−2 · · ·M2M1 (2.10)

τότε από τις (2.9) και (2.10) προκύπτει η (2.7). Προϕανώς ο πίνακας U = A(n) που προέκυψεμετά από τα n − 1 βήματα της απαλοιϕής θα είναι άνω τριγωνικός και αντιστρέψιμος, αϕούdet(U) = det(A(n)) = det(A) = 0, ο δε M, από την (2.10), ως γινόμενο n − 1 κάτωτριγωνικών πινάκων με διαγώνια στοιχεία μονάδες, θα έχει κι αυτός την ίδια μορϕή. Τέλοςαν τεθεί L = M−1, ο L θα είναι κάτω τριγωνικός με διαγώνια στοιχεία μονάδες και θα ισχύειη (2.8). Η μοναδικότητα των L (και άρα και του M) και U αποδείχνεται με άτοπη απαγωγή.Εστω ότι υπάρχει και άλλο ζεύγος κάτω τριγωνικού πίνακα L1, με διαγώνια στοιχεία μονάδες,και αντιστρέψιμου άνω τριγωνικού πίνακα U1 τ.ω. L1U1 = A. Αρα θα ισχύει L1U1 = LU.Πολλαπλασιάζοντας την τελευταία ισότητα από αριστερά επί L−1 και από δεξιά επί U−1

1 έχουμεL−1L1 = UU−1

1 . Προϕανώς το αριστερά μέλος είναι κάτω τριγωνικός πίνακας και το δεξιά άνωτριγωνικός. Επειδή οι πίνακες είναι ίσοι πρέπει να είναι διαγώνιοι. Ομως ο διαγώνιος L−1L1

είναι γινόμενο κάτω τριγωνικών με διαγώνια στοιχεία μονάδες άρα θα έχει κι αυτός διαγώνιαστοιχεία μονάδες και συνεπώς θα είναι ο μοναδιαίος I. Από την L−1L1 = I και στη συνέχειααπό τη UU−1

1 = I έπεται ότι L1 = L και U1 = U.

Page 35: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

35

Παρατήρηση: Από τη (2.2) μπορεί εύκολα να δειχτεί ότι

M−1k =

11. . .

1mk+1,k 1mk+2,k 1...

. . .mnk 1

και από τη (2.10) ότι

L = M−11 M−1

2 · · ·M−1n−1 =

1m21 1m31 m32 1m41 m42 m43 1...

......

.... . .

mn−1,1 mn−1,2 mn−1,3 mn−1,4 · · · 1mn1 mn2 mn3 mn4 · · · mn,n−1 1

Πόρισμα 2.1 (Παραγοντοποίηση (Ανάλυση) Crout) Κάτω από τις προϋποθέσεις τουΘεωρήματος 2.1 ο πίνακας A μπορεί να γραϕτεί και ως

A = LDU, (2.11)

όπου L είναι κάτω τριγωνικός με lii = 1, i = 1(1)n, D διαγώνιος και U άνω τριγωνικόςμε uii = 1, i = 1(1)n. Η ανάλυση (2.11) είναι μοναδική.

Σημείωση: Προϕανώς ο πίνακας L στη (2.11) είναι ο πίνακας L του Θεωρήματος 2.1, οπίνακας D έχει στοιχεία τα αντίστοιχα διαγώνια στοιχεία του U του Θεωρήματος 2.1 και οU στη (2.11) έχει στοιχεία τα αντίστοιχα στοιχεία των γραμμών του U του Θεωρήματος 2.1διαιρεμένα δια του αντίστοιχου οδηγού.

2.2.1 Αλγόριθμος Απαλοιϕής του Gauss

Για την επίλυση του γραμμικού συστήματος (2.1) κάτω από τις υποθέσεις του Θεωρήματος 2.1είναι δυνατόν να δοθεί σε μορϕή ψευδοκώδικα ο (κλασικός) αλγόριθμος απαλοιϕής του Gauss.Οπως ήδη τονίστηκε η μόνη διαϕορά του από την παραγοντοποίηση του πίνακα A έγκειται στο

Page 36: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

36

γεγονός ότι οι μετασχηματισμοί των δεύτερων μελών (συνιστωσών του διανύσματος b) γίνον-ται ταυτόχρονα με το μετασχηματισμό του πίνακα A κάνοντας χρήση των πολλαπλασιαστώνmjk. Ετσι έχουμε:

Αλγόριθμος Απαλοιϕής Gauss:

Δεδομένα: A ∈ IRn,n, det(A) = 0, b ∈ IRn και όλοι οι κύριοι υποπίνακες της άνω αριστερήςγωνίας του A είναι αντιστρέψιμοι.Για k = 1(1)n− 1 (βήματα απαλοιϕής)

Για j = k + 1(1)n

mjk = a(k)jk /a

(k)kk

Για l = k + 1(1)n

a(k+1)jl = a

(k)jl −mjka

(k)kl

Τέλος ‘Για’b(k+1)j = b

(k)j −mjkb

(k)k

Τέλος ‘Για’Τέλος ‘Για’

Μετά την απαλοιϕή του Gauss όπως δόθηκε στον παραπάνω αλγόριθμο η εύρεση τωναγνώστων γίνεται με προς τα πίσω αντικατάσταση χρησιμοποιώντας τους τύπους (2.6). Οαντίστοιχος αλγόριθμος σε ψευδοκώδικα δίνεται στη συνέχεια:

Αλγόριθμος Προς τα Πίσω Αντικατάστασης:

Για k = n(−1)1

sk = b(k)k

Για j = k + 1(1)n

sk = sk − a(k)kj xj

Τέλος ‘Για’xk = sk/a

(k)kk

Τέλος ‘Για’

Παρατηρήσεις: α) Οι πάνω δείκτες στους δυο αλγόριθμους που δόθηκαν είναι μόνοενδεικτικοί και μπορούν να παραλειϕτούν. Ετσι τα a(k)jl μπορούν να αποθηκευτούν στις αντί-στοιχες θέσεις των αρχικών ajl. Αν ο πίνακας A χρειάζεται για παραπέρα χρήση τότε μπορείνα αποθηκευτεί από την αρχή και σε κάποιες άλλες θέσεις μνήμης. β) Οι πολλαπλασιαστέςmjk χρησιμοποιούνται άπαξ. Αν δε χρειάζονται για παραπέρα χρήση οι κάτω δείκτες μπορούννα παραλειϕτούν. Τέλος, αν οι πολλαπλασιαστές χρειάζονται στη συνέχεια ενώ ο πίνακας Aδε χρειάζεται τότε οι mjk μπορούν να αποθηκευτούν στις αντίστοιχες θέσεις των στοιχείωνajk. γ) Αντίστοιχες παρατηρήσεις ισχύουν και για το διάνυσμα b. Δηλαδή, αν δε χρειάζεται

Page 37: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

37

για παραπέρα χρήση τα b(k)j μπορούν να αποθηκευτούν στις αντίστοιχες θέσεις των bj και

τέλος, ο δείκτης k στο sk δε χρειάζεται ενώ οι ευρισκόμενες τιμές των αγνώστων xj μπο-ρούν να αποθηκευτούν στις θέσεις των bj. δ) Τονίζεται ότι εϕεξής, στους Αλγόριθμους πουθα παρουσιάζονται, θα παραλείπονται οι άνω δείκτες. Αν και υπάρχουν πίνακες A για τουςοποίους ισχύουν οι υποθέσεις του Θεωρήματος 2.1 είναι πιο ϕυσικό να γνωρίζουμε μόνο ότι οA αντιστρέϕεται. Στην περίπτωση αυτή ισχύει η παρακάτω παραλλαγή του προαναϕερθέντοςθεωρήματος.

Θεώρημα 2.2 Εστω το γραμμικό σύστημα (2.3) για το οποίο ισχύει ότι det(A) = 0.Τότε υπάρχει μεταθετικός πίνακας P ∈ IRn,n, αντιστρέψιμος άνω τριγωνικός πίνακαςU ∈ IRn,n και κάτω τριγωνικος πίνακας L ∈ IRn,n με lii = 1, i = 1(1)n, τ.ω.

LU = PA. (2.12)

Εκτός από την πιθανή δυνατότητα επιλογής διαϕορετικών μεταθετικών πινάκων ηανάλυση (παραγοντοποίηση) (2.12) είναι μοναδική.

Απόδειξη: Η απόδειξη ακολουθεί τα βήματα της απόδειξης του Θεωρήματος 2.1. Συγκεκριμέ-να, ακολουθιέται η διαδικασία της απαλοιϕής στον πίνακα A, όπως αυτή έχει ήδη περιγραϕτεί.Αν για όλους τους οδηγούς ισχύει a(k)kk = 0, k = 1(1)n− 1, τότε a(n)nn = 0, αϕού det(A) = 0,

και το θεώρημα ισχύει με P = I. Αν για κάποιο k ∈ 1, 2, · · · , n − 1 ισχύει a(k)kk = 0, τότεθα υπάρχει τουλάχιστον ένας δείκτης j ∈ k+ 1, k+ 2, · · · , n για τον οποίο a(k)jk = 0. Αυτό,γιατί σε ενάντια περίπτωση θα είχαμε

det(A) = det(A(k)) = a(1)11 a

(2)22 · · · a(k−1)

k−1,k−1 det

a

(k)kk · · · a

(k)kn

......

a(k)nk · · · a

(k)nn

= 0,

αϕού a(k)jk = 0, j = k(1)n, που οδηγεί σε άτοπο. Στην περίπτωση αυτή εναλλάσσουμε την

k-οστή γραμμή με μία από τις γραμμές για την οποία a(k)jk = 0, έστω με αυτήν που αντιστοιχείστη μικρότερη τιμή του j. Ομως η εναλλαγή των γραμμών k και j ∈ k + 1, k + 2, · · · , nπετυχαίνεται με έναν από αριστερά πολλαπλασιασμό του πίνακα A επί ένα μεταθετικό πίνακα,συγκεκριμένα του μοναδιαίου στον οποίο έχουν αντιμετατεθεί οι γραμμές k και j. Στη συνέχειαη απαλοιϕή συνεχίζεται με τον ίδιο τρόπο και με το νέο οδηγό, που δεν είναι τώρα μηδέν,κ.λπ. Αν, όμως, συνέβαινε να γνωρίζουμε πρίν από την έναρξη της διαδικασίας της απαλοιϕήςσε ποιες γραμμές θα συναντούσαμε μηδενικούς οδηγούς και με ποιες γραμμές θα έπρεπενα εναλλάξουμε αυτές ώστε να εξασϕαλιστεί η μή μηδενικότητα των νέων οδηγών τότε θαμπορούσαμε εξαρχής να πολλαπλασιάσουμε από τα αριστερά τον αρχικό πίνακα A με κατάλληλομεταθετικό πίνακα, έστω P, ώστε να εξασϕαλίζεται η μή μηδενικότητα των οδηγών του πίνακα

Page 38: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

38

PA. Τότε ο πίνακας PA, σύμϕωνα με το Θεώρημα 2.1, θα επιδεχόταν μονοσήμαντη ανάλυσησε γινόμενο LU. Αυτό αποδείχνει το θεώρημα. Σημειώσεις: α) Υπενθυμίζεται ότι ένας μεταθετικός πίνακας P αποτελεί μια μετάθεση των

στηλών (ή των γραμμών) του μοναδιαίου πίνακα I. Π.χ., αν ei, i = 1(1)n, με eij = δij, j =1(1)n, το δέλτα του Kronecker, και I είναι ο μοναδιαίος πίνακας, τότε ο I θα γράϕεται

I = [e1 e2 · · · en] =

e1

T

e2T

...enT

.

Επομένως αν (i1 i2 · · · in) αποτελεί μια μετάθεση των (1 2 · · · n) τότε η αντίστοιχη μετά-

θεση των γραμμών του I δίνει P1 =

ei1

T

ei2T

...ein

T

ενώ η αντίστοιχη μετάθεση των στηλών του Iδίνει P2 = [ei1 ei2 · · · ein ] . Να σημειωθεί ότι γενικά P1 = P2. β) Υπενθυμίζεται ότι ο πολλα-πλασιασμός από τα αριστερά ενός πίνακα A επί τον παραπάνω μεταθετικό πίνακα P1 μεταθέτειτις γραμμές του A έτσι ώστε οι γραμμές του υπ΄ αριθμόν 1, 2, . . . , n, αντικαθιστούνται στησειρά από τις γραμμές υπ΄ αριθμόν i1, i2, . . . , in, ενώ ο από τα δεξιά πολλαπλασιασμός τουA επί P2 αντικαθιστά τις στήλες του A, 1, 2, . . . , n, από τις στήλες του i1, i2, . . . , in. γ)Ακόμη, ότι P−1 = P T και ότι το γινόμενο μεταθετικών πινάκων είναι μεταθετικός πίνακας.

Ο αλγόριθμος της απαλοιϕής του Gauss για την επίλυση του γραμμικού συστήματος (2.3)με την επιπλέον υπόθεση ότι det(A) = 0 έτσι ώστε να αντιμετωπίζεται και η περίπτωση πιθα-νών εναλλαγών γραμμών (εξισώσεων) θα δοθεί μετά την εισαγωγή της Μερικής Οδήγησηςστην Παράγραϕο 2.3. Εδώ απλά τονίζεται ότι δε χρειάζεται στην πραγματικότητα να εναλ-λάσσουμε τις αντίστοιχες γραμμές. Αρκεί να γίνεται καταγραϕή των αντίστοιχων εναλλαγώντους. Για το σκοπό αυτό θα χρησιμοποιηθεί βοηθητικό διάνυσμα που θα καταγράϕει τιςεναλλαγές, όπως θα δούμε αργότερα.

2.2.2 Λύση Γραμμικών Συστημάτων με τον Ιδιο Πίνακα Συν-τελεστών Αγνώστων

Εστω ότι έχουμε να επιλύσουμεm (> 1) γραμμικά συστήματα με τον ίδιο πίνακα συντελεστώναγνώστων A. Συγκεκριμένα τα

Axl = bl, A ∈ IRn,n, bl ∈ IRn, l = 1(1)m,

Page 39: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

39

ή, ισοδύναμα, την εξίσωση πινάκων

AX = B, X = [x1 x2 · · · xm], B = [b1 b2 · · · bm]. (2.13)

Είναι προϕανές ότι μπορούμε πάλι να εργαστούμε με δυο διαϕορετικούς τρόπους. Είτεπαραγοντοποιώντας τον A και λύνοντας στη συνέχεια m γραμμικά συστήματα με διαδοχι-κές προς τα μπρός και προς τα πίσω αντικαταστάσεις είτε εϕαρμόζοντας την απαλοιϕή τουGauss όχι μόνο στον A αλλά συγχρόνως και σε όλα τα δεύτερα μέλη. Ενα κλασικό πρόβληματης παραπάνω μορϕής είναι εκείνο όπου ζητιέται αναλυτικά ο A−1. Στην περίπτωση αυτή θαέχουμε στη (2.13) B = I και X = A−1.

2.2.3 Πλήθος και Είδος Απαιτούμενων Πράξεων για την Επί-λυση του Ax = b

Για την απλούστευση του προβλήματος υποθέτουμε ότι a(k)kk = 0, k = 1(1)n, έτσι ώστε τοσύστημα να έχει μοναδική λύση και να μην απαιτούνται εναλλαγές γραμμών κατά τη διαδικασίατης απαλοιϕής. Διακρίνουμε τέσσερις διαϕορετικές ϕάσεις στη μέθοδο της επίλυσης είτεαυτή γίνεται με την κλασική μέθοδο απαλοιϕής του Gauss είτε πραγματοποιείται πρώτα ηπαραγοντοποίηση του A. Στην πρώτη ϕάση υπολογίζουμε τις πράξεις που απαιτούνται γιατην εύρεση όλων των πολλαπλασιαστών mjk = a

(k)jk /a

(k)kk , j = k + 1(1)n, k = 1(1)n −

1. Στη δεύτερη, βρίσκουμε τις πράξεις που απαιτούνται στη διαδικασία της απαλοιϕής ότανεργαζόμαστε μόνο στον πίνακα A, όπου a

(k+1)jl = a

(k)jl − mjka

(k)kl , j, l = k + 1(1)n, k =

1(1)n − 1. Στην τρίτη, εκτελούμε τις πράξεις της απαλοιϕής στο δεύτερο μέλος b, όπουb(k+1)j = b

(k)j − mjkb

(k)k , j = k + 1(1)n, k = 1(1)n − 1 (ή τις ισοδύναμες πράξεις κατά την

προς τα μπρός αντικατάσταση όταν παραγοντοποιείται πρώτα ο A, yk = bk−∑k−1

j=1 mkjyj, k =

1(1)n) και τέλος τις πράξεις που απαιτεί η προς τα πίσω αντικατάσταση, όπου xk = (b(k)k −∑n

j=k+1 a(k)kj xj)/a

(k)kk , k = n(−1)1, ή xk = (yk −

∑nj=k+1 a

(k)kj xj)/a

(k)kk , k = n(−1)1, όταν έχει

προηγηθεί προς τα μπρός αντικατάσταση.

α) Εύρεση πολλαπλασιαστών: Για την εύρεση ενός πολλαπλασιαστή απαιτείται μόνο μίαδιαίρεση. Αρα για την εύρεση όλων των πολλαπλασιαστών απαιτούνται

∑n−1k=1(n − k) =∑n−1

k=1 k = n(n − 1)/2 διαιρέσεις. Επειδή ο παρονομαστής a(k)kk , k = 1(1)n − 1, είναι κοινόςσε n − k πολλαπλασιαστές είναι προτιμότερο να βρίσκεται πρώτα ο 1/a(k)kk μια ϕορά και μετά

να ακολουθιέται από n − k πολλαπλασιασμούς για την εύρεση των mjk

(= 1

a(k)kk

.a(k)jk

), j =

k+1(1)n. Ετσι, για την εύρεση όλων των πολλαπλασιαστών απαιτούνται n− 1 διαιρέσεις καιn(n− 1)/2 πολλαπλασιασμοί.

β) Εύρεση νέων στοιχείων των πινάκων A(k+1), k = 1(1)n − 1, κατα την απαλοιϕή: Γιατην εύρεση ενός νέου στοιχείου a

(k+1)jl απαιτείται ένας πολλαπλασιασμός και μία αϕαίρεση

Page 40: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

40

Απαλοιϕή Gauss Παραγοντοποίηση LU Πολλ/σμοί Προσθέσεις ΔιαιρέσειςΠολλαπλασιαστές n(n−1)

2n− 1

Απαλοιϕή σε A n(n−1)(2n−1)6

n(n−1)(2n−1)6

Απαλοιϕή σε b Προς τα Μπρός n(n−1)2

n(n−1)2

ΑντικαταστάσειςΠρος τα Πίσω Αντικαταστάσεις n(n−1)

2n(n−1)

2n

Σύνολο n(n−1)(n+4)3

n(n−1)(2n+5)6

2n− 1

Πίνακας 2.1: Είδος και Πλήθος Πράξεων για τη Λύση του Ax = b

(πρόσθεση). Για την εύρεση όλων των στοιχείων όλων των πινάκων απαιτούνται∑n−1

k=1(n −k)2 =

∑n−1k=1 k

2 = n(n− 1)(2n− 1)/6 πολλαπλασιασμοί και άλλες τόσες προσθέσεις.

γ) Εύρεση νέων στοιχείων δεύτερων μελών b(k+1) : Για την εύρεση ενός νέου στοιχείουb(k+1)j απαιτείται ένας πολλαπλασιασμός και μία αϕαίρεση (πρόσθεση). Για την εύρεση όλωντων νέων στοιχείων όλων των δεύτερων μελών απαιτούνται

∑n−1k=1(n− k) =

∑n−1k=1 k = n(n−

1)/2 πολλαπλασιασμοί και άλλες τόσες προσθέσεις. Αν ακολουθιέται η διαδικασία της προς ταμπρός αντικατάστασης, τότε για την εύρεση ενός από τους βοηθητικούς αγνώστους yk, k =1(1)n, απαιτούνται k− 1 πολλαπλασιασμοί και άλλες τόσες προσθέσεις. Για την εύρεση όλωντων yk απαιτούνται

∑nk=1(k− 1) = n(n− 1)/2 πολλαπλασιασμοί και άλλες τόσες προσθέσεις.

Οπως διαπιστώνει κανείς οι πράξεις για την εύρεση του b(n) ή του y είναι ακριβώς οι ίδιες.(Με μια προσεκτικότερη ματιά διαπιστώνεται εύκολα ότι όχι μόνο y = b(n), πράγμα πουαναμένεται, αλλά και ότι οι πράξεις για την εύρεσή τους είναι ακριβώς οι ίδιες με τη μόνηδιαϕορά ότι εκτελούνται με διαϕορετική σειρά.)

δ) Εύρεση τιμών αγνώστων: Η προς τα πίσω αντικατάσταση απαιτεί n βήματα και σε κάθεένα από αυτά η τιμή ενός αγνώστου xk προσδιορίζεται από τις τιμές των αγνώστων που έχουνήδη βρεθεί. Για την εύρεση ενός αγνώστου απαιτούνται n − k πολλαπλασιασμοί και άλλεςτόσες προσθέσεις καθώς και μία διαίρεση. Για τις τιμές όλων των αγνώστων απαιτούνται∑n

k=1(n − k) =∑n−1

k=1 k = n(n − 1)/2 πολλαπλασιασμοί και άλλες τόσες προσθέσεις καθώςκαι n διαιρέσεις. Οι επί μέρους πράξεις ϕαίνονται αναλυτικά στον Πίνακα 1.

Από τον Πίνακα 1 καθίσταται ϕανερό ότι οι περισσότερο χρονοβόρες πράξεις κατά τηνεπίλυση ενός γραμμικού συστήματος είναι οι πολλαπλασιασμοί που απαιτούνται για την απα-λοιϕή του Gauss ή αντίστοιχα για την παραγοντοποίηση του πίνακα A. Αν υποθέσουμε ότιn → ∞, ή στην πράξη ότι το n είναι πολύ μεγάλο, τότε μπορούμε να πούμε ότι το πλήθοςτων απαιτούμενων πράξεων (πολλαπλασιασμών) είναι περίπου 1

3n3 ή ότι είναι της τάξης O(n3)

με ασυμπτωτικό συντελεστή 13. Σε αντιπαραβολή με την παραγοντοποίηση του A, για τη δια-

Page 41: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

41

δικασία της απαλοιϕής στο δεύτερο μέλος (ή για τις προς τα μπρός αντικαταστάσεις) καθώςκαι για τις προς τα πίσω αντικαταστάσεις απαιτούνται για την καθεμία διαδικασία αντίστοιχεςπράξεις πλήθους περίπου 1

2n2 ή τάξης O(n2) με ασυμπτωτικό συντελεστή 1

2. Με βάση τα

παραπάνω μπορεί να βρεί κανείς αμέσως ότι το πλήθος των πράξεων (πολλαπλασιασμών) γιατην εύρεση του αντίστροϕου πίνακα με τη μέθοδο της παραγοντοποίησης του πίνακα A είναιπερίπου 1

3n3 + 2n1

2n2 = 4

3n3 ή ότι είναι τάξης O(n3) με ασυμπτωτικό συντελεστή 4

3.

2.2.4 Αναγώγιμοι και Μή-Αναγώγιμοι Πίνακες

Ορισμός 2.1 Ενας πίνακας A ∈ ICn,n καλείται αναγώγιμος ανν υπάρχει μεταθετικός πίνακαςP ∈ IRn,n τ.ω. ο PAP T να έχει τη μορϕή

PAP T =

[B CO D

], (2.14)

όπου B ∈ ICr,r, 1 ≤ r ≤ n− 1 και O ∈ ICn−r,r ο μηδενικός πίνακας.

Ορισμός 2.2 Ενας πίνακας A ∈ ICn,n καλείται μή-αναγώγιμος ανν δεν είναι αναγώγιμος.

Οπως μπορεί αμέσως να διαπιστωθεί, ένα γραμμικό σύστημα Ax = b, A ∈ IRn,n, b ∈ IRn, μεπίνακα συντελεστών αγνώστων A αναγώγιμο της μορϕής (2.14) είναι δυνατόν να γραϕτεί ως

PAP T (Px) =

[B CO D

] [(Px)1(Px)2

]=

[(Pb)1(Pb)2

],

όπου (Px)1, (Pb)1 ∈ IRr και (Px)2, (Pb)2 ∈ IRn−r. Το τελευταίο σύστημα είναι ισοδύναμο μετα δυο μικρότερων διαστάσεων συστήματα

B(Px)1 + C(Px)2 = (Pb)1, D(Px)2 = (Pb)2.

Από τα δύο τελευταία αυτά συστήματα, βρίσκεται πρώτα ο άγνωστος (Px)2 από το δεύτεροσύστημα και με αντικατάσταση στο πρώτο ο (Px)1. Από τους (Px)1 και (Px)2 βρίσκεταιτελικά ο x. Μπορεί να αποδειχτεί ότι για την επίλυση των δύο συστημάτων, όπως περιγρά-ϕτηκε, απαιτείται μικρότερο πλήθος πράξεων από αυτό της επίλυσης του δοθέντος αρχικούσυστήματος.Σημείωση: Στο εξής θα υποθέτουμε ότι ο πίνακας των συντελεστών των αγνώστων είναιμή-αναγώγιμος εκτός και αν ορίζεται διαϕορετικά.

Page 42: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

42

2.2.5 Πυκνοί και Αραιοί Πίνακες

Πέρα από την ακρίβεια και την οικονομία των πράξεων που επιζητούμε στους αλγόριθμουςτης Αριθμητικής Ανάλυσης ένα τρίτο στοιχείο είναι και αυτό της οικονομίας στην αποθήκευσηστον Υπολογιστή των δεδομένων καθώς και των ενδιάμεσων και τελικών αποτελεσμάτων τουπρος επίλυση προβλήματος. Στην περίπτωση ενός πίνακα A ∈ IRn,n οι απαιτούμενες θέσειςμνήμης είναι προϕανώς n2. Οταν όμως ο A έχει κάποια ειδική μορϕή, π.χ. είναι συμμετρικός,έχει τα περισσότερα στοιχεία του 0, κ.λπ., θα πρέπει οι συγκεκριμένες ιδιότητες του A να λα-βαίνονται σοβαρά υπόψη στην κατασκευή του αλγόριθμου ώστε να χρησιμοποιούνται πιθανόνπολύ λιγότερες θέσεις μνήμης για την αποθήκευση του πίνακα. Ενας πίνακας A με πλήθος μήμηδενικών στοιχείων της τάξης O(n2) καλείται πυκνός και γενικά απαιτεί n2 θέσεις μνήμηςγια την αποθήκευσή του. Ενας πίνακας με πλήθος μή μηδενικών στοιχείων της τάξης O(n)καλείται αραιός. Αραιοί πίνακες προκύπτουν στην πράξη, μεταξύ άλλων, από προβλήματα δια-κριτοποίησης (Μερικών) Διαϕορικών Εξισώσεων. Σε πολλές τέτοιες περιπτώσεις οι αραιοίπίνακες έχουν μια συγκεκριμένη δομή. Μια από τις περιπτώσεις δομημένης αραιότητας αποτε-λούν και οι καλούμενοι πίνακες ζώνης (ή ταινιωτοί). Ενας πίνακας A ∈ IRn,n (ή και A ∈ ICn,n)καλείται πίνακας ζώνης ανν aij = 0, ∀ i, j = 1(1)n, για τα οποία i− j > na ή j− i > nb, όπουna, nb < n σταθεροί ϕυσικοί ακέραιοι (με na + nb + 1 < n). Π.χ. για na = 2 και nb = 1ένας τέτοιος πίνακας θα έχει την παρακάτω μορϕή

a11 a12a21 a22 a23a31 a32 a33 a34

a42 a43 a44 a45. . . . . . . . . . . .

an−2,n−4 an−2,n−3 an−2,n−2 an−2,n−1

an−1,n−3 an−1,n−2 an−1,n−1 an−1,n

an,n−2 an,n−1 ann

. (2.15)

Ο αριθμός na + nb + 1 καλείται εύρος της ζώνης. Πιο συγκεκριμένα, για na = nb = 1 οπίνακας καλείται τριδιαγώνιος, για na = nb = 2 πενταδιαγώνιος κ.λπ. Είναι ϕανερό ότι γιατην αποθήκευση ενός πίνακα ζώνης αρκούν το πολύ n(na + nb +1) θέσεις μνήμης. Π.χ. έναςτρόπος αποθήκευσης του πίνακα που δόθηκε στη (2.15) είναι ο ακόλουθος:

a12 a23 · · · an−3,n−2 an−2,n−1 an−1,n

a11 a22 a33 · · · an−2,n−2 an−1,n−1 anna21 a32 a43 · · · an−1,n−2 an,n−1

a31 a42 a53 · · · an,n−2

.

Page 43: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

43

ΑΣΚΗΣΕΙΣ

1.: Να λυθεί το παρακάτω σύστημα με απλή απαλοιϕή, όπως δηλαδή περιγράϕεται στις(2.3)–(2.5) και (2.6)

x1 + x2 + x3 + x4 = 42x1 + 2x2 +2 x3 + 2x4 = 8x1 + x2 + 2x3 + 3x4 = 72x1 + 2x2 + x3 + 2x4 = 7

2.: Να δοθούν οι πίνακες, οι οποίοι, πολλαπλασιάζοντας τα μέλη του γραμμικού συστήματοςAx = b, A ∈ ICn,n, b ∈ ICn, από αριστερά, παράγουν ισοδύναμο σύστημα A′x = b′, καιεκϕράζουν έκαστος καθεμιά από τις πράξεις (1), (2) και (3), που δίνανται αμέσως μετάτο αρχικό σύστημα (2.3).

3.: Αν

A1 =

1a21 1a31 1...

. . .an1 1

και A2 =

1

1a32 1...

. . .an2 1

, A1, A2 ∈ ICn,n,

με n > 2, να βρεθούν τα γινόμενα A1A2 και A2A1.

4.: Να δειχτεί ότι ο αντίστροϕος ενός αντιστρέψιμου κάτω τριγωνικού πίνακα στο ICn,n

είναι (αντιστρέψιμος) κάτω τριγωνικός πίνακας με διαγώνια στοιχεία τα αντίστροϕα τωναντίστοιχων διαγώνιων στοιχείων του αρχικού.

5.: Να βρεθεί ο αντίστροϕος του

A =

11. . .

1ai+1,i 1...

. . .ani 1

∈ ICn,n, n > 2.

Page 44: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

44

6.: Δίνεται ο πίνακας A, όπου

A =

10 −3 2 24 0 −1 03 1 5 00 1 −1 3

.

Να δειχτεί ότι ο πίνακας A είναι αντιστρέψιμος, ότι δε χρειάζεται εναλλαγή γραμμών γιατην εύρεση των παραγόντων L και U της LU παραγοντοποίησης και να βρεθούν οι δυοαυτοί παράγοντες.

7.: Να βρεθούν οι L και U παράγοντες των πινάκων

α) A1 =

2 −1 0−1 2 −10 −1 2

, β) A2 =

4 −1 −1 0

−1 4 0 −1−1 0 4 −10 −1 −1 4

, γ) A3 =

1 0 2 10 4 8 102 8 29 221 10 22 42

,

χρησιμοποιώντας ακριβή αριθμητική και στη συνέχεια να λυθούν τα συστήματα

A1x = b1, A2x = b2, A3x = b3,

α) Με LU παραγοντοποίηση και β) Με κλασική απαλοιϕή Gauss, όπου

bT1 = [2 1 0], bT2 = [6 1 1 1], bT3 = [4 22 61 75].

8.: Ενας πίνακαςA ∈ ICn,n καλείται αυστηρά διαγώνια υπέρτερος κατά γραμμές (κατά στήλες)ανν

|aii| >n∑

j=1, j =i

|aij|, i = 1(1)n

(|ajj| >

n∑i=1, i =j

|aij|, j = 1(1)n

).

Να δειχτεί ότι κατά την απαλοιϕή Gauss δεν απαιτείται εναλλαγή γραμμών και πιοσυγκεκριμένα ότι ο εκάστοτε ελάσσονας υποπίνακας της κάτω δεξιά γωνίας είναι αυ-στηρά διαγώνια υπέρτερος κατά γραμμές (κατά στήλες). (Προσοχή: Να αποδειχτείτο ζητούμενο μόνο για το πρώτο βήμα απαλοιϕής του Gauss.)

9.: Δίνεται ο πίνακας A =

0 1 22 −2 15 3 1

.

α) Να χρησιμοποιηθεί μεταθετικός πίνακας P ∈ IR3,3 τέτοιος ώστε να κάνει εϕικτή τηνLU παραγοντοποίηση για τον πίνακα A′ = PA.β) Να παραγοντοποιηθεί ο A′ σε γινόμενο LU .

Page 45: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

45

γ) Να χρησιμοποιηθεί η παραπάνω παραγοντοποίηση για να βρεθεί ο αντίστροϕος τουA′. καιδ) Τέλος, να βρεθεί ο A−1 από τον αντίστροϕο του A′.(Περιορισμός: Ολες οι πράξεις να γίνουν με ακριβή αριθμητική.)

10.: Δίνεται προς λύση το γραμμικό σύστημα Ax = b με A =

1 1 1 −11 1 1 12 1 1 11 1 2 1

καιb = [2 4 5 5]T . Να βρεθεί μεταθετικός πίνακας P τ.ω. να πραγματοποιείται η LUπαραγοντοποίηση του πίνακα PA. Στη συνέχεια να λυθεί το σύστημα χρησιμοποιώνταςτην LU παραγοντοποίηση και τον πίνακα P .

11.: Να υποδειχτεί “οικονομικός” τρόπος υπολογισμού, από την άποψη των πράξεων και τηςμνήμης του Υπολογιστή που απαιτείται, των διανυσμάτων A−4b και A−1BA−1b, όπουA,B ∈ IRn,n δοσμένοι πίνακες, με A αντιστρέψιμο, και b ∈ IRn δοσμένο διάνυσμα.

12.: Να βρεθεί αναλυτικά το είδος και το πλήθος των πράξεων που απαιτούνται για τηνεπίλυση τριδιαγώνιου πραγματικού συστήματος στο οποίο ο πίνακας των συντελεστώντων αγνώστων A ∈ IRn,n ικανοποιεί τις υποθέσεις του Θεωρήματος 2.1.

13.: Δίνεται το σύστημα Ax = b, όπου A ∈ ICn,n, b ∈ ICn. Εστω ότι A = B + iC καιb = c + id με B,C ∈ IRn,n και c, d ∈ IRn. Να βρεθεί πραγματικό σύστημα, διπλάσιωνδιαστάσεων, ισοδύναμο του δοθέντος μιγαδικού.

14.: Αϕού βρεθεί το είδος και το πλήθος των πράξεων για την επίλυση του συστήματοςAx = b, A ∈ IRn,n, b ∈ IRn, ο πίνακας A του οποίου ικανοποιεί τις υποθέσεις τουΘεωρήματος 2.1, με τη μέθοδο απαλοιϕής των Gauss-Jordan, να γίνει σύγκριση με τοπλήθος των αντίστοιχων πράξεων που απαιτούνται με την κλασική μέθοδο απαλοιϕήςτου Gauss.

15.: Να δειχτεί ότι με κατάλληλη εκμετάλλευση της παρουσίας των μηδενικών στα διανύσματα-στήλες του μοναδιαίου πίνακα In είναι δυνατόν ο ασυμπτωτικός συντελεστής 4

3, που

εμϕανίζεται στο απαιτούμενο πλήθος πράξεων για την εύρεση του αντίστροϕου αντι-στρέψιμου πίνακα A ∈ IRn,n, να καταστεί 1. (Σημείωση: Θα υποτεθεί ότι ο πίνακας Aικανοποιεί τις υποθέσεις του Θεωρήματος 2.1.)

16.: Να βρεθεί το είδος και το πλήθος των πράξεων για την επίλυση ενός γραμμικού συστή-ματος Ax = b, του οποίου ο αντιστρέψιμος πίνακας των συντελεστών των αγνώστωνA ∈ IRn,n είναι αναγώγιμος της μορϕής (2.14) σα συνάρτηση του r. Για ποια τιμή τουr το πλήθος των απαιτούμενων πολλαπλασιασμών γίνεται ελάχιστο;

Page 46: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

46

17.: Δίνεται πίνακας A ∈ IRn,n, που ικανοποιεί τις υποθέσεις της Θεωρήματος 2.1. Ναβρεθεί αναλυτικά το είδος και το πλήθος των πράξεων που απαιτούνται για την εύρεσητου A−1 εκμεταλλευόμενοι τις θέσεις των μηδενικών του μοναδιαίου πίνακα I με τηναπαλοιϕή των Gauss-Jordan.

18.: Είναι γνωστό ότι στη Γραμμική Αλγεβρα για την εύρεση του αντίστροϕου αντιστρέ-ψιμου πίνακα A ∈ ICn,n χρησιμοποιείται ο επαυξημμένος πίνακας [A|I], όπου I ∈ ICn,n ομοναδιαίος, και εϕαρμόζοντας επανειλημμένα τις πράξεις (1), (2) και (3), που περιγράϕον-ται αμέσως μετά το αρχικό σύστημα (2.1), δηλαδή πολλαπλασιάζοντας από τα αριστεράεπί κατάλληλο πίνακα Q ∈ ICn,n, προσπαθούμε να καταλήξουμε στον Q[A|I] = [QA|Q]με QA = I, οπότε Q = A−1. (Σημείωση: Ο ανωτέρω τρόπος εύρεσης του A−1 καλείταιμέθοδος των Gauss-Jordan.) Προϕανώς, αντίστοιχες πράξεις θα μπορούσαν να γίνουνεπί των στηλών του A χρησιμοποιώντας πίνακα R ∈ ICn,n έτσι ώστε [A|I]R = [AR|R],με AR = I, οπότε R = A−1. Αν χρησιμοποιηθούν κατάλλληλοι πίνακες Q και R έτσιώστε Q[A|I]R = [QAR|QR], με QAR = I, είναι ο QR = A−1; Αν όχι, πότε μπορεί ναείναι και γιατί;

19.: Δίνεται το πραγματικό ομαλό γραμμικό σύστημα Ax = b διάστασης 3n διαχωρισμένοσε blocks όπως παρακάτω: B1 0 D1

0 B2 D2

C1 C2 B3

x1

x2

x3

=

b1b2b3

.

Στο παραπάνω σύστημα οι block υποπίνακες είναι διάστασης n, με det(B1B2) = 0,και όλα τα υποδιανύσματα έχουν n συνιστώσες το καθένα. Για να λυθεί το εν λόγωσύστημα υποδείχνεται η ακόλουθη block παραγοντοποίηση του A

A =

B1 0 D1

0 B2 D2

C1 C2 B3

=

L11

L21 L22

L31 L32 L33

I U12 U13

I U23

I

, (2.16)

όπου I είναι ο μοναδιαίος πίνακας διάστασης n.α) Να προσδιοριστούν αναλυτικά όλοι οι υποπίνακες Lij και Uij στους δυο παράγοντεςτης (2.16).β) Να χρησιμοποιηθεί η παραπάνω παραγοντοποίηση και να υποδειχτεί ένας αποτελε-σματικός τρόπος για την επίλυση του αρχικού συστήματος, όπου δε θα υπολογίζονταιαντίστροϕοι πινάκων.

20.: Δίνεται το πραγματικό ομαλό γραμμικό σύστημα Ax = b διάστασης 2n του οποίου ο

Page 47: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

47

πίνακας A έχει την παρακάτω μορϕή

A =

× × × × · · · · · · × × × ×0 × × × · · · · · · × × × 00 0 × × · · · · · · × × 0 0

· · · · · · · · · · · · ...... · · · · · · · · · · · ·

0 0 · · · 0 × × 0 · · · 0 00 0 · · · 0 × × 0 · · · 0 0

· · · · · · · · · · · · ...... · · · · · · · · · · · ·

0 0 × × · · · · · · × × 0 00 × × × · · · · · · × × × 0× × × × · · · · · · × × × ×

,

όπου × συμβολίζει ένα μη μηδενικό (γενικά) στοιχείο.α) Να προταθεί και να περιγραϕτεί ένας αποτελεσματικός αλγόριθμος n βημάτων, γιατην επίλυση του δοθέντος συστήματος, σε κάθε βήμα του οποίου θα επιλύεται ένα 2×2γραμμικό σύστημα που θα βρίσκει δύο από τις συνιστώσες του άγνωστου διανύσματοςx. (Υπόδειξη: Θα υποτεθεί ότι σε κάθε βήμα μπορεί να εϕαρμοστεί χωρίς προβλήματαη μέθοδος απαλοιϕής του Gauss.)β) Να βρεθεί και να δοθεί αναλυτικά (και χωριστά) το πλήθος των απαιτούμενων πρά-ξεων, δηλαδή προσθαϕαιρέσεων (Πρ), πολλαπλασιασμών (Πoλ) και διαιρέσεων (∆), γιατην πλήρη επίλυση του παραπάνω συστήματος.

21.: Δίνεται πίνακας ζώνης A ∈ IRn,n με ημιεύρος ζώνης na (1 ≤ na < n2− 1). Με

την προϋπόθεση ότι κατά την LU παραγοντοποίηση δεν απαιτούνται εναλλαγές γραμ-μών, να βρεθεί το ακριβές πλήθος των πολλαπλασιασμών (Πoλ), προσθαϕαιρέσεων(Πρ) και διαιρέσεων (∆), που απαιτούνται για την εύρεση των παραγόντων L και U ,εκμεταλλευόμενοι πλήρως την παρουσία των εκτός της ζώνης μηδενικών.

2.3 Στρατηγικές Οδήγησης και Κατάσταση Συστή-ματος

Η εϕαρμογή ενός αλγόριθμου για την εύρεση αριθμητικών αποτελεσμάτων από αριθμητικάδεδομένα θα πρέπει να τυχαίνει κάποιας διερεύνησης προτού ο αλγόριθμος εϕαρμοστεί. Γενικά,ένας αλγόριθμος λέγεται ευσταθής αν “μικρά” σϕάλματα στα δεδομένα του προβλήματοςή/και στους υπολογισμούς επιϕέρουν “μικρά” σϕάλματα στα αποτελέσματα. Αλλιώς λέγεταιασταθής. Σε περιπτώσεις αστάθειας είναι δυνατόν το όλο πρόβλημα να ξεπερνιέται με αντι-κατάσταση του αλγόριθμου με κάποιον άλλον ευσταθή. Τότε λέμε ότι το αρχικό πρόβλημα

Page 48: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

48

που δόθηκε είναι καλής κατάστασης. Υπάρχουν όμως παθολογικές περιπτώσεις αστάθειαςόπου η οποιαδήποτε αντικατάσταση του αλγόριθμου με άλλον δε βελτιώνει την κατάσταση.Στην περίπτωση αυτή μιλάμε για κακή κατάσταση του προβλήματος. Είναι ϕυσικό, λοιπόν, ηευστάθεια ή όχι του αλγόριθμου ή/και η κατάσταση του προβλήματος να μας απασχολεί καιστη λύση των γραμμικών συστημάτων για τους αλγόριθμους που αναπτύχτηκαν μέχρι τώρα.Καταρχάς η θεωρία που αναπτύχτηκε σ΄ ό,τι αϕορά την επίλυση ενός γραμμικού συστήματοςέγινε κάτω από τη (θεωρητική) παραδοχή της απουσίας σϕαλμάτων οποιασδήποτε ϕύσης.Στην πράξη όμως κι εϕόσον είμαστε αναγκασμένοι να εργαζόμαστε με πεπερασμένο πλήθοςσημαντικών ψηϕίων έχουμε την αναπόϕευκτη παρουσία των σϕαλμάτων στρογγύλευσης. Ετσικαι κατά την επίλυση ενός γραμμικού συστήματος με τις μέχρι τώρα περιγραϕείσες μεθόδουςδημιουργούνται προβλήματα όχι μόνο από την παρουσία μηδενικών οδηγών, που κατά κάποιοντρόπο μπορούν να ξεπεραστούν με εναλλαγές γραμμών, αλλά και όταν ακόμη οι οδηγοί είναισχετικά “μικροί”. Στη συνέχεια δίνουμε ένα από τα κλασικά παραδείγματα των συνεπειών τηςεργασίας μας με πεπερασμένο πλήθος σημαντικών ψηϕίων. Για το σκοπό αυτό ας υποθέσουμεότι έχουμε προς επίλυση το παρακάτω σύστημα τα δεδομένα του οποίου δίνονται με τρίασημαντικά ψηϕία [

0.000100 11 1

] [x1

x2

]=

[12

].

Η ακριβής λύση του δοθέντος συστήματος είναι η [x1 x2] = [1.00010001 · · · 0.99989998 · · ·],η οποία με προσέγγιση τριών σημαντικών ψηϕίων είναι [x1 x2] ≈ [1.00 1.00]. Αν εϕαρμό-σουμε τη μέθοδο απαλοιϕής του Gauss με οδηγό στοιχείο a11 = 0.000100 = 0 βρίσκουμε ωςπολλαπλασιαστή m21 =

a21a11

= 10000 και άρα το ισοδύναμο σύστημα[0.000100 1

−10000

] [x1

x2

]=

[1

−10000

],

του οποίου η λύση με τρία σημαντικά ψηϕία (ή όχι) είναι [x1 x2] = [0 1]. Δηλαδή, τελείωςανακριβής ως προς την τιμή του αγνώστου x1. Αν τώρα κάνουμε μία εναλλαγή των γραμμών,τότε έχουμε για επίλυση το ισοδύναμο σύστημα[

1 10.000100 1

] [x1

x2

]=

[21

].

Εργαζόμενοι, όπως προηγουμένως, βρίσκουμε ότι m21 = a21a11

= 0.000100, στο νέο σύστημα,και άρα [

1 11

] [x1

x2

]=

[21

],

του οποίου η λύση είναι [x1 x2] = [1 1], που είναι και η ακριβής στα τρία σημαντικά ψηϕία.Οπως είδαμε, λοιπόν, ο αρχικός αλγόριθμος ήταν ασταθής ενώ αυτός που προέκυψε με μιααπλή εναλλαγή γραμμών ευσταθής. Αυτό σημαίνει ότι το αρχικό πρόβλημα που δόθηκε ήταν

Page 49: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

49

καλής κατάστασης. Αν όμως το αρχικό πρόβλημα δεν είναι καλής κατάστασης τότε μια απλήεναλλαγή γραμμών, όπως αυτή που υποδείχτηκε, δεν είναι δυνατόν να επιϕέρει βελτίωσηστη λύση που παίρνουμε με αποτέλεσμα αυτή να μην μπορεί να θεωρηθεί αξιόπιστη. Εναδεύτερο παράδειγμα δείχνει πολύ περισσότερες καταστάσεις από ό,τι έδειξε το προηγούμενο.Ας θεωρήσουμε το παρακάτω πρόβλημα[

0.780 0.5630.913 0.659

] [x1

x2

]=

[0.2180.253

],

η ακριβής λύση του οποίου είναι [x1 x2] = [1223 − 1694]. Αν εργαστούμε με τρία σημαντικάψηϕία βρίσκουμε m21 = 1.17, οπότε έχουμε το ισοδύναμο σύστημα[

0.780 0.5630

] [x1

x2

]=

[0.218

−0.002

].

Προϕανώς το τελευταίο σύστημα δεν έχει λύση. Εναλλάσσουμε τις εξισώσεις του συστήμα-τος και εργαζόμαστε πάλι με τρία σημαντικά ψηϕία. Τότε θα έχουμε διαδοχικά[

0.913 0.6590.780 0.563

] [x1

x2

]=

[0.2530.218

],

m21 = 0.854 και [0.913 0.659

0

] [x1

x2

]=

[0.2530.002

]δηλαδή καταλήγουμε πάλι σε ένα σύστημα που δεν έχει λύση και άρα η εναλλαγή γραμμώνδε βελτιώνει την κατάσταση. Υποθέτουμε τώρα ότι εργαζόμαστε από την αρχή με αριθμητικήδιπλής ακρίβειας. Χρησιμοποιώντας έξι σημαντικά ψηϕία στους υπολογισμούς μας έχουμε γιατο αρχικό σύστημα m21 = 1.17051 και άρα[

0.780 0.5630.000003

] [x1

x2

]=

[0.218

−0.002171

]του οποίου η λύση είναι [x1 x2] = [522.619 − 723.667]. Παρατηρούμε ότι παρά το γεγονόςότι βρισκόμαστε αρκετά μακρυά από την ακριβή λύση δεν είμαστε πια στην περίπτωση τουσυστήματος που έχει μή συμβιβαστές εξισώσεις. Τέλος, αν εναλλάξουμε τις εξισώσεις στοτελευταίο σύστημα και εργαστούμε πάλι με έξι σημαντικά ψηϕία παίρνουμε διαδοχικά m21 =0.854326 και άρα [

0.913 0.659−0.000001

] [x1

x2

]=

[0.253

0.001856

].

Η λύση του τελευταίου με έξι σημαντικά ψηϕία είναι [x1 x2] = [1339.92 − 1856], που απέχειακόμη αρκετά από την ακριβή αλλά είναι οπωσδήποτε πολύ καλύτερη από αυτήν που βρήκαμεπροηγουμένως.

Page 50: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

50

Σημείωση: Γενικότερα η βελτίωση στην αριθμητική λύση ενός προβλήματος, που πα-ρουσιάζεται συνήθως, όταν μεταβαίνουμε από αριθμητική κάποιας ακρίβειας σε αριθμητικήμεγαλύτερης ακρίβειας ίσως να είναι αναμενόμενη. Αυτό, γιατί αν τελικά κατορθώσουμε καιμεταβούμε σε αριθμητική “άπειρης” ακρίβειας, τότε ϕυσικά θα βρούμε και την ακριβή λύσητου προβλήματος.

Με το παράδειγμα που εξαντλητικά περιγράψαμε είδαμε ότι υπάρχουν “παθολογικές” κατα-στάσεις όπου η αλλαγή του αλγόριθμου είναι δυνατόν να μη βελτιώνει διόλου την όλη κατά-σταση ή απλά να τη βελτιώνει αλλά όχι τόσο σημαντικά. Θα μπορούσε να πεί κανείς πως ανδε βρισκόμαστε σε περιπτώσεις παθολογικών καταστάσεων τότε καλό θα ήταν κατά τη λύσησυστημάτων να χρησιμοποιούμε κατά το δυνατόν απόλυτα μικρούς πολλαπλασιαστές ή, μεάλλα λόγια, απόλυτα μεγαλύτερους οδηγούς. Ετσι για την αποϕυγή σχετικά “μικρών” οδη-γών δυνάμενων να οδηγήσουν σε μή αξιόπιστα αποτελέσματα ακολουθούμε μία στρατηγική,όπως είναι και αυτή που περιγράϕτηκε παραπάνω. Υπάρχουν, βέβαια, αρκετές στρατηγικέςπου αποτελούν παραλλαγές της περιγραϕείσας. Δημοϕιλέστερες είναι οι παρακάτω δύο.

Μερική Οδήγηση: Στην αρχή του k-οστού βήματος της απαλοιϕής θεωρούμε ως οδηγόa(k)pk , (και άρα αντίστοιχη οδηγό γραμμή και εξίσωση) το στοιχείο που αντιστοιχεί στο δείκτη

p (συνήθως το μικρότερο) και είναι τ.ω. |a(k)pk | = maxj=k(1)n |a(k)jk |.Ολική Οδήγηση: Στην αρχή του k-οστού βήματος της απαλοιϕής θεωρούμε ως οδηγό στοι-

χείο a(k)pq , αυτό που αντιστοιχεί στους δείκτες p, q και που είναι τ.ω. |a(k)pq | = maxj,l=k(1)n |a(k)jl |.Παρατηρούμε δηλαδή ότι στην ολική οδήγηση δεν αλλάζουμε ουσιαστικά μόνο γραμμές αλλάκαι στήλες!

Η μερική οδήγηση απαιτεί για την εύρεση του απόλυτα μεγαλύτερου στοιχείου πράξεις τηςτάξης O(n2) ενώ αυτή της ολικής πράξεις της τάξης O(n3). Από την άποψη των πράξεωνη μερική οδήγηση πλεονεκτεί έναντι της ολικής αϕού γίνεται με λιγότερο κόστος. Από τηνάλλη πλευρά η ολική ϕαίνεται να είναι ακριβέστερη κι άρα ασϕαλέστερη της μερικής. Σεπαθολογικές όμως καταστάσεις και οι δυο, όπως θα δούμε στη συνέχεια, δεν είναι αξιόπιστες.Επειδή αυτές οι παθολογικές καταστάσεις δεν είναι συνήθεις, στις περισσότερες εϕαρμογές ημερική οδήγηση, ως οικονομικότερη, αποτελεί την πιο δημοϕιλή από τις δυο.

Πολλές ϕορές στην πράξη ακολουθιέται μια παραλλαγή της μερικής οδήγησης, που καλείταιμερική οδήγηση με στάθμιση. Σ΄ αυτήν, και σε ένα αρχικό στάδιο, βρίσκονται οι μεγαλύτερεςαπόλυτες τιμές των στοιχείων κάθε γραμμής, έστω si = maxj=1(1)n |aij|, i = 1(1)n, κατά δετο k-οστό στάδιο της απαλοιϕής με μερική οδήγηση, αντί να επιλέγεται ως οδηγό στοιχείο

το a(k)pk με |a

(k)pk | = maxj=k(1)n |a(k)jk |, επιλέγεται το a

(k)pk τ.ω.

|a(k)pk |sp

= maxj=k(1)n

(|a(k)jk |sj

). Το

κόστος της απαλοιϕής με απλή μερική οδήγηση δεν αυξάνεται κατά πολύ αϕού οι επιπλέονπράξεις είναι της τάξης του O(n2). Κάτω από ορισμένες παραδοχές μπορεί να δικαιολογηθείγιατί η μερική οδήγηση με στάθμιση δίνει πιο αποδεκτά αριθμητικά αποτελέσματα.

Page 51: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

51

Σημειώσεις: α) Οταν η μερική οδήγηση (χωρίς ή με στάθμιση) εϕαρμόζεται στον πίνακατων συντελεστών A ενός συστήματος Ax = b, ουσιαστικά παλλαπλασιάζονται τα μέλη τουσυστήματος Ax = b επί ένα μεταθετικό πίνακα P κι έτσι επιλύεται το ισοδύναμο σύστημα(PA)x = Pb, όπως δηλαδή αυτό γίνεται στην περίπτωση απαλοιϕής του Gauss όταν κάποιοαπό τα οδηγά στοιχεία είναι μηδέν. β) Στην ολική οδήγηση όμως, μεταθετικοί πίνακες P και Qπολλαπλασιάζουν τόσο τις γραμμές όσο και τις στήλες του πίνακα, αντίστοιχα, και άρα τελικάεπιλύεται ένα ισοδύναμο σύστημα της μορϕής (PAQ)(QTx) = Pb . Συνεπώς το άγνωστοδιάνυσμα που θα βρίσκεται θα είναι το QTx και επομένως θα πρέπει να χρησιμοποιηθεί ο Qγια να ληϕτούν οι άγνωστες συνιστώσες του x. Οπως και στην περίπτωση της μερικής οδή-γησης εδώ θα πρέπει να χρησιμοποιούνται δύο διανύσματα που θα καταγράϕουν αντίστοιχατις μεταθέσεις των γραμμών (σειρά των εξισώσεων) και τις μεταθέσεις των στηλών (σειράτων αγνώστων).

Στο σημείο αυτό θεωρούμε σκόπιμο να δώσουμε τον αλγόριθμο της Μερικής Οδήγησηςμαζί με την αντίστοιχη προς τα πίσω αντικατάσταση για την επίλυση γραμμικού συστήματοςμε τη μόνη υπόθεση ότι det(A) = 0. Θα ακολουθήσει ένα πολύ απλό αριθμητικό παράδειγμαγια την καλύτερη κατανόηση της μεθόδου και κυρίως του τρόπου της καταγραϕής των όποιωνπιθανών εναλλαγών γραμμών.

Αλγόριθμος Απαλοιϕής του Gauss με Μερική Οδήγηση:

Δεδομένα: Η διάσταση n, ο πίνακας A, det(A) = 0, και το διάνυσμα b.Για k = 1(1)n

ik = kΤέλος ‘Για’Για k = 1(1)n− 1 (βήματα απαλοιϕής)

max = |aikk|; l = kΓια j = k + 1(1)n

Αν |aijk| > maxmax = |aijk|; l = j (σημείωση της θέσης του απόλυτα μεγαλύτερου

στοιχείου)Τέλος ‘Αν’

Τέλος ‘Για’c = il; il = ik; ik = c (εναλλαγή των δεικτών il και ik)Για j = k + 1(1)n

mijk = aijk/aikkΓια l = k + 1(1)n

aij l = aij l −mijkaiklΤέλος ‘Για’bij = bij −mijkbik

Page 52: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

52

Τέλος ‘Για’Τέλος ‘Για’Για k = n(−1)1 (Προς τα πίσω αντικατάσταση)

sk = bikΓια j = k + 1(1)n

sk = sk − aikjxj

Τέλος ‘Για’xk = sk/aikk

Τέλος ‘Για’Αποτέλεσμα: Η λύση του συστήματος είναι το διάνυσμα x.

Παρατηρήσεις: α) Ο αλγόριθμος Απαλοιϕής του Gauss με μερική οδήγηση αποτελεί μιααπλή σκιαγράϕηση της θεωρίας που αναπτύχτηκε και ακολουθεί βήμα προς βήμα τους προη-γούμενους δύο αλγόριθμους της Απαλοιϕής του Gauss και της Προς τα Πίσω Αντικατάστασηςτου Θεωρήματος 2.1. Οι μόνες διαϕορές είναι ότι στην αρχή του πρώτου αλγόριθμου εισά-γεται το διάνυσμα i με ik = k, k = 1(1)n, που θα καταγράϕει τη σειρά των εξισώσεων τουσυστήματος μετά από κάθε πιθανή εναλλαγή γραμμών. Ακόμη, τόσο στα βήματα της απαλοι-ϕής όσο και στα βήματα της προς τα πίσω αντικατάστασης ο (πρώτος) δείκτης της εκάστοτεοδηγού γραμμής j των αλγόριθμων του Θεωρήματος 2.1 αντικαθίσταται από το δείκτη ij στονπαραπάνω αλγόριθμο. β) Μερικές από τις παρατηρήσεις που έγιναν αμέσως μετά τους δύοαλγόριθμους του Θεωρήματος 2.1 ισχύουν και στην προκείμενη περίπτωση.

ΠΑΡΑΔΕΙΓΜΑ: Δίνεται προς λύση το παρακάτω σύστημα

Ax = b

και συγκεκριμένα το 2 1 34 2 11 1 1

x1

x2

x3

=

13116

.

Καταρχάς μια παρατήρηση σ΄ ό,τι αϕορά τους κύριους υποπίνακες του A. Παρατηρούμε ότι

det(A1×1) = det([2]) = 2 = 0, det(A2×2) = det

([2 14 2

])= 0

και

det(A3×3) = det

2 1 34 2 11 1 1

= 5 = 0.

Επομένως, λόγω της μή αντιστρεψιμότητας του 2 × 2 κύριου υποπίνακα του A, ο οποίος Aέχει αντίστροϕο, δεν είναι δυνατόν να έχει εϕαρμογή το Θεώρημα 2.1 και άρα δεν μπορεί να

Page 53: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

53

εϕαρμοστεί ο Αλγόριθμος απαλοιϕής του Gauss που βασίζεται σ΄ αυτό. Οπως θα δούμε ηεϕαρμογή του αλγόριθμου που μόλις παρουσιάστηκε δεν παρουσιάζει κανένα πρόβλημα.Με την έναρξη της εϕαρμογής του αλγόριθμου απαλοιϕής του Gauss με μερική οδήγησηδημιουργείται το διάνυσμα i, με n = 3 συνιστώσες (θέσεις), όπου i1 = 1, i2 = 2 και i3 = 3,τα περιεχόμενα των θέσεων του οποίου δείχνουν την παρούσα ϕυσική σειρά των γραμμών τουπίνακα A (και των εξισώσεων του δοθέντος συστήματος), όπως ϕαίνεται παρακάτω.

A b i

2 1 3 13 14 2 1 11 21 1 1 6 3

Πριν από την έναρξη του πρώτου βήματος της απαλοιϕής βρίσκεται το απόλυτα μέγιστοστοιχείο της πρώτης στήλης του A που θα χρησιμεύσει ως οδηγός. Αυτό συμβαίνει να είναι τοστοιχείο της δεύτερης γραμμής, οπότε l = 2. Μετά τη διαπίστωση αυτή ακολουθεί η εναλλαγήτων περιεχομένων των θέσεων ik και il, όπου l = 2 και k = 1. Στη συνέχεια βρίσκονται οιπολλαπλασιαστές που αντιστοιχούν στις γραμμές ij, j = k + 1(1)n, με j = 2 και 3. Αρα θαβρεθούν οι πολλαπλασιαστές που αντιστοιχούν στις γραμμές i2 = 1 και i3 = 3, όπως ϕαίνεταιστην παρακάτω διάταξη.

mijk A(1) b(1) i(1)24= 0.5 2 1 3 13 2

4 2 1 11 114= 0.25 1 1 1 6 3

Η κατάσταση αμέσως μετά το πρώτο βήμα της απαλοιϕής δίνεται στη συνέχεια.

A(2) b(2) i(2)

0 0 2.5 7.5 24 2 1 11 10 0.5 0.75 3.25 3

Ξεκινώντας τη δεύτερη ανακύκλωση βρίσκεται το απόλυτα μεγαλύτερο στοιχείο που αντιστοι-χεί στη δεύτερη στήλη και στις γραμμές i(2)k = i

(2)2 = 1 και i(2)3 = 3. Διαπιστώνεται ότι το

ζητούμενο στοιχείο είναι το a(2)i(2)3 2

= 0.5 = 0, το οποίο και θα χρησιμοποιηθεί ως οδηγός. Ακο-

λουθεί η αντιμετάθεση των περιεχομένων των θέσεων των i(2)2 και i(2)3 , οπότε έχουμε i

(3)2 = 3

και i(3)3 = 1. Τέλος βρίσκεται ο πολλαπλασιαστής που αντιστοιχεί στην πρώτη γραμμή, οπότε

Page 54: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

54

έχουμεmijk A(2) b(2) i(3)00.5

= 0 0 0 2.5 7.5 24 2 1 11 30 0.5 0.75 3.25 1

Προϕανώς το δεύτερο και τελευταίο βήμα της απαλοιϕής θα αϕήσει όλα τα στοιχεία τηςγραμμής που χαρακτηρίζεται από τον i(3)2 = 1 αμετάβλητα, αϕού m

i(3)3 2

= 0, το δε στοιχείο

a(3)

i(3)3 3

= 2.5 θα είναι διάϕορο από το μηδέν κι αυτό γιατί det(A(3)) = det(A) = 0. Ετσι θα

έχουμε τελικά ότιA(3) b(3) i(3)

0 0 2.5 7.5 24 2 1 11 30 0.5 0.75 3.25 1

Για την επίλυση του αρχικού συστήματος βρίσκουμε τους αγνώστους στη σειρά x3, x2 καιx1 χρησιμοποιώντας το τελευταίο τμήμα του αλγόριθμου, δηλαδή την προς τα πίσω αντικατά-σταση. Συγκεκριμένα θα έχουμε:

x3 = b(3)

i(3)3

/a(3)

i(3)3 3

= 7.5/2.5 = 3,

x2 = (b(3)

i(3)2

− a(3)

i(3)2 3

x3)/a(3)

i(3)2 2

= (3.25− 0.75× 3)/0.5 = 2,

x1 = (b(3)

i(3)1

− a(3)

i(3)1 2

x2 − a(3)

i(3)1 3

x3)/a(3)

i(3)1 1

= (11− 2× 2− 1× 3)/4 = 1.

Τέλος δίνουμε την LU παραγοντοποίηση του πίνακα PA του Θεωρήματος 2.2 για το παρόνΠαράδειγμα. Για το σκοπό αυτό διαπιστώνουμε από τα περιεχόμενα των θέσεων του διανύ-σματος i(3) ότι αν στον αρχικό πίνακα A ήταν εναλλαγμένες η πρώτη και η δεύτερη γραμμήτότε θα συνέβαιναν τα εξής: Οι πολλαπλασιαστές στο πρώτο βήμα της απαλοιϕής θα ήταν0.5 για την πρώτη γραμμή, που θα είχε γίνει δεύτερη, και 0.25 για την τρίτη. Στο δεύτεροβήμα της απαλοιϕής δε θα είχαμε οδηγό στοιχείο 0 αλλά το (απόλυτα μεγαλύτερο) στοιχείο0.5, το οποίο στο παράδειγμά μας εμϕανίστηκε στην τρίτη γραμμή. Ετσι, το δεύτερο βήματης απαλοιϕής θα προχωρούσε χωρίς ιδιαίτερο πρόσκομμα, ο πολλαπλασιαστής 0 θα αντιστοι-χούσε τότε στη νέα δεύτερη γραμμή, που προήρθε από την αρχική πρώτη, και θα έπρεπε ναεναλλαχτεί με την τρίτη. Ακόμη, θα πρέπει να εναλλαχτούν οι πολλαπλασιαστές 0.5 και 0.25της πρώτης στήλης αϕού οι γραμμές στις οποίες βρίσκονταν θα έχουν εναλλαχτεί . Ο νέοςπίνακας A(3) που θα προέκυπτε τοτε θα ήταν βέβαια άνω τριγωνικός. Οι εναλλαγές, όμως,της πρώτης με τη δεύτερη και της νέας δεύτερης με την τρίτη γραμμή του αρχικού πίνακα A

πετυχαίνονται με πολλαπλασιασμό από τα αριστερά επί το μεταθετικό πίνακα P =

e2T

e3T

e1T

,

Page 55: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

55

όπου ei, i = 1(1)3, είναι τα διανύσματα στήλες του μοναδιαίου πίνακα. Αρα στην περίπτωσητου συγκεκριμένου Παραδείγματος θα είναι 1

0.25 10.5 0 1

4 2 10.5 0.75

2.5

=

0 1 00 0 11 0 0

2 1 34 2 11 1 1

=

4 2 11 1 12 1 3

.

Ιδιαίτερα τονίζεται το γεγονός ότι καθώς ο αλγόριθμος της παρούσας απολοιϕής εξελίσσεταιμετά από κάθε “υποτιθέμενη” εναλλαγή γραμμών του πίνακα A(k) θα πρέπει να εναλλάσ-σονται, αντίστοιχα, και ΟΛΟΙ οι ευρισκόμενοι πολλαπλασιαστές των γραμμών ik και il, πουαντιστοιχούν στη στήλη k, ο δε τελικός πίνακας P θα είναι στη γενική περίπτωση ο

P =

ei(n)1

T

ei(n)2

T

ei(n)3

T

...

ei(n)n−1

T

ei(n)n

T

.

Η απαλοιϕή και η επίλυση του γραμμικού συστήματος (2.3), όταν det(A) = 0, ακολουθείσε γενικές γραμμές τη μέθοδο απαλοιϕής του Gauss, όπως αυτή περιγράϕτηκε στην περίπτωσητου Θεωρήματος 2.2 και στον Αλγόριθμο της Μερικής Οδήγησης που δόθηκε προηγουμένως.Αν aijk = 0 για όλα τα j ∈ k, · · · , n τότε, αν k < n δεχόμαστε ως οδηγό τον a(k)ikk

= 0, καιπροχωράμε στο επόμενο βήμα της απαλοιϕής. Για την προς τα πίσω αντικατάσταση προχωράμεόπως υποδείχτηκε στην περίπτωση της παρατήρησης που δόθηκε αμέσως μετά τις εκϕράσεις(2.6).

Θα πρέπει να τονιστεί ότι σε ακραίες περιπτώσεις είναι δυνατόν στην απαλοιϕή του Gauss

με οποιαδήποτε από τις δυο προαναϕερθείσες οδηγήσεις να καταλήγουμε σε τιμή του a(n)nn ,

που να περιέχει απόλυτο σϕάλμα μέχρι και 2n−1 ϕορές το απόλυτο σϕάλμα που ίσως υπάρχειστα στοιχεία του αρχικού πίνακα A(1) που αποθηκεύεται. Μία απλουστευμένη ανάλυση πουακολουθεί μπορεί να καταδείξει του λόγου το αληθές.

Ας υποθέσουμε ότι τα στοιχεία ajl, j, l = 1(1)n, του πίνακα A, αποθηκεύονται ως ajl,στοιχεία του πίνακα A(1) και έχουν σϕάλματα e(1)jl , τα οποία μπορεί να οϕείλονται αποκλειστικάκαι μόνο στα σϕάλματα στρογγύλευσης. Εστω ότι τα σϕάλματα αυτά έχουν απόλυτο άνωϕράγμα e, δηλαδή |e(1)jl | ≤ e. Ας υποθέσουμε ακόμη ότι κατά τη διάρκεια των υπολογισμών δενεισχωρούν νέα σϕάλματα και ότι οι πολλαπλασιαστές βρίσκονται ακριβώς σα να μην υπήρχαν

Page 56: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

56

διόλου σϕάλματα ούτε καν τα αρχικά. Τότε, μετά το πρώτο βήμα της απαλοιϕής τα νέαστοιχεία του πίνακα A(2), που παίρνουμε, θα δίνονται από τις σχέσεις

a(2)jl = a

(1)jl −mj1a

(1)1l , j, l = 2(1)n.

Εχοντας υπόψη ότι οι αντίστοιχες ακριβείς σχέσεις της απαλοιϕής είναι οι

a(2)jl = a

(1)jl −mj1a

(1)1l , j, l = 2(1)n,

έχουμε αμέσως με αϕαίρεση κατά μέλη των δύο παραπάνω σχέσεων ότι τα σϕάλματα στα νέαυπολογιζόμενα στοιχεία του πίνακα A(2) θα δίνονται από τις

e(2)jl = a

(2)jl − a

(2)jl = e

(1)jl −mj1e

(1)1l , j, l = 2(1)n.

Παίρνοντας απόλυτες τιμές στις παραπάνω ισότητες και λαβαίνοντας υπόψη ότι ακολουθούμεμια στρατηγική οδήγησης, και επομένως |mj1| ≤ 1, j = 2(1)n, βρίσκουμε ότι

|e(2)jl | ≤ |e(1)jl |+ |e(1)1l | ≤ 2e, j = 2(1)n.

Μια απλή επαγωγή αποδείχνει ότι μετά από n − 1 βήματα απαλοιϕής θα έχουμε ότι |e(n)nn | ≤2n−1e.Π.χ., ένα απλό αριθμητικό παράδειγμα στο τελευταίο δείχνει τι μπορεί να συμβεί σε ακραίεςπεριπτώσεις. Αν είναι n = 100, |alj| ∈ (0.1, 1), l, j = 1(1)100, και εργαζόμαστε σε Υ-πολογιστή με αριθμητική κινητής υποδιαστολής με δέκα σημαντικά ψηϕία, που σημαίνει ότι|e(1)jl | ≤ 0.5 × 10−10, το μέγιστο απόλυτο σϕάλμα που μπορεί να υπάρξει στο στοιχείο a

(n)nn

είναι ίσο με 299 × 0.5× 10−10 ≈ 3× 1019!

Οπως είδαμε στα δυο αριθμητικά παραδείγματα των γραμμικών συστημάτων, μερικές ϕορέςη απλή εναλλαγή γραμμών, όπως στο πρώτο παράδειγμα, που ουσιαστικά ήταν η εϕαρμογήτης μερικής (και συγχρόνως ολικής) οδήγησης (χωρίς ή/και με στάθμιση), έδωσε αποτελέ-σματα αποδεκτά. Αυτό σημαίνει καταρχάς ότι το πρόβλημα δεν ήταν κακής κατάστασης καιτο μή ακριβές αποτέλεσμα οϕειλόταν στην αστάθεια του αλγόριθμου απαλοιϕής χωρίς οδή-γηση. Στο δεύτερο παράδειγμα είδαμε ότι παρά το γεγονός της χρησιμοποίησης της μερικής(και συγχρόνως ολικής) οδήγησης δεν έδωσε αποδεκτά αποτελέσματα. Η κατάσταση άρχισενα βελτιώνεται όταν χρησιμοποιήσαμε αριθμητική διπλής ακρίβειας χωρίς οδήγηση καταρχάςκαι στη συνέχεια να βελτιώνεται ακόμη περισσότερο με τη χρησιμοποίηση της μερικής (καισυγχρόνως ολικής) οδήγησης. Το δεύτερο παράδειγμα είναι χαρακτηριστικό μιας περίπτωσηςη οποία οϕείλεται στην κακή κατάσταση του προβλήματος. Στη συγκεκριμένη περίπτωση ηκακή κατάσταση οϕείλεται στο γεγονός ότι ο πίνακας των συντελεστών των αγνώστων βρί-σκεται πολύ “κοντά” σε ένα μή αντιστρέψιμο πίνακα ή, όπως θα δούμε, στο γεγονός ότι ο

Page 57: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

57

δείκτης κατάστασης του πίνακα είναι μεγάλος. Η ανάλυση που αϕορά στο μέγεθος του δείκτηκατάστασης και στις συνέπειες που αυτό μπορεί να έχει στη λύση των γραμμικών συστημάτωνθα δοθεί στη συνέχεια.

Υποθέτουμε πως έχουμε για επίλυση το πραγματικό ομαλό γραμμικό σύστημα

Ax = b, (2.17)

ότι ο πίνακας A αποθηκεύεται ακριβώς ενώ οι συνιστώσες του διανύσματος b αποθηκεύονταιμε σϕάλματα που οϕείλονται αποκλειστικά και μόνο στα σϕάλματα στρογγύλευσης. Ετσι τοδιάνυσμα b αποθηκεύεται ως b∗ = b + δb, όπου δb είναι το διάνυσμα-σϕάλμα. Εστω ακόμηότι όλοι οι υπολογισμοί εκτελούνται ακριβώς και επομένως η λύση x∗, που βρίσκεται, περιέχεισϕάλματα που οϕείλονται αποκλειστικά και μόνο στη μετάδοση των αρχικών σϕαλμάτων.Εστω ότι x∗ = x+ δx, με δx το διάνυσμα-σϕάλμα της λύσης. Θα προσπαθήσουμε να βρούμεένα άνω ϕράγμα για το σχετικό απόλυτο σϕάλμα της λύσης. Είναι ϕανερό ότι το σύστημαπου επιλύεται αντί του αρχικού είναι το

Ax∗ = b∗, (2.18)

οπότε με αϕαίρεση κατά μέλη της (2.17) από τη (2.18) παίρνουμε

Aδx = δb.

Λύνοντας ως προς δx και εϕαρμόζοντας απλές ιδιότητες των norms έχουμε

||δx|| ≤ ||A−1|| ||δb||. (2.19)

Εξάλλου από τη (2.17) παίρνοντας πρώτα norms και ύστερα λύνοντας ως προς ||x|| βρίσκουμε

||x|| ≥ ||b||||A||

, (2.20)

και τέλος σχηματίζοντας το λόγο ||δx||||x|| από τις (2.19) και (2.20) έχουμε τελικά ότι

||δx||||x||

≤ ||A|| ||A−1|| ||δb||||b||

ή, ισοδύναμα,||δx||||x||

≤ κ(A)||δb||||b||

. (2.21)

Με άλλα λόγια, κάτω από τις προϋποθέσεις της ανάλυσης που έγινε, το μέγιστο σχετικό α-πόλυτο σϕάλμα στη λύση του συστήματος είναι ίσο με το δείκτη κατάστασης του πίνακα A

Page 58: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

58

επί το σχετικό απόλυτο σϕάλμα του διανύσματος του δεύτερου μέλους. Συνεπώς, πίνακεςμε μεγάλο δείκτη κατάστασης είναι δυνατόν να οδηγούν σε πρόβλημα κακής κατάστασης καιεπομένως σε αποτελέσματα τα οποία να μην είναι αξιόπιστα.

Γενικεύοντας τώρα την προηγούμενη ανάλυση υποθέτουμε ότι έχουμε εκτός από τα σϕάλ-ματα στρογγύλευσης κατά την αποθήκευση του δεύτερου μέλους και σϕάλματα στρογγύλευ-σης κατά την αποθήκευση των συντελεστών του πίνακα A έτσι ώστε αυτός να αποθηκεύεταιως A∗ = A + δA, όπου δA είναι ο πίνακας των σϕαλμάτων στρογγύλευσης του A. Για τηναπλούστευση της ανάλυσης υποθέτουμε ακόμη ότι ισχύει ||A−1|| ||δA|| < 1 για κάποια ϕυσικήnorm. Η αντίστοιχη εξίσωση της (2.18) είναι τώρα η

A∗x∗ = b∗. (2.22)

Αϕαιρώντας τη (2.17) από τη (2.22) και αναδιατάσσοντας παίρνουμε

(A+ δA)δx = −δAx+ δb,

ή πολλαπλασιάζοντας απο τα αριστερά επί A−1 έχουμε

(I + A−1δA)δx = A−1(−δAx+ δb).

Παρατηρούμε ότι ||A−1δA|| ≤ ||A−1|| ||δA|| < 1, οπότε από το θεώρημα του Neumann έχουμεότι ο (I + A−1δA) είναι αντιστρέψιμος κι άρα από την τελευταία ισότητα παίρνουμε

δx = (I + A−1δA)−1A−1(−δAx+ δb). (2.23)

Παίρνοντας norms των δύο μελών της (2.23), εϕαρμόζοντας απλές ιδιότητές τους και χρησιμοποι-ώντας το δεύτερο σκέλος του θεωρήματος του Neumann (||(I + A−1δA)−1|| ≤ 1

1−||A−1δA||)βρίσκουμε ότι

||δx|| ≤ 1

1− ||A−1δA||||A−1||(||δA|| ||x||+ ||δb||). (2.24)

Τέλος, διαιρώντας και τα δύο μέλη της (2.24) δια ||x||, λαβαίνοντας υπόψη ότι ||x|| ≥ ||b||||A||

και ||A−1δA|| ≤ ||A−1|| ||δA|| < 1, χρησιμοποιώντας αυτά στο δεύτερο μέλος και θέτοντας||A|| ||A−1|| = κ(A), βρίσκουμε ότι

||δx||||x||

≤ κ(A)

1− κ(A) ||δA||||A||

(||δA||||A||

+||δb||||b||

). (2.25)

Από τη (2.25) είναι απλό να διαπιστωθεί ότι για ||δA||||A|| και

||δb||||b|| σταθερά και υπό την προϋπό-

θεση ότι ||A−1|| ||δA|| < 1 το μέγιστο σχετικό απόλυτο σϕάλμα στη λύση του συστήματος

Page 59: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

59

είναι αύξουσα συνάρτηση του δείκτη κατάστασης κ(A). Καταλήγουμε έτσι στο συμπέρασμαότι για μεγάλο δείκτη κατάστασης η λύση που παίρνουμε από τον Υπολογιστή μπορεί να μηνείναι αξιόπιστη.Σημειώσεις: α) Για δA = 0, όπως υποθέσαμε στην περίπτωση της ανάλυσης που προηγήθηκετης τελευταίας, βρίσκεται η σχέση (2.21). β) Αν υποθέσουμε ότι ϵ είναι η μονάδα στρογγύλευ-σης του Υπολογιστή, τότε έχουμε αϕενός ||δA||∞ ≤ ϵ||A||∞ και αϕετέρου ||δb||∞ ≤ ϵ||b||∞.Κάτω δε από την προϋπόθεση ότι ισχύει r := ϵκ∞(A) < 1 προκύπτει αμέσως από τη (2.25)ότι

||δx||∞||x||∞

≤ 2r

1− r.

Από τη μέχρι τώρα ανάλυση στο παρόν κεϕάλαιο έχει διαπιστωθεί πως είναι σχεδόν α-δύνατον να βρεθεί η ακριβής λύση ενός γραμμικού συστήματος με τη χρήση Υπολογιστή.Υπάρχουν περιπτώσεις, όμως, όπου η όποια λύση παίρνεται από τον Υπολογιστή μπορεί νατύχει παραπέρα βελτίωσης. Στη συνέχεια δίνουμε έναν αλγόριθμο, που είναι γνωστός ως“Αλγόριθμος Επαναληπτικής Βελτίωσης”. Διάϕορες επεξηγήσεις αναϕορικά μ΄ αυτόν θα δο-θούν είτε μέσα στον αλγόριθμο, με μορϕή σχολίων, είτε αμέσως μετά την παρουσίασή του.

Αλγόριθμος Επαναληπτικής Βελτίωσης Λύσης Γραμμικού Συστήματος:

Δεδομένα: A ∈ IRn,n, det(A) = 0, b ∈ IRn, t το πλήθος σημαντικών ψηϕίων.LU παραγοντοποίηση του A. (Εστω LU ≈ A)

(Σχόλιο: Οι L και U δεν είναι οι ακριβείς παράγοντες του A λόγω χρησιμοποίησηςΥπολογιστή.)

Επίλυση των Lu = b και Ux = uy = x; k = 0Εϕόσον ||y||∞

||x||∞ > 0.5× 10−t και k < kmax (kmax << n)k = k + 1Υπολογισμός r = b− Ax (με διπλή ακρίβεια)

(Σχόλιο: Στοιχεία των r, b, A, x με απλή ακρίβεια και υπολογισμός στοι-χείων του b− Ax με διπλή.)

Επίλυση των Lu = r και Uy = ux = x+ y

Τέλος ‘Εϕόσον’Αν k ≤ kmax τότε

Αποτέλεσμα: x η προσέγγιση της λύσης με t σημαντικά ψηϕία.αλλιώς Αποτέλεσμα: x η προσέγγιση της λύσης, χωρίς να επιτευχθεί η επιζητούμενη

ακρίβεια.Τέλος ‘Αν’

Page 60: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

60

Σημειώσεις: α) Ο αλγόριθμος που παρουσιάστηκε δίνει ικανοποιητικά αποτελέσματα σεαρκετές περιπτώσεις όταν οι παράγοντες L και U του A είναι σχετικά ακριβείς. β) Το kmax

επιλέγεται από το χρήστη και είναι συνήθως αρκετά μικρότερο από τη διάσταση n του A. γ)Η διαϕορά r = b − Ax δεν αναμένεται να είναι το μηδενικό διάνυσμα. Αυτό γιατί το x πουβρέθηκε από τον Υπολογιστή δεν είναι συνήθως η ακριβής λύση του συστήματος. Η έννοια,λοιπόν, της διπλής ακρίβειας είναι η ακόλουθη. Τα στοιχεία των A και x δίνονται με απλήακρίβεια αλλά το γινόμενο Ax, τα στοιχεια του οποίου είναι αθροίσματα γινομένων στοιχείωναπό τον A και το x, υπολογίζεται με διπλή ακρίβεια. Με διπλή ακρίβεια υπολογίζεται και ηδιαϕορά b−Ax, η οποία στη συνέχεια αποθηκεύεται στο r με απλή ακρίβεια. Στη λεπτομέρειααυτή βασίζεται και η ακόλουθη πρακτική εξήγηση σ΄ ό,τι αϕορά την αποτελεσματικότητα τηςμεθόδου. (Μια θεωρητική απόδειξη, κάτω από ορισμένες προϋποθέσεις, θα δοθεί στο κεϕά-λαιο των Επαναληπτικών Μεθόδων, όπου είναι δυνατόν να αποδειχτεί ότι η μέθοδος μπορείνα είναι αποτελεσματική ακόμη κι αν δε χρησιμοποιείται διπλή ακρίβεια.) Αν υποτεθεί ότι έναστοιχείο του b έχει τη μορϕή 0.x1x2x3x4, με απλή ακρίβεια τεσσάρων σημαντικών ψηϕίων,τότε το αντίστοιχο στοιχείο του Ax θα έχει τη μορϕή 0.y1y2y3y4y5y6y7y8, με διπλή ακρίβειαοκτώ σημαντικών ψηϕίων. Αν οι παράγοντες L και U είναι σχετικά ακριβείς όπως και η λύσηx, τότε τα αντίστοιχα στοιχεία των b και Ax θα έχουν μερικά από τα πρώτα σημαντικά ψηϕίατους τα ίδια, έστω τα δύο πρώτα x1 = y1 και x2 = y2. Συνεπώς, η διαϕορά των αντίστοιχωνστοιχείων θα είναι της μορϕής 0.00z1z2z3z4z5z6, και αποθηκευόμενη με απλή ακρίβεια στοαντίστοιχο στοιχείο του r, θα είναι έστω 0.00z1z2z3z4. Αν τώρα δεν είχε χρησιμοποιηθείδιπλή ακρίβεια, τότε η τελευταία διαϕορά θα αποθηκευόταν ως 0.00z1z2. Θα υπήρχε δηλαδήαπώλεια δύο σημαντικών ψηϕίων πράγμα που, όπως γνωρίζουμε από την Αριθμητική Ανάλυ-ση, μπορεί να αποβεί καταστροϕικό σ΄ ό,τι αϕορά την ακρίβεια των αποτελεσμάτων. δ) Τοκριτήριο σταματήματος των επαναλήψεων στη γενική μορϕή είναι ||y||||x|| ≤ ϵ, όπου || · || είναι μιαοποιαδήποτε διανυσματική norm και ϵ ένας “μικρός” θετικός αριθμός. Και τα δύο επιλέγονταιαπό το χρήστη. Η επιλογή της ℓ∞−norm και αυτή του ϵ = 0.5 × 10−t εξασϕαλίζει, στηνπερίπτωση σύγκλισης, την ακρίβεια της απόλυτα μεγαλύτερης συνιστώσας της λύσης, πουμπορεί να βρεθεί από τον Υπολογιστή, σε t σημαντικά ψηϕία. Για την εξασϕάλιση ακρίβειαςαπό τον Υπολογιστή t σημαντικών σε όλες τις συνιστώσες της λύσης θα πρέπει προϕανώς να

χρησιμοποιείται σαν κριτήριο σταματήματος των επαναλήψεων το maxi=1(1)n

∣∣∣ yixi

∣∣∣ ≤ 0.5×10−t.

ΑΣΚΗΣΕΙΣ

1.: Αντί του γραμμικού συστήματος

Ax = b, A =

2 −1 0−1 3 −10 −1 2

, b =

111

,

Page 61: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

61

επιλύεται το διαταραγμένο γραμμικό σύστημα (A+ δA)(x+ δx) = b+ δb, με

A+ δA =

2 −1 0−1 3 −1.10 −1.1 2

και b+ δb =

1.11.10.79

.

Να βρεθεί ένα άνω ϕράγμα για το σχετικό απόλυτο σϕάλμα και να γίνει η επαλήθευσηλύνοντας το διαταραγμένο σύστημα. Δίνεται ότι η λύση του αρχικού είναι x = [1 1 1]T

και ότι η απόλυτα μεγαλύτερη και η απόλυτα μικρότερη ιδιοτιμή του A είναι 4 και 1,αντίστοιχα.

2.: Αντί του γραμμικού συστήματος Ax = b, επιλύεται το γραμμικό σύστημα A′x = b με

A =

2 0.5 0.50.5 2 0.50.5 0.5 2

, b =

111

και A′ =

2 0.5 00.5 2 0.50 0.5 2

.

Να βρεθεί ένα άνω ϕράγμα για το σχετικό απόλυτο σϕάλμα ||δx||2||x||2 χωρίς να λυθεί κανένα

από τα δύο συστήματα. (Υπόδειξη: Αν χρειαστεί, να βρεθούν οι ιδιοτιμές του πίνακαA.)

3.: Δίνεται το γραμμικό σύστημα Ax = b, όπου A ∈ IRn,n, b ∈ IRn και A = AT με ιδιοτιμές−10, −5, 1 και 2. Να βρεθεί ένα άνω ϕράγμα για το σχετικό απόλυτο σϕάλμα ||δx||2

||x||2της λύσης x σε σχέση με το σχετικό απόλυτο σϕάλμα ||δb||2

||b||2 του διανύσματος b, κατά τηλύση του διαταραγμένου γραμμικού συστήματος A(x+ δx) = b+ δb.

4.: Υποτίθεται ότι για την επίλυση του συστήματος Ax = b, όπου A ∈ IRn,n, det(A) = 0,b ∈ IRn\0, με μια από τις μεθόδους απαλοιϕής Gauss (ή LU παραγοντοποίησης) οπίνακας A αποθηκεύεται ακριβώς, το διάνυσμα b ως b∗ = b+ δb, και όλες οι πράξεις γιατην εύρεση της λύσης x∗ = x+ δx στον Υπολογιστή εκτελούνται ακριβώς. Να δειχτείότι

||δx||||x||

≥ 1

κ(A)

||δb||||b||

.

5.: Χωρίς την εϕαρμογή του τύπου (2.25), να βρεθεί ένα άνω ϕράγμα για το σχετικό απόλυτοσϕάλμα ||δx||

||x|| της λύσης του συστήματος της προηγούμενης Ασκησης, όταν ο πίνακαςA αποθηκεύεται ως A∗ = A + δA, το διάνυσμα b ακριβώς και όλες οι πράξεις για τηνεύρεση της λύσης x∗ = x + δx στον Υπολογιστή εκτελούνται ακριβώς. (Σημείωση:Υποτίθεται ότι ||A−1||||δA|| < 1.)

Page 62: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

62

6.: Κατά τη λύση του γραμμικού συστήματος Ax = b υπεισέρχονται σϕάλματα και τελικάεπιλύεται το διαταραγμένο γραμμικό σύστημα (A + δA)(x + δx) = b. Αν για κάποιαϕυσική norm είναι γνωστό ότι ||A−1δA|| ≤ 0.2, να αποδειχτεί ότι ||δx|| ≤ 0.25||x||.

7.: Εστω a ∈ IRn\0 και a∗ = a + δa μια προσέγγισή του. Πολλές ϕορές το πλήθος των“σωστών” σημαντικών ψηϕίων του a∗ θεωρείται ότι δίνεται από το μεγαλύτερο ακέραιοk που ικανοποιεί τη σχέση

||δa||∞||a||∞

(≈ ||δa||∞

||a∗||∞

)≤ 0.5× 10−k.

Για τη λύση του συστήματος Ax = b με A =

[2 11 2

], το διάνυσμα b είναι δυνατόν να

δοθεί με ακρίβεια έξι σημαντικών ψηϕίων. Πόσα το πολύ σημαντικά ψηϕία είναι δυνατόννα αναμένονται στη λύση x του δοθέντος συστήματος αν δεν εισχωρούν νέα σϕάλματαστους υπολογισμούς;

2.4 Παραγοντοποίηση Cholesky

Ας υποθέσουμε ότι έχουμε προς επίλυση ένα πραγματικό γραμμικό σύστημα n εξισώσεων μεn αγνώστους του οποίου ο πίνακας των συντελεστών των αγνώστων A είναι συμμετρικός, δη-λαδή AT = A. Είναι προϕανές ότι λόγω της συμμετρίας δε χρειάζεται να αποθηκεύσουμε όλατα στοιχεία του A. Αρκούν τα στοιχεία του κάτω (ή άνω) τριγωνικού μέρους του, πλήθουςn(n+1)/2 αντί n2 που είναι όλα, δηλαδή περίπου τα μισά. Το ερώτημα που γεννιέται τότε εί-ναι μήπως μπορούμε να εκμεταλλευτούμε τη συμμετρία του A και να τον παραγοντοποιήσουμεκατά τέτοιο τρόπο ώστε αντί της συνήθους LU παραγοντοποίησης να έχουμε ένα γινόμενοενός κάτω κι ενός άνω τριγωνικού πίνακα όπου ο ένας θα αποτελεί τον ανάστροϕο του άλ-λου. Στην περίπτωση αυτή θα αρκεί μόνο η αποθήκευση του ενός από τους δύο παράγοντες.Αυτό ϕυσικά υπό την προϋπόθεση ότι οι παράγοντες θα έχουν στοιχεία πραγματικά. Η απάν-τηση είναι καταϕατική αν ο A έχει μία επιπλέον ιδιότητα. Αυτή του “θετικά ορισμένου” πίνακα.

Ορισμός 2.3 Εστω A ∈ ICn,n με AH = A. Ο A είναι θετικά ορισμένος ανν ∀ x ∈ ICn \ 0ισχύει (x,Ax)2 (= (Ax, x)2) > 0.

Σημείωση: Για A ∈ ICn,n, με AH = A, αντίστοιχοι προϕανείς ορισμοί χρησιμοποιούνται γιανα ορίσουν έναν πίνακα ως “μή αρνητικά ορισμένο”, “αρνητικά ορισμένο” και “μή θετικάορισμένο”.Αν ο A ∈ ICn,n είναι Ερμιτιανός (AH = A) τότε ισχύουν γι αυτόν μερικές απλές ιδιότητες οι

Page 63: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

63

δύο πρώτες των οποίων αποδείχνονται εύκολα: α) Τα διαγώνια στοιχεία του είναι πραγματικά.β) Οι ιδιοτιμές του είναι πραγματικές. και γ) Εχει n γραμμικά ανεξάρτητα ιδιοδιανύσματα xj

τα οποία μπορούν να παρθούν έτσι ώστε να είναι ορθοκανονικά, δηλαδή

(xj, xk)2 = δjk =

1, ανν j = k0, ανν j = k

, j, k = 1(1)n.

Το αντίστοιχο του Ερμιτιανού πίνακα στην περίπτωση A ∈ IRn,n με AH (= AT ) = A είναιο συμμετρικός πίνακας. Γι΄ αυτή την περίπτωση ο ορισμός του θετικά ορισμένου παραμένει οίδιος αλλά μπορεί να δειχτεί ότι είναι ισοδύναμος με τον παρακάτω απλούστερο:

Ορισμός 2.4 Εστω A ∈ IRn,n με AT = A. Ο A είναι θετικά ορισμένος ανν ∀ x ∈ IRn \0ισχύει (x,Ax)2 (= (Ax, x)2) > 0.

Στη συνέχεια αποδείχνουμε μια πρόταση η οποία είναι πολύ χρήσιμη στην παραγοντοποίησηστην οποία θα αναϕερθούμε αμέσως μετά.

Θεώρημα 2.3 Εστω ότι ο A ∈ ICn,n είναι Ερμιτιανός και θετικά ορισμένος. Τότε ανδιαγράψουμε μια οποιαδήποτε γραμμή του και την αντίστοιχη στήλη του ο (n−1)×(n−1)πίνακας A′, που απομένει, είναι επίσης Ερμιτιανός και θετικά ορισμένος.

Απόδειξη: Εστω ότι διαγράϕουμε την i-οστή γραμμή και την αντίστοιχη στήλη του πίνακα A,που δόθηκε και που είχε γραϕτεί σε block μορϕή ως ακολούθως

A =

A11 A12 A13

A21 aii A23

A31 A32 A33

,

όπου οι διάϕοροι υποπίνακες είναι τ.ω. A11 ∈ ICi−1,i−1, A12 ∈ ICi−1,1, A13 ∈ ICi−1,n−i, A21 ∈IC1,i−1, aii ∈ IC1,1, A23 ∈ IC1,n−i, A31 ∈ ICn−i,i−1, A32 ∈ ICn−i,1 και A33 ∈ ICn−i,n−i. Ο πίνακαςA′ που προκυπτει μετά τη διαγραϕή της i-οστης γραμμής και στήλης του A θα έχει την blockμορϕή

A′ =

[A′

11 A′12

A′21 A′

22

]=

[A11 A13

A31 A33

],

όπου τα αντίστοιχα blocks των δυο πινάκων είναι ταυτοτικά ίσα. Η απόδειξη ότι ο A′ είναιεπίσης Ερμιτιανός είναι απλή. Αποτελείται από τέσσερα μέρη και στη συνέχεια θα αποδείξουμεμόνο το ένα από αυτά. Εστω a′kl, k = 1(1)i − 1, l = i(1)n − 1, στοιχείο του A′

12. Θαέχουμε διαδοχικά a′kl = ak,l+1 = al+1,k = a′l,k. Το τελευταίο στοιχείο ανήκει προϕανώς

Page 64: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

64

στον υποπίνακα A′21. Κ.λπ. Αρα ο A′ είναι Ερμιτιανός. Για να αποδείξουμε ότι είναι και

θετικά ορισμένος θεωρούμε το τυχόν διάνυσμα x ∈ ICn \ 0 τ.ω. η i-οστή συνιστώσα τουνα είναι μηδέν και το διαχωρίζουμε σε blocks σύμϕωνα με το διαχωρισμό του A. Δηλαδή,x = [xT

1 | 0 | xT3 ]

T , όπου x1 ∈ ICi−1 και x3 ∈ ICn−i. Αϕού ο A είναι θετικά ορισμένος∀ x = [xT

1 | 0 | xT3 ]

T ∈ ICn \ 0 θα έχουμε, αν χρησιμοποιήσουμε τις block μορϕές των A καιx και παραλείψουμε κάποια ενδιάμεσα αποτελέσματα, ότι

0 < (x,Ax)2 = xHAx = xH1 (A11x1 + A13x3) + xH

3 (A31x1 + A33x3).

Το δεξιά μέλος των παραπάνω σχέσεων μπορεί να γραϕτεί διαδοχικά ως εξής

[xH1 | xH

3 ]

[A11 A13

A31 A33

] [x1

x3

]= x′HA′x′,

όπου x′ = [xT1 | xT

3 ]T ∈ ICn−1 \ 0. Με άλλα λόγια ο πίνακας A′ είναι θετικά ορισμένος.

Δύο άμεσα συμπεράσματα του προηγούμενου θεωρήματος είναι και τα εξής.

Πόρισμα 2.2 Αν A ∈ ICn,n είναι Ερμιτιανός και θετικά ορισμένος τότε αν διαγράψουμεοσεσδήποτε γραμμές του και τις αντίστοιχες στήλες του ο πίνακας που απομένει είναιΕρμιτιανός και θετικά ορισμένος.

Πόρισμα 2.3 Αν A ∈ ICn,n είναι Ερμιτιανός και θετικά ορισμένος τα διαγώνια στοιχείατου είναι θετικά.

Με βάση τα προηγούμενα είμαστε σε θέση να διατυπώσουμε και να αποδείξουμε μερικέςβασικές προτάσεις, όπως το Θεώρημα του Cholesky, που δίνεται αμέσως μετά. Σημειώνεται ότιόλες οι προτάσεις αϕορούν πίνακες A που είναι πραγματικοί και συμμετρικοί. Τονίζεται, όμως,ότι οι ίδιες ακριβώς προτάσεις ισχύουν και στην περίπτωση όπου ο A είναι γενικά Ερμιτιανόςπίνακας με κάποιες απλές προϕανείς τροποποιήσεις τόσο στις διατυπώσεις των προτάσεων όσοκαι στις αντίστοιχες αποδείξεις.

Θεώρημα 2.4 (Cholesky) Εστω A ∈ IRn,n, συμμετρικός και θετικά ορισμένος. Υπάρχειμοναδικός κάτω τριγωνικος πίνακας L ∈ IRn,n με lii > 0, i = 1(1)n, τ.ω. LLT = A.

Απόδειξη: Η απόδειξη θα γίνει με επαγωγή. Για 1× 1 πίνακες έχουμε A = [a11] = [a1211][a

1211].

Επειδή δε a11 > 0 και a1211 > 0, το θεώρημα ισχύει. Εστω ότι το θεώρημα ισχύει για κάθε

πραγματικό, συμμετρικό και θετικά ορισμένο (n − 1) × (n − 1), n ≥ 2, πίνακα. Θα δειχτείότι ισχύει και για πίνακες n× n. Εστω A ένας τέτοιος, πραγματικός συμμετρικός και θετικάορισμένος, πίνακας για τον οποίο θέλουμε να αποδείξουμε ότι A = LLT , με L να ικανοποιεί τις

Page 65: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

65

απαιτήσεις του θεωρήματος. Θεωρούμε το διαχωρισμό των A και L σε block μορϕές, οπότεαρκεί να έχουμε [

a11 yT

y A

]=

[l11 0Tn−1

z L

] [l11 zT

0n−1 LT

], (2.26)

όπου y ∈ IRn−1, A ∈ IRn−1,n−1, l11 > 0, 0n−1 ∈ IRn−1, z ∈ IRn−1 και L είναι κάτω τριγωνικόςμε lii > 0, i = 1(1)n− 1. Για να ισχύει η ισότητα (2.26) είναι ϕανερό ότι αρκεί να ισχύουν οιπαρακάτω ισότητες

a11 = l211,y = l11z,

yT = l11zT ,

zzT + LLT = A.

(2.27)

Από την πρώτη των (2.27) προκύπτει ότι μπορεί να οριστεί μονοσήμαντα το l11 = a1211 > 0.

Από τη δεύτερη μπορεί επίσης να οριστεί μονοσήμαντα το διάνυσμα z = 1

a1211

y ∈ IRn−1. Η

τρίτη των (2.27) είναι απλά ισοδύναμη με τη δεύτερη. Τέλος για την ισχύ της τέταρτης των(2.27) αρκεί να μπορεί να οριστεί μονοσήμαντα ο πίνακας L ∈ IRn−1,n−1 ώστε να είναι κάτωτριγωνικός και τα διαγώνια στοιχεία του να ικανοποιούν τις lii > 0, i = 1(1)n − 1. Για τοσκοπό αυτό αρκεί να δείξουμε ότι ο πίνακας A− zzT είναι συμμετρικός και θετικά ορισμένος,οπότε σύμϕωνα με την υπόθεση της τέλειας επαγωγής θα ισχύει γι΄ αυτόν το θεώρημα από τοοποίο έπονται αμέσως οι απαιτήσεις μας για τον L. Παρατηρούμε ότι ο A είναι συμμετρικόςγιατί προκύπτει από τον A αν διαγράψουμε την πρώτη γραμμή και στήλη του. Επομένως(A − zzT )T = A − zzT και άρα ο A − zzT είναι επίσης συμμετρικός. Για να αποδείξουμεότι είναι θετικά ορισμένος θεωρούμε τον αρχικό πίνακα A, που είναι θετικά ορισμένος, και τοδιάνυσμα w = [− 1

a11xTy | xT ]T ∈ IRn με x ∈ IRn−1 \ 0. Θα έχουμε

0 < wTAw = [− 1

a11xTy|xT ]

[a11 yT

y A

] [− 1

a11yTx

x

].

Μετά την εκτέλεση όλων των σημειωμένων πράξεων στο δεξιά μέλος των παραπάνω σχέσεωνβρίσκεται ότι αυτό είναι ίσο με xT (A− 1

a11yyT )x = xT (A−zzT )x, που είναι θετικό ∀ x ∈ IRn−1\

0, και άρα ο ισχυρισμός του θεωρήματος αληθεύει και για πίνακες n× n που ολοκληρώνειτην απόδειξη. Με βάση κυρίως το προηγούμενο θεώρημα είναι δυνατόν να αποδειχτούν τέσσερις προτά-

σεις, που δίνονται στη συνέχεια. Η τρίτη από αυτές αποτελεί το αντίστροϕο του θεωρήματοςτου Cholesky ενώ η τέταρτη δίνει έναν ισοδύναμο ορισμό για να είναι θετικά ορισμένος έναςπραγματικός συμμετρικός πίνακας.

Πόρισμα 2.4 Αν A ∈ IRn,n, AT = A και θετικά ορισμένος τότε det(A) > 0.

Page 66: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

66

Απόδειξη: Ο Α πληροί τις υποθέσεις του θεωρήματος του Cholesky και άρα επιδέχεται ανάλυσηκατά Cholesky. Εστω A = LLT , όπου ο L ικανοποιεί τα συμπεράσματα του θεωρήματος τουCholesky. Θα έχουμε διαδοχικά det(A) = det(LLT ) = det(L) det(LT ) = l211l

222 · · · l2nn > 0.

Πόρισμα 2.5 Αν A ∈ IRn,n, AT = A και θετικά ορισμένος πίνακας, τότε το απόλυταμέγιστο στοιχείο του βρίσκεται επί της διαγωνίου του.

Απόδειξη: Διαγράϕοντας όλες τις γραμμές εκτός της i-οστής και j-οστής (1 ≤ i < j ≤ n)καθώς και τις αντίστοιχες στήλες του πίνακα που δόθηκε απομένει ο 2 × 2 πίνακας Aij =[aii aijaji ajj

], ο οποίος με βάση το Πόρισμα 2.2 θα είναι συμμετρικός και θετικά ορισμένος. Από

το Πόρισμα 2.4 προκύπτει ότι 0 < det(Aij) = aiiajj − aijaji ≤ (maxaii, ajj)2 − a2ij και άραmaxaii, ajj > |aij|. Η θεώρηση όλων των δυνατών ζευγών (i, j), i, j ∈ 1, 2, · · · , n, i = j,συμπληρώνει την απόδειξη της παρούσας πρότασης.

Θεώρημα 2.5 Αν A ∈ IRn,n επιδέχεται ανάλυση κατά Cholesky, τότε ο A είναι συμμε-τρικός και θετικά ορισμένος.

Απόδειξη: Σύμϕωνα με την υπόθεσή μας έχουμε ότι A = LLT , με L ∈ IRn,n κάτω τριγωνικόκαι lii > 0, i = 1(1)n. Καταρχάς είναι AT = (LLT )T = LLT = A και άρα ο A είναισυμμετρικός. Εξάλλου ∀ x ∈ IRn \ 0 είναι (x,Ax)2 = (x, LLTx)2 = (LTx, LTx)2 =||LTx||22 ≥ 0. Αν ||LTx||2 = 0 τότε LTx = 0 και επειδή det(LT ) = l11l22 · · · lnn > 0 έπεται ότιx = 0, που είναι άτοπο. Αρα ο A είναι θετικά ορισμένος.

Θεώρημα 2.6 Εστω A ∈ IRn,n με AT = A. Ο A είναι θετικά ορισμένος ανν όλοι οικύριοι p× p υποπίνακές του Ap×p, p = 1(1)n, (της άνω αριστερής γωνίας) έχουν ορίζουσεςθετικές.

Απόδειξη: Εστω ότι ο A είναι θετικά ορισμένος. Τότε, με βάση το Θεώρημα 2.3, όλοι οικύριοι υποπίνακες στη διατύπωση της παρούσας πρότασης θα είναι πραγματικοί, συμμετρικοίκαι θετικά ορισμένοι. Αρα κάθε ένας από αυτούς, σύμϕωνα με το Πόρισμα 2.4, θα έχειορίζουσα θετική. Αντίστροϕα, αν οι ορίζουσες των κύριων υποπινάκων του A είναι θετικές,τότε από την απόδειξη του Θεωρήματος 2.1 έχουμε ότι η ορίζουσα του p × p υποπίνακά τουθα είναι ίση με το γινόμενο των οδηγών a(1)11 a

(2)22 · · · a(p)pp (> 0). Από την τελευταία σχέση, για

p = 1(1)n, έπεται ότι a(p)pp > 0, ∀ p = 1(1)n. Από το συμπέρασμα αυτό και το μονοσήμαντοτης παραγοντοποίησης του Crout, στην προκείμενη περίπτωση, λόγω της συμμετρικότηταςτου A, έπεται ότι D = diag(a

(1)11 , a

(2)22 , · · · , a

(n)nn ) και U = LT . Οπότε, αν θέσουμε D

12 =

diag((a

(1)11 )

12 , · · · , (a(n)nn )

12

)θα έχουμε A = LDLT = LD

12D

12LT = (LD

12 )(LD

12 )T . Αρα ο A

επιδέχεται ανάλυση κατά Cholesky και επομένως είναι θετικά ορισμένος.

Page 67: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

67

Για την εύρεση αλγόριθμου που θα υπολογίζει τα στοιχεία του πίνακα L στην παραγον-τοποίηση (ή ανάλυση) Cholesky χρησιμοποιούμε την ισότητα LLT = A, με A πραγματικό,συμμετρικό και θετικά ορισμένο, εκτελούμε τον πολλαπλασιασμό στο αριστερά μέλος καιεξισώνουμε ένα προς ένα τα στοιχεία του κάτω τριγωνικού, έστω, πίνακα του γινομένου πουπροκύπτει με τα αντίστοιχα στοιχεία του A. Είναι δυνατόν να βρίσκουμε τα στοιχεία του Lείτε προχωρώντας από την πρώτη γραμμή προς την n-οστή είτε από την πρώτη στήλη προςτην n-οστή. Π.χ. προχωρώντας κατά γραμμές θα έχουμε διαδοχικά:l211 = a11,l21l11 = a21, l221 + l222 = a22,l31l11 = a31, l31l21 + l32l22 = a32, l231 + l232 + l233 = a33, κ.λπ.Είναι ϕανερό από τις παραπάνω ισότητες ότι τα στοιχεία του L μπορούν να βρεθούν με τησειρά l11, l21, l22, l31, l32, l33, κ.λπ. Επομένως ένας αλγόριθμος Cholesky κατά γραμμές (σεσυνοπτική μορϕή) μπορεί να είναι ο ακόλουθος.

Αλγόριθμος Cholesky κατά γραμμές:

Δεδομένα: A ∈ IRn,n, AT = A, A θετικά ορισμένος.Για i = 1(1)n

Για j = 1(1)i− 1lij = (aij −

∑j−1k=1 likljk)/ljj

Τέλος ‘Για’lii = (aii −

∑i−1j=1 l

2ij)

12

Τέλος ‘Για’

Πολλές ϕορές η παραγοντοποίηση ενός πραγματικού, συμμετρικού και θετικά ορισμένου πί-νακα A γράϕεται με ένα λίγο διαϕορετικό τρόπο ο οποίος είναι ήδη γνωστός και ως παραγοντο-ποίηση (ή ανάλυση) Crout. Συγκεκριμένα, έχοντας υπόψη την παραγοντοποίηση Cholesky,μπορούμε να γράψουμε αναλυτικά

A = LLT =

l11l21 l22l31 l32 l33.......... . .

ln1 ln2 ln3 · · · lnn

l11 l21 l31 · · · ln1

l22 l32 · · · ln2l33 · · · ln3. . .

...lnn

Page 68: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

68

Το δεξιά μέλος των παραπάνω ισοτήτων γράϕεται και ως εξής

A =

1l21l11

1l31l11

l32l22

1.......... . .

ln1

l11

ln2

l22

ln3

l33· · · 1

l211

l222l233. . .

l2nn

1 l21

l11

l31l11

· · · ln1

l11

1 l32l22

· · · ln2

l22

1 · · · ln3

l33. . .

...1

ή τέλος και ως

A = MDMT ,

όπου M κάτω τριγωνικός με

mij =

lijljj

αν 1 ≤ j < i ≤ n

1 αν i = j = 1(1)n0 αλλιως

και D διαγώνιος με διαγώνια στοιχεία dii = l2ii, i = 1(1)n.

ΑΣΚΗΣΕΙΣ

1.: Εστω A ∈ ICn,n με AH = A και (Ax, x)2 > 0 ∀ x ∈ ICn\0 . Να αποδειχτεί, χρησιμο-ποιώντας τον αντίστοιχο ορισμό και μόνο, ότι:α) aii > 0, i = 1(1)n. καιβ) Αν λ ∈ σ(A) τότε λ > 0.

2.: Να αποδειχτεί ότι αν A ∈ IRn,n, με AT = A, ο A είναι θετικά ορισμένος ανν (Ax, x)2 >0, ∀ x ∈ IRn\0.

3.: Να δειχτεί ότι ο τριδιαγώνιος πίνακας

A = trid(−1, 2,−1) =

2 −1

−1 2 −1. . . . . . . . .

−1 2 −1−1 2

∈ IRn,n

είναι θετικά ορισμένος.

Page 69: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

69

4.: Να δειχτεί ότι πίνακας A = trid(1, a, 1) ∈ IRn,n, με a ≥ 2, είναι θετικά ορισμένος.

5.: Δίνεται ο πίνακας A =

1 a aa 1 aa a 1

∈ IR3,3. Να βρεθούν όλες οι τιμές του a για τις

οποίες ο A είναι θετικά ορισμένος.

6.: Δίνεται ο πραγματικός συμμετρικός πίνακας A =

9 6 36 8 43 4 3

.

α) Να δειχτεί ότι ο A είναι θετικά ορισμένος.β) Να βρεθούν ακριβώς οι παράγοντες L και LT της παραγοντοποίησης Cholesky τουA. καιγ) Να βρεθούν ακριβώς οι L και U παράγοντες της LU παραγοντοποίησης του A. καιδ) Να βρεθεί ο αντίστροϕος του A χρησιμοποιώντας την ανάλυση Cholesky.(Σημείωση: Τα ερωτήματα (α), (β) και (γ) μπορούν να απαντηθούν με οποιαδήποτεσειρά.)

7.: Δίνεται ο πραγματικός συμμετρικός πίνακας A =

1 0 2 10 4 8 102 8 29 221 10 22 42

. Να παραγον-τοποιηθεί ο A σε γινόμενο LDU , όπου L κάτω τριγωνικός με μονάδες στη διαγώνιο,D διαγώνιος και U άνω τριγωνικός με μονάδες στη διαγώνιο. Χρησιμοποιώντας την ενλόγω παραγοντοποίηση να αποδειχτεί ότι ο A είναι θετικά ορισμένος και στη συνέχειανα δοθεί η ανάλυση Cholesky του A.

8.: Δίνεται ο πίνακας A =

3 c 1c 2 c1 c 3

. Να βρεθεί η περιοχή για την πραγματική παρά-μετρο c για την οποία ο A είναι θετικά ορισμένος. Στη συνέχεια να γίνει η ανάλυσηCholesky για c = 0.

9.: Δίνεται ο πίνακας A =

1 −1 0−1 a −10 −1 a

. Να βρεθεί η περιοχή για την πραγματικήπαράμετρο a για την οποία ο A είναι θετικά ορισμένος. Στη συνέχεια να βρεθεί οαντίστροϕος του A για a = 2 χρησιμοποιώντας ανάλυση Cholesky.

Page 70: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

70

10.: Δίνεται το μιγαδικό γραμμικό σύστημα

25x + (20− 9i)y = 36− 4i(20 + 9i)x + 25y = 36 + 4i

Αϕού μετατραπεί σε ισοδύναμο πραγματικό και διαπιστωθεί ότι ο πίνακας των συντελε-στών του πραγματικού συστήματος είναι συμμετρικός και θετικά ορισμένος, να λυθεί,το αντίστοιχο πραγματικό, με τη μέθοδο Cholesky και να δοθούν οι τιμές των x και y.

11.: Να αποδειχτεί ότι ο πίνακας

A =

1 1 1 · · · 11 2 2 · · · 21 2 3 · · · 3.......... . .

...1 2 3 · · · n

είναι θετικά ορισμένος και να γίνει η ανάλυση Cholesky αυτού.

12.: Δίνεται ότι ο πίνακας A ∈ IRn,n είναι συμμετρικός και θετικά ορισμένος. Να αποδειχτείότι τότε και ο πίνακας αA + βyyT είναι συμμετρικός και θετικά ορισμένος για κάθεα > 0, β ≥ 0 και y ∈ IRn. Με βάση ό,τι αποδειχτεί, να αποδειχτεί στη συνέχεια ότι οπίνακας

α + β β · · · ββ α + β · · · β...

.... . .

...β β · · · α+ β

είναι συμμετρικός και θετικά ορισμένος. Χρησιμοποιώντας όλα τα παραπάνω να απο-

δειχτεί ότι και ο

3 1 11 3 11 1 3

είναι θετικά ορισμένος και να βρεθούν οι παράγοντεςCholesky, διατηρώντας κλάσματα και ριζικά στους υπολογισμούς.

13.: Δίνεται ο πίνακας

A =

1 0 · · · 0 α0 1 · · · 0 α....... . .

......

0 0 · · · 1 αα α · · · α 1

∈ IRn,n.

Page 71: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

71

α) Να βρεθούν όλες οι τιμές του α ώστε ο πραγματικός, συμμετρικός πίνακας A να είναιθετικά ορισμένος. καιβ) Με την προϋπόθεση ότι ο A είναι θετικά ορισμένος να γίνει η παραγοντοποίησηCholesky του πίνακα αυτού και να λυθεί το γραμμικό σύστημα Ax = b, με b =[1 1 1 · · · 1 (n− 1)α]T , χρησιμοποιώντας την υπόψη παραγοντοποίηση.

14.: Να αποδειχτεί ότι κατά τα διαδοχικά βήματα, k = 1(1)n− 1, της απαλοιϕής του Gaussχωρίς οδήγηση, ενός πραγματικού, συμμετρικού, θετικά ορισμένου πίνακα A ∈ IRn,n,ο εκάστοτε κύριος υποπίνακας της κάτω δεξιά γωνίας του A(k+1), A(k+1)

n−k,n−k, εξακολου-θεί να έχει την ιδιότητα του (πραγματικού) συμμετρικού και θετικά ορισμένου πίνακα.(Σημείωση: Να αποδειχτεί το ζητούμενο για τον πίνακα A(2)

n−1,n−1 και μόνο.)

15.: Να αποδειχτεί ότι ένας πίνακας A ∈ IRn,n, με AT = A και aii > 0, i = 1(1)n, που είναιαυστηρά διαγώνια υπέρτερος κατά γραμμές (κατά στήλες) είναι και θετικά ορισμένος.

16: Να γραϕτεί συνοπτικά με μορϕή ψευδοκώδικα, ο αλγόριθμος εύρεσης των στοιχείωντου κάτω τριγωνικού πίνακα L στην παραγοντοποίηση Cholesky, κατά στήλες, ενόςπραγματικού συμμετρικού και θετικά ορισμένου πίνακα A ∈ IRn,n.

17: Ο πίνακας A ∈ IRn,n με στοιχεία

aij = a(1)ij =

1

i+ j − 1, i, j = 1(1)n,

είναι γνωστός ως πίνακας του Hilbert.α) Να γίνουν δύο διαδοχικά βήματα απαλοιϕής του Gauss, χωρίς οδήγηση, και να βρεθείη έκϕραση του στοιχείου a(3)ij , i, j = 3(1)n, σα συνάρτηση των i και j.

β) Με βάση τις γενικές εκϕράσεις των στοιχείων a(2)ij , i, j = 2(1)n, και a(3)ij , i, j = 3(1)n,

στο (α), να συναχτεί η έκϕραση του γενικού στοιχείου a(k)ij , i, j = k(1)n, σα συνάρτησητων i και j, μετά από k− 1 διαδοχικά βήματα απαλοιϕής, και να αποδειχτεί με επαγωγή,ότι η αντίστοιχη έκϕραση θα ισχύει και για το στοιχείο a(k+1)

ij , i, j = k + 1(1)n, μετάαπό k βήματα απαλοιϕής. (Σημείωση: Υποτίθεται ότι k < n.)γ) Με βάση τις γενικές εκϕράσεις των χρησιμοποιηθέντων οδηγών στοιχείων κατά ταδιαδοχικά βήματα της απαλοιϕής να αποδειχτεί ότι ο πίνακας A του Hilbert, εκτός απόσυμμετρικός, είναι και θετικά ορισμένος.

Page 72: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

72

Page 73: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

Κεϕάλαιο 3

Επαναληπτικές Μέθοδοι

3.1 Εισαγωγή

Οι μέθοδοι για την επίλυση γραμμικών συστημάτων, που μελετήσαμε ως τώρα, καλούνταιάμεσες. Τα κύρια χαρακτηριστικά τους είναι ότι για την εύρεση της λύσης απαιτείται έναςπεπερασμένος αριθμός πράξεων κι ακόμη ότι η λύση βρίσκεται ακριβώς αν εργαστούμε μεακριβή αριθμητική. Το τελευταίο, όμως, δεν είναι δυνατόν να υλοποιηθεί στην πράξη, εϕόσονχρησιμοποιείται Υπολογιστής για την εύρεση της λύσης. Επομένως, τα αρχικά σϕάλματαστρογγύλευσης καθώς και αυτά κατά τη διάρκεια των υπολογισμών με όλες τις συνέπειέςτους δίνουν αποτελέσματα που είναι κατ΄ ανάγκην προσεγγιστικά. Αυτή η παρατήρηση μαςοδηγεί στη σκέψη ότι αϕού δεν είναι δυνατόν να βρεθεί η ακριβής λύση ίσως θα ήταν δυνατόννα χρησιμοποιηθεί μέθοδος η οποία θα αναζητά, αντί της ακριβούς λύσης, μια πολύ καλήπροσέγγισή της. Πάνω στη λογική αυτή έχουν προταθεί κατά καιρούς, αρχής γενομένης απότα τέλη του 19ου αιώνα, διάϕορες μέθοδοι οι οποίες ανήκουν στην κατηγορία των λεγόμενωνέμμεσων ή επαναληπτικών. Στην πράξη αποδείχνονται πάρα πολύ αποτελεσματικές ιδιαίτεραόταν ο πίνακας των συντελεστών των αγνώστων του προς επίλυση γραμμικού συστήματοςείναι μεγάλος και αραιός. Τελευταία, οι επαναληπτικές μέθοδοι έχουν γίνει πολύ δημοϕιλείςδιότι είναι καταλληλότερες για την επίλυση προβλημάτων όταν χρησιμοποιείται ΥπολογιστήςΠαράλληλης Αρχιτεκτονικής.

Η βασική ιδέα της κλασικής επαναληπτικής μεθόδου, που θα αναπτυχτεί στη συνέχεια,είναι η εξής. Ξεκινάμε καταρχάς από μία αυθαίρετη προσέγγιση της λύσης, έστω x(0), και μεβάση κάποιον επαναληπτικό αλγόριθμο κατασκευάζονται διαδοχικά οι όροι μιας ακολουθίαςx(k)∞k=0, η οποία, κάτω από ορισμένες προϋποθέσεις, συγκλίνει στη λύση του προς επίλυσησυστήματος. Πιο συγκεκριμένα, έστω

Ax = b, A ∈ ICn,n, det(A) = 0, b ∈ ICn, (3.1)73

Page 74: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

74

το προς επίλυση σύστημα, μιγαδικό γενικά. Θεωρούμε μια διάσπαση του πίνακα A

A = M −N (3.2)

με μόνους, προς το παρόν, περιορισμούς:α) Ο πίνακας M να είναι αντιστρέψιμος, καιβ) Ενα γραμμικό σύστημα με πίνακα συντελεστών αγνώστωνM να λύνεται με πολύ λιγότερεςπράξεις από ένα άλλο με πίνακα συντελεστών αγνώστων A.(Σημείωση: Ο πίνακας M στη διάσπαση (3.2) είναι γνωστός ως (προρ)ρυθμιστής πίνακας.)Χρησιμοποιούμε την (3.2) στην (3.1) και αναδιατάσσοντας έχουμε

Mx = Nx+ b. (3.3)

Η (3.3) είναι ισοδύναμη με τη

x = Tx+ c, T := M−1N, c := M−1b. (3.4)

Η νέα εξίσωση (3.4), που είναι μια εξίσωση σταθερού σημείου και είναι ισοδύναμη με τηναρχική (3.1), υποδείχνει την κατασκευή του αλγόριθμου

x(k+1) = Tx(k) + c, k = 0, 1, 2, · · · , (3.5)

με x(0) ∈ ICn οποιοδήποτε. (Σημείωση: Ο πίνακας T στον αλγόριθμο (3.5) είναι γνωστός ωςεπαναληπτικός πίνακας του αλγόριθμου ή της επαναληπτικής μεθόδου.)Παρατήρηση: Στην πράξη, και για ευνόητους λόγους, για την εύρεση του x(k+1) από το x(k),δεν εϕαρμόζεται ο αλγόριθμος (3.5), όπου πρέπει να βρεθεί προηγουμένως ο πίνακας T :=M−1N , αλλά ο ισοδύναμός του

Mx(k+1) = Nx(k) + b, k = 0, 1, 2, · · · . (3.6)

Αυτό εξηγεί και την απαίτηση (β) για το ρυθμιστή πίνακα M .

Ο αλγόριθμος (3.5) παράγει ακολουθία διανυσμάτων x(k)∞k=0, η οποία, κάτω από ορισμέ-νες προϋποθέσεις, συγκλίνει στη λύση x = A−1b του (3.1). Μπορεί να διαπιστωθεί ότι ανο αλγόριθμος (3.5) παράγει ακολουθία συγκλίνουσα αυτή θα συγκλίνει στη λύση x = A−1b.Πράγματι, έστω ότι limk→∞ x(k) = y. Τότε, παίρνοντας τα όρια των μελών της (3.5) γιαk → ∞, αντικαθιστώντας τις εκϕράσεις για τα T και c από την (3.4) και ακολουθώντας αντί-στροϕη πορεία απ΄ αυτήν η οποία μας οδήγησε στην (3.4) καταλήγουμε στην Ay = b, οπότεy = A−1b. Η αναγκαία και ικανή συνθήκη για τη σύγκλιση της ακολουθίας x(k)∞k=0 δίνεταιστο επόμενο θεώρημα αμέσως μετά την απόδειξη του παρακάτω λήμματος.

Λήμμα 3.1 Για τις διαδοχικές δυνάμεις του πίνακα T ∈ ICn,n ισχύει limk→∞ T k = 0 αννρ(T ) < 1.

Page 75: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

75

Απόδειξη: Ως γνωστόν η limk→∞ T k = 0 συνεπάγεται τη limk→∞ ||T k|| = 0 για κάθε ϕυσικήnorm. Είναι επίσης γνωστό ότι ρk(T ) = ρ(T k) ≤ ||T k|| για κάθε ϕυσική norm. Αϕούlimk→∞ ||T k|| = 0 θα υπάρχει ϕυσικός αριθμός k0 τ.ω. για κάθε k ≥ k0 να ισχύει ||T k|| < 1.Από το τελευταίο συμπέρασμα και τις αμέσως προηγούμενες σχέσεις έπεται ότι ρk(T ) < 1για κάθε k ≥ k0, άρα και για κάθε k, πράγμα που συνεπάγεται ρ(T ) < 1. Αντίστροϕα, ανρ(T ) < 1 τότε, σύμϕωνα με το Θεώρημα 1.10, για κάθε ϵ > 0 θα υπάρχει ϕυσική norm τ.ω.||T || ≤ ρ(T )+ ϵ. Αν επιλεχτεί το ϵ έτσι ώστε 0 < ϵ < 1− ρ(T ) τότε θα έχουμε ρ(T )+ ϵ < 1άρα και ||T || < 1 για τη συγκεκριμένη ϕυσική norm. Τότε όμως θα είναι ||T k|| ≤ ||T ||k < 1για κάθε k άρα limk→∞ ||T k|| = 0 για την υπόψη ϕυσική norm. Από την τελευταία σχέσηέπεται αμέσως ότι limk→∞ T k = 0, που αποδείχνει το παρόν λήμμα.

Θεώρημα 3.1 Αναγκαία και ικανή συνθήκη για τη σύγκλιση της ακολουθίας τωνπαραγόμενων από τον αλγόριθμο (3.5) διανυσμάτων στη λύση x = A−1b του συστήματος(3.1) είναι η

ρ(T ) < 1.

Απόδειξη: Καταρχάς εισάγουμε το διάνυσμα-σϕάλμα στην k επανάληψη ορίζοντας

e(k) = x(k) − x. (3.7)

Αϕαιρώντας κατά μέλη τη σχέση (3.4) από την (3.5) και χρησιμοποιώντας την (3.7) παίρνουμε

e(k+1) = Te(k), k = 0, 1, 2, · · · ,

με e(0) ∈ ICn οποιοδήποτε, και με απλή επαγωγή βρίσκουμε ότι

e(k) = T ke(0), k = 0, 1, 2, · · · , (3.8)

με e(0) ∈ ICn οποιοδήποτε. Εϕόσον επιζητούμε να έχουμε σύγκλιση, limk→∞ x(k) = A−1b,για οποιοδήποτε x(0), ή, ισοδύναμα, limk→∞ e(k) = 0 για οποιοδήποτε e(0), παρατηρούμε ότιαν στη θέση του e(0) στην (3.8) θέσουμε διαδοχικά τα διανύσματα στήλες ej, j = 1(1)n,του μοναδιαίου πίνακα I, παίρνουμε ως e(k) τις αντίστοιχες στήλες του πίνακα T k. Επειδήδε θέλουμε να έχουμε limk→∞ e(k) = 0 έπεται ότι οριακά οι στήλες του T k θα τείνουν στομηδενικό διάνυσμα ή ότι limk→∞ T k = 0. Από το προηγούμενο, όμως, Λήμμα 3.1 γνωρίζουμεότι η τελευταία ισότητα ισχύει ανν ρ(T ) < 1, που αποτελεί την αναγκαία και ικανή συνθήκηγια να συγκλίνει ο αλγόριθμος (3.5) στη λύση του συστήματος (3.1).

Πόρισμα 3.1 Μια ικανή συνθήκη για τη σύγκλιση του αλγόριθμου (3.5) στη λύσητου συστήματος (3.1) είναι η

||T || < 1,

όπου || · || μια οποιαδήποτε ϕυσική norm.

Page 76: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

76

Απόδειξη: Η απόδειξη είναι προϕανής αϕού λόγω της γνωστής σχέσης ρ(T ) ≤ ||T || ισχύει τοπροηγούμενο θεώρημα.

Πόρισμα 3.2 Αν για κάποια ϕυσική norm και για κάποιο θετικό ακέραιο k για τονεπαναληπτικό πίνακα T του αλγόριθμου (3.5) ισχύει ότι ||T k|| < 1, τότε ο αλγόριθμοςσυγκλίνει.

Απόδειξη: Επειδή ρk(T ) = ρ(T k) ≤ ||T k|| < 1 έπεται ότι ρ(T ) < 1. Αρα ο αλγόριθμος (3.5)συγκλίνει. Θα πρέπει να τονιστεί ότι στην πράξη κι εϕόσον οι διαδοχικά παραγόμενοι όροι της ακολου-

θίας των διανυσμάτων από τον αλγόριθμο (3.5), στην περίπτωση σύγκλισης, τείνουν στη λύσηστο όριο θεσπίζονται κριτήρια σταματήματος των επαναλήψεων. Συνηθέστερα κριτήρια είναιτα εξής δύο

||x(k+1) − x(k)|| ≤ ϵ και ||x(k+1)−x(k)||||x(k+1)|| ≤ η,

με επικρατέστερο το δεύτερο, όπου ϵ και η είναι μικροί θετικοί αριθμοί προκαθορισμένοι απότο χρήστη. Το πρώτο κριτήριο παίζει το ρόλο του απόλυτου σϕάλματος, αν κανείς θεωρήσειότι το x(k+1) είναι η ακριβής λύση και το x(k) η προσεγγιστική, ενώ το δεύτερο παίζει το ρόλοτου σχετικού απόλυτου σϕάλματος. Συγκεκριμένα, αν ζητάμε προσέγγιση της λύσης με mσημαντικά ψηϕία ίσως είναι λογικό να θεωρούμε το δεύτερο κριτήριο με norm την ℓ∞−normκαι η = 0.5 × 10−m ή, έχοντας υπόψη τη Σημείωση (δ) του Αλγόριθμου ΕπαναληπτικήςΒελτίωσης στο τέλος του Κεϕαλαίου 2, το κριτήριο

|x(k+1)i − x

(k)i |

|x(k+1)i |

≤ 0.5× 10−m, x(k+1)i = 0, |x(k)

i | ≤ 0.5× 10−m, x(k+1)i = 0, i = 1(1)n.

Σαν ένα παράδειγμα βασικής επαναληπτικής μεθόδου δίνουμε αυτό της επαναληπτικής βελ-τίωσης της λύσης πραγματικού ομαλού γραμμικού συστήματος Ax = b, που έχει βρεθεί, μετην άμεση μέθοδο της παραγοντοποίησης του A σε γινόμενο LU , και δοθεί σε προηγούμενοκεϕάλαιο. Υποθέτουμε ότι οι παράγοντες L και U είναι αρκετά ακριβείς και ότι κατά τηνεύρεσή τους δεν απαιτούνται εναλλαγές γραμμών του A. Εστω x(0) η λύση που παίρνουμεαπό την επίλυση των δυο αρχικών εξισώσεων (με προς τα μπρός και προς τα πίσω αντικατα-στάσεις) στη μέθοδο επαναληπτικής βελτίωσης και έστω x(k) η εκάστοτε χρησιμοποιούμενηπροσεγγιστική τιμή του x στην k ανακύκλωση. Εστω r(k), y(k) και x(k+1), οι ευρισκόμενεςτιμές των διανυσμάτων r, y και της νέας τιμής του x, αντίστοιχα. Εχουμε διαδοχικά ότι

x(k+1) = x(k) + y(k) = x(k) + (LU)−1r(k)

= x(k) + (LU)−1(b− Ax(k)) = (I − (LU)−1A)x(k) + (LU)−1b.(3.9)

Page 77: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

77

Από το παραπάνω επαναληπτικό σχήμα, και παίρνοντας όρια για k → ∞, υπό την προϋπόθεσηότι limk→∞ x(k) = z, μπορούμε να βρούμε αμέσως ότι Az = b και άρα η ακολουθία των x(k) θασυγκλίνει στην ακριβή λύση του συστήματος που δόθηκε. Για να εξετάσουμε αν η ακολουθίασυγκλίνει θεωρούμε τον επαναληπτικό πίνακα T = I − (LU)−1A του αλγόριθμου (3.9). Ε-ϕόσον οι πίνακες L και U είναι αρκετά ακριβείς θα πρέπει A ≈ LU , οπότε (LU)−1A ≈ I καιT = I − (LU)−1A ≈ 0. Αϕού τα στοιχεία του T είναι στην περιοχή του μηδενός είναι λογι-κό να περιμένουμε ότι για κάποια ϕυσική norm θα ισχύει ||T || ≈ 0 < 1. Η τελευταία σχέσηεξασϕαλίζει (θεωρητικά) την ικανή συνθήκη για τη σύγκλιση της μεθόδου επαναληπτικής βελ-τίωσης στη λύση του συστήματος, ακόμη κι αν δε γίνουν κάποιοι ενδιάμεσοι υπολογισμοί μεδιπλή ακρίβεια, όπως είχε θεωρηθεί απαραίτητο, όταν παρουσιάστηκε η συγκεκριμένη μέθοδος.

Από τον ορισμό της ϕυσικής norm και την (3.8) συνάγεται ότι υπάρχει ένα e(0) ∈ ICn \0,για κάθε συγκεκριμένο k, τ.ω. να ισχύει ότι ||e(k)|| = ||T ke(0)|| = ||T k||||e(0)||. Από τιςτελευταίες ισότητες μπορούμε να πάρουμε ότι

supe(0)∈ICn\0

(||e(k)||||e(0)||

)= ||T k||. (3.10)

Εχοντας υπόψη το Πόρισμα 3.2 και τη σχέση (3.10) δίνουμε τον ακόλουθο ορισμό.

Ορισμός 3.1 Εστω A,B ∈ ICn,n. Αν για κάποιο θετικό ακέραιο k και για μια ϕυσική normείναι ||Ak|| < 1, τότε η ποσότητα

R(Ak) = − ln(||Ak||1k ) =

− ln ||Ak||k

(3.11)

καλείται μέση ταχύτητα σύγκλισης για k επαναλήψεις. Αν ||Bk|| < 1 και R(Ak) < R(Bk),τότε ο B είναι επαναληπτικά ταχύτερος του A για k επαναλήψεις.

Ο παραπάνω ορισμός έχει ιδιαίτερη σημασία στο όριο, όταν δηλαδή k → ∞. Τότε, και κάτωαπό τις προϋποθέσεις του ορισμού, μπορεί να αποδειχτεί, χρησιμοποιώντας την κανονική μορϕήτου Jordan, ότι

R∞(A) = limk→∞

R(Ak) = − ln ρ(A).

Το τελευταίο συμπέρασμα, που είναι ανεξάρτητο της χρησιμοποιούμενης ϕυσικής norm λόγωτης ισχύουσας ισοδυναμίας τους, στην περίπτωση συγκλινουσών επαναληπτικών μεθόδων(3.5), ερμηνεύεται ως εξής. “Οσο μικρότερη είναι η ϕασματική ακτίνα του επαναληπτικούπίνακα T τόσο ταχύτερα (ασυμπτωτικά) η ακολουθία x(k)∞k=0 συγκλίνει στη λύση του (3.1)”.Στην πράξη το “ασυμπτωτικά” σημαίνει για “μεγάλες” τιμές του k.

Page 78: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

78

Μετά την ανάλυση που προηγήθηκε το συμπέρασμα στο οποίο καταλήγει κανείς σ΄ ό,τι αϕο-ρά την επιλογή του ρυθμιστή πίνακαM στην (3.2) είναι ότι πέρα από τους δύο περιορισμούς πουπρέπει να πληρούνται πρέπει ακόμη οM να επιλέγεται έτσι ώστε αϕενός ρ(T ) ≡ ρ(M−1N) < 1και αϕετέρου η ρ(T ) να είναι όσο το δυνατόν μικρότερη. Οι παρατηρήσεις, που μόλις έγινανσχετικά με την επιλογή του M καθιστούν ίσως ϕανερό ότι αυτή δεν είναι πάντα τόσο εύκο-λη. Στη συνέχεια θα ασχοληθούμε με κλασικές περιπτώσεις επιλογής του M και παραπέραανάπτυξης των αντίστοιχων επαναληπτικών μεθόδων.

3.2 Κλασικές Επαναληπτικές Μέθοδοι

Οι κλασικές επαναληπτικές μέθοδοι βασίζονται στην ακόλουθη διάσπαση του πίνακα τωνσυντελεστών των αγνώστων A

A = D − L− U, (3.12)

όπου D =diag(A), δηλαδή, διαγώνιος πίνακας με διαγώνια στοιχεία τα αντίστοιχα του A, Lαυστηρά κάτω τριγωνικός και U αυστηρά άνω τριγωνικός. Οπως είναι ϕανερό η διάσπαση(3.12) ορίζεται μονοσήμαντα.

3.2.1 Μέθοδος Jacobi

Στη μέθοδο του Jacobi ο ρυθμιστής πίνακας είναι ο M = D. Σ΄ ό,τι αϕορά την ικανοποί-ηση των δυο βασικών περιορισμών που αϕορούν στο ρυθμιστή πίνακα M διαπιστώνουμε ταακόλουθα. Καταρχάς ο M είναι αντιστρέψιμος ανν det(M) = det(D) = a11a22 · · · ann = 0.Επομένως η μέθοδος του Jacobi μπορεί να οριστεί ανν aii = 0, i = 1(1)n. Ακόμη είναιπροϕανές ότι ένα γραμμικό σύστημα με πίνακα συντελεστών αγνώστων M = D της μορϕής(3.6) και δεύτερο μέλος (L + U)x(k) + b είναι πολύ οικονομικότερο σε πράξεις για να λυθεί(απαιτεί πράξεις της τάξης του O(n2)) από ό,τι είναι ένα σύστημα με πίνακα συντελεστώναγνώστων A (απαιτεί O(n3) πράξεις με τη μέθοδο απαλοιϕής Gauss). Αρα ικανοποιείται και οδεύτερος περιορισμός εϕόσον ικανοποιείται ο πρώτος. Σ΄ ό,τι αϕορά τη σύγκλιση της μεθόδουτα πάντα εξαρτιούνται από το αν ρ(T ) = ρ(M−1N) = ρ(D−1(L + U)) < 1, οπότε η μέθοδοςσυγκλίνει αλλιώς δε συγκλίνει. Σε μορϕή πινάκων η μέθοδος του Jacobi είναι η ακόλουθη

x(k+1) = D−1(L+ U)x(k) +D−1b, k = 0, 1, 2, · · · , (3.13)

με x(0) ∈ ICn οποιοδήποτε. Αν θελήσουμε να βρούμε την οποιαδήποτε συνιστώσα του νέουδιανύσματος x(k+1) στην k επανάληψη σα συνάρτηση γνωστών συνιστωσών του παλιού x(k)

ή/και του νέου διανύσματος πολλαπλασιάζουμε τα μέλη της (3.13) από τα αριστερά επί D,οπότε προκύπτει

Dx(k+1) = (L+ U)x(k) + b.

Page 79: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

79

Αν τώρα εκτελέσουμε τις πράξεις και στα δύο μέλη και εξισώσουμε τις i-οστές συνιστώσεςτων διανυσμάτων των δύο μελών και λύσουμε ως προς την i-οστή συνιστώσα x(k+1)

i του x(k+1)

παίρνουμε αμέσως ότι

x(k+1)i = (bi −

n∑j=1, j =i

aijx(k)j )/aii, i = 1(1)n. (3.14)

3.2.2 Μέθοδος Gauss-Seidel

Στην περίπτωση της μεθόδου των Gauss-Seidel και με βάση πάντα τη διάσπαση (3.12) επιλέ-γεται M = D−L. Για να υπάρχει η μέθοδος θα πρέπει να υπάρχει ο αντίστροϕος του D−L,που είναι κάτω τριγωνικός πίνακας. Αρα αυτός είναι αντιστρέψιμος ανν det(D − L) = 0,που ισοδυναμεί με aii = 0, i = 1(1)n, όπως ακριβώς και στη μέθοδο του Jacobi. Ακόμη,ένα σύστημα με πίνακα συντελεστών αγνώστων D − L, λύνεται με προς τα μπρός αντικα-ταστάσεις (κι απαιτεί συνολικά πράξεις πλήθους O(n2)) και επομένως είναι οικονομικότεροστην επίλυσή του από ένα σύστημα με πίνακα συντελεστών A. Ικανοποιείται κι ο δεύτεροςπεριορισμός σ΄ ό,τι αϕορά τον M με την προϋπόθεση ότι ικανοποιείται ο πρώτος. Η μέθοδοςτων Gauss-Seidel είναι επομένως η ακόλουθη

x(k+1) = (D − L)−1Ux(k) + (D − L)−1b, k = 0, 1, 2, · · · , (3.15)

με x(0) ∈ ICn οποιοδήποτε. Για τη σύγκλιση της μεθόδου θα πρέπει ρ((D − L)−1U) < 1. Γιατην εύρεση αναλυτικών εκϕράσεων για τις συνιστώσες του νέου διανύσματος εργαζόμαστεόπως και πριν. Δηλαδή, πολλαπλασιάζουμε από τα αριστερά τα μέλη της (3.15) επί D − L,εκτελούμε τις πράξεις και στα δύο μέλη, εξισώνουμε τις i-οστές συνιστώσες των δύο μελώνκαι τέλος λύνουμε ως προς x(k+1)

i , οπότε έχουμε

x(k+1)i = (bi −

i−1∑j=1

aijx(k+1)j −

n∑j=i+1

aijx(k)j )/aii, i = 1(1)n. (3.16)

3.2.3 Jacobi και Gauss-Seidel Μέθοδοι

Αν παρατηρήσει κανείς προσεκτικά τις μεθόδους των Jacobi και Gauss-Seidel θα δεί ότι έχουνπάρα πολλές ομοιότητες και συγχρόνως κάποιες σημαντικές διαϕορές. Ιδιαίτερα, αυτό μπορείνα ϕανεί, αν η (3.14) γραϕτεί έτσι ώστε το άθροισμα μέσα στην παρένθεση να διασπαστεί σεδύο αθροίσματα

x(k+1)i = (bi −

i−1∑j=1

aijx(k)j −

n∑j=i+1

aijx(k)j )/aii, i = 1(1)n.

Page 80: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

80

Τότε μπορεί να διαπιστωθεί το εξής. Για την εύρεση μιας συνιστώσας x(k+1)i της νέας επανά-

ληψης στη μέθοδο του Jacobi χρησιμοποιούνται όλες οι άλλες συνιστώσες της προηγούμενηςεπανάληψης ενώ στη μέθοδο των Gauss-Seidel χρησιμοποιούνται όλες οι επόμενες συνιστώσεςτης προηγούμενης επανάληψης και όλες οι προηγούμενες συνιστώσες της τρέχουσας επανά-ληψης. Πρακτικά, στην Gauss-Seidel χρησιμοποιούνται όλες οι πιο πρόσϕατες διαθέσιμεςσυνιστώσες. Το τελευταίο στοιχείο ίσως κάνει τη μέθοδο των Gauss-Seidel ελκυστικότερηαπό αυτήν του Jacobi γιατί “ϕαίνεται” να πλεονεκτεί στην περίπτωση σύγκλισης. Αυτό δενείναι πάντοτε αληθές. Υπάρχουν περιπτώσεις όπου η μέθοδος του Jacobi συγκλίνει ενώ ημέθοδος των Gauss-Seidel αποκλίνει! Ακόμη, αν πάψει κανείς να σκέϕτεται σειριακά (ακολου-θιακά), τότε, αν έχουμε στη διάθεσή μας έναν Υπολογιστή με παράλληλη αρχιτεκτονική, στημεν μέθοδο του Jacobi είναι δυνατόν όλες οι συνιστώσες της νέας επανάληψης να βρεθούν σεένα χρονικό βήμα από όλες της προηγούμενης επανάληψης ενώ στη μέθοδο των Gauss-Seidelαυτό δεν είναι δυνατόν. Απ΄ ό,τι μπορεί να διαπιστώσει κανείς από τους τύπους (3.16) για ναβρεθεί η συνιστώσα x(k+1)

2 θα πρέπει να έχει βρεθεί προηγουμένως η συνιστώσα x(k+1)1 , για

να βρεθεί η συνιστώσα x(k+1)3 θα πρέπει να έχουν βρεθεί προηγουμένως οι συνιστώσες x(k+1)

2

και x(k+1)1 κ.ο.κ. Αρα, δεν είναι δυνατόν να βρεθούν όλες οι συνιστώσες της νέας επανάληψης

σε ένα χρονικό βήμα, όπως στην περίπτωση της μεθόδου του Jacobi.

Στη συνέχεια παρουσιάζουμε μια κλασική περίπτωση όπου και οι δύο μέθοδοι συγκλίνουνκαι αϕορούν πίνακες της ειδικής κατηγορίας των αυστηρά διαγώνια υπέρτερων κατά γραμμέςή κατά στήλες. Ακολουθεί η διατύπωση και απόδειξη μιας σειράς προτάσεων μία από τιςοποίες, που είναι πολύ σπουδαιότερης και γενικότερης σημασίας, παρουσιάζεται ως θεώρημακαι δίνεται χωρίς απόδειξη.

Λήμμα 3.2 Εστω ότι ο πίνακας A ∈ ICn,n είναι αυστηρά διαγώνια υπέρτερος κατάγραμμές (|aii| >

∑nj=1, j =i |aij|, i = 1(1)n) (ή κατά στήλες (|ajj| >

∑ni=1, i =j |aij|, j =

1(1)n)). Τότε είναι αντιστρέψιμος.

Απόδειξη: Εστω ότι ο A, που είναι αυστηρά διαγώνια υπέρτερος κατά γραμμές, δεν είναι αντι-στρέψιμος. Τότε υπάρχει x ∈ ICn \ 0 τ.ω. Ax = 0. Εστω i ∈ 1, 2, · · · , n ο δείκτης γιατον οποίο |xi| = ||x||∞. Από την Ax = 0 θα έχουμε για την i-οστή συνιστώσα του Ax ότι

n∑j=1

aijxj = 0 ⇐⇒ aiixi = −n∑

j=1, j =i

aijxj.

Διαιρώντας τα δύο μέλη δια |xi|, παίρνοντας απόλυτες τιμές και εϕαρμόζοντας απλές ιδιότητεςέχουμε ότι

|aii| ≤n∑

j=1, j =i

|aij||xj||xi|

≤n∑

j=1, j =i

|aij|,

Page 81: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

81

αϕού |xi| = ||x||∞ ≥ |xj|, ∀ j = 1(1)n. Αρα ο A δεν μπορεί να είναι αυστηρά διαγώνιαυπέρτερος κατά γραμμές, πράγμα που είναι άτοπο.Αν τώρα ο A είναι αυστηρά διαγώνια υπέρτερος κατά στήλες θεωρούμε τον AT , που είναιαυστηρά διαγώνια υπέρτερος κατά γραμμές, οπότε ισχύει η προηγούμενη απόδειξη. Σημείωση: Τονίζεται ότι το αντιστρέψιμο ενός πίνακα της κατηγορίας που εξετάστηκε

αποδείχνεται και με την απαλοιϕή Gauss, όπως αυτό γίνεται σε Ασκηση του προηγούμενουΚεϕαλαίου.

Θεώρημα 3.2 (Κανονική μορϕή Jordan) Για κάθε πίνακα A ∈ ICn,n υπάρχει αντιστρέ-ψιμος πίνακας S ∈ ICn,n τ.ω. ο S−1AS έχει τη μορϕή

S−1AS = J = diag(J1, J2, · · · , Jp), (3.17)

όπου

Ji =

λi 1 0 · · · 0 00 λi 1 · · · 0 0.......... . .......

0 0 0 · · · λi 10 0 0 · · · 0 λi

∈ ICni,ni , i = 1(1)p,

p∑i=1

ni = n. (3.18)

(Σημείωση: Εκτός από τυχόν μεταθέσεις των διαγώνιων blocks του J, η κανονική μορϕήJordan (3.17)-(3.18) είναι μοναδική.)

Παρατηρήσεις: α) Προϕανώς τα λi στις διαγωνίους των Ji blocks δίνουν τις ιδιοτιμές τουA. β) Είναι δυνατόν οι ίδιες ιδιοτιμές λi να παρουσιάζονται σε περισσότερα από ένα blocks.γ) Το πλήθος των γραμμικά ανεξάρτητων ιδιοδιανυσμάτων του πίνακα A είναι ίσο με p καιμάλιστα κάθε ένα από αυτά συνδέεται με την πρώτη στήλη ενός και μόνον block του J . δ)Ενας πίνακας A ∈ ICn,n έχει n γραμμικά ανεξάρτητα ιδιοδιανύσματα, που είναι οι στήλες τουπίνακα S, ανν ο J είναι διαγώνιος (δηλαδή αν όλα τα blocks είναι 1× 1 πίνακες ή, ισοδύναμα,αν p = n). ε) Αλγεβρική πολλαπλότητα της ιδιοτιμής λ ∈ σ(A) καλείται το συνολικό πλήθοςτων ιδιοτιμών του A (ή του J) που είναι ίσο με λ, ενώ γεωμετρική πολλαπλότητα καλείταιη διάσταση του γραμμικού διανυσματικού χώρου που παράγεται από τα γραμμικά ανεξάρτηταιδιοδιανύσματα του A (είναι το ίδιο με το πλήθος των blocks του J), που συνδέονται με αυτήν.

Με βάση την κανονική μορϕή του Jordan είναι τώρα δυνατόν να δοθεί η απόδειξη τουΘεωρήματος 1.10, το οποίο διατυπώνουμε εδώ για μια ακόμη ϕορά.

Θεώρημα 3.3 ∀ A ∈ ICn,n και ∀ ϵ > 0 υπάρχει ϕυσική norm || · || τ.ω. ||A|| ≤ ρ(A) + ϵ.

Απόδειξη: Για την απόδειξη, ορίζουμε τον πίνακα

J = D−1JD, D = diag(1, ϵ, ϵ2, · · · , ϵn−1), (3.19)

Page 82: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

82

όπου J ο πίνακας που δίνεται στις (3.17)–(3.18). Είναι ϕανερό ότι ο πίνακας (3.19) θα έχειμια ανάλογη μορϕή αυτής της (3.17) με τα blocks του αντίστοιχα αυτών στην (3.18) με τημόνη διαϕορά ότι οι μονάδες των Ji θα έχουν αντικατασταθεί από ϵ στους Ji. Συγκεκριμένα,

Ji =

λi ϵ 0 · · · 0 00 λi ϵ · · · 0 0.......... . .......

0 0 0 · · · λi ϵ0 0 0 · · · 0 λi

∈ ICni,ni , i = 1(1)p.

Επομένως ||Ji||∞ ≤ |λi|+ ϵ, με αυστηρή ανισότητα να ισχύει όταν ο Ji, είναι 1× 1 block, πουσυνεπάγεται ||J ||∞ ≤ ρ(J) + ϵ. Από τους ορισμούς των J και J έχουμε διαδοχικά ότι

J = D−1JD = D−1S−1ASD = (SD)−1A(SD) = T−1AT, (3.20)

όπου τέθηκε T = SD. Προϕανώς ο T θα έχει στήλες τις στήλες του S πολλαπλασιασμένες,αντίστοιχα, επί 1, ϵ, ϵ2, · · ·, ϵn−1.Η απεικόνιση, όμως, || · || := ||T−1 · ||∞ : ICn → IR+,0 είναι εύκολο να αποδειχτεί ότι ορίζειμια διανυσματική norm στο ICn. Εστω ||A|| η ϕυσική norm στο ICn,n που παράγεται από τηδιανυσματική norm που μόλις ορίστηκε. Για τη ϕυσική αυτή norm θα έχουμε διαδοχικά

||A|| = maxx∈ICn, ||x||=1 ||Ax|| = maxx∈ICn, ||T−1x||∞=1 ||T−1Ax||∞= maxT−1x∈ICn, ||T−1x||∞=1 ||T−1AT (T−1x)||∞ = maxT−1x∈ICn, ||T−1x||∞=1 ||J(T−1x)||∞= ||J ||∞ ≤ ρ(A) + ϵ,

που αποδείχνει το θεώρημα.

Ορισμός 3.2 Δυο πίνακες A,B ∈ ICn,n λέγονται όμοιοι ανν υπάρχει αντιστρέψιμος πίνακαςC ∈ ICn,n τέτοιος ώστε

A = CBC−1.

Λήμμα 3.3 Αν A,B ∈ ICn,n είναι όμοιοι πίνακες τότε σ(A) = σ(B).

Απόδειξη: Με βάση τον ορισμό της ομοιότητας μπορεί να προκύψει αμέσως ως πόρισμα τουΘεωρήματος 3.2.

Λήμμα 3.4 Εστω A, B ∈ ICn,n και έστω ότι ο ένας από τους δυο, π.χ. ο A, είναιαντιστρέψιμος. Τότε ισχύει ότι σ(AB) = σ(BA).

Page 83: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

83

Απόδειξη: Μπορεί να γίνει χρήση της ομοιότητας δύο πινάκων. Πραγματικά, τότε ο BA και οA(BA)A−1 = AB είναι όμοιοι και άρα, με βάση το προηγούμενο λήμμα, σ(AB) = σ(BA).Σημείωση: Η ισχύς του προηγούμενου λήμματος μπορεί να δειχτεί και στην περίπτωση

όπου αμϕότεροι οι A και B είναι μή αντιστρέψιμοι πίνακες. Αυτό γίνεται με εϕαρμογή θεωρίαςδιαταράξεων και με βάση το γεγονός ότι οι ιδιοτιμές, που είναι ρίζες ενός πολυωνύμου, είναισυνεχείς συναρτήσεις των στοιχείων του πίνακα, δηλαδή των συντελεστών του αντίστοιχουχαρακτηριστικού πολυωνύμου.

Επανερχόμενοι στις επαναληπτικές μεθόδους Jacobi και Gauss-Seidel μπορούμε να απο-δείξουμε την παρακάτω πρόταση.

Θεώρημα 3.4 Αν A ∈ ICn,n είναι αυστηρά διαγώνια υπέρτερος κατά γραμμές (ή στήλες)τότε οι αντίστοιχες μέθοδοι των Jacobi και Gauss-Seidel συγκλίνουν.

Απόδειξη: Αποδείχνουμε πρώτα την ισχύ της πρότασης για τη μέθοδο του Jacobi και στηνπερίπτωση που ο A είναι αυστηρά διαγώνια υπέρτερος κατά γραμμές. Τότε θα ισχύει

|aii| >n∑

j=1, j =i

|aij|, i = 1(1)n. (3.21)

Από την (3.21) έπεται ότι |aii| > 0 και άρα aii = 0, i = 1(1)n, πράγμα που συνεπάγεταιότι τόσο η μέθοδος του Jacobi όσο και αυτή των Gauss-Seidel ορίζονται. Ο επαναληπτικόςπίνακας του Jacobi TJ = D−1(L+ U) θα δίνεται αναλυτικά από τη

TJ =

0 −a12

a11· · · −a1n

a11

−a21a22

0 · · · −a2na22

......

. . ....

− an1

ann− an2

ann· · · 0

.

Επομένως θα έχουμε

||TJ ||∞ = maxi=1(1)n

n∑j=1, j =i

∣∣ −aijaii

∣∣ = maxi=1(1)n

∑nj=1, j =i |aij|

|aii|< 1,

όπου η τελευταία ανισότητα ισχύει λόγω της (3.21). Αρα η μέθοδος του Jacobi συγκλίνει.Οταν ο A είναι αυστηρά διαγώνιος υπέρτερος κατά στήλες, τότε αντί της (3.21) έχουμε την

|aii| >n∑

j=1,j =i

|aji|, i = 1(1)n. (3.22)

Page 84: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

84

Καταρχάς παρατηρούμε ότι λόγω της (3.22), όπως και στην προηγούμενη περίπτωση, θα είναιaii = 0, i = 1(1)n, και άρα αμϕότερες οι μέθοδοι Jacobi και Gauss-Seidel ορίζονται. Για τημέθοδο του Jacobi έχουμε ότι TJ = D−1(L + U), και επειδή λόγω του Λήμματος 3.4 είναισ(D−1(L+ U)) = σ((L+ U)D−1), για τον πίνακα T ′

J = (L+ U)D−1 θα ισχύει

||T ′J ||1 = max

i=1(1)n

n∑j=1, j =i

∣∣ −ajiaii

∣∣ = maxi=1(1)n

∑nj=1, j =i |aji|

|aii|< 1,

όπου η τελευταία ανισότητα ισχύει λόγω της (3.22). Επομένως θα είναι ρ(TJ) = ρ(T ′J) ≤

||T ′J ||1 < 1 και άρα η μέθοδος του Jacobi συγκλίνει.

Για τη μέθοδο των Gauss-Seidel στην περίπτωση που ο A είναι αυστηρά διαγώνια υπέρτε-ρος κατά γραμμές η μέθοδος της απόδειξης είναι διαϕορετική. Εστω ότι TGS = (D − L)−1Uείναι ο επαναληπτικός πίνακας της μεθόδου για την οποία υποθέτουμε ότι δε συγκλίνει. Τότεθα υπάρχει λ ∈ σ(TGS) τ.ω. |λ| ≥ 1. Για την υπόψη ιδιοτιμή θα έχουμε διαδοχικά

0 = det(TGS − λI) = det((D − L)−1U − λI)⇐⇒ det(U − λ(D − L)) = 0 ⇐⇒ det(D − L− 1

λU) = 0.

(3.23)

Αποδείξαμε έτσι ότι ο πίνακας A(λ) ≡ D − L − 1λU είναι μή αντιστρέψιμος. Για τον A(λ)

όμως έχουμε

n∑j=1, j =i

|aij(λ)| =i−1∑j=1

|aij|+1

|λ|

n∑j=i+1

|aij| ≤n∑

j=1, j =i

|aij| < |aii| = |aii(λ)|,

όπου η τελευταία δεξιά ανισότητα ισχύει λόγω της (3.21). Συνεπώς ο A(λ) είναι αυστηράδιαγώνια υπέρτερος κατά γραμμές και άρα με βάση το Λήμμα 3.2 είναι αντιστρέψιμος. Αυτόόμως αντίκειται στην det(D−L− 1

λU) = 0, που βρέθηκε προηγουμένως. Επομένως η μέθοδος

των Gauss-Seidel συγκλίνει.Στην περίπτωση που ο A είναι αυστηρά διαγώνια υπέρτερος κατά στήλες η αντίστοιχη απόδειξηείναι παρόμοια και παραλείπεται.

3.3 Τεχνική της Παρεκβολής (Extrapolation)

Στην εισαγωγική παράγραϕο του παρόντος κεϕαλαίου περιγράϕτηκε η γενική επαναληπτικήμέθοδος για τη λύση του γραμμικού συστήματος (3.1). Οπως είδαμε, αν ρ(T ) < 1, όπου T οεπαναληπτικός πίνακας της μεθόδου, τότε η μέθοδος συγκλίνει αλλιώς (ρ(T ) ≥ 1) η μέθοδοςαποκλίνει. Υπάρχουν τεχνικές οι οποίες κάτω από ορισμένες προϋποθέσεις είναι δυνατόννα εϕαρμοστούν σε μια συγκλίνουσα μέθοδο και να την κάνουν να συγκλίνει (ασυμπτωτικά)

Page 85: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

85

ταχύτερα ή σε μια αποκλίνουσα μέθοδο και να τη μετατρέψουν, μερικές ϕορές, σε συγκλίνουσα.Μία από τις τεχνικές αυτές είναι και η τεχνική της παρεκβολής (extrapolation).

Υποθέτουμε ότι δίνεται η επαναληπτική μέθοδος (3.5) για την επίλυση του (3.1). Με βάσητη διάσπαση (3.2), από την οποία προήρθε η μέθοδος (3.5), θεωρούμε μια νέα διάσπαση τουA. Συγκεκριμένα την

A = Mω −Nω, Mω :=1

ωM (3.24)

και ω ∈ IC\0 μία παράμετρος που θα καλείται εϕεξής παράμετρος της παρεκβολής (extrapola-tion). Εϕόσον στην αρχική μέθοδο ο ρυθμιστής πίνακας M ικανοποιεί τους δυο βασικούςπεριορισμούς, δηλαδή είναι αντιστρέψιμος και ένα σύστημα με πίνακα συντελεστών αγνώστωνM είναι οικονομικότερο στη λύση του από ένα άλλο με πίνακα συντελεστών αγνώστων A,είναι ϕανερό από τον ορισμό τουMω ότι και ο πίνακας αυτός πληροί αυτούς τους περιορισμούς.Με βάση τη διάσπαση (3.24) το νέο επαναληπτικό σχήμα θα είναι το παρακάτω

x(k+1) = Tωx(k) + cω, k = 0, 1, 2, · · · , (3.25)

με x(0) ∈ ICn οποιοδήποτε, όπου

Tω := M−1ω Nω ≡ (1− ω)I + ωT, cω := ωc. (3.26)

Είναι ϕανερό ότι για ω = 1, Mω ≡ M , Tω ≡ T και cω ≡ c. Με άλλα λόγια το νέο γενικευμέ-νο επαναληπτικό σχήμα, που προτείνεται, περιορίζεται στο αρχικό. Επειδή όμως δεν τέθηκεκανείς περιορισμός στο ω εκτός από το να μην είναι μηδέν συμπεραίνεται ότι ο επαναληπτι-κός αλγόριθμος (3.25) περιγράϕει μία οικογένεια επαναληπτικών αλγόριθμων ένας από τουςοποίους είναι και ο αρχικός.

Είναι εύκολο να διαπιστωθεί ότι οι πίνακες Tω και T έχουν τα ίδια ιδιοδιανύσματα οι δειδιοτιμές τους συνδέονται με τη σχέση

µ = 1− ω + ωλ, λ ∈ σ(T ), µ ∈ σ(Tω).

Π.χ., αν λ ∈ σ(T ) και x είναι το αντίστοιχο ιδιοδιάνυσμα έχουμε

Tωx = ((1− ω)I + ωT )x = (1− ω)x+ ωλx = (1− ω + ωλ)x,

οπότε µ = 1 − ω + ωλ ∈ σ(Tω) με αντίστοιχο ιδιοδιάνυσμα x. Αντίστροϕα, αν µ ∈ σ(Tω)με αντίστοιχο ιδιοδιάνυσμα x, τότε από την (3.26) προκύπτει ότι T = (1− 1

ω)I + 1

ωTω, οπότε

Tx = ((1− 1ω)I+ 1

ωTω)x = (1− 1

ω+ 1

ωµ)x από την οποία συμπεραίνουμε ότι λ = 1− 1

ω+ 1

ωµ ∈

σ(T ) με αντίστοιχο ιδιοδιάνυσμα x. Η τελευταία σχέση των ιδιοτιμών μπορεί να γραϕτεί και ωςµ = 1−ω+ωλ. Αρα για την εύρεση του καλύτερου δυνατού παρεκβαλλόμενου (extrapolated)επαναληπτικού σχήματος είναι ϕανερό ότι θα πρέπει να βρεθεί η τιμή του ω που ελαχιστοποιείτη ρ(Tω) και επομένως να λυθεί το ακόλουθο πρόβλημα βελτιστοποίησης

minω∈IC\0

ρ(Tω) ≡ minω∈IC\0

maxλ∈σ(T )

|1− ω + ωλ|. (3.27)

Page 86: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

86

Το πρόβλημα βελτιστοποίησης που παρουσιάζεται στην (3.27) δεν είναι πάντα τόσο εύκολο ναλυθεί, πέρα από το γεγονός ϕυσικά ότι απαιτείται η γνώση του σ(T ). Γενικά είναι δυσκολότεροκαι πολυπλοκότερο πρόβλημα από αυτό της επίλυσης του αρχικού συστήματος (3.1). Μπορείνα αποδειχτεί ότι αν είναι γνωστό ένα κυρτό πολύγωνο στο κλειστό εσωτερικό του οποίουβρίσκεται το σ(T ), και δεν περιέχει το σημείο (1, 0) του μιγαδικού επιπέδου, τότε το πρόβλημα(3.27) λύνεται και μάλιστα μονοσήμαντα. Μια τέτοια απλή περίπτωση παρουσιάζουμε στησυνέχεια.

Παράδειγμα: Εστω ότι δίνεται το σύστημα (3.1) και για την αριθμητική επίλυσή του θεω-ρείται ο επαναληπτικός αλγόριθμος (3.5). Εστω ακόμη ότι ο επαναληπτικός πίνακας T έχειπραγματικές ιδιοτιμές λi i = 1(1)n, διατεταγμένες ως εξής

λ1 ≤ λ2 ≤ · · · ≤ λn.

Για την επίλυση του δοθέντος συστήματος, μαζί με τον επαναληπτικό αλγόριθμο (3.5), θεω-ρούμε και τον αντίστοιχο παρεκβαλλόμενο

x(k+1) = [(1− ω)I + ωT ]x(k) + ωb, k = 0, 1, 2, . . . , (3.28)

με x(0) ∈ ICn οποιοδήποτε, όπου ω ∈ IR\0 η παράμετρος της παρεκβολής. Ζητείται ναβρεθούν: α) Οι συνθήκες τις οποίες πρέπει να ικανοποιούν οι ιδιοτιμές του επαναληπτικούπίνακα T ώστε ο αρχικός αλγόριθμος (3.5) να συγκλίνει. β) Ολες οι τιμές της παραμέτρουπαρεκβολής ω ώστε ο παρεκβαλλόμενος αλγόριθμος (3.28) να συγκλίνει. και γ) Η βέλτιστητιμή της παραμέτρου παρεκβολής καθώς και αυτή της βέλτιστης ϕασματικής ακτίνας του επα-ναληπτικού πίνακα του παρεκβαλλόμενου αλγόριθμου.α) Για να συγκλίνει ο αρχικός αλγόριθμος θα πρέπει η ϕασματική ακτίνα του επαναλητικούπίνακα να ικανοποιεί τη συνθήκη ρ(T ) < 1. Επειδή η διάταξη των ιδιοτιμών του T δίνεταιθα έχουμε προϕανώς ρ(T ) = max|λ1|, |λn| < 1, κι αυτό γιατί τα πρόσημα των ακραίωνιδιοτιμών δεν είναι γνωστά. Στην οποιαδήποτε περίπτωση, και λόγω της διάταξης των (πραγ-ματικών) ιδιοτιμών, η αναγκαία και ικανή συνθήκη για την επιζητούμενη σύγκλιση θα είναι−1 < λ1 ≤ λn < 1.β) Οπως είναι γνωστό, οι ιδιοτιμές του επαναληπτικού πίνακα Tω = (1−ω)I+ωT , του παρεκ-βαλλόμενου επαναληπτικού αλγόριθμου (3.28), δίνονται από τις εκϕράσεις 1 − ω + ωλi, i =1(1)n. Αρα για τη σύγκλιση του παρεκβαλλόμενου αλγόριθμου θα πρέπει να ισχύει

|1− ω + ωλi| = |1− ω(1− λi)| < 1, i = 1(1)n. (3.29)

Παρατηρούμε ότι η διάταξη των ιδιοτιμών 1− ω + ωλi, i = 1(1)n, εξαρτιέται από το πρόσημοτου ω. Στη συνέχεια θα εξετάσουμε μόνο την περίπτωση του ω > 0, τα δε αντίστοιχααποτελέσματα της περίπτωσης ω < 0 θα δοθούν κατευθείαν χωρίς τη σχετική ανάλυση πουακολουθεί τα ίδια βήματα με αυτήν της ω > 0. Για ω > 0 και λόγω της διάταξης τωνλi, i = 1(1)n, θα έχουμε

1− ω(1− λ1) ≤ 1− ω(1− λ2) ≤ · · · ≤ 1− ω(1− λn).

Page 87: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

87

Συνεπώς για τη σύγκλιση του αλγόριθμου (3.28) θα πρέπει να ισχύει

−1 < 1− ω(1− λ1) ≤ 1− ω(1− λn) < 1, (3.30)

οι οποίες δίνουν, ισοδύναμα,

λn < 1, ω <2

1− λ1

, (3.31)

η δεξιά και η αριστερή σχέση, αντίστοιχα. Αρα για λn < 1 έχουμε την επιζητούμενη σύγ-

κλιση για κάθε ω ∈(0, 2

1−λ1

). (Σημειώσεις: 1) Για ω < 0 μπορεί να βρεθεί ότι η σύγκλιση

πετυχαίνεται, εϕόσον λ1 > 1 για κάθε ω ∈(

21−λn

, 0). 2) Οπως καθίσταται ϕανερό αν ισχύει

λ1 ≤ 1 ≤ λn δεν είναι δυνατόν να υπάρξει συγκλίνων παρεκβαλλόμενος επαναληπτικός αλγό-ριθμος.) Η ϕασματική ακτίνα του επαναληπτικού πίνακα Tω του παρεκβαλλόμενου αλγόριθμουθα δίνεται από τη

ρ(Tω) = max|1− ω(1− λ1)|, |1− ω(1− λn)| (3.32)

Για την εύρεση της μεγαλύτερης από τις δυο ποσότητες στην παραπάνω έκϕραση του maxi-mum σχηματίζουμε τη διαϕορά

|1− ω(1− λ1)|2 − |1− ω(1− λn)|2 = (2− ω(2− (λn + λ1)))ω(λ1 − λn).

Αν εξαιρέσουμε την τετριμμένη περίπτωση όπου λn = λ1, οπότε οι δυο ακραίες τιμές στοmaximum είναι ίσες και εξετάζεται εύκολα, τότε έχουμε

sign (|1− ω(1− λ1)| − |1− ω(1− λn)|) = sign (ω(2− (λn + λ1))− 2) . (3.33)

Από τις σχέσεις (3.30) προκύπτει ότι λn+λ1 < 2 και άρα για να αποϕανθούμε για το πρόσημοτης δεξιά έκϕρασης της (3.33) θα πρέπει να εξεταστεί η θέση του ω σε σχέση με το κλάσμα

22−(λn+λ1)

. Ετσι έχουμε για ω ≤ 22−(λn+λ1)

το πρόσημο της προαναϕερθείσας έκϕρασης είναι

το ≤ 0 ενώ για ω ≥ 22−(λn+λ1)

το πρόσημο είναι ≥ 0. Στην πρώτη περίπτωση έχουμε από την(3.32), και λόγω των (3.31), ότι

ρ(Tω) = |1− ω(1− λn)| = 1− ω(1− λn).

Η τελευταία έκϕραση είναι ϕθίνουσα συνάρτηση του ω και άρα το ελάχιστο της ϕασματι-

κής ακτίνας ρ(Tω) στο διάστημα ω ∈(0, 2

2−(λn+λ1)

)πετυχαίνεται για ω = 2

2−(λn+λ1). Η

αντίστοιχη ανάλυση για ω ≥ 22−(λn+λ1)

οδηγεί στο ότι η ρ(Tω) είναι αύξουσα στο διάστημα

ω ∈(

22−(λn+λ1)

, 11−λ1

). Αρα για τις ζητούμενες βέλτιστες τιμές έχουμε τελικά ότι

ω∗ =2

2− (λn + λ1), ρ(Tω∗) =

λn − λ1

2− (λn + λ1). (3.34)

Page 88: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

88

Σημειώσεις: 1) Για ω < 0 με ανάλογη ανάλυση καταλήγουμε στα ακόλουθα τελικά αποτελέ-σματα

ω∗ =2

2− (λn + λ1), ρ(Tω∗) =

λn − λ1

(λn + λ1)− 2. (3.35)

2) Αρα και για τις δυο περιπτώσεις, όπου λn < 1 και ω > 0 ή λ1 > 1 και ω < 0, έχουμεβέλτιστα αποτελέσματα τα παρακάτω

ω∗ =2

2− (λn + λ1), ρ(Tω∗) =

λn − λ1

|2− (λn + λ1)|. (3.36)

3) Τέλος, σημειώνουμε ότι και η τετριμμένη περίπτωση λ1 = λn = 1 μπορεί να συμπεριληϕτείστις δυο παραπάνω και άρα οι γενικοί τύποι για τα βέλτιστα στοιχεία του παρεκβαλλόμενουαλγόριθμου (3.28) δίνονται από αυτά των (3.36).

Η τεχνική της extrapolation μπορεί να εϕαρμοστεί σε κάθε επαναληπτική μέθοδο τηςγενικής μορϕής (3.5), που περιγράψαμε. Ετσι μπορεί να εϕαρμοστεί τόσο στη μέθοδο Jacobiόσο και στη μέθοδο Gauss-Seidel. Για την extrapolated Jacobi θα έχουμε σε μορϕή πινάκων

x(k+1) = [(1− ω)I + ωD−1(L+ U)]x(k) + ωD−1b = D−1(D − ωA)x(k) + ωD−1b,k = 0, 1, 2, · · · ,

με x(0) ∈ ICn οποιοδήποτε. Απ΄ αυτήν, αν εργαστούμε όπως στην περίπτωση της απλήςμεθόδου Jacobi, μπορούμε να πάρουμε για την i-οστή συνιστώσα της νέας επανάληψης x(k+1)

την έκϕραση

x(k+1)i = (1− ω)x

(k)i + ω

(bi −

n∑j=1, j =i

aijx(k)j

)/aii, i = 1(1)n. (3.37)

Για την extrapolated Gauss-Seidel τα αντίστοιχα συμπεράσματα παρατίθενται χωρίς απόδειξη

x(k+1) = [(1− ω)I + ω(D − L)−1U ] x(k) + ω(D − L)−1b= (D − L)−1[(D − L)− ωA]x(k) + ω(D − L)−1b,k = 0, 1, 2, · · · ,

με x(0) ∈ ICn οποιοδήποτε και

x(k+1)i = (1− ω)x

(k)i + ω

(bi −

n∑j=1, j =i

aijx(k)j

)/aii +

i−1∑j=1

aij(x(k)j − x

(k+1)j )/aii, i = 1(1)n.

(3.38)

Page 89: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

89

ΑΣΚΗΣΕΙΣ

1.: Δίνεται το γραμμικό σύστημα Ax = b, A ∈ IRn,n, det(A) = 0, b ∈ IRn. Για τη λύσητου συστήματος θεωρείται η διάσπαση A = M −N , και προτείνεται ο αλγόριθμος

Mx(k+1) = Nx(k) + b, k = 0, 1, 2, . . . ,

x(0) ∈ IRn οποιοδήποτε. Να δειχτεί ότι αν ||A−1N || < 12, για κάποια ϕυσική norm, ο

αλγόριθμος που προτείνεται συγκλίνει στη λύση του δοθέντος συστήματος.

2.: Δίνεται ότι A ∈ ICn,n. Να δειχτεί ότι αν ρ(A) < 1, τότε:α) ο I−A είναι αντιστρέψιμος και η σειρά

∑ki=0A

i συγκλίνει καθώς k → ∞. (Υπόδειξη:Να χρησιμοποιηθεί η ταυτότητα

(I − A)(I + A+ A2 + · · ·+ Ak−1

)≡ I − Ak.)

β)

(I − A)−1 =∞∑i=0

Ai.

3.: Δίνεται το γραμμικό σύστημα Ax = b, όπου ο πίνακας A είναι ο A =

1 2 −21 1 1

−1 −1 2

.

Τι μπορεί να λεχτεί για τη σύγκλιση των αντίστοιχων μεθόδων Jacobi και Gauss-Seidelγια την επίλυση του συστήματος που δόθηκε;

4.: Να εξεταστεί αν συγκλίνουν οι μέθοδοι Jacobi και Gauss-Seidel, που συνδέονται με τογραμμικό σύστημα 2 −1 0

−1 2 −10 −1 2

x1

x2

x3

=

3−55

,

και να εκτελεστούν δύο επαναλήψεις κάθε μιας με αρχικό διάνυσμα x(0) = [1 1 1]T καιδιατηρώντας κλάσματα στους υπολογισμούς.

5.: Δίνεται ο πίνακας A =

1 α αα 1 0α 0 1

. Να βρεθούν όλες οι δυνατές τιμές του α ∈ IR

ώστε:α) Η αντίστοιχη μέθοδος Jacobi να συγκλίνει. καιβ) Η μέθοδος Gauss-Seidel να συγκλίνει.

Page 90: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

90

6.: Να βρεθούν όλες οι δυνατές τιμές του α ∈ IR ώστε η επαναληπτική μέθοδος Jacobi,

που συνδέεται με τον πίνακα A =

1 α αα 1 αα α 1

, να συγκλίνει.7.: α) Να αποδειχτεί ότι ο επαναληπτικός πίνακας των Gauss-Seidel έχει τουλάχιστον μιαιδιοτιμή ίση με μηδέν. καιβ) Να αποδειχτεί ότι αν ο επαναληπτικός πίνακας των Gauss-Seidel έχει μια ιδιοτιμή ίσημε τη μονάδα, τότε ο αρχικός πίνακας A του συστήματος είναι μη αντιστρέψιμος.

8.: Αν στο επαναληπτικό σχήμα x(m+1) = Tx(m) + c, όπου T ∈ ICn,n, c ∈ ICn και x(0) ∈ICn οποιοδήποτε, ισχύει ρ(T ) = 0, να αποδειχτεί ότι η λύση του συστήματος (I −T )x = c μπορεί να βρεθεί ακριβώς! Ποιος είναι ο μικρότερος αριθμός επαναλήψεωνπου απαιτείται ώστε να είναι βέβαιο ότι έχει βρεθεί η ακριβής λύση του συστήματος;(Υπόδειξη: Να χρησιμοποιηθεί η κανονική μορϕή Jordan του T .)

9.: Για την επίλυση του γραμμικού συστήματος Ax = b, με A ∈ ICn,n, det(A) = 0, b ∈ ICn,προτείνεται η επαναληπτική μέθοδος

x(k+1) = (I − A)x(k) + b, k = 0, 1, 2, . . . , (3.39)

x(0) ∈ ICn οποιοδήποτε, καθώς και η ακόλουθη

x(k+1) = (I − ωA)x(k) + ωb, k = 0, 1, 2, . . . , (3.40)

x(0) ∈ ICn οποιοδήποτε. Δίνεται, επιπλέον, ότι ο πίνακας A έχει μόνο δύο διακριτέςιδιοτιμές τις: ι) −10, −5, ιι) −5, 5, και ιιι) 5, 10.α) Να αποδειχτεί ότι η μέθοδος (3.39) αποκλίνει και στις τρεις περιπτώσεις. καιβ) Να βρεθούν όλες οι πραγματικές τιμές του ω σε κάθε μία περίπτωση, αν υπάρχουν,ώστε η αντίστοιχη μέθοδος (3.40) να συγκλίνει.

10.: Να αποδειχτούν οι τύποι των μεθόδων της Extrapolated Jacobi (3.37) και της Extra-polated Gauss-Seidel (3.38), αντίστοιχα.

11.: Δίνεται το γραμμικό σύστημα Ax = b, όπου A =

[1 4

−4 1

].

α) Να αποδειχτεί ότι η μέθοδος Jacobi αποκλίνει.β) Να βρεθούν όλες οι δυνατές τιμές ω ∈ IR ώστε η παρεκβαλλόμενη μέθοδος Jacobiνα συγκλίνει. καιγ) Να βρεθεί η βέλτιστη παράμετρος παρεκβολής ω.

Page 91: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

91

12.: Για τη λύση του συστήματος Ax = b με A =

[1 2

−1 2

]προτείνονται οι μέθοδοι

Jacobi, Gauss-Seidel και η παρεκβαλλόμενη μέθοδος Gauss-Seidel.α) Να βρεθεί αν οι μέθοδοι Jacobi και Gauss-Seidel συγκλίνουν. καιβ) Να βρεθούν όλες οι τιμές της παραμέτρου παρεκβολής ω ∈ IR για τις οποίες ηπαρεκβαλλόμενη μέθοδος Gauss-Seidel συγκλίνει.

13.: Δίνεται το γραμμικό σύστημα Ax = b με A =

2 1 0 01 2 0 00 0 4 10 0 1 4

.α) Να εξεταστούν ως προς τη σύγκλιση οι μέθοδοι Jacobi και Gauss-Seidel .β) Να βρεθούν όλες οι τιμές της παραμέτρου ω ∈ IR για τις οποίες η παρεκβαλλόμενηGauss-Seidel συγκλίνει. καιγ) Να βρεθεί η βέλτιστη τιμή της παραμέτρου ω.

14.: Δίνεται το γραμμικό σύστημα Ax = b με A =

1 −1 0−1 2 −20 −2 −2

.α) Να εξεταστούν ως προς τη σύγκλιση οι μέθοδοι Jacobi και Gauss-Seidel.β) Να βρεθούν όλες οι τιμές της παραμέτρου ω ∈ IR για τις οποίες η ΠαρεκβαλλόμενηGauss-Seidel συγκλίνει. καιγ) Να βρεθεί η βέλτιστη τιμή της παραμέτρου ω.

15.: Δίνεται το γραμμικό σύστημα Ax = b με A =

1 −2 2−1 1 −1−2 −2 1

και b =

1−1−3

.α) Να εξεταστούν ως προς τη σύγκλιση οι μέθοδοι Jacobi και Gauss-Seidel.β) Να γίνουν τέσσερις επαναλήψεις με τη μέθοδο που συγκλίνει. καιγ) Τι μπορεί να παρατηρηθεί σε ό,τι αϕορά την ακρίβεια του αποτελέσματος;

16.: Για την επίλυση του γραμμικού συστήματος (I −T )x = c, T ∈ ICn,n, c ∈ ICn, θεωρείταιο αλγόριθμος x(k+1) = Tx(k) + c, k = 0, 1, 2, . . . , x(0) ∈ ICn οποιοδήποτε, καθώς καιο αντίστοιχος παρεκβαλλόμενος (extrapolated) αλγόριθμος με παράμετρο παρεκβολής(extrapolation) ω ∈ IR\0. Αν οι ιδιοτιμές του T είναι µj = iαj, με αj ∈ [−ρ, ρ], j =1(1)n, να βρεθούν, με βάση τα δεδομένα του προβλήματος, οι “καλύτερες” δυνατές τιμέςτου ω και της ρ(Tω) (ϕασματική ακτίνα του επαναληπτικού πίνακα του extrapolatedαλγόριθμου).

Page 92: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

92

17.: Για την επίλυση του γραμμικού συστήματος (I−T )x = c, T ∈ ICn,n, c ∈ ICn, προτείνεταιτο επαναληπτικό σχήμα

x(k+1) = Tx(k) + c, k = 0, 1, 2, . . . , (3.41)

x(0) ∈ ICn οποιοδήποτε. Εστω

x(k+1) = [(1− ω1)I + ω1T ]x(k) + ω1c, k = 0, 1, 2, . . . , (3.42)

x(0) ∈ ICn οποιοδήποτε, το παρεκβαλλόμενο σχήμα του (3.41) με παράμετρο παρεκβολήςω1. Να δοθεί το παρεκβαλλόμενο σχήμα του (3.42) με παράμετρο παρεκβολής ω2 και νααποδειχτεί ότι το νέο σχήμα είναι ένα παρεκβαλλόμενο σχήμα του (3.41) με παράμετροπαρεκβολής ω = ω1ω2.

18.: Δίνεται η επαναληπτική μέθοδος x(k+1) = Tx(k) + c, k = 0, 1, 2, . . . , T ∈ ICn,n, c ∈ ICn,x(0) ∈ ICn δοσμένο, για την επίλυση του συστήματος (I − T )x = c. Εστω ότι οι μόνεςδιακριτές ιδιοτιμές του T είναι οι αριθμοί 0 και −2.α) Τι μπορεί να λεχτεί για τη σύγκλιση του δοθέντος επαναληπτικού σχήματος;β) Να κατασκευαστεί το παρεκβαλλόμενο σχήμα του δοθέντος.γ) Να βρεθούν οι τιμές της παραμέτρου παρεκβολής ω ∈ IR ώστε το παρεκβαλλόμενοσχήμα να συγκλίνει. καιδ) Να βρεθεί η βέλτιστη τιμή της παραμέτρου ω και η αντίστοιχη της ϕασματικής ακτίναςτου επαναληπτικού πίνακα του παρεκβαλλόμενου σχήματος.

3.4 Μέθοδος της Διαδοχικής Υπερχαλάρωσης (SOR)

Η μέθοδος της Διαδοχικής Υπερχαλάρωσης, γνωστή διεθνώς ως SOR, από τα αρχικά τηςαγγλικής ορολογίας Successive Over-Relaxation, αποτελεί μια μονοπαραμετρική γενίκευσητης μεθόδου Gauss-Seidel. Συγκεκριμένα, θεωρώντας τη διάσπαση (3.12) με det(D) = 0ορίζουμε το ρυθμιστή πίνακα ως

Mω =1

ω(D − ωL), ω ∈ IC \ 0, (3.43)

όπου η παράμετρος ω καλείται παράμετρος της υπερχαλάρωσης (ή overrelaxation παράμετροςή SOR παράμετρος), οπότε είναι εύκολο να βρεθεί ότι η SOR μέθοδος είναι η ακόλουθη

x(k+1) = Lωx(k) + cω, k = 0, 1, 2, · · · ,

με x(0) ∈ ICn οποιοδήποτε, όπου

Lω = (D − ωL)−1[(1− ω)D + ωU ], cω = ω(D − ωL)−1b. (3.44)

Page 93: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

93

Οπως είναι ϕανερό από την (3.43), για ω = 1 η SOR μέθοδος δίνει αυτήν των Gauss-Seidel.Θα πρέπει όμως να τονιστεί ότι η SOR είναι διαϕορετική από την extrapolated Gauss-Seidelμέθοδο και δε θα πρέπει να συγχέεται με την τελευταία. Αυτό μπορεί να διαπιστωθεί αμέ-σως αν θεωρήσουμε τις αντίστοιχες εκϕράσεις των δύο ρυθμιστών, έστω με διαϕορετικούςσυμβολισμούς των αντίστοιχων παραμέτρων, και τους εξισώσουμε. Π.χ., αν 1

ω1(D−ω1L) και

1ω2(D − L) είναι οι ρυθμιστές των SOR και extrapolated Gauss-Seidel μεθόδων, αντίστοιχα,η εξίσωσή τους δίνει αμέσως ότι ω1 = ω2 και (ω2 − 1)L = 0. Οπότε προκύπτει ω1 = ω2 = 1,δηλαδή η περίπτωση της Gauss-Seidel μεθόδου, ή ω1 = ω2 και L = 0, δηλαδή ίδια παράμετροςκαι στις δύο μεθόδους στην τετριμμένη περίπτωση πίνακα A που είναι άνω τριγωνικός.

Η αναλυτική εύρεση της οποιασδήποτε συνιστώσας του διανύσματος x(k+1), μπορεί ναεπιτευχτεί, με εργασία ανάλογη αυτών στις προηγούμενες κλασικές μεθόδους, ότι δίνεται απότην έκϕραση

x(k+1)i = (1− ω)x

(k)i + ω

(bi −

i−1∑j=1

aijx(k+1)j −

n∑j=i+1

aijx(k)j

)/aii, i = 1(1)n. (3.45)

Μπορούμε να παρατηρήσουμε ότι η οποιαδήποτε συνιστώσα της νέας επανάληψης δίνεται σαβαρυκεντρικός μέσος όρος της ίδιας συνιστώσας της προηγούμενης επανάληψης και της συν-ιστώσας που θα βρίσκαμε αν εϕαρμόζαμε για την εύρεση της αντίστοιχης συνιστώσας τημέθοδο των Gauss-Seidel.

Για τη σύγκλιση της SOR μεθόδου είναι δυνατόν να βρεθεί μία αναγκαία συνθήκη η οποίαείναι ανεξάρτητη των ιδιοτήτων του πίνακα A. Αυτή δίνεται στο παρακάτω θεώρημα.

Θεώρημα 3.5 (Kahan) Αναγκαία συνθήκη για τη σύγκλιση της SOR μεθόδου είναιη

|ω − 1| < 1, ω ∈ IC η ω ∈ (0, 2), ω ∈ IR.

Απόδειξη: Αν λi ∈ σ(Lω), i = 1(1)n, είναι οι n ιδιοτιμές του επαναληπτικού πίνακα τηςSOR θα ισχύει με βάση γνωστή σχέση από τη Γραμμική Αλγεβρα ότι

∏ni=1 λi = det(Lω).

Αντικαθιστώντας την έκϕραση της Lω από την (3.44) μπορούμε να βρούμε αμέσως ότι∏ni=1 λi = det ((D − ωL)−1[(1− ω)D + ωU ]) = det((D − ωL)−1) det ((1− ω)D + ωU)

= 1det(D)

(1− ω)n det(D) = (1− ω)n.

(3.46)Επειδή είναι |

∏ni=1 λi| =

∏ni=1 |λi| και για τη σύγκλιση της SOR μεθόδου πρέπει να ισχύει

|λi| < 1, i = 1(1)n, προκύπτει αμέσως ότι η∏n

i=1 |λi| < 1 αποτελεί μια αναγκαία συνθήκηγια τη σύγκλιση. Χρησιμοποιώντας την (3.46) στην αναγκαία συνθήκη, που μόλις βρέθηκε,παίρνουμε το πρώτο συμπέρασμα του θεωρήματος. Το δεύτερο συμπέρασμα έπεται αμέσωςαπό το πρώτο αν ω ∈ IR.

Page 94: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

94

Υπάρχουν πίνακες A για τους οποίους η αναγκαία συνθήκη, ιδιαίτερα η ω ∈ (0, 2), γιαω ∈ IR, είναι συγχρόνως και ικανή. Μια τέτοια κατηγορία πινάκων είναι αυτή των Ερμιτιανώνκαι θετικά ορισμένων. Συγκεκριμένα έχουμε το παρακάτω θεώρημα.

Θεώρημα 3.6 (Reich-Ostrowski-Varga) Εστω ότι ο A ∈ ICn,n είναι Ερμιτιανός και θετικάορισμένος πίνακας. Τότε για ω ∈ IR, η συνθήκη ω ∈ (0, 2) είναι αναγκαία και ικανή γιατη σύγκλιση της SOR μεθόδου.

Απόδειξη: Το γεγονός ότι η συνθήκη είναι αναγκαία προκύπτει από το προηγούμενο Θεώρηματου Kahan. Για την απόδειξη ότι είναι και ικανή προχωρούμε ως εξής. Θεωρούμε τη διάσπαση(3.12) και έστω ότι λ ∈ σ(Lω) με x ∈ ICn \ 0 το αντίστοιχο ιδιοδιάνυσμα. Από την (3.44)θα έχουμε ότι (D − ωL)−1[(1− ω)D + ωU ]x = λx ή ισοδύναμα

[(1− ω)D + ωU ]x = λ(D − ωL)x. (3.47)

Από την υπόθεση AH = A προκύπτει ότι DH = D ∈ IRn,n και μάλιστα aii > 0, i = 1(1)n,αϕού ο A είναι θετικά ορισμένος. Ακόμη είναι LH = U και ϕυσικά UH = L. Με βάση την(3.47) σχηματίζουμε τα Ευκλείδεια εσωτερικά γινόμενα(

x, [(1− ω)D + ωLH ]x)2= (x, λ(D − ωL)x)2 . (3.48)

Εκτελώντας πράξεις στην (3.48), θέτοντας a = (x,Ax)2 (> 0), d = (x,Dx)2 (=∑n

i=1 aii|xi|2 >0), l = (x, Lx)2 και l = (x, Lx)2 = (x, LHx)2, έχουμε ότι

(1− ω)d+ ωl = λ(d− ωl). (3.49)

Θεωρώντας τα τετράγωνα των μέτρων των μελών της (3.49) μπορούμε να πάρουμε

(1− ω)2d2 + (1− ω)ωd(l + l) + ω2|l|2 = |λ|2(d2 − ωd(l + l) + ω2|l|2

). (3.50)

Παρατηρώντας ότι l + l =(x, (L+ LH)x

)2= (x, (D − A)x)2 = d− a η (3.50) γράϕεται

(1− ω)2d2 + (1− ω)ωd(d− a) + ω2|l|2 = |λ|2(d2 − ωd(d− a) + ω2|l|2

)ή ισοδύναμα

(1− ω)d2 − (1− ω)ωda+ ω2|l|2 = |λ|2((1− ω)d2 + ωda+ ω2|l|2

). (3.51)

Ο δεύτερος παράγοντας του δεύτερου μέλους της (3.51) είναι η έκϕραση |(x, (D − ωL)x)2|2

= |d − ωl|2 δοσμένη αναλυτικά. Αυτή είναι πάντα θετική. Γιατί αν d − ωl = 0, τότε και(1 − ω)d + ωl = 0 από την (3.49), οπότε αϕαιρώντας τη δεύτερη ισότητα από την πρώτη

Page 95: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

95

μπορεί να προκύψει ότι ωa = 0, πράγμα που είναι άτοπο αϕού ω = 0 και a > 0. Λύνονταςτελικά ως προς |λ|2, μπορούμε να πάρουμε

|λ|2 = 1− ω(2− ω)da

(1− ω)d2 + ωda+ ω2|l|2< 1. (3.52)

Η δεξιά ανισότητα ισχύει από την υπόθεση ότι ω ∈ (0, 2), πράγμα που αποδείχνει την πρότασήμας. Σημείωση: Είναι αξιοσημείωτο ότι η (3.52) πέρα από το ικανό της δοθείσας συνθήκης αποδεί-χνει συγχρόνως και το αναγκαίο.

Πόρισμα 3.3 (Reich) Κάτω από τις προϋποθέσεις του θεωρήματος η μέθοδος τωνGauss-Seidel συγκλίνει.

Πίνακες για τους οποίους προκύπτουν παραπέρα ιδιότητες για την SOR μέθοδο ανήκουνσε πολλές κατηγορίες. Μία από αυτές, η οποία μας επιτρέπει κάτω από ορισμένες προϋπο-θέσεις να βρίσκουμε την ταχύτερα συγκλίνουσα SOR μέθοδο, είναι και αυτή που δίνουμε καιεξετάζουμε στη συνέχεια.

Ορισμός 3.3 Ενας μή διαγώνιος πίνακας A ∈ ICn,n, με aii = 0, i = 1(1)n, καλείται δικυ-κλικός ανν υπάρχει μεταθετικός πίνακας P τ.ω.

PAP T =

[D1 BC D2

], (3.53)

όπου D1 και D2 διαγώνιοι πίνακες, όχι απαραίτητα ίδιων διαστάσεων.

Σημείωση: Η ιδιότητα της ορισθείσας δικυκλικότητας είναι γνωστή και ως “ιδιότητα A τουYoung”.

Πίνακες δικυκλικοί που απαντιούνται στην πράξη είναι, μεταξύ άλλων, αυτοί που είναι ήδηστη μορϕή (3.53) καθώς και οι τριδιαγώνιοι με μή μηδενικά διαγώνια στοιχεία. Το γεγονόςότι οι τελευταίοι πίνακες μπορούν να τεθούν στη μορϕή (3.53) αποδείχνεται εύκολα αρκεί ναθεωρήσουμε ως P τον πίνακα με P T = [e1 e3 e5 · · · e2 e4 · · ·].

Ορισμός 3.4 Εστω A ∈ ICn,n δικυκλικός. Θεωρώντας τη διάσπαση (3.12), ο A θα καλείταισυνεπώς διατεταγμένος ανν

σ

(D−1(αL+

1

αU)

)≡ σ

(D−1(L+ U)

), ∀ α ∈ IC \ 0. (3.54)

Page 96: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

96

Σημείωση: Η σχέση (3.54), που αναϕέρεται στο δοθέντα ορισμό, μπορεί να διατυπωθεί καιμε άλλους τρόπους. Π.χ. “Το ϕάσμα των ιδιοτιμών του πίνακα D−1(αL+ 1

αU) ταυτίζεται με

το ϕάσμα των ιδιοτιμών του επαναληπτικού πίνακα του Jacobi, που αντιστοιχεί στον A” ή,ακόμη, “Οι ιδιοτιμές του πίνακα D−1(αL+ 1

αU) είναι ανεξάρτητες του α”.

Μεταξύ των πινάκων που ικανοποιούν τον ορισμό και απαντιούνται συχνά στην πράξη είναιοι τριδιαγώνιοι με μή μηδενικά διαγώνια στοιχεία καθώς και οι πίνακες που έχουν τη μορϕήτου δεύτερου μέλους της (3.53). Η απόδειξη, ότι οι πίνακες που αναϕέρθηκαν, και που είναιήδη δικυκλικοί, είναι και συνεπώς διατεταγμένοι, στηρίζεται στον ορισμό και έχει ως εξήςστην περίπτωση των τριδιαγώνιων πινάκων. Εστω ότι

A =

a11 a12a21 a22 a23

. . . . . . . . .an−1,n−2 an−1,n−1 an−1,n

an,n−1 ann

είναι ο τριδιαγώνιος πίνακας. Θεωρούμε το διαγώνιο πίνακα

E = diag

(1,

1

α,1

α2, · · · , 1

αn−1

)και σχηματίζουμε τον όμοιο προς τον A πίνακα EAE−1. Για τον πίνακα A, που πρέπει ναθεωρήσουμε στον ορισμό (3.54), έχουμε

σ

(D−1(αL+

1

αU)

)≡ σ

(ED−1(αL+

1

αU)E−1

). (3.55)

Ο πίνακας του δεξιά ϕάσματος στην παραπάνω ισοδυναμία, έστω B, είναι τριδιαγώνιος μεστοιχεία της i-οστής γραμμής τα εξής:

bi,i−1 = 1αi−1

(α(−ai,i−1

aii))αi−2 = −ai,i−1

aii,

bii = 0,

bi,i+1 = 1αi−1

(1α(−ai,i+1

aii))αi = −ai,i+1

aii.

Τα στοιχεία όμως που μόλις βρέθηκαν δεν είναι παρά τα στοιχεία του επαναληπτικού πίνα-κα του Jacobi που αντιστοιχεί στον πίνακα A, όπως μπορεί αμέσως να επαληθευτεί. Αρασ(D−1(αL+ 1

αU))≡ σ (D−1(L+ U)) και ο A είναι δικυκλικός και συνεπώς διατεταγμένος.

Η αντίστοιχη απόδειξη για τον πίνακα (3.53) είναι απλούστερη και παραλείπεται.

Με βάση τον ορισμό του δικυκλικού και συνεπώς διατεταγμένου πίνακα είμαστε σε θέσηνα αποδείξουμε την εξής απλή πρόταση.

Page 97: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

97

Λήμμα 3.5 Εστω ότι ο πίνακας A ∈ ICn,n είναι δικυκλικός και συνεπώς διατεταγμένος.Τότε οι διάϕορες από το μηδέν ιδιοτιμές του επαναληπτικού πίνακα του Jacobi, πουαντιστοιχεί στον A, εμϕανίζονται σε αντίθετα ζεύγη.

Απόδειξη: Εστω µ ∈ σ (D−1(L+ U)) \ 0. Από την ιδιότητα του A έχουμε αμέσως τιςπαρακάτω ισοδυναμίες

µ ∈ σ (D−1(L+ U)) \ 0 ⇐⇒ µ ∈ σ(D−1(αL+ 1

αU))\ 0, ∀ α ∈ IC \ 0,

⇐⇒ µ ∈ σ(D−1(−L+ 1

−1U))\ 0 ⇐⇒ −µ ∈ σ (D−1(L+ U)) \ 0. (3.56)

Η τελευταία σχέση στις (3.56) αποδείχνει την πρόταση. Σημείωση: Μπορεί να αποδειχτεί ότι οι μή μηδενικές ιδιοτιμές του επαναληπτικού πίνακα τουJacobi, που αντιστοιχεί σε ένα δικυκλικό και συνεπώς διατεταγμένο πίνακα, εμϕανίζονταισε αντίθετα ζεύγη της ίδιας πολλαπλότητας. (Σημείωση: Για το τελευταίο ο αναγνώστηςπαραπέμπεται στο βιβλίο του Varga [43].)

Στη συνέχεια διατυπώνεται και αποδείχνεται μια πρόταση που είναι ίσως η σπουδαιότερηαπό αυτές που αϕορούν τους δικυκλικούς και συνεπώς διατεταγμένους πίνακες.

Θεώρημα 3.7 Εστω ότι ο A ∈ ICn,n είναι δικυκλικός και συνεπώς διατεταγμένος. Ανµ ∈ σ (D−1(L+ U)) και λ = 0 ικανοποιεί τη σχέση

(λ+ ω − 1)2 = ω2µ2λ (3.57)

τότε λ ∈ σ(Lω). Αντίστροϕα, αν λ ∈ σ(Lω) \ 0 και µ ικανοποιεί την (3.57) τότε µ ∈σ (D−1(L+ U)) .

Απόδειξη: Θεωρούμε την έκϕραση det(Lω − λI) και αντικαθιστούμε σ΄ αυτήν την έκϕρασηγια τον επαναληπτικό πίνακα της SOR από την (3.44), οπότε μπορούμε να λάβουμε διαδοχικάεϕαρμόζοντας απλές ιδιότητες οριζουσών

det(Lω − λI) = det ((D − ωL)−1[(1− ω)D + ωU ]− λI)= 1

det(D)(−1)n det ((λ+ ω − 1)D − ωλL− ωU)

= (−ωλ12 )n det

(λ+ω−1

ωλ12

I −(D−1(λ

12L+ 1

λ12U)))

.

Αν τις παραπάνω ίσες οριζουσιακές εκϕράσεις εξισώσουμε με το μηδέν τότε από την πρώτηκαι την τελευταία έκϕραση έχουμε αμέσως την ισοδυναμία

λ ∈ σ (Lω) \ 0 ⇐⇒ µ ≡ λ+ω−1

ωλ12

∈ σ(D−1(λ

12L+ 1

λ12U))

(≡ σ (D−1(L+ U))) ,(3.58)

Page 98: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

98

όπου η τελευταία ισοδυναμία ισχύει λόγω της δικυκλικής και συνεπώς διατεταγμένης ιδιότη-τας του πίνακα A. Από την ισότητα µ ≡ λ+ω−1

ωλ12, αν υψώσουμε στο τετράγωνο, τότε με βάση

και το Λήμμα 3.5, προκύπτει η σχέση (3.57), οπότε οι ισοδυναμίες στην (3.58) αποδείχνουνσυγχρόνως και τα δύο σκέλη του θεωρήματος. Σημειώνεται πως αν λ = 0 ∈ σ(Lω) και η(3.57) ικανοποιείται, τότε θα ικανοποιείται για κάθε µ, άρα και για κάθε µ ∈ σ (D−1(L+ U)) ,και επιπλέον θα είναι ω = 1.

Πόρισμα 3.4 Εστω ότι ο A ∈ ICn,n είναι δικυκλικός και συνεπώς διατεταγμένος καιέστω ότι TJ και TGS είναι οι επαναληπτικοί πίνακες των μεθόδων Jacobi και Gauss-Seidel,αντίστοιχα. Αν µ ∈ σ(TJ) τότε λ = µ2 ∈ σ(TGS) και αν λ ∈ σ(TGS) \ 0 με λ = µ2 τότεµ ∈ σ(TJ). Τέλος, ισχύει ότι ρ(TGS) = ρ2(TJ), δηλαδή αν μία από τις δύο μεθόδους Jacobiκαι Gauss-Seidel συγκλίνει, τότε θα συγκλίνει και η άλλη και μάλιστα η Gauss-Seidelθα συγκλίνει δυο ϕορές (ασυμπτωτικά) ταχύτερα από την Jacobi.

Για δικυκλικούς και συνεπώς διατεταγμένους πίνακες A ∈ ICn,n είναι δυνατόν, σε ορισμένεςπεριπτώσεις, να βρεθεί η βέλτιστη SOR μέθοδος. Δηλαδή, να βρεθεί η τιμή της παραμέτρουω για την οποία η αντίστοιχη SOR μέθοδος συγκλίνει (ασυμπτωτικά) ταχύτερα. Για τοσκοπό αυτό απαιτείται γνώση είτε του ϕάσματος των ιδιοτιμών του επαναληπτικού πίνακα τουJacobi είτε μόνο μέρος του ϕάσματος και κάποιων ιδιοτήτων του. Η απλούστερη περίπτωσηπαρατίθεται στη συνέχεια με τη μορϕή θεωρήματος.

Θεώρημα 3.8 Εστω ότι ο πίνακας A ∈ ICn,n είναι δικυκλικός και συνεπώς διατεταγμένος.Εστω ακόμη ότι σ (D−1(L+ U)) ⊂ (−1, 1) και ότι β := ρ (D−1(L+ U)) (< 1). Η βέλτιστητιμή ωβ (∈ IR) της SOR παραμέτρου δίνεται από τον τύπο

ωβ =2

1 +√1− β2

. (3.59)

Για την αντίστοιχη ϕασματική ακτίνα ισχύει ότι

ρ(Lω) > ρ(Lωβ) = ωβ − 1, ∀ ω = ωβ, (3.60)

και η μέθοδος συγκλίνει ∀ ω ∈ (0, 2).

Απόδειξη: Θεωρούμε για τυχαίο αλλά συγκεκριμένο µ ∈ σ (D−1(L+ U)) \ 0, (τότε και−µ ∈ σ (D−1(L+ U)) \ 0 και άρα |µ| ∈ σ (D−1(L+ U)) \ 0) την εξίσωση (3.57) τηνοποία γράϕουμε αναλυτικά ως προς λ. Δηλαδή,

λ2 − (µ2ω2 − 2ω + 2)λ+ (ω − 1)2 = 0. (3.61)

Page 99: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

99

Η διακρίνουσα της δευτεροβάθμιας εξίσωσης (3.61) είναι η

∆ = µ2ω2(µ2ω2 − 4ω + 4),

με ρίζες ως προς ω τις 0, 2

1+√

1−µ2, 2

1−√

1−µ2. Επειδή μας ενδιαϕέρουν τιμές του ω ∈ (0, 2),

που αποτελεί την αναγκαία συνθήκη για τη σύγκλιση της SOR, και η μόνη από τις τρεις ρίζεςστο διάστημα αυτό είναι η 2

1+√

1−µ2έχουμε αμέσως ότι ∆ > 0, = 0, < 0, αντίστοιχα με

το αν ω ∈ (0, 2

1+√

1−µ2), ω = 2

1+√

1−µ2, ω ∈ ( 2

1+√

1−µ2, 2). Στις δυο τελευταίες περιπτώσεις

έχουμε ∆ ≤ 0 για ω ∈ [ 2

1+√

1−µ2, 2) και επειδή τότε οι δυο ρίζες της (3.61) έχουν το ίδιο

μέτρο θα είναι |λ| = ω − 1. Αϕού μας ενδιαϕέρει να έχουμε το μικρότερο δυνατόν μέτρογια το λ αυτό θα συμβαίνει για τη μικρότερη τιμή του ω, δηλαδή για ω = 2

1+√

1−µ2. Για τις

τιμές ω ∈ (0, 2

1+√

1−µ2) είναι ∆ > 0, η (3.61) έχει ρίζες πραγματικές μή αρνητικές (γιατί το

γινόμενό τους (ω − 1)2 είναι μή αρνητικός αριθμός και το άθροισμά τους µ2ω2 − 2ω + 2 =12µ2ω2 + 1

2(µ2ω2 − 4ω + 4) = 1

2µ2ω2 + 1

2∆ είναι θετικός) και άνισες με μεγαλύτερη τη

λ =1

2

(µ2ω2 − 2ω + 2 + |µ|ω

√µ2ω2 − 4ω + 4

)=

1

4

(|µ|ω +

√µ2ω2 − 4ω + 4

)2.

Η παράγωγος αυτής ως προς ω είναι ίση με

dω=

1

2√µ2ω2 − 4ω + 4

(|µ|ω +

√µ2ω2 − 4ω + 4

)(|µ|√µ2ω2 − 4ω + 4− (2− µ2ω)

).

(3.62)Παρατηρούμε ότι όλοι οι παράγοντες του γινομένου στην (3.62), εκτός ίσως του τελευταίου,είναι θετικοί. Για τον τελευταίο δεξιά παράγοντα έχουμε ότι ο πρώτος όρος είναι θετικός,όπως είναι και ο δεύτερος. Το τελευταίο ισχύει διότι 2 − µ2ω > 2(1 − µ2) > 0. Εξάλλουέχουμε ότι

sign(|µ|√µ2ω2 − 4ω + 4− (2− µ2ω)

)= sign (µ2(µ2ω2 − 4ω + 4)− (2− µ2ω)2)

= sign(µ2 − 1) = −1

και άρα ο τελευταίος δεξιά παράγοντας της (3.62) είναι αρνητικός. Αυτό συνεπάγεται ό-τι η συνάρτηση |λ| = λ, που μας ενδιαϕέρει, είναι αυστηρά ϕθίνουσα συνάρτηση του ω ∈(0, 2

1+√

1−µ2]. Αρα παίρνει την ελάχιστη δυνατή τιμή της για ω = ω|µ| =

2

1+√

1−µ2. Αυτή είναι

η ίδια τιμή για την οποία η |λ| ήταν ελάχιστη στο διάστημα [ 2

1+√

1−µ2, 2). Το μέχρι στιγ-

μής συμπέρασμα είναι ότι για ένα σταθερό |µ| = 0 η ελάχιστη τιμή της ϕασματικής ακτίνας(δηλαδή της μή μικρότερης από τα δύο |λ|) της SOR μεθόδου στο διάστημα (0, 2) είναι η

Page 100: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

100

ρ(Lω|µ|) = ω|µ|−1. Επιπλέον παρατηρούμε τα εξής: α) Η δεύτερη παράγωγος της ϕασματικήςακτίνας |λ| = λ στο διάστημα (0, ω|µ|] μπορεί να βρεθεί ότι δίνεται από την έκϕραση

d2λdω2 =(

|µ|(µ2ω2−4ω+4)12−(2−µ2ω)

)[|µ|((µ2ω2−4ω+4)+2(2−ω))+µ2ω(µ2ω2−4ω+4)

12

]2(µ2ω2−4ω+4)

32

,

που, όπως είναι ϕανερό από τη μέχρι τώρα ανάλυση, είναι αρνητική. Αρα το γράϕημά τηςστρέϕει τα κοίλα προς τα κάτω κι ακόμη

limω→ω−

|µ|

dρ(Lω)

dω= −∞.

β) Για ω ∈ [ω|µ|, 2) η ϕασματική ακτίνα (δηλαδή η |λ|) ρ(Lω) = ω− 1 αυξάνεται γραμμικά στοδιάστημα αυτό, η δε κλίση του γραϕήματός της είναι ίση με 1.Ακόμη, για µ = 0 έχουμε λ = 1− ω και το γράϕημα της |λ| στο [0, 2] είναι ένα ευθύγραμμοτμήμα |λ| = 1−ω στο [0, 1] και ένα άλλο |λ| = ω−1 στο [1, 2] με κλίσεις −1 και 1, αντίστοιχα.Από τη μέχρι τώρα ανάλυση και από την παρατήρηση ότι για οποιαδήποτε δύο µ1 και µ2, με|µ1| < |µ2|, έχουμε

ρ(Lω(µ1))

< ρ(Lω(µ2)) για ω ∈ (0, ω|µ2|),= ρ(Lω(µ2)) για ω ∈ [ω|µ2|, 2).

Από την όλη μέχρι τώρα μελέτη προκύπτει ότι για κάθε ω ∈ (0, 2) η ϕασματική ακτίνα της αν-τίστοιχης SOR μεθόδου θα δίνεται από το μεγαλύτερο δυνατό |λ| που αντιστοιχεί, προϕανώς,στο μεγαλύτερο δυνατό |µ| = β ∈ σ (D−1(L+ U)) . Επομένως οδηγούμαστε στο συμπέρασμαότι για να βρούμε την “καλύτερη” (βέλτιστη) ϕασματική ακτίνα της SOR μεθόδου θα πρέπεινα επιλέξουμε εκείνη από τις παραπάνω για την οποία το αντίστοιχο ω την καθιστά ελάχιστη.Αυτό όμως μπορεί να επιτευχτεί, όπως αποδείχτηκε, για ω = ωβ = 2

1+√

1−β2, πράγμα που δίνει

τις εκϕράσεις και τις σχέσεις στις (3.59) και (3.60).

Η λεπτομερής ανάλυση που έγινε στην όλη απόδειξη αποδείχνει άμεσα και το γεγονός ότιυπό τις προϋποθέσεις του θεωρήματος η SOR μέθοδος συγκλίνει για κάθε ω ∈ (0, 2).

ΑΣΚΗΣΕΙΣ

1.: Αν 1 ∈ σ(Lω), όπου Lω ο επαναληπτικός πίνακας της SOR μεθόδου, τότε ο πίνακας Aμε τον οποίο συνδέεται ο Lω δεν είναι αντιστρέψιμος.

Page 101: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

101

2.: Να αποδειχτεί ο τύπος (3.45) της SOR μεθόδου.

3.: Για την επίλυση του γραμμικού συστήματος Ax = b, με A ∈ ICn,n, det(A) = 0, aii =0, i = 1(1)n, A = D − L − U , όπου D,L, U οι γνωστοί πίνακες, b ∈ ICn, προτείνεταιτο επαναληπτικό σχήμα, με ω ∈ IC\0,

x(k+1) = Lr,ωx(k) + cr,ω,

Lr,ω := (D − rL)−1[(1− ω)D + (ω − r)L+ ωU ], cr,ω := ω(D − rL)−1b

α) Να δειχτεί ότι το προτεινόμενο επαναληπτικό σχήμα επιλύει το δοθέν σύστημα, εϕό-σον συγκλίνει.β) Για ποια ζεύγη τιμών (r, ω) είναι δυνατόν να ληϕτούν οι μέθοδοι: i) Jacobi, ii)Gauss-Seidel, iii) SOR, iv) Extrapolated Jacobi, v) Extrapolated Gauss-Seidel και vi)Extrapolated SOR; καιγ) Ποιες είναι σε κάθε περίπτωση, εϕόσον υπάρχουν, οι τιμές των παραμέτρων παρεκ-βολής και ποιες αυτές των παραμέτρων υπερχαλάρωσης;

4.: Να αποδειχτεί, με οποιοδήποτε τρόπο, ότι η μέθοδος SOR, που αντιστοιχεί στον πίνακα

A =

4 −1 −1 0

−1 4 0 −1−1 0 4 −10 −1 −1 4

συγκλίνει ∀ ω ∈ (0, 2).

5.: Να γίνει (βήμα προς βήμα) η αντίστοιχη απόδειξη του Θεωρήματος των Reich-Ostrowski-Varga για τη μέθοδο Gauss-Seidel. Δηλαδή, αν A ∈ ICn,n είναι Ερμιτιανός και θετικάορισμένος η αντίστοιχη μέθοδος των Gauss-Seidel συγκλίνει.

6.: Στο γραμμικό σύστημα Ax = b ο πίνακας των συντελεστών των αγνώστων είναι A =trid(1, 2, 1) ∈ IR4,4. α) Να βρεθούν οι ιδιοτιμές του επαναληπτικού πίνακα Jacobi πουσυνδέεται με τον A.β) Να δικαιολογηθεί, με οποιοδήποτε τρόπο, ότι η επαναληπτική μέθοδος SOR τουσυστήματος που δόθηκε συγκλίνει για κάθε ω ∈ (0, 2). καιγ) Να δικαιολογηθεί γιατί μπορεί να βρεθεί η βέλτιστη SOR μέθοδος και στη συνέχειανα βρεθούν τόσο η βέλτιστη SOR παράμετρος όσο και βέλτιστη ϕασματική ακτίνα τουεπαναληπτικού πίνακα της SOR.

7.: Δίνεται το γραμμικό σύστημα 2 −1 0−1 2 −10 −1 2

x1

x2

x3

=

210

.

Page 102: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

102

α) Χρησιμοποιώντας τους αντίστοιχους ορισμούς να δειχτεί ότι ο συντελεστής πίνακαςA του συστήματος είναι δικυκλικός και συνεπώς διατεταγμένος.β) Χωρίς να βρεθούν οι ιδιοτιμές του επαναληπτικού πίνακα του Jacobi, που αντιστοιχείστον A, να δειχτεί ότι η μέθοδος Jacobi συγκλίνει. καιγ) Να εκτελεστεί μια επανάληψη της SOR μεθόδου για την επίλυση του συστήματος,που δόθηκε, χρησιμοποιώντας ακριβή αριθμητική, με ω = 1.25 και x(0) = [1 1 1]T .

8.: Δίνεται ο πίνακας

A =

[In1 BC In2

], B ∈ ICn1,n2 , C ∈ ICn2,n1 .

Να αποδειχτεί ότι όλες οι ιδιοτιμές λ ∈ σ(A)\1 μπορούν να χωριστούν σε ζεύγη μεάθροισμα καθενός ίσο με 2.

9.: Δίνεται το γραμμικό σύστημα Ax = b με A =

2 1 0 01 4 1 00 1 4 10 0 1 2

.α) Να εξεταστούν ως προς τη σύγκλιση οι μέθοδοι Jacobi και Gauss-Seidel .β) Να βρεθεί η βέλτιστη τιμή της παραμέτρου ω ∈ IR για την SOR μέθοδο. καιγ) Να γίνει σύγκριση των τριών μεθόδων ως προς την ταχύτητα σύγκλισης.(Περιορισμός: Να γίνουν ακριβείς πράξεις διατηρώντας ριζικά και κλάσματα στουςυπολογισμούς.)

10.: Δίνεται το γραμμικό σύστημα

x1 −x2 = 2−x1 +2x2 −x3 = −4

−x2 +4x3 = 5

α) Να εξεταστούν ως προς τη σύγκλιση οι μέθοδοι Jacobi και Gauss-Seidel και ναβρεθεί ο λόγος των μέσων ασυμπτωτικών ταχυτήτων σύγκλισής τους. καιβ) Να γίνουν δυο επαναλήψεις με τη μέθοδο που συγκλίνει ταχύτερα και δυο επαναλήψειςμε την SOR μέθοδο με ω = 1.25.

11.: Δίνεται το γραμμικό σύστημα Ax = b με A =

2 0 −1 00 2 0 −1

−1 0 2 00 −1 0 2

και b =

[1 1 1 1]T .

Page 103: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

103

α) Να εξεταστούν ως προς τη σύγκλιση και να συγκριθούν μεταξύ τους οι μέθοδοιJacobi, Gauss-Seidel και βέλτιστης SOR με ω ∈ IR. καιβ) Να γίνουν δυο επαναλήψεις της SOR με ω = 1.1 και αρχικό διάνυσμα x(0) = 0,διατηρώντας τρία δεκαδικά ψηϕία στους υπολογισμούς.

12: Αν ο πίνακας A ∈ ICn,n είναι αυστηρά διαγώνια υπέρτερος κατά γραμμές (κατά στήλες)να αποδειχτεί ότι η SOR μέθοδος, που είναι συνδεδεμένη μ΄ αυτόν, συγκλίνει για κάθεω ∈ (0, 1].

3.5 Συμμετρική SOR (SSOR) Επαναληπτική Μέθοδος

Η Συμμετρική (Symmetric) Μέθοδος της Διαδοχικής Υπερχαλάρωσης (SSOR) είναι μία επα-ναληπτική μέθοδος στην οποία κάθε επανάληψη αποτελείται από δύο ημι-επαναλήψεις. Συγ-κεκριμένα η πρώτη ημι-επανάληψη είναι μία συνήθης SOR μέθοδος ενώ η δεύτερη είναι μίαSOR, όπου οι ρόλοι των πινάκων L και U έχουν εναλλαχτεί. Συγκεκριμένα,

x(k+ 12) = (D − ωL)−1[(1− ω)D + ωU ]x(k) + ω(D − ωL)−1b,

x(k+1) = (D − ωU)−1[(1− ω)D + ωL]x(k+ 12) + ω(D − ωU)−1b.

(3.63)

Για να γραϕτεί η (3.63) σα μία κλασική επαναληπτική μέθοδος θα πρέπει η έκϕραση για τοx(k+ 1

2) από την πρώτη ημι-επανάληψη να αντικατασταθεί στη δεύτερη, να εκτελεστούν όλες

οι πράξεις και τέλος να γραϕτεί αυτή στη μορϕή

x(k+1) = Sωx(k) + cω, k = 0, 1, 2, · · · , (3.64)

με x(0) ∈ ICn οποιοδήποτε. Μετά τη διαδικασία που μόλις υποδείχτηκε μπορούμε να καταλή-ξουμε από τις (3.63) στην (3.64), όπου

Sω = (D − ωU)−1[(1− ω)D + ωL](D − ωL)−1[(1− ω)D + ωU ],cω = ω(2− ω)(D − ωU)−1D(D − ωL)−1b.

(3.65)

Σημείωση: Για ω = 1, η SSOR μέθοδος είναι γνωστή ως μέθοδος του Aitken. Αποτελείταιτότε από δυό ημι-επαναλήψεις η πρώτη από τις οποίες είναι η Gauss-Seidel μέθοδος και ηδεύτερη μία Gauss-Seidel με εναλλαγμένους τους ρόλους των L και U.

Για την SSOR μέθοδο ισχύουν αρκετές προτάσεις που είναι ανάλογες αντίστοιχων τηςSOR μεδόδου. Μερικές από αυτές δίνονται και αποδείχνονται στη συνέχεια.

Θεώρημα 3.9 Εστω A ∈ ICn,n. Για ω ∈ IC αναγκαία συνθήκη για τη σύγκλιση της SSORμεθόδου είναι η |ω − 1| < 1. Για ω ∈ IR η αναγκαία συνθήκη γίνεται ω ∈ (0, 2).

Page 104: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

104

Απόδειξη: Αρχίζουμε την απόδειξη, όπως και στην περίπτωση του Θεωρήματος του Kahanγια την SOR μέθοδο, θεωρώντας το γινόμενο των ιδιοτιμών λi, i = 1(1)n, του επαναληπτικούπίνακα SSOR από τις (3.65). Από την πρώτη των (3.65) θα είναι∏n

i=1 λi = det(Sω) = det ((D − ωU)−1[(1− ω)D + ωL](D − ωL)−1[(1− ω)D + ωU ])= det ((D − ωU)−1) det ([(1− ω)D + ωL]) det ((D − ωL)−1) det ([(1− ω)D + ωU ])= 1

det(D)(1− ω)n det(D) 1

det(D)(1− ω)n det(D) = (1− ω)2n.

(3.66)Από την πρώτη και την τελευταία έκϕραση των παραπάνω ισοτήτων έχουμε ότι |

∏ni=1 λi| =∏n

i=1 |λi| = |1 − ω|2n. Οπως γίνεται αμέσως ϕανερό για να έχουμε σύγκλιση της SSORμεθόδου θα πρέπει |λi| < 1, i = 1(1)n, και άρα από τις προηγούμενες ισότητες παίρνουμεαμέσως τις αναγκαίες συνθήκες, που δίνονται στη διατύπωση της παρούσας πρότασης. Λόγω της συμμετρικής μορϕής που έχει ο επαναληπτικός πίνακας Sω της SSOR μεθόδου

πολλές ϕορές μπορούν να εξαχτούν συμπεράσματα για τη μέθοδο αυτή πιο γενικά από τααντίστοιχα της SOR μεθόδου. Οπως θα δούμε και στη συνέχεια είναι σκοπιμότερο αντίτου επαναληπτικού πίνακα Sω να χρησιμοποιούνται κάποιοι άλλοι πίνακες που έχουν τις ίδιεςιδιοτιμές μ΄ αυτόν. Ενας από αυτούς είναι ο όμοιος προς τον Sω,

S ′ω = (D−ωU)Sω(D−ωU)−1 = [(1−ω)D+ωL](D−ωL)−1[(1−ω)D+ωU ](D−ωU)−1.

(3.67)Ο νέος πίνακας S ′

ω μπορεί να γραϕτεί με διάϕορους τρόπους χρησιμοποιώντας διαδοχικούςμετασχηματισμούς, όπως ϕαίνεται παρακάτω. Μερικές από τις ισοδύναμες εκϕράσεις του θαχρησιμοποιηθούν στη συνέχεια.

S ′ω = [(1− ω)D + ωL](D − ωL)−1[(1− ω)D + ωU ](D − ωU)−1

= [(2− ω)D − (D − ωL)](D − ωL)−1[(2− ω)D − (D − ωU)](D − ωU)−1

= [(2− ω)D(D − ωL)−1 − I][(2− ω)D(D − ωU)−1 − I]= I − (2− ω)D[(D − ωL)−1 + (D − ωU)−1] + (2− ω)2D(D − ωL)−1D(D − ωU)−1

= I − (2− ω)D(D − ωL)−1[(D − ωU) + (D − ωL)− (2− ω)D](D − ωU)−1

= I − ω(2− ω)D(D − ωL)−1A(D − ωU)−1.(3.68)

Μια πρόταση, που είναι αντίστοιχη αλλά κάπως γενικότερη αυτής των Reich-Ostrowski-Varga της SOR, διατυπώνεται και αποδείχνεται στη συνέχεια αϕού πρώτα διατυπωθεί καιαποδειχτεί τυπικά ένα λήμμα που αναϕέρεται στο γνωστό πηλίκο του Rayleigh. Σημειώνεταιότι μέρος της απόδειξης του λήμματος έχει ήδη δοθεί στη Βασική Θεωρία και το ίδιο λήμμαέχει δοθεί ως Ασκηση σε προηγούμενο Κεϕάλαιο.

Λήμμα 3.6 Εστω ότι ο Ερμιτιανός πίνακας A ∈ ICn,n έχει τις πραγματικές ιδιοτιμές τουλi, i

Page 105: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

105

= 1(1)n, διατεταγμένες έτσι ώστε λ1 ≤ λ2 ≤ · · · ≤ λn. Τότε για κάθε x ∈ ICn \ 0ισχύει

λ1 ≤ (x,Ax)2(x, x)2

≤ λn. (3.69)

Απόδειξη: Εστω xi, i = 1(1)n, τα αντίστοιχα ιδιοδιανύσματα του A, τα οποία μπορούν ναληϕτούν έτσι ώστε να αποτελούν μια ορθοκανονική βάση. Τότε θα είναι x =

∑ni=1 αix

i, όπουαi ∈ IC, i = 1(1)n. Αντικαθιστώντας στην έκϕραση του πηλίκου που δόθηκε θα έχουμε

(x,Ax)2(x,x)2

=(∑n

i=1 αixiH)A(

∑ni=1 αix

i)

||x||22=

(∑n

i=1 αixiH)(

∑ni=1 αiλix

i)

||x||22=

∑ni=1 λi|αi|2||x||22

≤ λn

∑ni=1 |αi|2||x||22

= λn||x||22||x||22

= λn.(3.70)

Με παρόμοιο τρόπο αποδείχνεται και η αριστερή ανισότητα στην (3.69). Σημείωση: Η δεξιά ισότητα στις (3.69) πετυχαίνεται για x = xn ενώ η αριστερή για x = x1.

Θεώρημα 3.10 Εστω A ∈ ICn,n Ερμιτιανός με θετικά διαγώνια στοιχεία. Τότε γιαοποιοδήποτε ω ∈ (0, 2) ο πίνακας Sω έχει πραγματικές μή αρνητικές ιδιοτιμές. Επιπλέον,αν ο A είναι θετικά ορισμένος τότε η SSOR μέθοδος συγκλίνει. Αντίστροϕα, αν η SSORμέθοδος συγκλίνει και ω ∈ IR, τότε ω ∈ (0, 2), που είναι προϕανές, και ο A είναι θετικάορισμένος.

Απόδειξη: Από την υπόθεση ότι ο A είναι Ερμιτιανός θα ισχύει U = LH (L = UH). Αν

D12 =diag

(a

1211, a

1222, · · · , a

12nn

), όπου diag(., ., · · · , .) συμβολίζει διαγώνιο πίνακα με αντίστοιχα

διαγώνια στοιχεία τα εντός των παρενθέσεων, τότε, από τις εκϕράσεις (3.68), παρατηρούμεότι ο πίνακας

S ′ω = [(2− ω)D(D − ωL)−1 − I][(2− ω)D(D − ωU)−1 − I]

έχει τις ίδιες ιδιοτιμές με τον πίνακα

S ′ω′ = D− 1

2S ′ωD

12 = D

12 [(2−ω)(D−ωL)−1−D−1]D

12D

12 [(2−ω)(D−ωLH)−1−D−1]D

12 .

Η έκϕραση όμως που βρέθηκε, ∀ x ∈ ICn \ 0 δίνει ότι για τον Ερμιτιανό πίνακα S ′ω′ το

εσωτερικό γινόμενο (x,S ′ω′x)2 είναι διαδοχικά ίσο με τις εκϕράσεις(

D12 [(2− ω)(D − ωLH)−1 −D−1]D

12x,D

12 [(2− ω)(D − ωLH)−1 −D−1]D

12x)2

=∣∣∣∣ [(2− ω)D

12 (D − ωLH)−1D

12 − I]x

∣∣∣∣22

≥ 0.(3.71)

Page 106: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

106

Από την παραπάνω τελευταία σχέση έπεται ότι ο S ′ω′ είναι μή αρνητικά ορισμένος και επομένως

θα έχει, όπως και ο όμοιός του Sω, πραγματικές μή αρνητικές ιδιοτιμές.Εστω ότι ο A είναι θετικά ορισμένος. Εχοντας υπόψη τις (3.68), η έκϕραση S ′

ω′ = D− 1

2S ′ωD

12

γράϕεται και ως εξής

S ′ω′ = I − ω(2− ω)D

12 (D − ωL)−1A(D − ωLH)−1D

12 .

Ομως, ω(2− ω) > 0 και

∀ x ∈ ICn \ 0 ⇐⇒ ∀ y = (D − ωLH)−1D12x ∈ ICn \ 0

ισχύει ότι yHAy > 0, αϕού ο A είναι θετικά ορισμένος, άρα ο πίνακας ω(2 − ω)D12 (D −

ωL)−1A(D − ωLH)−1D12 θα είναι κι αυτός θετικά ορισμένος και επομένως θα έχει θετικές

ιδιοτιμές. Το τελευταίο συμπέρασμα συνεπάγεται ότι ο S ′ω′, άρα και ο Sω, θα έχει πραγματικές

ιδιοτιμές αυστηρά μικρότερες από τη μονάδα. Επειδή, όπως αποδείχτηκε, έχει και πραγματικέςμή αρνητικές ιδιοτιμές τα δύο αυτά συμπεράσματα οδηγούν στο τελικό συμπέρασμα ότι η SSORσυγκλίνει.Αντίστροϕα, αν η SSOR συγκλίνει τότε ασϕαλώς ω ∈ (0, 2) από την αναγκαία συνθήκη.Αν ο Ερμιτιανός πίνακας A δεν είναι θετικά ορισμένος τότε θα έχει μία τουλάχιστον ιδιοτιμήλ ≤ 0. Εστω x το αντίστοιχο ιδιοδιάνυσμα, οπότε Ax = λx, x ∈ ICn \ 0. Ομως, από τηντελευταία δεξιά έκϕραση στις (3.68), για τον Ερμιτιανό πίνακα S ′

ω′ = D− 1

2S ′ωD

12 , έχουμε αν

y = D− 12 (D − ωLH)x (∈ ICn \ 0)

(y,S ′ω′y)2

(y, y)2= 1− λω(2− ω)(x, x)2

(y, y)2≥ 1.

Αλλά η τελευταία ανισότητα οδηγεί σε άτοπο διότι από το πηλίκο του Rayleigh (Λήμμα 3.6)γνωρίζουμε ότι για τον Ερμιτιανό πίνακα S ′

ω′ ο λόγος (y,S′

ω′y)2

(y,y)2βρίσκεται μεταξύ της μικρότερης

και μεγαλύτερης ιδιοτιμής του. Αρα η μεγαλύτερη ιδιοτιμή του θα ήταν τότε μεγαλύτερη ήίση από τη μονάδα και επομένως η SSOR δε θα συνέκλινε. Συνεπώς ο πίνακας A είναι θετικάορισμένος. Κλείνουμε το παρόν κεϕάλαιο με την περίπτωση όπου ο A ∈ ICn,n συμβαίνει να είναι

δικυκλικός και συνεπώς διατεταγμένος της ειδικής μορϕής

A =

[D1 BC D2

], (3.72)

όπου οι D1 ∈ ICn1,n1 , D2 ∈ ICn2,n2 , με n1 + n2 = n, det(D1) det(D2) = 0, είναι διαγώνιοι.Προϕανώς στη συγκεκριμένη περίπτωση έχουμε

D =

[D1 00 D2

], L =

[0 0

−C 0

], U =

[0 −B0 0

]. (3.73)

Page 107: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

107

Ο επαναληπτικός πίνακας Sω της SSOR μεθόδου θα δίνεται και πάλι από την έκϕραση στην(3.65). Χρησιμοποιώντας τον όμοιό του S ′

ω της (3.67) και μετά τον όμοιο προς τον S ′ω,

S ′ω = D−1S ′

ωD μπορούμε να μετασχηματίσουμε τον τελευταίο και ως εξής:

S ′ω = [(1− ω)I + ωL](I − ωL)−1[(1− ω)I + ωU ](I − ωU)−1,

όπου

L =

[0 0

−D−12 C 0

], U =

[0 −D−1

1 B0 0

].

Θέτοντας L = −D−12 C και U = −D−1

1 B, στις παραπάνω εκϕράσεις για τον S ′ω, και εκτε-

λώντας όλες τις δυνατές πράξεις καταλήγουμε σε μια νέα έκϕραση για τον S ′ω, που είναι η

ακόλουθη

S ′ω =

[(1− ω)2In1 (1− ω)ω(2− ω)U

(1− ω)ω(2− ω)L (1− ω)2In2 + ω2(2− ω)2LU

], (3.74)

όπου θα πρέπει να σημειωθεί πως ενδιάμεσα χρησιμοποιήθηκε το γεγονός ότι (I − ωL)−1 =

I + ωL και (I − ωU)−1 = I + ωU, αϕού L2 = 0 και U2 = 0.

Η σχέση (3.74) μπορεί να γραϕτεί ισοδύναμα και ως εξής:

1

ω(2− ω)(S ′

ω − (ω − 1)2I) =

[0 (1− ω)U

(1− ω)L ω(2− ω)LU

]. (3.75)

Με βάση την (3.75) προσπαθούμε τώρα να βρούμε σχέση που να συνδέει τις ιδιοτιμές λ τουπίνακα Sω, ή του ομοίου του S ′

ω, με τις ιδιοτιμές µ του επαναληπτικού πίνακα του Jacobi τουπίνακα A.

Εστω ότι µ είναι μία μή μηδενική ιδιοτιμή του επαναληπτικού πίνακα του Jacobi και x =[xT

1 xT2 ]

T ∈ ICn \ 0, x1 ∈ ICn1 , x2 ∈ ICn2 , το αντίστοιχο ιδιοδιάνυσμα. Θα ισχύει[0 UL 0

] [x1

x2

]= µ

[x1

x2

]ή ισοδύναμα

Ux2 = µx1 και Lx1 = µx2, (3.76)

από τις οποίες προκύπτειLUx2 = µ2x2. (3.77)

Είναι όμως, x2 = 0. Γιατί αν x2 = 0, τότε επειδή µ = 0 από τήν πρώτη των (3.76) θαπροέκυπτε x1 = 0. Αυτό όμως αντίκειται στην υπόθεσή μας ότι το x είναι ιδιοδιάνυσμα τουεπαναληπτικού πίνακα του Jacobi. Αρα, από την (3.77) προκύπτει ότι το x2 είναι ιδιοδιάνυσματου πίνακα LU με αντίστοιχη ιδιοτιμή µ2. Επανερχόμενοι στη σχέση (3.75) παρατηρούμε

Page 108: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

108

αμέσως πως αν λ είναι μια ιδιοτιμή του πίνακα Sω ή ισοδύναμα του S ′ω τότε μια ιδιοτιμή του

πίνακα του πρώτου μέλους της (3.75) θα είναι η ν = λ−(ω−1)2

ω(2−ω). Η ν θα είναι και ιδιοτιμή του

πίνακα του δεύτερου μέλους της (3.75). Εστω y = [yT1 yT2 ]T ∈ ICn \ 0, y1 ∈ ICn1 , y2 ∈ ICn2 ,

το αντίστοιχο ιδιοδιάνυσμα. Αντικαθιστώντας στη σχέση[0 (1− ω)U

(1− ω)L ω(2− ω)LU

] [y1y2

]= ν

[y1y2

]έχουμε ισοδύναμα ότι

(1− ω)Uy2 = νy1 και (1− ω)Ly1 + ω(2− ω)LUy2 = νy2, (3.78)

από τις οποίες για ν = 0 (⇐⇒ λ = (1− ω)2) παίρνουμε y1 = (1−ω)ν

Uy2. Αντικαθιστώνταςστη δεύτερη των (3.78) έχουμε τελικά ότι[

(1− ω)2 + ω(2− ω)ν]LUy2 = ν2y2. (3.79)

Η τελευταία εξίσωση, επειδή y2 = 0, με το ίδιο όπως και πριν σκεπτικό για τα x2 και x1, δίνειότι η έκϕραση ν2

(1−ω)2+ω(2−ω)νείναι μια μή μηδενική ιδιοτιμή του LU και άρα ίση με µ2. Από

την τελευταία παρατήρηση προκύπτει η ισότητα(λ− (ω − 1)2

)2= ω2(2− ω)2λµ2, (3.80)

που είναι τελικά η σχέση που συνδέει τις ιδιοτιμές των επαναληπτικών πινάκων Jacobi καιSSOR στην περίπτωση που εξετάσαμε. Συγκεκριμένα έχουμε:

Θεώρημα 3.11 Εστω ότι ο A ∈ ICn,n είναι της μορϕής (3.72). Αν λ ∈ σ(Sω)\(ω−1)2και µ (= 0) ικανοποιεί την (3.80) τότε η µ είναι ιδιοτιμή του αντίστοιχου επαναληπτικούπίνακα του Jacobi. Αντίστροϕα, αν µ ( = 0) είναι ιδιοτιμή του επαναληπτικού πίνακα τουJacobi, που αντιστοιχεί στον A, και λ(= (ω − 1)2) ικανοποιεί την (3.80) τότε λ ∈ σ(Sω).

Αν οι ιδιοτιμές του επαναληπτικού πίνακα του Jacobi, που αντιστοιχεί στον πίνακα A τηςπροηγούμενης περίπτωσης που εξετάστηκε, είναι πραγματικές και η επαναληπτική μέθοδοςτου Jacobi συγκλίνει, όπως π.χ. στην περίπτωση όπου ο A είναι Ερμιτιανός και θετικάορισμένος, τότε είναι δυνατόν να βρεθεί μια βέλτιστη τιμή του ω ∈ IR, για την οποία η SSORμέθοδος συγκλίνει ασυμπτωτικά με τη μεγαλύτερη δυνατή ταχύτητα. Σχετικά διατυπώνουμεκαι αποδείχνουμε το παρακάτω θεώρημα.

Θεώρημα 3.12 Κάτω από τις προϋποθέσεις του προηγούμενου θεωρήματος και με τιςεπιπλέον υποθέσεις ότι σ (D−1(L+ U)) ⊂ IR και ρ (D−1(L+ U)) < 1 η βέλτιστη SSOR

Page 109: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

109

μέθοδος για ω ∈ IR, σ΄ ό,τι αϕορά την ασυμπτωτική ταχύτητα σύγκλισής της, είναιαυτή πού αντιστοιχεί σε ω = ωβ, όπου

ωβ = 1, ρ(Sω) > ρ(Sωβ) = ρ(L1) = ρ2

(D−1(L+ U)

), ∀ ω = ωβ,

και η SSOR θα συγκλίνει για κάθε ω ∈ (0, 2).

Απόδειξη: Αν θέσουμε ω = ω(2− ω) στην (3.80), αυτή γράϕεται ως εξής

(λ+ ω − 1)2 = λω2µ2. (3.81)

Η παραπάνω εξίσωση όμως δεν είναι παρά η εξίσωση που συνδέει τις ιδιοτιμές λ μιας SORμεθόδου, με SOR παράμετρο ω, με τις ιδιοτιμές µ του αντίστοιχου επαναληπτικού πίνακα τουJacobi στην περίπτωση ενός δικυκλικού και συνεπώς διατεταγμένου πίνακα A. Επειδή δε οιιδιοτιμές του αντίστοιχου επαναληπτικού πίνακα του Jacobi είναι πραγματικές και η μέθοδοςJacobi συγκλίνει τότε θα ισχύει τόσο το αντίστοιχο θεώρημα που δίνει τη βέλτιστη SORόσο και η ανάλυση που έγινε για να βρεθεί η βέλτιστη τιμή του ω της SOR. Στην παρούσαπερίπτωση η αναγκαία συνθήκη ω ∈ (0, 2) για τη σύγκλιση της SSOR δίνει ω = ω(2 − ω) ∈(0, 1]. Επειδή από την ανάλυση της αντίστοιχης SOR περίπτωσης, βρέθηκε ότι η συνάρτησηρ(Lω) είναι γνήσια ϕθίνουσα στο διάστημα (0, 1], έπεται ότι ωβ = 1 ⇐⇒ ωβ = 1. Γιαωβ = 1 η SSOR μέθοδος είναι η μέθοδος του Aitken που, όπως μόλις αποδείχτηκε, έχειβέλτιστη ϕασματική ακτίνα αυτήν του αντίστοιχου επαναληπτικού πίνακα των Gauss-Seidel ήτο τετράγωνο της ϕασματικής ακτίνας του επαναληπτικού πίνακα του Jacobi. Το γεγονός ότιη SSOR μέθοδος συγκλίνει για κάθε ω ∈ (0, 2) προκύπτει άμεσα από τα παραπάνω.

3.6 Block Επαναληπτικές Μέθοδοι

Στο παρόν κεϕάλαιο πραγματοποιείται η επέκταση των κλασικών επαναληπτικών μεθόδωνπου αναπτύχτηκαν στα τρία προηγούμενα κεϕάλαια. Για το σκοπό αυτό θεωρούμε πάλι γιαεπίλυση το γραμμικό σύστημα (3.1), όπου τώρα διαχωρίζουμε τον πίνακα A σε μιά p × pblock μορϕή. Βασική προϋπόθεση είναι ότι τα διαγώνια blocks (υποπίνακες) πρέπει να είναιτετραγωνικοί πίνακες. Είναι ϕανερό ότι αν Aii, i = 1(1)p, είναι οι διαγώνιοι υποπίνακεςδιαστάσεων ni × ni, i = 1(1)p, θα πρέπει να ισχύει ότι

∑pi=1 ni = n. Φυσικά, η επιλογή

p = n μας οδηγεί τελικά στις κλασικές επαναληπτικές μεθόδους, όπως αυτές αναπτύχτηκαν,γι΄ αυτό και σε αντιδιαστολή με τις block μεθόδους, που θα αναπτυχτούν στη συνέχεια, οιπροηγούμενες καλούνται point (σημειακές) επαναληπτικές μέθοδοι.

Page 110: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

110

3.6.1 Block Jacobi Επαναληπτική Μέθοδος

Καταρχάς θεωρούμε το γραμμικό σύστημα (3.1), όπου ο πίνακας των συντελεστών των α-γνώστων A είναι διαχωρισμένος σύμϕωνα με τα εκτεθέντα στην προηγούμενη παράγραϕο.Στη συνέχεια θεωρούμε μια διάσπαση της ίδιας μορϕής με αυτήν της (3.12) με τη βασικήδιαϕορά ότι ο πίνακας D δεν είναι ο γνωστός D =diag(A) αλλά ο block διαγώνιος πίνακαςD =diag(A11, A22, · · · , App). Οι πίνακες L και U ορίζονται πάλι ως αυστηρά κάτω τριγωνικόςκαι αυστηρά άνω τριγωνικός, αντίστοιχα, έτσι ώστε η διάσπαση (3.12) να είναι μονοσήμανταορισμένη και να εξαρτιέται μόνο από το διαχωρισμό σε blocks του πίνακα A. Για να μπορεί ναοριστεί καταρχάς η αντίστοιχη block μέθοδος του Jacobi θα πρέπει ο D να είναι αντιστρέψι-μος. Είναι ϕανερό πως το τελευταίο συμβαίνει ανν οι block υποπίνακες Aii, i = 1(1)p, είναιαντιστρέψιμοι, οπότε θα ισχύει ότι D−1 =diag(A−1

11 , A−122 , · · · , A−1

pp ). Το γεγονός ότι ο πίνακαςD πληροί και τη δεύτερη προϋπόθεση του (3.2) είναι επίσης ϕανερό αϕού ένα γραμμικό σύ-στημα με πίνακα συντελεστών αγνώστων D, στην πραγματικότητα p συστήματα με πίνακεςσυντελεστών αγνώστων Aii, i = 1(1)p, αντίστοιχα, λύνονται οικονομικότερα από ένα σύστη-μα με πίνακα συντελεστών αγνώστων A. Για την εϕαρμογή της block Jacobi επαναληπτικήςμεθόδου γίνεται και ένας αντίστοιχος block διαχωρισμός τόσο στο άγνωστο διάνυσμα x όσοκαι στο γνωστό διάνυσμα b. Συγκεκριμένα, κάθε ένα από τα δύο διανύσματα διαχωρίζεται σεp blocks συνιστωσών έτσι ώστε

x = [xT1 xT

2 · · · xTp ]

T , b = [bT1 bT2 · · · bTp ]T µϵ xi, bi ∈ ICni , i = 1(1)p.

Η block Jacobi μέθοδος θα έχει την ίδια ακριβώς γενική μορϕή, όπως η (3.13), με τη μόνηβασική διαϕορά ότι οι πίνακες D, L και U θα ορίζονται όπως αναϕέρθηκε προηγουμένως. Ηblock Jacobi μέθοδος θα συγκλίνει ανν ρ (D−1(L+ U)) < 1. Η εύρεση των block συνιστωσώνx(k+1)i , i = 1(1)p, της νέας επανάληψης x(k+1) θα βρίσκονται από τις block συνιστώσες τηςπροηγούμενης επανάληψης. Για να βρούμε την αντίστοιχη σχέση θα πρέπει να πολλαπλασιά-

Page 111: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

111

σουμε και τα δύο μέλη της (3.13) επί D, οπότε θα έχουμε

A11

A22

. . .Aii

. . .App

x1

x2

...xi

...xp

(k+1)

=

b1b2...bi...bp

0n1 A12 · · · A1i · · · A1p

A21 0n2 · · · A2i · · · A2p

....... . .

......

...Ai1 Ai2 · · · 0ni

· · · Aip

......

....... . .

...Ap1 Ap2 · · · Api · · · 0np

x1

x2

...xi

...xp

(k)

, k = 0, 1, 2, · · · ,

(3.82)

με x(0) ∈ ICn οποιοδήποτε. Αν τώρα εξισώσουμε το i-οστό block διάνυσμα του πρώτου μέλουςμε το αντίστοιχο του δεύτερου θα έχουμε

Aiix(k+1)i = bi −

p∑j=1, j =i

Aijx(k)j , i = 1(1)p, k = 0, 1, 2, · · · ,

ή

x(k+1)i = A−1

ii

(bi −

p∑j=1, j =i

Aijx(k)j

), i = 1(1)p, k = 0, 1, 2, · · · .

Για την καλύτερη κατανόηση της block Jacobi μεθόδου και για τη σύγκρισή της, ομοιότη-τες και διαϕορές, με την αντίστοιχη point Jacobi θα παραθέσουμε ένα απλό παράδειγμα πουθα εξετάσουμε εξαντλητικά. Ετσι θα γίνουν κατανοητές και οι άλλες block επαναληπτικέςμέθοδοι στις οποίες θα αναϕερθούμε αμέσως μετά χωρίς όμως να επεκταθούμε.

ΠΑΡΑΔΕΙΓΜΑ: Το γραμμικό σύστημα Ax = b που δίνεται στη συνέχεια

Ax ≡ A1x ≡

2 −1 0−1 2 −10 −1 1

x1

x2

x3

=

3−10

=: b

έχει λύση το διάνυσμα x = [2 1 1]T .Θα θεωρήσουμε την point Jacobi μέθοδο, που αντιστοιχείστο σύστημα που δόθηκε, καθώς και τις δύο block Jacobi μεθόδους, που αντιστοιχούν στους

Page 112: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

112

παρακάτω δυο διαχωρισμούς του πίνακα των συντελεστών των αγνώστων A

A2 =

2 −1 0−1 2 −10 −1 1

, A3 =

2 −1 0−1 2 −10 −1 1

.

α) Θα βρούμε τις ϕασματικές ακτίνες των τριών επαναληπτικών πινάκων (point και block)Jacobi που αντιστοιχούν στον A = A1 καθώς και στους διαχωρισμούς των A2 και A3. β)Θα εϕαρμόσουμε από μία επανάληψη των τριών επαναληπτικών μεθόδων Jacobi με αρχικόδιάνυσμα x(0) = [1 1 1]T .ΛΥΣΗ: α) Εύρεση ϕασματικών ακτίνων των επαναληπτικών μεθόδων του Jacobi:1)

TJ1 = D−11 (L1 + U1) =

2 0 00 2 00 0 1

−1 0 1 01 0 10 1 0

=

12

0 00 1

20

0 0 1

0 1 01 0 10 1 0

=

0 12

012

0 12

0 1 0

.

Οι ιδιοτιμές θα βρίσκονται ως οι ρίζες της εξίσωσης det(TJ1 − λI) = 0. Επομένως

det

−λ 12

012

−λ 12

0 1 −λ

= −λ3 +3

4λ = 0,

από την οποία προκύπτει ότι λ1 =√32, λ2 = −

√32, και λ3 = 0, οπότε ρ(TJ1) =

√32.

2) Για το διαχωρισμό του A2 έχουμε

TJ2 = D−12 (L2 + U2) =

2 −1 0−1 2 00 0 1

−1 0 0 00 0 10 1 0

=

23

13

013

23

00 0 1

0 0 00 0 10 1 0

=

0 0 13

0 0 23

0 1 0

.

(3.83)

Οι ιδιοτιμές του TJ2 βρίσκονται από την det(TJ2 − λI) = 0 και άρα

det

−λ 0 13

0 −λ 23

0 1 −λ

= −λ3 +2

3λ = 0. (3.84)

Page 113: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

113

Από την (3.84) έχουμε ότι λ1 =√63, λ2 = −

√63, και λ3 = 0, οπότε ρ(TJ2) =

√63.

3) Τέλος για το δεύτερο block διαχωρισμό A2 έχουμε

TJ3 = D−13 (L3 + U3) =

2 0 00 2 −10 −1 1

−1 0 1 01 0 00 0 0

=

12

0 00 1 10 1 2

0 1 01 0 00 0 0

=

0 12

01 0 01 0 0

.

Οπότε οι ιδιοτιμές του TJ3 θα είναι οι ρίζες της εξίσωσης det(TJ3 − λI) = 0 από την οποίαπαίρνουμε ότι

det

−λ 12

01 −λ 01 0 −λ

= −λ3 +1

2λ = 0.

Από την τελευταία εξίσωση προκύπτει τελικά ότι λ1 =√22, λ2 = −

√22και λ3 = 0, οπότε

ρ(TJ3) =√22.

Από τη σύγκριση των τριών ϕασματικών ακτίνων έχουμε αμέσως ότι

ρ(TJ3) < ρ(TJ2) < ρ(TJ1)

και επομένως ο block διαχωρισμός στον A = A3 δίνει επαναληπτική μέθοδο Jacobi (ασυμ-πτωτικά) ταχύτερη κι από τις τρεις ενώ η κλασική point Jacobi αντιστοιχεί σε (ασυμπτωτικά)βραδύτερη επαναληπτική μέθοδο.β) Εύρεση της πρώτης επανάληψης x(1) των τριών επαναληπτικών μεθόδων Jacobi:Για την εύρεση της x(1) θα εϕαρμοστούν οι σχέσεις που δίνονται στην (3.82) για k = 0. Ετσιθα πάρουμε για κάθε μία από τις τρεις μεθόδους τα παρακάτω.1) 2

21

x1

x2

x3

(1)

=

3−10

0 −1 0−1 0 −10 −1 0

111

Από την οποία παίρνουμε

2x(1)1 = 4, 2x

(1)2 = 1, x

(1)3 = 1

και επομένωςx(1) = [2 0.5 1]T .

2) 2 −1 0−1 2 00 0 1

x1

x2

x3

(1)

=

3−10

0 0 00 0 −10 −1 0

111

Page 114: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

114

από την οποία παίρνουμε[2 −1

−1 2

] [x1

x2

](1)=

[30

], x

(1)3 = 1

και επομένωςx(1) = [2 1 1]T .

3) 2 0 00 2 −10 −1 1

x1

x2

x3

(1)

=

3−10

0 −1 0−1 0 00 0 0

111

από την οποία παίρνουμε

2x(1)1 = 4,

[2 −1

−1 1

] [x2

x3

](1)=

[00

]και επομένως

x(1) = [2 0 0]T .

Σημείωση: Το γεγονός ότι στη δεύτερη περίπτωση βρέθηκε η ακριβής λύση μετά μία επανά-ληψη είναι τελείως συμπτωματικό και οϕείλεται στην επιλογή της αρχικής προσέγγισης x(0)

και μόνο.

3.6.2 Οι Αλλες Block Επαναληπτικές Μέθοδοι

Οι block επαναληπτικές μέθοδοι των Gauss-Seidel και της SOR κατασκευάζονται με ανάλογοτρόπο. Οι περιορισμοί για την ύπαρξή τους είναι ακριβώς οι ίδιοι με αυτούς της block Jacobi.Δηλαδή, οι Aii, i = 1(1)p, πρέπει να είναι τετραγωνικοί αντιστρέψιμοι πίνακες. Στη συνέχειαδίνουμε τη μορϕή των μεθόδων αυτών όταν επιλύσουμε ως προς την i-οστή block γραμμή.Συγκεκριμένα η block Gauss-Seidel μέθοδος θα είναι

Aiix(k+1)i = bi −

i−1∑j=1

Aijx(k+1)j −

p∑j=i+1

Aijx(k)j , i = 1(1)p, k = 0, 1, 2, · · · ,

ή

x(k+1)i = A−1

ii

(bi −

i−1∑j=1

Aijx(k+1)j −

p∑j=i+1

Aijx(k)j

), i = 1(1)p, k = 0, 1, 2, · · · .

Page 115: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

115

Για την block SOR μέθοδο ισχύει κάτι ανάλογο. Συγκεκριμένα

Aiix(k+1)i = (1−ω)Aiix

(k)i +ω

(bi −

i−1∑j=1

Aijx(k+1)j −

p∑j=i+1

Aijx(k)j

), i = 1(1)p, k = 0, 1, 2, · · · ,

ή

x(k+1)i = (1−ω)x

(k)i +ωA−1

ii

(bi −

i−1∑j=1

Aijx(k+1)j −

p∑j=i+1

Aijx(k)j

), i = 1(1)p, k = 0, 1, 2, · · · .

Η θεωρία που αναπτύχτηκε τόσο για τις point Jacobi και Gauss-Seidel όσο και για τιςpoint SOR και SSOR επαναληπτικές μεθόδους ισχύει με ελάχιστες ίσως τροποποιήσεις καιστην περίπτωση των αντίστοιχων block επαναληπτικών μεθόδων.Π.χ. για να αναϕέρουμε μερικά από τα βασικά συμπεράσματα που αϕορούν στην block SORμέθοδο:1) Για ω ∈ IC η συνθήκη |ω − 1| < 1 αποτελεί την αναγκαία συνθήκη για τη σύγκλιση τηςSOR μεθόδου, η οποία για ω ∈ IR γίνεται ω ∈ (0, 2). Η απόδειξη παραμένει η ίδια με αυτήπου δόθηκε στην απόδειξη του Θεωρήματος 3.5 του Kahan. Η μόνη διαϕορά είναι ότι όπουπαρουσιάζεται το γινόμενο a11a22 · · · ann = det(D) αυτό αντικαθίσταται τώρα από το γινόμενοdet(A11) det(A22) · · · det(App) = det(D).2) Για πίνακες Ερμιτιανούς και θετικά ορισμένους με ω ∈ IR, η ω ∈ (0, 2) αποτελεί αναγκαίακαι ικανή συνθήκη για τη σύγκλιση της SOR. Επίσης, η απόδειξη παραμένει η ίδια με αυτήντου Θεωρήματος 3.6 των Reich-Ostrowski-Varga. Η μόνη παρατήρηση που μπορεί να γίνειείναι ότι όπου παρουσιάζονται τα στοιχεία aii > 0, i = 1(1)n, τώρα έχουμε τους διαγώνιουςυποπίνακες Aii, i = 1(1)p, που είναι Ερμιτιανοί και θετικά ορισμένοι σύμϕωνα με το Θεώρημα2.3 και άρα d = (x,Dx)2 > 0, ∀ x ∈ ICn \ 0.3) Οι ορισμοί οι σχετικοί με το “δικυκλικό” και με το “συνεπώς διατεταγμένο” πίνακα A ∈ICn,n με det(D) = det(A11) det(A22) · · · det(App) = 0, παραμένουν οι ίδιοι στη γενική τουςμορϕή. Η μόνη διαϕορά έγκειται στο γεγονός ότι τώρα αναϕερόμαστε σε blocks και άραμιλάμε για “block δικυκλικό” και “block συνεπώς διατεταγμένο” πίνακα. Μεταξύ των πινάκωνπου ικανοποιούν τους ορισμούς είναι και οι block τριδιαγώνιοι πίνακες με διαγώνια blocksαντιστρέψιμους πίνακες. Π.χ.

A11 A12

A21 A22 A23

. . . . . . . . .Ap−1,p Ap−1,p−1 Ap−1,p

Ap,p−1 App

.

Οι αποδείξεις των ιδιοτήτων, στην περίπτωση αυτή, παραμένουν οι ίδιες με τις αντίστοιχες τηςπερίπτωσης του point τριδιαγώνιου πίνακα. Οι διαϕορές έγκεινται στο ότι ο πίνακας P θα

Page 116: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

116

είναι τώρα ο πίνακας με

P T = [e1 e2 · · · en1 en1+n2+1 · · · en1+n2+n3 · · · en1+1 en1+2 · · · en1+n2 · · ·],

δηλαδή ο P T θα είναι ένας block πίνακας με μή-μηδενικά τετραγωνικά blocks τα (1, 1), (3, 2),(5, 3), . . . , (2,

[p+12

]+ 1), (4,

[p+12

]+ 2), . . . , που θα είναι αντίστοιχα In1 , In3 , In5 , . . . , In2 ,

In4 , . . ., και ο E θα είναι ο E = diag(In1 ,1αIn2 ,

1a2In3 , · · · , 1

ap−1 Inp), όπου Ini, i = 1(1)p, ο

ni × ni, μοναδιαίος πίνακας ίδιων διαστάσεων με αυτές του Aii.4) Τέλος, όλες οι υπόλοιπες προτάσεις που αϕορούν σε δικυκλικούς και συνεπώς διατεταγμέ-νους πίνακες στην περίπτωση της SOR μεθόδου μεταϕέρονται αυτούσια και στην περίπτωσητων block δικυκλικών και συνεπώς διατεταγμένων πινάκων στην block SOR μέθοδο, με τιςπροϕανείς τροποποιήσεις όταν και όπου αυτές χρειάζονται.

Στην περίπτωση της block SSOR μεθόδου ισχύουν και πάλι ορισμοί και προτάσεις ανάλογεςμε αυτές της point SSOR και επομένως μάλλον περιττεύει η επανάληψή τους. Δύο σημείαόμως θα πρέπει να τονιστούν ιδιαίτερα.1) Σε κάποιες από τις αποδείξεις στην point SSOR μέθοδο χρησιμοποιήθηκε ο διαγώνιος

πίνακας D12 = diag(a

1211, a

1222, · · · , a

12nn), με την προϋπόθεση βέβαια ότι aii > 0, i = 1(1)n.

Στην περίπτωση όμως της block SSOR ο D είναι block και όχι point διαγώνιος πίνακας.Γεννιέται, λοιπόν, το εύλογο ερώτημα αν και στην πρώτη περίπτωση είναι δυνατόν να οριστείκάτι παρόμοιο ως “τετραγωνική ρίζα” πίνακα. Για το σκοπό αυτό διατυπώνουμε το παρακάτωθεώρημα που αϕορά σε ύπαρξη και μονοσήμαντο, και όπου αποδείχνουμε μόνο την ύπαρξη.

Θεώρημα 3.13 Εστω ότι ο A ∈ ICn,n, με AH = A, είναι θετικά ορισμένος. Τότε υπάρ-χει μοναδικός πίνακας B ∈ ICn,n, με BH = B, και θετικά ορισμένος, που ικανοποιεί τηνB2 = A.

Απόδειξη: Εστω ότι οι ιδιοτιμές του A, λi, i = 1(1)n, που είναι πραγματικές και θετικές, έχουναντίστοιχα ιδιοδιανύσματα xi, i = 1(1)n, τα οποία έχουν ληϕτεί έτσι ώστε να αποτελούν μίαορθοκανονική βάση. Αν X = [x1 x2 · · · xn] είναι ο πίνακας που έχει στήλες τα ιδιοδιανύσματαxi, και Λ = diag(λ1, λ2, · · · , λn), τότε λόγω της ορθοκανονικότητας των xi (X−1 = XH) θαισχύει ότι A = XΛXH . Η σχέση αυτή μπορεί να γραϕτεί και ως A = XΛ

12XHXΛ

12XH ,

όπου Λ12 = diag(λ

121 , λ

122 , · · · , λ

12n ). Αν θέσουμε B = XΛ

12XH , τότε έχουμε ότι A = B2,

όπου είναι πολύ εύκολο να δειχτεί ότι ο B ικανοποιεί τις απαιτήσεις της εκϕώνησης, δηλαδή,ο B είναι Ερμιτιανός και θετικά ορισμένος. (Σημείωση: Ο πίνακας B καλείται και (θετική)τετραγωνική ρίζα του A και συμβολίζεται ως B = A

12 .) Για το μονοσήμαντο η απόδειξη δεν

είναι τετριμμένη και ο αναγνώστης παραπέμπεται στο βιβλίο του Young [48].

Με βάση το προηγούμενο θεώρημα είναι δυνατόν για έναν Ερμιτιανό και θετικά ορισμένοπίνακα A, ο οποίος έχει διαχωριστεί σε μια block μορϕή, να οριστεί ο block διαγώνιος πίνακας

Page 117: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

117

D = diag(A11, A22, · · · , App), που θα είναι κι αυτός, σύμϕωνα με γνωστή πρόταση, Ερμιτιανόςκαι θετικά ορισμένος, οπότε θα μπορεί να οριστεί η (θετική) τετραγωνική ρίζα του, δηλαδή

ο D12 = diag(A

1211, A

1222, · · · , A

12pp). Ο D

12 θα είναι κι αυτός Ερμιτιανός και θετικά ορισμένος.

Ετσι το Θεώρημα 3.10 θα ισχύει ως προς το πρώτο μέρος του και ως προς το ευθύ τουδεύτερου μέρους του. Σ΄ ό,τι αϕορά το αντίστροϕο του δεύτερου μέρους θα πρέπει η υπόθεσηνα τροποποιηθεί έτσι ώστε να ισχύει ότι ο block διαγώνιος πίνακας D είναι θετικά ορισμένος.Εϕόσον αυτό το τελευταίο ισχύει τότε και τα συμπεράσματα του αντίστοιχου Θεωρήματος3.10 ισχύουν.2) Σ΄ ό,τι αϕορά τους ορισμούς και τις προτάσεις που αναϕέρονται στους block δικυκλικούςκαι συνεπώς διατεταγμένους πίνακες A και που αϕορούν στην ειδική μορϕή (3.72) παραμέ-νουν οι ίδιες με τη μόνη διαϕορά ότι οι πίνακες D1 και D2, στην περίπτωση της block SSORμεθόδου, είναι απλά τετραγωνικοί και αντιστρέψιμοι. Τονίζεται απλά ότι ο πίνακας A, όπωςδόθηκε στην (3.72) είναι συγχρόνως point και block δικυκλικός και συνεπώς διατεταγμένος,ενώ όταν οι πίνακες D1 και D2 είναι γενικά τετραγωνικοί και αντιστρέψιμοι τότε ο A είναιμόνο block δικυκλικός και συνεπώς διατεταγμένος.

ΑΣΚΗΣΕΙΣ

1.: Να θεωρηθούν οι δυο block διαχωρισμοί του πραγματικού πίνακα A,

A := A1 :=

a 0 bc d 00 e f

=

a 0 bc d 00 e f

=: A2,

με adf = 0. Να προσδιοριστούν όλες οι ιδιοτιμές των δύο block επαναληπτικών πινά-κων Jacobi, J1 και J2, που αντιστοιχούν στους παραπάνω block διαχωρισμούς, και νασυγκριθούν οι ϕασματικές ακτίνες τους.

2.: Δίνεται ο πίνακας A στην παρακάτω block μορϕή A =

4 −1 −1 0

−1 4 0 −1−1 0 4 −10 −1 −1 4

.

α) Να εξεταστούν ως προς τη σύγκλιση και να συγκριθούν ως προς την ταχύτητασύγκλισης οι μέθοδοι block Jacobi και Gauss-Seidel, που αντιστοιχούν στον παραπάνωblock διαχωρισμό του πίνακα A. καιβ) Να βρεθεί επίσης η βέλτιστη SOR παράμετρος ω ∈ IR της block SOR, που αντιστοιχείστον ίδιο block διαχωρισμό.

Page 118: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

118

3.: Δίνεται ο (σημειακός) πίνακας A και ένας block διαχωρισμός του. Συγκεκριμένα:

A =

1 −1 0−1 2 −10 −1 2

=

1 −1 0−1 2 −10 −1 2

.

α) Με βάση τους αντίστοιχους ορισμούς να δειχτεί ότι ο block διαχωρισμένος A είναιblock δικυκλικός και συνεπώς διατεταγμένος. καιβ) Δεδομένου ότι ο A στη σημειακή μορϕή του είναι point δικυκλικός και συνεπώςδιατεταγμένος, να βρεθούν και στις δυο περιπτώσεις, αν είναι δυνατόν, οι βέλτιστεςSOR παράμετροι καθώς και οι βέλτιστες ϕασματικές ακτίνες των αντίστοιχων point καιblock SOR επαναληπτικών πινάκων.

4.: Δίνεται το σύστημα Ax = b, A =

2 0 −2−1 2 00 −1 2

, b ∈ IR3.

α) Να εξεταστούν ως προς τη σύγκλιση οι μέθοδοι Jacobi και Gauss-Seidel.β) Επίσης να εξεταστουν ως προς τη σύγκλιση οι μέθοδοι block Jacobi, block Gauss-

Seidel και η βέλτιστη SOR, που βασίζονται στον block διαχωρισμόA =

2 0 −2−1 2 00 −1 2

.

καιγ) Να εξεταστούν όλες οι προηγούμενες μέθοδοι μεταξύ τους ως προς την ταχύτητασύγκλισης.

5.: Δίνεται το γραμμικό σύστημα Ax = b, με A =

2 −1

−1 2 −1−1 2 −1

−1 2

και b =

[1 0 0 1]T . Να εξεταστούν ως προς τη σύγκλιση μεταξύ τους οι μέθοδοι block Jacobi,block Gauss-Seidel και η βέλτιστη block SOR, που βασίζονται στον block διαχωρισμό

A =

2 −1

−1 2 −1−1 2 −1

−1 2

και να γίνουν δύο επαναλήψεις κάθε μιας με x(0) = 0 ∈ IR4.

6.: Δίνεται το διαχωρισμένο σε blocks γραμμικό σύστημα

Ax :=

2 −1 0−1 2 −10 −1 1

x1

x2

x3

=

3−10

=: b.

Page 119: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

119

Χρησιμοποιώντας ως αρχικό διάνυσμα το x(0) = [1 1 1]T , να εκτελεστούν:α) Μία επανάληψη της block επαναληπτικής μεθόδου του Jacobi. καιβ) Μία επανάληψη της block επαναληπτικής μεθόδου των Gauss-Seidel.

7.: Δίνεται ο block τριδιαγώνιος πίνακαςIn1 A12

A21 In2 A23

. . . . . . . . .Anp−1,np−2 Inp−1 Anp−1,np

Anp,np−1 Inp

∈ ICn,n και

p∑i=1

ni = n,

όπου Ini∈ ICnini , i = 1(1)p, ο μοναδιαίος πίνακας.

α) Να αποδειχτεί ότι είναι συγχρόνως και point αλλά και block δικυκλικός και συνεπώςδιατεταγμένος. καιβ) Υπάρχει κάποια διαϕορά στα ϕάσματα των ιδιοτιμών των αντίστοιχων point και blockJacobi επαναληπτικών πινάκων και γιατί;

Page 120: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

120

Page 121: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

Κεϕάλαιο 4

Ημι-επαναληπτικές Μέθοδοι

Υποθέτουμε ότι για την επίλυση του γραμμικού συστήματος Ax = b με A ∈ ICn,n, det(A) = 0και b ∈ ICn, χρησιμοποιώντας κάποιον προρρυθμιστή, έχει προκύψει η (συγκλίνουσα) επανα-ληπτική μέθοδος

x(k+1) = Tx(k) + c, k = 0, 1, 2, · · · , (4.1)

με T Ερμιτιανό και x(0) ∈ ICn οποιοδήποτε.

Το διάνυσμα-σϕάλμα e(k) στην k επανάληψη είναι προϕανώς ίσο με

e(k) = x(k) − x,

όπου x η ακριβής λύση του συστήματος. Η βασική ιδέα των ημι-επαναληπτικών μεθόδωνείναι να κατασκευστεί μία νέα ακολουθία επαναλήψεων κάθε όρος της οποίας θα είναι έναςβαρυκεντρικός μέσος όρος όλων των μέχρι τότε επαναλήψεων της αρχικής μεθόδου (μέθοδοςβάσης), έτσι ώστε μετά από k επαναλήψεις, και για κάθε k, η μέση ταχύτητα σύγκλισης τηςνέας ακολουθίας να είναι η μέγιστη δυνατή. Αν από την αρχική ακολουθία των επαναλήψε-ων x(k)∞k=0 δημιουργήσουμε τη νέα ακολουθία επαναλήψεων y(k)∞k=0, με τον τρόπο πουπεριγράϕτηκε, τότε θα έχουμε

y(k) =k∑

j=0

akjx(j), k = 0, 1, 2, · · · , (4.2)

όπουk∑

j=0

akj = 1, µϵ akj ∈ IR, k = 0, 1, 2, · · · . (4.3)

(Σημείωση: Προϕανώς για akk = 1 και akj = 0, j = 0(1)k − 1, η ακολουθία (4.2) ταυτίζεταιμε την αρχική (4.1).)

121

Page 122: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

122

Αν ορίσουμε τα πολυώνυμα

pk(z) =k∑

j=0

akjzj, k = 0, 1, 2, · · · ,

βαθμού το πολύ k, τότε το διάνυσμα-σϕάλμα e(k) της νέας ακολουθίας y(k)∞k=0 θα δίνεταιαπό την έκϕραση

e(k) = y(k) − x =k∑

j=0

akjx(j) −

k∑j=0

akjx =k∑

j=0

akje(j) =

k∑j=0

akj(Tje(0)) = pk(T )e

(0). (4.4)

Από την (4.4), χρησιμοποιώντας τη ϕυσική ℓ2−norm, και εκμεταλλευόμενοι το γεγονόςότι ο T είναι Ερμιτιανός και οι συντελεστές του pk(z) πραγματικοί, έχουμε ότι για κάθε k καικάθε pk(z) υπάρχει e(0) ∈ ICn\0 τ.ω. να μπορούμε να έχουμε αμέσως τις σχέσεις

supe(0)∈ICn\0

(||e(k)||2||e(0)||2

)= ||pk(T )||2 = ρ(pk(T )) = max

λi∈σ(T )|pk(λi)|, k = 0, 1, 2, · · · ,

και ακόμη ότι

supe(0)∈ICn\0

(||e(k)||2||e(0)||2

)= max

λi∈σ(T )|pk(λi)| ≤ max

−1<α≤z≤β<1|pk(z)|, (4.5)

όπου θεωρήθηκε ότι −1 < α ≤ λi ≤ β < 1, πράγμα που ισχύει αϕού ο T είναι Ερμιτιανός μερ(T ) < 1.

Από τον ορισμό της μέσης ταχύτητας σύγκλισης μετά k επαναλήψεις της (3.11), στηνπαρούσα περίπτωση, όπου χρησιμοποιούμε ℓ2−norms, θα έχουμε κατ΄ αναλογίαν ότι

R(pk(T )) ≡ − ln ||pk(T )||2k

. (4.6)

Για να πετύχουμε, λοιπόν, τη μέγιστη ταχύτητα σύγκλισης της ακολουθίας y(k)∞k=0, με βάσητην ανάλυση που προηγήθηκε, θα πρέπει να ελαχιστοποιήσουμε το δεύτερο μέλος της (4.5)για κάθε k. Δηλαδή, αν Pk είναι το σύνολο των πραγματικών πολυωνύμων βαθμού το πολύk, έχουμε να επιλύσουμε το ακόλουθο min-max πρόβλημα

minpk∈Pk, pk(1)=1

max

−1<α≤z≤β<1|pk(z)|

. (4.7)

Page 123: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

123

Η λύση του min-max προβλήματος (4.7) είναι κλασική και δίνεται από τα πολυώνυμα τουChebyshev πρώτου είδους τα οποία ορίζονται ως εξής

T0(z) = 1,T1(z) = z,Tm(z) = 2zTm−1(z)− Tm−2(z), m = 2, 3, 4, · · · .

(4.8)

Με βάση τον παραπάνω ορισμό μπορεί να αποδειχτούν επαγωγικά οι ακόλουθες ιδιότητες τωνπολυωνύμων του Chebyshev.α) βαθμός(Tm(z)) = m, Tm(1) = 1, Tm(z) άρτια (αντίστοιχα, περιττή) συνάρτηση του z ανm άρτιος (αντίστοιχα, περιττός).

β) Tm(z) =

cos(m cos−1 z), αν − 1 ≤ z ≤ 1,cosh(m cosh−1 z), αν z ≥ 1,

δηλαδήβ1) Tm(z) = cos(mθ), z = cos θ, θ ∈ [0, π], ανν − 1 ≤ z ≤ 1,β2) Tm(z) = cosh(mu), z = coshu, u ≥ 0, ανν z ≥ 1.

γ) Tm(z) = 12[(z + (z2 − 1)

12 )m + (z − (z2 − 1)

12 )m].

Επιπλέον, για z ∈ [−1, 1] μπορεί να αποδειχτούν αμέσως και οι παρακάτω ιδιότητεςδ) max−1≤z≤1 |Tm(z)| = 1.ε) Tm(zj) = (−1)j, για zj = cos

(jπm

), j = 0(1)m.

στ) Tm(zl) = 0, για zl = cos(

(2l+1)π2m

), l = 0(1)m− 1.

Τα πολυώνυμα του Chebyshev χρησιμεύουν για τη λύση του min-max προβλήματος (4.7)λόγω της ακόλουθης ιδιότητάς τους που δίνεται στη συνέχεια με μορϕή πρότασης.

Θεώρημα 4.1 Εστω ότι −1 < α < β < 1. Τότε το min-max πρόβλημα

minpm∈Pm, pm(1)=1

(max

−1<α≤z≤β<1|pm(z)|

), (4.9)

όπου Pm το σύνολο των πολυωνύμων βαθμού μικρότερου ή ίσου του m με πραγματικούςσυντελεστές, λύνεται μοναδικά από το πολυώνυμο

pm(z) =Tm

(2z−(β+α)

β−α

)Tm

(2−(β+α)

β−α

) (4.10)

για το οποίο ισχύει ότι

maxα≤z≤β

|pm(z)| =1

Tm

(2−(β+α)

β−α

) . (4.11)

Page 124: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

124

Απόδειξη: Καταρχάς θα πρέπει να διαπιστωθεί αν το πολυώνυμο pm(z), που δίνεται αναλυτικά,ορίζεται, ανήκει στο σύνολο Pm, ικανοποιεί τη συνθήκη pm(1) = 1 και τέλος αν η μέγιστηαπόλυτα τιμή του στο διάστημα [α, β] δίνεται πράγματι από την έκϕραση της (4.11). Μπορείεύκολα να διαπιστωθεί ότι το όρισμα του αριθμητή του δεύτερου μέλους της (4.10) για α ≤z ≤ β παίρνει τιμές στο διάστημα [−1, 1] και συγκεκριμένα ο γραμμικός μετασχηματισμός

z 7→ y, y =2z − (β + α)

β − α(4.12)

είναι ένα προς ένα επί του διαστήματος [α, β] στο [−1, 1]. Αρα ο αριθμητής στο κλάσματης (4.11) ορίζεται και μάλιστα από την ιδιότητα (β1), με την προϕανή αντικατάσταση του zστη (β1) από το y της (4.12). Το όρισμα του παρονομαστή του ίδιου κλάσματος μπορεί ναδιαπιστωθεί αμέσως ότι είναι πάντα μεγαλύτερο του 1. Αρα κι ο παρονομαστής ορίζεται με βάσηόμως την ιδιότητα (β2) με την αντικατάσταση του z της (β2) από τη σταθερά 2−(β+α)

β−α. Συνεπώς

το pm(z) ορίζεται και είναι προϕανώς πολυώνυμο βαθμού m ως προς z αϕού ο αριθμητής στην(4.10) είναι πολυώνυμο του Chebyshev βαθμού m με όρισμα γραμμική συνάρτηση του z καιο παρονομαστής είναι σταθερά. Αρα pm(z) ∈ Pm. Επιπλέον, αμέσως διαπιστώνεται ότιpm(1) = 1. Το μόνο που απομένει να διαπιστωθεί είναι η ικανοποίηση της (4.11). Πράγματι,ο παρονομαστής είναι μια θετική σταθερά, αϕού το όρισμα του αντίστοιχου πολυωνύμου τουChebyshev είναι μεγαλύτερο από 1 και ο ορισμός του γίνεται από τη (β2). Ακόμη, λόγωτης ένα προς ένα επί απεικόνισης του διαστήματος [α, β] για το z στο διάστημα [−1, 1]

για το y δίνει από την ιδιότητα (δ) ότι maxα≤z≤β |pm(z)| = max−1≤y≤1 |Tm(y)||Tm(

2−(β+α)β−α

)|= 1

Tm( 2−(β+α)β−α )

.

Είναι ϕανερό ότι αυτή η μέγιστη τιμή του |pm(z)| λαμβάνεται διαμέσου της μέγιστης τιμής του|Tm(y)|. Η μέγιστη τιμή του |Tm(y)|, με βάση τις ιδιότητες (δ) και (ε), λαμβάνεται στα σημείαyj = cos

(jπm

), j = 0(1)m, όπου οι τιμές του Tm(y) είναι Tm(yj) = (−1)j, δηλαδή τιμές με

απόλυτη τιμή μονάδα και εναλλασσόμενα πρόσημα. Η αντίστοιχη μέγιστη τιμή του |pm(z)| θαλαμβάνεται ενόψει της (4.12) σταm+1 διακριτά σημεία zj = 1

2[(β−α)yj+(β+α)], j = 0(1)m,

του διαστήματος [α, β], και επομένως το pm(z) θα παίρνει στα σημεία αυτά την απόλυταμέγιστη τιμή 1

Tm( 2−(β+α)β−α )

με εναλλασσόμενα πρόσημα.

Απομένει τώρα να δειχτεί ότι το πολυώνυμο pm(z) είναι το μόνο που λύνει το πρόβληματου θεωρήματος. Για το σκοπό αυτό θα πρέπει να δειχτεί ότι δεν υπάρχει άλλο πολυώνυμομε πραγματικούς συντελεστές βαθμού το πολύ m και άθροισμα συντελεστών μονάδα πουνα έχει μέγιστη απόλυτη τιμή στο διάστημα [α, β] μικρότερη ή ίση από την 1

Tm( 2−(β+α)β−α )

.

Στη συνέχεια θα αποδειχτεί η περίπτωση του “μικρότερη” μόνον. Η περίπτωση του “ίση”αποδείχνεται με παρόμοια επιχειρηματολογία και παραλείπεται. (Ο ενδιαϕερόμενος αναγώστηςπαραπέμπεται στο βιβλίο του Young [48].) Εστω, λοιπόν, ότι υπάρχει και άλλο πολυώνυμοqm(z) με πραγματικούς συντελεστές, βαθμού μικρότερου ή ίσου του m, με qm(1) = 1, καιτέτοιο ώστε

maxα≤z≤β

|qm(z)| < maxα≤z≤β

|pm(z)|. (4.13)

Page 125: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

125

Θεωρούμε τη διαϕορά rm(z) = pm(z) − qm(z), που είναι πολυώνυμο βαθμού μικρότερου ήίσου του m. Είναι ϕανερό ότι, αρχίζοντας από το z0 = β και καταλήγοντας στο zm = α, τοrm(z), λόγω της (4.13), παίρνει στα σημεία zj, j = 0(1)m, τιμές με πρόσημα εναλλάξ θετικάκαι αρνητικά. Επομένως, σύμϕωνα με το Θεώρημα του Rolle, σε κάθε ένα από τα διαστήματα(zj+1, zj), j = 0(1)m − 1, υπάρχει μία τουλάχιστον ρίζα sj του rm(z). Αρα θα υπάρχουντουλάχιστον m διακριτά σημεία sj, j = 0(1)m− 1, τ.ω. −1 < α ≤ zj+1 < sj < zj ≤ β < 1,όπου rm(sj) = 0. Εχουμε όμως και rm(1) = pm(1) − qm(1) = 0, όπου το 1 είναι εκτός τουδιαστήματος [α, β]. Δηλαδή, το πολυώνυμο rm(z) έχει τουλάχιστον m+1 ρίζες πράγμα πουείναι άτοπο. Επανερχόμαστε στην ημι-επαναληπτική μέθοδο που έχουμε θεωρήσει: Με τη χρησιμοποί-

ηση των πολυωνύμων του Chebyshev και με την υπόθεση ότι γνωρίζουμε μόνο τη ϕασματικήακτίνα, ρ(T ), του επαναληπτικού πίνακα T του αρχικού σχήματος, το πρόβλημα που θέσαμεστην αρχή του παρόντος κεϕαλαίου έχει ήδη λυθεί. Ομως ένα μειονέκτημα της νέας μεθόδουϕαίνεται να είναι το ακόλουθο. Σε κάθε βήμα k η νέα μέθοδος χρησιμοποιεί όλες τις προη-γούμενες επαναλήψεις x(j), j = 0(1)k, του αρχικού επαναληπτικού σχήματος. Αυτό σημαίνειότι για να βρεθεί η συγκεκριμένη επανάληψη y(k) της ημι-επαναληπτικής μεθόδου θα πρέπειπρώτα να βρίσκεται η αντίστοιχη επανάληψη x(k) του αρχικού σχήματος και έπειτα, με το βα-ρυκεντρικό μέσο όρο από τις (4.2)-(4.3) και με ό,τι υποδείχνει η θεωρία των πολυωνύμων τουChebyshev, να βρίσκεται η y(k). Η διαδικασία όμως αυτή αυξάνει σημαντικά (ιδιαίτερα όταν τοk αυξάνει) το κόστος ανά επανάληψη σε πλήθος πράξεων της νέας μεθόδου, πράγμα που είναιαποτρεπτικό για τη χρησιμοποίησή της. Αν όμως εξετάσουμε λίγο προσεκτικότερα την ανα-δρομική σχέση του ορισμού των πολυωνύμων του Chebyshev, είναι δυνατόν να διαπιστώσουμεότι το μειονέκτημα αυτό ξεπερνιέται.

Συγκεκριμένα, από το Θεώρημα 4.1 με −1 < −ρ = α ≤ z ≤ β = ρ < 1, όπου ρ = ρ(T ),έχουμε ότι

pm(z) =1

Tm

(1ρ

)Tm

(z

ρ

). (4.14)

Χρησιμοποιώντας την έκϕραση της (4.14) έχουμε Tm

(zρ

)= Tm

(1ρ

)pm(z), οπότε με βάση

την τελευταία γράϕοντας το Tk+1

(zρ

)σα συνάρτηση των Tk

(zρ

)και Tk−1

(zρ

), από την (4.8),

καταλήγουμε στην

Tk+1

(1

ρ

)pk+1(z) =

2z

ρTk

(1

ρ

)pk(z)− Tk−1

(1

ρ

)pk−1(z), k ≥ 1, (4.15)

όπου, από την (4.10), έχουμε p0(z) = 1 και p1(z) = z. Αν στην (4.15) θέσουμε αντί z τονπίνακα T θα έχουμε μια αντίστοιχη ισότητα πολυωνυμικών εκϕράσεων του πίνακα T . Αν ταμέλη της ισότητας αυτής πολλαπλασιάσουμε από τα δεξιά επί e(0), τότε λόγω της (4.4), με

Page 126: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

126

pm(T ) στη θέση του pm(T ), που δίνει pm(T )e(0) = e(m), έχουμε

Tk+1

(1

ρ

)e(k+1) =

2

ρTk

(1

ρ

)T e(k) − Tk−1

(1

ρ

)e(k−1), k ≥ 1.

Χρησιμοποιώντας τον ορισμό των e(k) = y(k) − x, από την (4.4), και έχοντας υπόψη ότιx = Tx+ c, από τη (4.1), είναι δυνατόν να καταλήξουμε στην

y(k+1) =2Tk

(1ρ

)ρTk+1

(1ρ

)Ty(k) − Tk−1

(1ρ

)Tk+1

(1ρ

)y(k−1) +2Tk

(1ρ

)ρTk+1

(1ρ

)cή στην

y(k+1) = ωk+1Ty(k) + (1− ωk+1)y

(k−1) + ωk+1c, (4.16)

αν θέσουμε

ωk+1 =2Tk

(1ρ

)ρTk+1

(1ρ

)= 1 +

Tk−1

(1ρ

)Tk+1

(1ρ

) , k ≥ 1. (4.17)

Σημειώνεται ότι από την ω2 = 22−ρ2

, που προκύπτει από την (4.17) για k = 1, μπορούν ναβρεθούν όλα τα άλλα ωk+1 από τη σχέση

ωk+1 =1

1−(

ρ2ωk

4

) , k ≥ 2. (4.18)

Η (4.18) προκύπτει αν απαλειϕτεί το Tk

(1ρ

)από τις ωk+1 =

2Tk( 1ρ)

ρTk+1( 1ρ)και ωk =

2Tk−1( 1ρ)

ρTk( 1ρ)και

στη συνέχεια αντικατασταθεί ο λόγοςTk−1( 1

ρ)Tk+1( 1

ρ)με βάση την εντός των παρενθέσεων έκϕραση

της σχέσης (4.17) από το ωk+1 − 1. Μ΄ αυτόν τον τρόπο είναι περιττό να βρίσκονται και

να χρησιμοποιούνται οι αναλυτικές εκϕράσεις των πολυωνύμων του Chebyshev Tk

(1ρ

)και

Tk+1

(1ρ

), πράγμα που ελαττώνει σημαντικά τους ανά επανάληψη υπολογισμούς.

Παρατηρήσεις: Στη συνέχεια παραθέτουμε μερικές βασικές παρατηρήσεις που αϕορούν στησυμπεριϕορά των παραμέτρων ωk+1, k ≥ 1.α) Είναι γνωστό ότι η συνάρτηση cosh z είναι γνήσια αύξουσα συνάρτηση του z στο διάστημα

[1,∞). Αρα ο λόγοςTk−1( 1

ρ)Tk+1( 1

ρ)βρίσκεται στο ανοικτό διάστημα (0, 1), αϕού, αν θέσουμε 1

ρ=

coshu, για k > 1 είναι Tk−1

(1ρ

)= cosh ((k − 1)u) , Tk+1

(1ρ

)= cosh ((k + 1)u) και 0 <

(k − 1)u < (k + 1)u, ενώ για k = 1 ο αντίστοιχος λόγος είναιT0( 1

ρ)T2( 1

ρ)= ρ2

2−ρ2< 1. Το

Page 127: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

127

συμπέρασμα είναι ότι όλοι οι όροι της ακολουθίας ωk∞k=2 βρίσκονται στο ανοικτό διάστημα(1, 2).

β) Οι λόγοιTk−1( 1

ρ)Tk+1( 1

ρ)αποτελούν μια γνήσια ϕθίνουσα ακολουθία ως προς k. Για το σκοπό αυτό

αρκεί να αποδείξουμε ότι για δυο διαδοχικούς λόγους ισχύει

Tk−1

(1ρ

)Tk+1

(1ρ

) >Tk

(1ρ

)Tk+2

(1ρ

)ή ισοδύναμα ότι

Tk−1

(1

ρ

)Tk+2

(1

ρ

)> Tk

(1

ρ

)Tk+1

(1

ρ

cosh ((k − 1)u) cosh ((k + 2)u) > cosh (ku) cosh ((k + 1)u)

ήcosh ((2k + 1)u) + cosh (3u) > cosh ((2k + 1)u) + coshu,

που προϕανώς ισχύει.γ) Με βάση τα συμπεράσματα των παρατηρήσεων (α) και (β) έχουμε ότι η ακολουθία ωk∞k=2

είναι γνήσια ϕθίνουσα και ϕραγμένη εκ των κάτω από το 1. Αρα θα συγκλίνει. Επομένως,αν limk→∞ ωk = ω θα εχουμε από την (4.18), αν πάρουμε όρια με k να τείνει στο ∞, ότι ο ωικανοποιεί την εξίσωση

ρ2ω2 − 4ω + 4 = 0

της οποίας η μόνη ρίζα στο διάστημα (1, 2) δίνεται από την έκϕραση

ω =2

1 +√1− ρ2

. (4.19)

Η έκϕραση για το ω της (4.19) είναι η ίδια έκϕραση που βρίσκεται για τη βέλτιστη παράμετροτης SOR μεθόδου στην περίπτωση όπου το αρχικό προς επίλυση σύστημα είναι το (I−T )x = c,και οι εμπλεκόμενοι πίνακες έχουν επιπλέον τις ιδιότητες, ο πίνακας I −T να είναι δικυκλικόςκαι συνεπώς διατεταγμένος και ο πίνακας T να είναι ο επαναληπτικός πίνακας της αντίστοιχηςμεθόδου Jacobi.

Το επαναληπτικό σχήμα (4.16), στο οποίο έχουμε καταλήξει, είναι απαλλαγμένο από όλατα μειονεκτήματα που εμϕάνιζε η αρχική μορϕή του. Ακόμη, είναι γνωστό από τον ορισμότης ακολουθίας y(k) ότι y(0) = x(0), και επομένως αν τεθεί ω1 = 1, τότε είναι δυνατόν ναδιαπιστωθεί ότι y(1) = Ty(0) + c. Εξάλλου από την (4.16) είναι ϕανερό ότι όλες οι επόμενεςεπαναλήψεις y(k+1), k ≥ 1, είναι απλές συναρτήσεις των δύο προηγούμενων επαναλήψεων. Ητελευταία παρατήρηση καθιστά την προτεινόμενη νέα μέθοδο κάτι το τελείως διαϕορετικό από

Page 128: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

128

τις μέχρι τώρα επαναληπτικές μεθόδους, που μελετήσαμε στα προηγούμενα κεϕάλαια. Επιπλέ-ον είναι δυνατόν να παρατηρήσουμε πως αν “δεχτούμε” προς στιγμήν ότι y(k−1) = y(k), τότε τοσχήμα που προκύπτει θυμίζει έντονα το extrapolated σχήμα του αρχικού x(k+1) = Tx(k) + c,με τη μόνη διαϕορά ότι η extrapolation παράμετρος ωk+1 μεταβάλλεται από επανάληψη σεεπανάληψη. Λόγω των δύο αυτών χαρακτηριστικών, δηλαδή της εξάρτησης της k + 1 επανά-ληψης από τις δυο προηγούμενες και της μεταβολής της παραμέτρου ωk+1, το παρόν σχήμα(4.16) ανήκει σε μια γενικότερη κατηγορία σχημάτων που καλούνται “μή στατικά” “δεύτερηςτάξης” σε αντίθεση με τα μέχρι τώρα γνωστά που καλούνται για προϕανείς λόγους “στατικά”“πρώτης τάξης”.

Τέλος, για την εύρεση της ταχύτητας σύγκλισης μετά από (κάθε) k επαναλήψεις κάτω απότις μέχρι τώρα αρχικές προϋποθέσεις, ότι ο πίνακας T είναι Ερμιτιανός και ότι είναι γνωστήμόνο η ϕασματική ακτίνα ρ = ρ(T ) (< 1) του αρχικού επαναληπτικού σχήματος, έχουμε απότη θεωρία που αναπτύχτηκε ότι

||pk(T )||2 =1

Tk

(1ρ

) , k ≥ 0.

Επειδή 1ρ> 1, από την ιδιότητα (γ) των πολυωνύμων του Chebyshev, αντικαθιστώντας στην

παραπάνω σχέση, έχουμε

||pk(T )||2 = 2

( ρ

1 +√1− ρ2

)k

+

(1 +

√1− ρ2

ρ

)k−1

, (4.20)

που, όπως αναϕέρθηκε, δίνει διαμέσου της (4.6) τη μεγαλύτερη δυνατή ταχύτητα σύγκλισηςμετά από (κάθε) k επαναλήψεις.

Κλείνοντας το παρόν κεϕάλαιο θα εξετάσουμε την περίπτωση κατά την οποία ο T, πέρααπό Ερμιτιανός, είναι ο επαναληπτικός πίνακας του Jacobi, που αντιστοιχεί στον I − T , μερ(T ) < 1, και επιπλέον ο I − T είναι δικυκλικός και συνεπώς διατεταγμένος, όπως δηλαδήμπορεί να συμβαίνει στην περίπτωση που αναϕέρθηκε λίγο πριν στην Παρατήρηση (γ) και πουαϕορούσε το όριο στο οποίο έτεινε η παράμετρος της ημι-επαναληπτικής μεθόδου. Τότε, ηέκϕραση (4.20) μπορεί να δοθεί συντομογραϕικά αν χρησιμοποιηθεί η αντίστοιχη έκϕραση γιατην overrelaxation παράμετρο της βέλτιστης SOR, που είναι η ωβ = 2

1+√

1−ρ2(T ). Θεωρώντας

την έκϕραση ρ

1+√

1−ρ2, που εμπλέκεται στην (4.20), παίρνουμε διαδοχικά

ρ

1 +√1− ρ2

=

(ρ2

(1 +√

1− ρ2)2

) 12

=

(1−

√1− ρ2

1 +√

1− ρ2

) 12

= (ωβ − 1)12 .

Page 129: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

129

Με βάση το παραπάνω αποτέλεσμα η σχέση (4.20) μπορεί να γραϕτεί ως

||pk(T )||2 = (ωβ − 1)k2

[2

1 + (ωβ − 1)k

]. (4.21)

Εχοντας υπόψη την (4.21), η μέση ασυμπτωτική ταχύτητα σύγκλισης της μεθόδου στηνπροκείμενη περίπτωση θα βρίσκεται με βάση και την (4.6) ως εξής:

R∞(pk(T )) = limk→∞R(pk(T )) = − limk→∞ ln(||pk(T )||2)1k

= − limk→∞

[12ln(ωβ − 1) + 1

kln(

21+(ωβ−1)k

)]= − ln(ωβ − 1)

12 .

Σημείωση: Οπως καθίσταται ϕανερό, στην περίπτωση που μόλις εξετάστηκε, η μέση ασυμ-πτωτική ταχύτητα της ημι-επαναληπτικής μεθόδου Chebyshev είναι το μισό της αντίστοιχηςτης βέλτιστης SOR!

ΑΣΚΗΣΕΙΣ:

1.: Να αποδειχτούν οι ιδιότητες (α)–(στ) των πολυωνύμων του Chebyshev, που βασίζονταιστον Ορισμό (4.8).

2.: Να γίνουν τρεις επαναλήψεις της Chebyshev μεθόδου για τη λύση του συστήματοςAx = b, με A = trid(−1, 2,−1) ∈ IR3,3, και b = [1 0 1]T , χρησιμοποιώντας ως αρχικήμέθοδο (μέθοδο βάσης) τη μέθοδο Jacobi και αρχικό διάνυσμα x(0) = 0.

Page 130: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

130

Page 131: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

Κεϕάλαιο 5

Θεωρητικές Εϕαρμογές τωνΕπαναληπτικών Μεθόδων

5.1 Εισαγωγή

Στο παρόν Κεϕάλαιο εισάγονται μερικές απλές έννοιες και δίνονται μερικές προτάσεις απότη θεωρία των εξισώσεων διαϕορών καθώς και από αυτή των τανυστικών γινομένων. Οπωςθα καταστεί ϕανερό, χρησιμοποιώντας τις έννοιες και τις προτάσεις αυτές, σε ορισμένες α-πλές περιπτώσεις αριθμητικής επίλυσης με επαναληπτικές μεθόδους προβλημάτων-μοντέλων(ελλειπτικών μερικών) διαϕορικών εξισώσεων, που παρουσιάζονται συχνά στην πράξη, είναιδυνατόν να βρίσκονται αναλυτικές εκϕράσεις για τις ιδιοτιμές, και μερικές ϕορές και για ταιδιοδιανύσματα, πινάκων, που εμπλέκονται σ΄ αυτές, καθώς επίσης και να γίνονται συγκρίσειςσ΄ ό,τι αϕορά τη μέση ασυμπτωτική ταχύτητα σύγκλισης των επαναληπτικών αυτών μεθόδων.

5.2 Εξισώσεις Διαϕορών

Ορισμός 5.1 Εξίσωση διαϕορών τάξης n καλείται κάθε εξίσωση της μορϕής

f(y(k + n), y(k + n− 1), · · · , y(k + 1), y(k)) = 0,

με άγνωστη μία συνάρτηση y := yk ≡ y(k) της ακέραιας μεταβλητής k, και η οποία αληθεύειγενικά για κάθε τιμή της k ∈ ZZ.

Ορισμός 5.2 Μια εξίσωση διαϕορών τάξης n καλείται γραμμική, ομογενής, με σταθερούςσυντελεστές, όταν είναι της μορϕής

anyk+n + an−1yk+n−1 + · · ·+ a1yk+1 + a0yk = 0, (5.1)131

Page 132: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

132

όπου ai ∈ IC σταθερές με ana0 = 0 και αληθεύει ∀ k = 0,±1,±2, · · · .

Για την εύρεση των λύσεων της (5.1), εκτός της τετριμμένης y ≡ 0, θεωρούμε την πολυωνυ-μική εξίσωση

p(r) := anrn + an−1r

n−1 + · · ·+ a1r + a0 = 0,

η οποία καλείται και “χαρακτηριστική” της (5.1), βρίσκουμε τις ρίζες της, έστω r1, r2, · · · , rm,αντίστοιχων πολλαπλοτήτων n1, n2, · · · , nm με n1 + n2 + · · · + nm = n, οπότε η καλούμενη“γενική” λύση της (5.1) δίνεται από την έκϕραση

y(k) =m∑i=1

(ni−1∑j=0

cijkj

)rki , (5.2)

όπου cij ∈ IC, j = 0(1)ni − 1, i = 1(1)m, αυθαίρετες σταθερές. Οι σταθεροί συντελεστέςστην (5.2) προσδιορίζονται μονοσήμαντα και μάλιστα εύκολα σε ειδικές περιπτώσεις, π.χ. ανοι ρίζες της χαρακτηριστικής εξίσωσης είναι διακεκριμένες και δίνονται οι τιμές της y(k) γιαn διαδοχικές τιμές του k, οπότε οδηγούμαστε σε “ειδικές” λύσεις.

Σα μία εϕαρμογή των μέχρι τώρα αναϕερθέντων θεωρούμε την αριθμητική επίλυση τηςπαρακάτω απλής διαϕορικής εξίσωσης με συνοριακές συνθήκες. Εστω Ω = (0, 1) το ανοικτόμοναδιαίο διάστημα της πραγματικής ευθείας και η διαϕορική εξίσωση

−d2u(x)

dx2= f(x), oρισµϵνη στo Ω, µϵ u(0) = α, u(1) = β, (5.3)

όπου f(x) γνωστή συνάρτηση. Για την αριθμητική επίλυση της (5.3) θεωρούμε μια ομοιόμορϕηδιαμέριση του διαστήματος [0, 1] σε n + 1, n ≥ 3, ίσα υποδιαστήματα μήκους h = 1

n+1.

Εστω xi = ih, i = 0(1)n + 1, τα σημεία της διαμέρισης μαζί με τα άκρα. Στη συνέχειαδιακριτοποιούμε το συνεχές πρόβλημα (5.3) προσεγγίζοντας τη δεύτερη παράγωγο στα σημείατης διαμέρισης με κεντρικές διαϕορές δεύτερης τάξης. Συγκεκριμένα

d2u(xi)

dx2≈ u(xi−1)− 2u(xi) + u(xi+1)

h2, i = 1(1)n, (5.4)

όπου το τοπικό σϕάλμα αποκοπής σε κάθε μία από τις εξισώσεις της (5.4) είναι O(h2). Αν ui

είναι οι προσεγγιστικές τιμές των u(xi) και fi = f(xi), i = 1(1)n, τότε χρησιμοποιώντας την(5.3) καταλήγουμε στο γραμμικό σύστημα

Au = c,A = trid(−1, 2,−1) ∈ IRn,n, u = [u1 u2 · · · un]

T και c = [h2f1 + α, h2f2, · · · , h2fn + β]T ,(5.5)

Page 133: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

133

που αποτελεί διακριτό ανάλογο του συνεχούς προβλήματος (5.3), ο δε συμβολισμός trid(a, b, c)χρησιμοποιείται για να δηλώσει έναν τριδιαγώνιο πίνακα με διαγώνια στοιχεία ίσα με b, κάτωαπό τη διαγώνιο στοιχεία ίσα με a και πάνω από τη διαγώνιο στοιχεία ίσα με c.

Είναι εύκολο να διαπιστωθεί ότι ο πίνακας των συντελεστών A του συστήματος (5.5) είναιπραγματικός, συμμετρικός, θετικά ορισμένος και δικυκλικός και συνεπώς διατεταγμένος. Επο-μένως όλες οι άμεσες και οι επαναληπτικές μέθοδοι επίλυσης γραμμικών συστημάτων μπορούννα εϕαρμοστούν. Δηλαδή, οι μέθοδοι απαλοιϕής Gauss (ή LU παραγοντοποίησης), και μά-λιστα χωρίς οδήγηση, Cholesky, καθώς και οι επαναληπτικές μέθοδοι Jacobi , Gauss-Seidel,SOR, SSOR και η ημι-επαναληπτική μέθοδος Chebyshev.Ενα-δυο σημεία που αϕορούν στη σύγκλιση των επαναληπτικών μεθόδων θα πρέπει να τονι-στούν ιδιαίτερα. Καταρχάς, επειδή ο A είναι πραγματικός, συμμετρικός και θετικά ορισμένος,η SOR και η SSOR μέθοδοι συγκλίνουν, για ω ∈ IR, όπου και θα περιοριοριστούμε στοπαρόν Κεϕάλαιο, για κάθε ω ∈ (0, 2). Αϕού η SOR συγκλίνει για ω ∈ (0, 2) θα συγκλίνεικαι η Gauss-Seidel (ω = 1). Λόγω της δικυκλικής και συνεπώς διατεγμένης ιδιότητας τουA κι εϕόσον η Gauss-Seidel συγκλίνει θα συγκλίνει και η Jacobi αϕού η ϕασματική ακτί-να του επαναληπτικού πίνακα της Gauss-Seidel είναι το τετράγωνο της ϕασματικής ακτίναςτου αντίστοιχου πίνακα της Jacobi. Τέλος, η ημι-επαναληπτική μέθοδος Chebyshev αν βασι-στεί στην επαναληπτική μέθοδο του Jacobi θα συγκλίνει αϕού, όπως μπορεί να διαπιστωθεί,ικανοποιούνται όλες οι προϋποθέσεις που αναϕέρθηκαν στο προηγούμενο κεϕάλαιο.

Για την εύρεση ϕασματικών ακτίνων και σύγκριση μέσων (ασυμπτωτικών) ταχυτήτων σύγ-κλισης των επαναληπτικών μεθόδων απαιτείται η γνώση των ιδιοτιμών του επαναληπτικούπίνακα του Jacobi που αντιστοιχεί στον A. Λόγω των ιδιοτήτων του πίνακα A η εύρεση τωνιδιοτιμών του θα οδηγήσει στη συνέχεια στην εύρεση και όλων των άλλων στοιχείων πουτυχόν μας ενδιαϕέρουν.

Για τον πίνακα A της (5.5), αν λ είναι μια ιδιοτιμή του και x = [x1x2 · · · xn]T το αντίστοιχο

ιδιοδιάνυσμα θα ισχύει ότιAx = λx, (5.6)

όπου λ ∈ IC και x ∈ ICn \ 0. Οι ιδιοτιμές λ, όμως, είναι πραγματικές και θετικές, αϕού ο Aείναι πραγματικός, συμμετρικός και θετικά ορισμένος, το δε ιδιοδιάνυσμα x μπορεί να παρθείπραγματικό. Επιπλέον ισχύει ότι λ ≤ ||A||∞ = 4. Αν δε σχηματιστεί ο πίνακας 4I − A είναιδυνατόν να διαπιστωθεί ότι είναι κι αυτός θετικά ορισμένος και άρα 0 < λ < 4. Εξισώνονταςτώρα τις i-οστές συνιστώσες των δύο μελών της (5.6) παίρνουμε

xi+1 − (2− λ)xi + xi−1 = 0, i = 1(1)n, µϵ x0 = xn+1 = 0. (5.7)

Η (5.7) δεν είναι παρά μία ομογενής, γραμμική εξίσωση διαϕορών δεύτερης τάξης με σταθερούςσυντελεστές, που μπορεί να επεκταθεί και να ισχύει για κάθε τιμή του i αν ορίσουμε αυθαίρετατο xi−1 να επαληθεύει την (5.7) για κάθε i = 0,−1,−2, · · · και το xi+1 να επαληθεύει την ίδιαεξίσωση για i = n + 1, n + 2, n + 3, · · · . Για την επίλυση της (5.7), έστω r1, r2 οι ρίζες της

Page 134: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

134

χαρακτηριστικής τηςr2 − (2− λ)r + 1 = 0, (5.8)

για τις οποίες ισχύουνr1 + r2 = 2− λ και r1r2 = 1. (5.9)

Οι r1, r2 είναι μιγαδικές συζυγείς (άρα r1 = r2), αϕού η διακρίνουσα της (5.8) είναι ίση με(2− λ)2 − 4 = λ(λ− 4) < 0. Επομένως η γενική λύση της (5.8) δίνεται από τη

xi = c1ri1 + c2r

i2. (5.10)

Χρησιμοποιώντας τις συνοριακές συνθήκες x0 = xn+1 = 0, παίρνουμε, λόγω της (5.10), ότι

c1 + c2 = 0, c1rn+11 + c2r

n+12 = 0. (5.11)

Απαλείϕοντας τις σταθερές c1, c2 από τις (5.11) και έχοντας υπόψη την r1r2 = 1, από τις(5.9), προκύπτει ότι

r2(n+1)1 = 1 = cos(2kπ) + ı sin(2kπ),

όπου k ∈ ZZ οποιοσδήποτε και ı =√−1, οπότε με εϕαρμογή του τύπου του De Moivre έχουμε

r1 = cos(kπ

n+ 1) + ı sin(

n+ 1),

όπου k ∈ ZZ οποιοσδήποτε. Από την r1r2 = 1 προκύπτει η αντίστοιχη έκϕραση για την r2,δηλαδή

r2 = cos(kπ

n+ 1)− ı sin(

n+ 1),

όπου k ∈ ZZ οποιοσδήποτε. Τέλος, από την πρώτη των (5.9) και τις δύο προηγούμες εκϕράσειςβρίσκουμε ότι

λ = 2

(1− cos(

n+ 1)

)= 4 sin2

(kπ

2(n+ 1)

),

όπου k ∈ ZZ οποιοσδήποτε. Αν παρατηρήσουμε ότι για k = 0(1)n + 1 βρίσκονται n + 2διαϕορετικές τιμές του λ, ενώ για κάθε άλλη τιμή του k βρίσκεται μια από τις προαναϕερθείσεςκαι για k = 0, n+ 1 βρίσκεται λ = 0, 4, αντίστοιχα, που έχουν αποκλειστεί ως ιδιοτιμές τουA, συμπεραίνουμε ότι όλες οι ιδιοτιμές του πίνακα A δίνονται από τις n διαϕορετικές εκϕράσεις

λk = 4 sin2

(kπ

2(n+ 1)

), k = 1(1)n. (5.12)

Είναι αξιοσημείωτο ότι μπορούν να βρεθούν και τα αντίστοιχα ιδιοδιανύσματα του A αν χρησι-μοποιηθούν οι εκϕράσεις του γενικού όρου της εξίσωσης διαϕορών (5.10). Συγκεκριμένα,

xi = c1

(cos

(kπ

n+ 1

)+ ı sin

(kπ

n+ 1

))i

+ c2

(cos

(kπ

n+ 1

)− ı sin

(kπ

n+ 1

))i

Page 135: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

135

και επειδή c2 = −c1, παίρνουμε ότι

xi = 2ıc1 sin

(ikπ

n+ 1

), i = 1(1)n, k = 1(1)n.

Ο 2ıc1 (= 0) ως κοινός παράγοντας όλων των συνιστωσών του k-οστού ιδιοδιανύσματος μπορείνα παραλειϕτεί, οπότε τελικά, το ιδιοδιάνυσμα που αντιστοιχεί στην ιδιοτιμή λk, k = 1(1)n,είναι το

x(k) =

[sin

(kπ

n+ 1

)sin

(2kπ

n+ 1

)· · · sin

(nkπ

n+ 1

)]T, k = 1(1)n. (5.13)

Για την εύρεση των ϕασματικών ακτίνων των επαναληπτικών πινάκων των (point) επανα-ληπτικών μεθόδων που έχουμε μελετήσει ως τώρα έχουμε:

Jacobi: Από το δοθέντα πίνακα A βρίσκουμε αμέσως ότι ο επαναληπτικός πίνακας τηςμεθόδου είναι ο TJ = 1

2trid(1, 0, 1). Οι ιδιοτιμές του TJ βρίσκονται εύκολα γιατί στην προ-

κείμενη περίπτωση έχουμε TJ = 12(2I − trid(−1, 2,−1)) = I − 1

2A. Αρα οι ιδιοτιμές του TJ

θα είναι ίσες με µk = 1 − 12λk = 1 − 1

24 sin2( kπ

2(n+1)) = cos( kπ

n+1) και η ϕασματική ακτίνα της

μεθόδου Jacobi θα δίνεται από τη

ρ(TJ) = cos(π

n+ 1).

Gauss-Seidel: Οπως αναϕέρθηκε, ο A ως τριδιαγώνιος είναι δικυκλικός και συνεπώς διατε-ταγμένος. Επομένως η ϕασματική ακτίνα του επαναληπτικού πίνακα, TGS, της μεθόδου θαδίνεται από την έκϕραση

ρ(TGS) = cos2(π

n+ 1).

Βέλτιστη SOR: Επειδή ο A είναι δικυκλικός και συνεπώς διατεταγμένος και ο πίνακαςJacobi που αντιστοιχεί σ΄ αυτόν έχει πραγματικές ιδιοτιμές με ρ(TJ) < 1 είναι δυνατόν ναβρεθεί μια βέλτιστη τιμή για την overrelaxation παράμετρο ω. Οπως είναι γνωστό αυτήδίνεται από τον τύπο ωβ = 2

1+√

1−ρ2(TJ ). Για την αντίστοιχη ϕασματική ακτίνα της SOR θα

έχουμε

ρ(Lωβ) = ωβ−1 =

2

1 +√

1− ρ2(TJ)−1 =

2

1 +√1− cos2( π

n+1)−1 =

1− sin( πn+1

)

1 + sin( πn+1

). (5.14)

Βέλτιστη SSOR: Σύμϕωνα με τη θεωρία που αναπτυχτήκε στο αντίστοιχο κεϕάλαιο εϕό-σον ο A είναι δικυκλικός και συνεπώς διατεταγμένος με ιδιοτιμές του επαναληπτικού πίνακα

Page 136: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

136

του Jacobi πραγματικές με μέτρο μικρότερο από τη μονάδα υπάρχει βέλτιστη SSOR μέθοδος,αντιστοιχεί στην τιμή ωβ = 1, και η ϕασματική ακτίνα του επαναληπτικού της πίνακα, ρ(Sωβ

),είναι ίση με αυτήν του επαναληπτικού πίνακα της Gauss-Seidel. Δηλαδή

ρ(Sωβ) = ρ(TGS) = cos2(

π

n+ 1).

Chebyshev: Για την ημι-επαναληπτική μέθοδο του Chebyshev, που βασίζεται στην επανα-ληπτική μέθοδο του Jacobi έχουμε ότι ο TJ είναι συμμετρικός με ιδιοτιμές στο κλειστό διά-στημα [−ρ(TJ), ρ(TJ)], όπου ρ(TJ) < 1, και επιπλέον ο I − T είναι δικυκλικός και συνεπώςδιατεταγμένος. Επομένως, σύμϕωνα με τη θεωρία που αναπτύχτηκε στο προηγούμενο κεϕά-λαιο, η μέση ταχύτητα σύγκλισης μετά από κάθε m επαναλήψεις θα είναι

− ln

((ωβ − 1)

12

[2

1 + (ωβ − 1)m

] 1m

),

όπου ωβ − 1 η έκϕραση που δίνεται στην (5.14), η δε μέση ασυμπτωτική ταχύτητα σύγκλισηςθα δίνεται από την

− ln(ωβ − 1)12 ,

και θα είναι ίση με το μισό της βέλτιστης SOR μεθόδου.

Η σύγκριση των μέσων ασυμπτωτικών ταχυτήτων σύγκλισης για μερικές από τις παραπάνωμεθόδους, στη συγκεκριμένη περίπτωση που εξετάζεται, είναι γνωστή. Π.χ., αυτή της Gauss-Seidel είναι διπλάσια της αντίστοιχης της Jacobi, της βέλτιστης SOR είναι μεγαλύτερη αυτήςτης Gauss-Seidel, της βέλτιστης SSOR είναι ίδια με την αντίστοιχη της Gauss-Seidel και τηςημι-επαναληπτικής μεθόδου του Chebyshev είναι το μισό αυτής της βέλτιστης SOR. Η μόνησύγκριση που μπορεί να γίνει παραπέρα είναι η συγκεκριμενοποίηση της σχέσης μεταξύ μέσωνασυμπτωτικών ταχυτήτων σύγκλισης των μεθόδων Gauss-Seidel και βέλτιστης SOR και ό,τιαυτή αμέσως συνεπάγεται. Η σύγκριση αυτή θα γίνει για προβλήματα που ενδιαϕέρουν στηνπράξη και άρα για “μεγάλα” n ή θεωρητικά για n → ∞, που είναι ισοδύναμο με το h → 0+.

Καταρχάς βρίσκουμε τις ισοδύναμες προς τις R∞(Lωβ) και R∞(TGS) εκϕράσεις. Για την

πρώτη, έχουμε από την (5.14) ότι

R∞(Lωβ) = − ln ρ(Lωβ

) = − ln(ωβ − 1) = − ln

(1− sin(πh)

1 + sin(πh)

),

αν δε χρησιμοποιήσουμε διαδοχικά τις συγκλίνουσες σειρές sin x = x− x3

3!+O(x5) καθώς και

την ln(1 + x) = x− x2

2+ x3

3+O(x4), για x → 0, μπορεί να προκύψει ότι

R∞(Lωβ) = 2πh+O(h3). (5.15)

Page 137: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

137

Για τη δεύτερη έκϕραση, εργαζόμενοι με τον ίδιο τρόπο και χρησιμοποιώντας και τη σειράcos x = 1− x2

2!+O(x4), προκύπτει ότι

R∞(TGS) = − ln(ρ(TGS)) = − ln(cos2(πh)),

οπότε βρίσκουμεR∞(TGS) = π2h2 +O(h4). (5.16)

Από τις (5.15) και (5.16) παρατηρούμε αμέσως ότι η μέση ασυμπτωτική ταχύτητα σύγκλισηςτης βέλτιστης SOR είναι κατά μία τάξη μεγέθους, ως προς h, μεγαλύτερη από αυτήν τηςGauss-Seidel, ο δε λόγος της πρώτης προς τη δεύτερη δίνει επιπλέον και τον ασυμπτωτικόπαράγοντα 2

π1h. Βασιζόμενοι στο τελευταίο αποτέλεσμα είναι δυνατόν να γίνουν αμέσως οι

συγκρίσεις των μεθόδων, οι οποίες, στην ανάλυση που προηγήθηκε, δεν έχουν συγκριθείμεταξύ τους.

5.3 Τανυστικά Γινόμενα

Αρχίζουμε την παρούσα παράγραϕο με τον ορισμό του τανυστικού γινομένου δύο πινάκων.

Ορισμός 5.3 Εστω οι πίνακες A ∈ ICm,n και B ∈ ICp,q. Τανυστικό γινόμενο (ή γινόμενοKronecker) των πινάκων A επί B, με τη σειρά αυτή, καλείται ο πίνακας C ∈ ICmp,nq, που,συμβολίζεται ως A⊗B και, είναι τ.ω.

C = A⊗B =

a11B a12B · · · a1nBa21B a22B · · · a2nB...

......

...am1B am2B · · · amnB

. (5.17)

Με βάση τον ορισμό, που μόλις δόθηκε, είναι εύκολο να αποδειχτεί ότι ισχύουν οι παρακάτωιδιότητες:

α) Αν A ∈ ICm,n και B ∈ ICp,q, τότε (A⊗B)H = AH ⊗BH .

β) Αν A ∈ ICm,n, B ∈ ICp,q, C ∈ ICk,l και D ∈ ICr,s ισχύει ότι

(A⊗B)(C ⊗D) = (AC)⊗ (BD),

με την προϋπόθεση ότι τα γινόμενα AC και BD ορίζονται, δηλαδή ισχύει ότι n = k και q = r.

γ) Αν A ∈ ICm,m και B ∈ ICn,n είναι αντιστρέψιμοι, τότε και ο A⊗ B είναι αντιστρέψιμοςκαι ισχύει ότι

(A⊗B)−1 = A−1 ⊗B−1.

Page 138: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

138

Για τις ιδιοτιμές και τα ιδιοδιανύσματα του τανυστικού γινομένου δύο τετραγωνικών πινά-κων ισχύουν ακόμη και οι ακόλουθες δύο ιδιότητες, που μπορούν να αποδειχτούν με βάση τονορισμό του τανυστικού γινομένου και αυτές που ήδη αναϕέρθηκαν. Συγκεκριμένα:

δ) Αν A ∈ ICm,m και λ ∈ σ(A) με x ∈ ICm \ 0 το αντίστοιχο ιδιοδιάνυσμα και B ∈ ICn,n

και µ ∈ σ(B) με y ∈ ICn \ 0 το αντίστοιχο ιδιοδιάνυσμα, τότε λµ ∈ σ(A⊗B) με αντίστοιχοιδιοδιάνυσμα το x⊗ y ∈ ICmn \ 0.ε) Αν λi είναι οι ιδιοτιμές του A ∈ ICm,m με x(i) ∈ ICm \ 0, i = 1(1)m, τα αντίστοιχα

ιδιοδιανύσματα, και συμβαίνει να είναι γραμμικά ανεξάρτητα, και µj είναι οι ιδιοτιμές του B ∈ICn,n με y(j) ∈ ICn \ 0, j = 1(1)n, και συμβαίνει να είναι επίσης γραμμικά ανεξάρτητα, τότελiµj είναι οι ιδιοτιμές του A⊗B με αντίστοιχα ιδιοδιανύσματα τα x(i) ⊗ y(j) ∈ ICmn \ 0, i =1(1)m, j = 1(1)n, που μπορεί να αποδειχτεί ότι είναι επίσης γραμμικά ανεξάρτητα.

Σαν εϕαρμογή των παραπάνω εκτεθέντων και συγχρόνως των επαναληπτικών μεθόδωντων προηγούμενων κεϕαλαίων δίνουμε την επέκταση της εϕαρμογής της προηγούμενης πα-ραγράϕου στις δύο διαστάσεις που αποτελεί το γνωστό πρόβλημα-μοντέλο της εξίσωσης τουPoisson υπό συνοριακές συνθήκες Dirichlet.

Εστω η εξίσωση

−∂2u

∂x2− ∂2u

∂y2= f(x, y), oρισµϵνη στo Ω = (0, 1)× (0, 1), (5.18)

μεu(x, y) = g(x, y), στo ∂Ω, (5.19)

όπου f(x, y) και g(x, y) γνωστές συναρτήσεις.

Για την αριθμητική επίλυση της ελλειπτικής μερικής διαϕορικής εξίσωσης (5.18)–(5.19)επιθέτουμε στο Ω∪ ∂Ω ένα ομοιόμορϕο δικτυωτό με n εσωτερικά σημεία διαμέρισης στις x−και y−διευθύνσεις, οπότε το βήμα της διαμέρισης είναι h = 1

n+1. Κάθε κόμβος του δικτυωτού

με συντεταγμένες (xi, yj) = (ih, jh), i, j = 0(1)n + 1, χαρακτηρίζεται από το ζεύγος (i, j).Προσεγγίζουμε την (5.18)–(5.19) στα εσωτερικά σημεία του δικτυωτού (i, j), i, j = 1(1)n,με κεντρικές διαϕορές δεύτερης τάξης, οπότε προκύπτουν n2 εξισώσεις, κάθε μία από τιςοποίες παρουσίαζει ένα τοπικό σϕάλμα αποκοπής της τάξης O(h2). Τις εξισώσεις αυτές τιςκατατάσσουμε στη λεγόμενη ϕυσική τους διάταξη, θεωρώντας τα σημεία του δικτυωτού, σταοποία αντιστοιχούν, πρώτα από αριστερά προς τα δεξιά και ύστερα από κάτω προς τα πάνω.Κάθε μία από τις προαναϕερθείσες εξισώσεις έχει τη μορϕή

−ui−1,j + 2uij − ui+1,j − ui,j−1 + 2uij − ui,j+1 = h2fij, i = 1(1)n, j = 1(1)n, (5.20)

όπου uij είναι η προσεγγιστική τιμή της u(xi, yj) και fij = f(xi, yj), η δε συλλογή όλωντων εξισώσεων (5.20), με τη σειρά που προαναϕέρθηκε, οδηγεί σε ένα γραμμικό σύστημα τηςγενικής μορϕής

Au = c. (5.21)

Page 139: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

139

Τα στοιχεία του συστήματος (5.21), όταν αυτά γραϕτούν σε block μορϕή, δίνονται αναλυτικάαμέσως παρακάτω.

A =

4 −1 −1−1 4 −1 −1

. . .. . .

. . .. . .

−1 4 −1 −1−1 4 −1

−1 4 −1 −1−1 −1 4 −1 −1

. . .. . .

. . .. . .

. . .−1 −1 4 −1 −1

−1 −1 4 −1. . .

−1 4 −1−1 −1 4 −1

. . .. . .

. . .. . .

−1 −1 4 −1−1 −1 4

(5.22)

και

u = [u11 u21 · · · un1|u12 u22 · · · un2| · · · |u1n u2n · · · unn]T ,

c = [c11 c21 · · · cn1|c12 c22 · · · cn2| · · · |c1n c2n · · · cnn]T ,

όπου

cij =

h2fij, ∀ i, j = 2(1)n− 1,h2fij + g(0, jh), ∀ i = 1, j = 2(1)n− 1,h2fij + g(1, jh), ∀ i = n, j = 2(1)n− 1,h2fij + g(ih, 0), ∀ i = 2(1)n− 1, j = 1,h2fij + g(ih, 1), ∀ i = 2(1)n− 1, j = n,h2fij + g(0, h) + g(h, 0), (i, j) = (1, 1),h2fij + g(nh, 0) + g(1, h), (i, j) = (n, 1),h2fij + g(1, nh) + g(nh, 1), (i, j) = (n, n),h2fij + g(0, nh) + g(h, 1), (i, j) = (1, n).

Για την εύρεση των ιδιοτιμών, και ιδιοδιανυσμάτων, του πίνακα A της (5.22), παρατηρούμεότι αυτός έχει άμεση σχέση με τον πίνακα A = trid(−1, 2,−1) της μονοδιάστατης εϕαρμογήςστην (5.5). Συγκεκριμένα, αν T = trid(−1, 2,−1) ∈ IRn,n, τότε ο πίνακας A στην παρούσα

Page 140: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

140

περίπτωση μπορεί να γραϕτεί, σε block μορϕή, συνοπτικά ως εξής

A =

2I + T −I−I 2I + T −I

. . . . . . . . .−I 2I + T −I

−I 2I + T

. (5.23)

Με βάση τον ορισμό του τανυστικού γινομένου (5.17), μπορούμε αμέσως να διαπιστώσουμε,από την παραπάνω μορϕή του A, ότι

A = I ⊗ T + T ⊗ I. (5.24)

Γνωρίζοντας τις ιδιοτιμές και τα ιδιοδιανύσματα του πίνακα T = trid(−1, 2,−1), από τις(5.12) και (5.13), και εκμεταλλευόμενοι τις ιδιότητες του τανυστικού γινομένου, μπορούμε ναβρούμε τις βασικές ιδιότητες του πίνακα A καθώς και τα ιδιοζεύγη του, που θα μας επιτρέψουνστη συνέχεια να μελετήσουμε συγκλίσεις και συγκρίσεις των βασικών point και block επανα-ληπτικών μεθόδων, για την αριθμητική επίλυση του συστήματος (5.21).

Είναι προϕανές, από την (5.22), ότι ο A ∈ IRn2,n2είναι πραγματικός και συμμετρικός.

Το ότι είναι και θετικά ορισμένος μπορεί να δειχτεί αμέσως μετά την εύρεση των ιδιοτιμώντου. Λόγω της block τριδιαγώνιας μορϕής του A, αυτός είναι block δικυκλικός και συνεπώςδιατεταγμένος. Είναι όμως και point δικυκλικός και συνεπώς διατεταγμένος, πράγμα πουαποδείχνεται ως εξής. Για το ότι είναι point δικυκλικός χρησιμοποιούμε το μεταθετικό πίνακαP με

P T = [e1 e3 . . . e2[n+12

]−1 en+2 en+4 . . . en+2[n2] e2n+1 e2n+3 . . . e2n+2[n+1

2]−1 . . .

e2 e4 . . . e2[n2] en+1 en+3 . . . en+2[n+1

2]−1 e2n+2 e2n+4 . . . e2n+2[n

2] . . .] ∈ IRn2,n2

,(5.25)

όπου [x] συμβολίζει το ακέραιο μέρος του αριθμού x. Τότε μπορεί να δειχτεί ότι ο PAP T

είναι της μορϕής (3.53). Οτι ο point δικυκλικός πίνακας A είναι και συνεπώς διατεταγμένοςαποδείχνεται στη συνέχεια. Ο point Jacobi πίνακας, που αντιστοιχεί στον A, έχει τη μορϕή

T(p)J =

1

4(I ⊗G+G⊗ I), oπoυ G = trid(1, 0, 1). (5.26)

Εχοντας τον T (p)J , σχηματίζουμε τον πίνακα T

(p)J (α) = D−1(αL + 1

αU), όπου D = diag(A),

και L και U , αυστηρά κάτω τριγωνικός και αυστηρά άνω τριγωνικός πίνακες, και α ∈ IC \ 0.Από τη μορϕή του A στην (5.22), καθώς και από τις ισοδύναμες μορϕές του (5.23) και (5.24),παρατηρούμε ότι ο πίνακας T (p)

J (α) μπορεί να γραϕτεί και ως

T(p)J (α) =

1

4(I ⊗ F + F ⊗ I), oπoυ F = trid(α, 0,

1

α). (5.27)

Page 141: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

141

Θεωρούμε τον πίνακα E = diag(1, 1α, · · · , 1

αn−1 ), σχηματίζουμε τον όμοιο προς τον T(p)J (α)

πίνακα (E ⊗ E)T(p)J (α)(E ⊗ E)−1, χρησιμοποιούμε την έκϕραση (5.27), και εϕαρμόζοντας

απλές ιδιότητες του τανυστικού γινομένου παίρνουμε διαδοχικά

(E ⊗ E)T(p)J (α)(E ⊗ E)−1 = (E ⊗ E)

(14(I ⊗ F + F ⊗ I)

)(E−1 ⊗ E−1)

= 14((EI)⊗ (EF ) + (EF )⊗ (EI)) (E−1 ⊗ E−1)

= 14((EIE−1)⊗ (EFE−1) + (EFE−1)⊗ (EIE−1))= 1

4(I ⊗ (EFE−1) + (EFE−1)⊗ I) .

Ο πίνακας, όμως, EFE−1 = G, όπως μπορεί να διαπιστωθεί αμέσως από τη μορϕή του Fστην (5.27) και G στην (5.26), είναι ανεξάρτητος του α. Αρα και ο T (p)

J (α) είναι ανεξάρτητοςτου α, πράγμα που σημαίνει ότι ο A είναι point δικυκλικός και συνεπώς διατεταγμένος.

Για την εύρεση των ιδιοτιμών και ιδιοδιανυσμάτων του A χρησιμοποιούμε τη μορϕή (5.24),όπου για τον T = trid(−1, 2,−1) έχουμε ήδη βρεί ιδιοτιμές και ιδιοδιανύσματα στις (5.12) και(5.13), αντίστοιχα. Σημειώνουμε ακόμη ότι ο μοναδιαίος πίνακας I έχει μεν όλες τις ιδιοτιμέςτου ίσες με τη μονάδα αλλά ως ιδιοδιανύσματά του μπορούν να θεωρηθούν οποιαδήποτε nγραμμικά ανεξάρτητα διανύσματα. Θεωρούμε, λοιπόν, αυτά του T . Αν, συνεπώς, θεωρήσουμετα διανύσματα x(k)⊗x(l), k, l = 1(1)n, όπου x(k), x(l), τα ιδιοδιανύσματα του T , τότε για κάθεk, l = 1(1)n, έχουμε διαδοχικά

A(x(k) ⊗ x(l)) = (I ⊗ T + T ⊗ I)(x(k) ⊗ x(l))= (Ix(k))⊗ (Tx(l)) + (Tx(k))⊗ (Ix(l))

= x(k) ⊗ (λlx(l)) + (λkx

(k))⊗ x(l) = (λk + λl)(x(k) ⊗ x(l)).

(5.28)

Η ισότητα του πρώτου και τελευταίου μέλους των ισοτήτων (5.28) αποδείχνει ότι ο πίνακας Aέχει ιδιοτιμές τις λk + λl με αντίστοιχα ιδιοδιανύσματα τα x(k) ⊗ x(l), k, l = 1(1)n, που είναιγραμμικά ανεξάρτητα, όπως συμπεραίνεται από τη γραμμική ανεξαρτησία των x(k), k = 1(1)n.Αναλυτικά, οι εκϕράσεις των ιδιοτιμών είναι

λk,l = 4 sin2

(πk

2(n+ 1)

)+ 4 sin2

(πl

2(n+ 1)

), k, l = 1(1)n, (5.29)

των δε αντίστοιχων ιδιοδιανυσμάτων είναι οι

x(k,l) = x(k) ⊗ x(l), k, l = 1(1)n, (5.30)

όπου οι συνιστώσες των x(k), x(l), με βάση την (5.13), είναι αυτές που δίνονται στη συνέχεια

x(k) =[sin( kπ

n+1) sin( 2kπ

n+1) ... sin( nkπ

n+1)]T

, k = 1(1)n,

x(l) =[sin( lπ

n+1) sin( 2lπ

n+1) ... sin( nlπ

n+1)]T

, l = 1(1)n.

Page 142: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

142

Σημείωση: Από τις εκϕράσεις (5.29) των ιδιοτιμών βλέπουμε αμέσως ότι λk,l = λl,k, k =l = 1(1)n. Το γεγονός ότι αυτές οι ίσες ιδιοτιμές αποτελούν πράγματι διπλές ιδιοτιμές τουπίνακα A, και άρα οι εκϕράσεις (5.29) δίνουν όλες τις ιδιοτιμές του, αποδείχνεται από τη γραμ-μική ανεξαρτησία των ιδιοδιανυσμάτων (5.30). Για την απόδειξη του τελευταίου ισχυρισμούσχηματίζουμε τον πίνακα

Y = [x(1) ⊗ x(1) x(1) ⊗ x(2) · · · x(1) ⊗ x(n) x(2) ⊗ x(1) · · · x(n) ⊗ x(n)]= [x(1) x(2) · · · x(n)]⊗ [x(1) x(2) · · · x(n)] =: X ⊗X.

Ομως ο πίνακας X είναι αντιστρέψιμος αϕού στήλες του είναι τα ιδιοδιανύσματα x(k), k =1(1)n, του πίνακα A της εϕαρμογής της μονοδιάστατης περίπτωσης που είναι γραμμικά ανε-ξάρτητα. Αρα και ο πίνακας Y είναι αντιστρέψιμος, με βάση την ιδιότητα (ε) των τανυστικώνγινομένων, πράγμα που συνεπάγεται τη γραμμική ανεξαρτησία των στηλών του.

Από την έκϕραση των ιδιοτιμών διαπιστώνεται αμέσως ότι όλες οι n2 ιδιοτιμές του A είναιθετικές, πράγμα που συνεπάγεται ότι ο A, ως πραγματικός και συμμετρικός, θα είναι καιθετικά ορισμένος.

Για την εύρεση των ϕασματικών ακτίνων των point και block επαναληπτικών μεθόδωνJacobi, Gauss-Seidel και SOR στις οποίες και θα περιοριστούμε, αϕού για τις άλλες μεθό-δους, που μελετήθηκαν στην εϕαρμογή της μίας διάστασης, μπορούμε να καταλήξουμε σεσυμπεράσματα διαμέσου των τριών πρώτων μεθόδων, όπως είδαμε, εργαζόμαστε ως εξής.

point Jacobi: Ο αντίστοιχος επαναληπτικός πίνακας T (p)J είναι ο T (p)

J = I − 14A και άρα οι

ιδιοτιμές του, µk,l, θα δίνονται από τις εκϕράσεις µk,l = 1− 14λk,l =

12

(cos(

kπn+1

)+ cos

(lπ

n+1

)).

Επομένως η ϕασματική ακτίνα του επαναληπτικού πίνακα της point Jacobi θα είναι

ρ(T(p)J ) = cos

n+ 1

).

Παρατηρούμε ότι η ϕασματική ακτίνα του point Jacobi επαναληπτικού πίνακα, που βρέθηκε,είναι ταυτόσημη με αυτήν του επαναληπτικού πίνακα του Jacobi στην περίπτωση της εϕαρμογήςστη μία διάσταση. Λόγω δε και της point δικυκλικής και συνεπώς διατεταγμένης ιδιότητας τουA και οι ϕασματικές ακτίνες της point Gauss-Seidel και της βέλτιστης SOR, στην παρούσαεϕαρμογή στις δύο διαστάσεις, θα είναι ταυτόσημες με αυτές των αντίστοιχων μεθόδων στηνεϕαρμογή στη μία διάσταση. Ομοίως, και τα συμπεράσματα τα αϕορώντα σε συγκλίσεις καισυγκρίσεις μέσων ασυμπτωτικών ταχυτήτων σύγκλισης των μεθόδων στην περίπτωση πουεξετάζουμε θα είναι ακριβώς τα ίδια με αυτά της περίπτωσης στη μία διάσταση και επομένωςη εκ νέου παράθεσή τους παραλείπεται.

Για τις αντίστοιχες block επαναληπτικές μεθόδους αρχίζουμε με την εύρεση του block Ja-

cobi επαναληπτικού πίνακα, T (b)J , τον οποίο θα προσπαθήσουμε να εκϕράσουμε χρησιμοποιών-

τας τανυστικά γινόμενα ώστε να μπορέσουμε να εκμεταλλευτούμε τις αναλυτικές εκϕράσεις

Page 143: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

143

των ιδιοτιμών, και των ιδιοδιανυσμάτων, του πίνακα A. Με τη χρησιμοποίηση των μορϕών(5.23) και (5.24) του A μπορούμε να πάρουμε διαδοχικά ότι

T(b)J = (I ⊗ (2I + T ))−1 (I ⊗ (2I + T )− A)

= (I ⊗ (2I + T )−1) (I ⊗ (2I + T )− I ⊗ T − T ⊗ I)= (I ⊗ (2I + T )−1) (I ⊗ 2I − T ⊗ I)

= (I I)⊗ ((2I + T )−1 2I)− (I T )⊗ ((2I + T )−1 I)= I ⊗ 2(2I + T )−1 − T ⊗ (2I + T )−1 = (2I − T )⊗ (2I + T )−1.

(5.31)

Είναι γνωστό ότι οι ιδιοτιμές του T , και τα αντίστοιχα ιδιοδιανύσματα, είναι αυτά του πίνακαT της εϕαρμογής στη μονοδιάστατη περίπτωση. Ακόμη γνωρίζουμε ότι οι ιδιοτιμές και ταιδιοδιανύσματα του αντίστροϕου ενός πίνακα, εϕόσον υπάρχει, είναι οι αντίστροϕες ιδιοτιμές,που αντιστοιχούν στα ίδια ιδιοδιανύσματα του αρχικού πίνακα, που είναι και ιδιοδιανύσματατου αντίστροϕου πίνακα. Με βάση τα παραπάνω, οι ιδιοτιμές και τα ιδιοδιανύσματα του 2I−Tστο δεξιά μέλος των ισοτήτων (5.31) θα είναι 2 − λk και x(k), k = 1(1)n, αντίστοιχα, ενώτου (2I + T )−1 θα είναι (2 + λk)

−1, και x(k), k = 1(1)n. Λόγω του τανυστικού γινομένου οπίνακας T (b)

J θα έχει ιδιοτιμές

λk,l =2− λk

2 + λl

=cos(

kπn+1

)2− cos

(lπ

n+1

) , k, l = 1(1)n,

και ιδιοδιανύσματαx(k) ⊗ x(l), k, l = 1(1)n. (5.32)

Σημειώνεται ότι τα ιδιοδιανύσματα στην (5.32) είναι τα ίδια ακριβώς με αυτά του πίνακα Aστην (5.30) και άρα θα είναι γραμμικά ανεξάρτητα. Η ϕασματική ακτίνα του block Jacobiεπαναληπτικού πίνακα της περίπτωσης που εξετάζουμε είναι

ρ(T(b)J ) =

cos(

πn+1

)2− cos

n+1

) .Από την έκϕραση για τη ϕασματική ακτίνα του block Jacobi πίνακα και την block δικυκλικήκαι συνεπώς διατεταγμένη ιδιότητα του A βρίσκονται αμέσως οι ϕασματικές ακτίνες των blockGauss-Seidel και block SOR επαναληπτικών πινάκων, που θα είναι

ρ(T(b)GS) =

cos2(

πn+1

)(2− cos

n+1

))2και

ρ(L(b)ωβ) =

1−√2 sin

2(n+1)

)1 +

√2 sin

2(n+1)

)2

,

Page 144: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

144

αντίστοιχα.

Για την εύρεση των μέσων ασυμπτωτικών ταχυτήτων σύγκλισης των point και block επανα-ληπτικών μεθόδων Jacobi, Gauss-Seidel και SOR, καθώς και για τις αντίστοιχες συγκρίσεις,θα θεωρήσουμε ότι h = 1

n+1→ 0+, και θα χρησιμοποιήσουμε αναπτύγματα, ως προς h,

συγκλινουσών σειρών. Για τις αντίστοιχες point μεθόδους απλά αντιγράϕουμε από αυτάπου ήδη βρέθηκαν για τις ίδιες μεθόδους στην εϕαρμογή της μονοδιάστατης περίπτωσης.Συγκεκριμένα,

R∞(T(p)J ) = π2

2h2 +O(h4),

R∞(T(p)GS) = π2h2 +O(h4),

R∞(L(p)ωβ ) = 2πh+O(h3).

Για τις block επαναληπτικές μεθόδους μπορούμε εύκολα να βρούμε ότι

R∞(T(b)J ) = π2h2 +O(h4),

R∞(T(b)GS) = 2π2h2 +O(h4),

R∞(L(b)ωβ) = 2

√2πh+O(h3).

Οπως μπορεί να διαπιστωθεί, οι block Jacobi και block Gauss-Seidel είναι δυο ϕορές ταχύτερεςαπό τις αντίστοιχες point μεθόδους, ενώ η block SOR είναι κατά

√2 ϕορές ταχύτερη από

την point SOR μέθοδο. Και στην περίπτωση των block μεθόδων παρατηρούμε ακόμη ότι ηblock SOR είναι ταχύτερη από την block Gauss-Seidel κατά μία τάξη μεγέθους, ως προς h,με αντίστοιχο ασυμπτωτικό παράγοντα

√2

π1h.

ΑΣΚΗΣΕΙΣ

1.: Να βρεθούν οι γενικές λύσεις των εξισώσεων διαϕορών.

α) yk+2 − 5yk+1 + 6yk = 0, k = 0, 1, 2, . . . ,

β) yk+2 − 4yk+1 + 4yk = 0, k = 0, 1, 2, . . . .

2.: Στη γνωστή ακολουθία Fibonacci δίνονται οι δυο πρώτοι όροι της a0 = 0, a1 = 1, ενώκάθε επόμενος όρος της ορίζεται από την αναδρομική σχέση

ak+2 = ak+1 + ak, k = 0, 1, 2, . . . .

Να βρεθεί ο γενικός όρος της.

Page 145: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

145

3.: Με τη βοήθεια των εξισώσεων διαϕορών να βρεθεί η τιμή της det (trid(−1, 2,−1)), όπουtrid(−1, 2,−1) ∈ IRn,n.

4.: Χρησιμοποιώντας εξισώσεις διαϕορών να βρεθεί η γενική έκϕραση των πολυωνύμωνTk(z) του Chebyshev πρώτου είδους βαθμού k, που ορίζονται, είτε για z ∈ [−1, 1] είτεγια z ≥ 1, από τη σχέση Tk(z) = 2zTk−1(z) − Tk−2(z), k = 2, 3, . . . , και τους δυοπρώτους όρους T0(z) = 1 και T1(z) = z.

5.: Να βρεθούν οι ιδιοτιμές και τα ιδιοδιανύσματα του πίνακα trid(b, a, c) ∈ IRn,n, όπουbc > 0. (Υπόδειξη: Αν χρειαστεί μπορεί να χρησιμοποιηθεί κατάλληλα διαγώνιος πίνακαςώστε ο δοθείς να καταστεί όμοιος προς συμμετρικό.)

6.: Να βρεθούν οι ιδιοτιμές και τα ιδιοδιανύσματα των n× n πινάκων1 −1

−1 2 −1. . . . . . . . .

−1 2 −1−1 2

,

2 −1

−1 2 −1. . . . . . . . .

−1 2 −1−1 1

.

7.: Να βρεθούν οι ιδιοτιμές και τα ιδιοδιανύσματα του n× n πίνακα2 −2

−1 2 −1. . . . . . . . .

−1 2 −1−2 2

.

(Προσοχή: Ο πίνακας είναι μή αντιστρέψιμος και δεν είναι συμμετρικός. Αν χρειαστείμπορεί να χρησιμοποιηθεί κατάλληλα διαγώνιος πίνακας ώστε ο δοθείς να καταστείόμοιος προς συμμετρικό.)

8.: Δίνεται ο n× n (n ≥ 3) πίνακας

A =

1 11 2 1

1 2 1. . . . . . . . .

1 2 11 1

.

Page 146: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

146

α) Να δειχτεί, με οποιοδήποτε τρόπο, ότι ο A έχει μία από τις ιδιοτιμές του ίση με μηδέν,όλες δε τις άλλες πραγματικές και θετικές.β) Χρησιμοποιώντας εξισώσεις διαϕορών να βρεθούν οι αναλυτικές εκϕράσεις όλων τωνιδιοτιμών του A. καιγ) Να βρεθούν επίσης αναλυτικές εκϕράσεις των ιδιοδιανυσμάτων του πίνακα A.

9.: Να βρεθούν οι ιδιοτιμές του πίνακα

A =

a 11 −a 1

1 a 11 −a 1. . . . . . . . .

∈ IRn,n, a = 0.

(Υπόδειξη: Να χρησιμοποιηθεί μεταθετικός πίνακας P και να θεωρηθεί ο όμοιος προς

τον A πίνακας PAP T , ώστε ο τελευταίος να είναι της μορϕής

[aIn1 BBT −aIn2

]. Στη

συνέχεια να θεωρηθούν δυο περιπτώσεις n άρτιος και n περιττός.)

10.: Να βρεθούν οι ιδιοτιμές του πίνακα

A =

a cb d c

b a cb d c. . . . . . . . .

∈ IRn,n, a, b, c, d ∈ IR, ad = 0, bc > 0.

(Υπόδειξη: Μπορεί να χρησιμοποιηθεί το αποτέλεσμα της προηγούμενης Ασκησης.)

11.: Να αποδειχτούν οι ιδιότητες (α)-(ε) που βασίζονται στον ορισμό του τανυστικού γινο-μένου.

Page 147: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

Κεϕάλαιο 6

Μέθοδοι Ελαχιστοποίησης

6.1 Εισαγωγή

Οι μέθοδοι που θα μελετηθούν στο παρόν κεϕάλαιο αναπτύχτηκαν κυρίως για την επίλυσηπραγματικών γραμμικών συστημάτων Ax = b, με A ∈ IRn,n, AT = A, θετικά ορισμένοκαι b ∈ IRn. Εϕεξής ο A θα ικανοποιεί τις προαναϕερθείσες ιδιότητες εκτός και αν σαϕώςορίζεται αλλιώς. Ολες οι μέθοδοι που θα αναπτυχτούν βασίζονται στην ελαχιστοποίηση ενόςσυναρτησιακού, δηλαδή πραγματικής συνάρτησης

f := f(x1, x2, · · · , xn) ≡ f(x), oπoυ x ∈ (Ω ⊆) IRn.

Θα υποτίθεται ότι η f είναι αρκετά ομαλή έτσι ώστε τα σημεία στα οποία έχει τοπικά ελάχιστανα βρίσκονται μεταξύ των κρίσιμων σημείων της, δηλαδή των σημείων x στα οποία η κλίσητης είναι μηδέν

∇f(x) =

[∂f

∂x1

∂f

∂x2

· · · ∂f

∂xn

]T= 0. (6.1)

Εϕεξής θα γράϕουμε(·, ·) ≡ (·, ·)2 και || · || ≡ || · ||2,

εκτός κι αν ορίζεται διαϕορετικά.

Η βασική ιδέα μιας μεθόδου ελαχιστοποίησης περιγράϕεται στη συνέχεια. Καταρχάς ησυνάρτηση f ορίζεται κατά τέτοιο τρόπο ώστε ένα σημείο στο οποίο έχει τοπικό ελάχιστο ναείναι η λύση του συστήματος που θεωρούμε, δηλαδή η x∗ = A−1b. Τότε, για ένα x ∈ IRn

σταθερό και για κάθε u ∈ IRn \ 0 με ||u|| = c > 0 σταθερό θεωρούμε τη συνάρτηση

g(α) = f(x+ αu) = f(x) + α(∇f(x), u) +O(α2),147

Page 148: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

148

όπου το δεξιά μέλος προκύπτει αν αναπτύξουμε κατά Taylor την f(x+αu) στο x. Προϕανώςέχουμε g(0) = f(x) και g′(0) = (∇f(x), u), οπότε για α → 0+ και ∇f(x) = 0 η διαϕοράf(x+αu)−f(x) θα έχει το πρόσημο του (∇f(x), u). Αρα η g(a) θα είναι γνήσια αύξουσα στηνπεριοχή του μηδενός ανν (∇f(x), u) > 0 και, αντίστοιχα, γνήσια ϕθίνουσα ανν (∇f(x), u) <0. Στην περίπτωση της γνήσιας ϕθίνουσας g(α) η “ταχύτητα” ελάττωσής της θα είναι η

μέγιστη δυνατή ανν (∇f(x), u) = ||∇f(x)|| ||u|| cos θ, με θ = ∇f(x), u = π. Δηλαδή στηνκατεύθυνση u = −∇f(x). Επομένως ξεκινώντας από κάποιο αυθαίρετο x και κινούμενοι προςτην κατεύθυνση −∇f(x) κινούμαστε από την τρέχουσα τιμή του συναρτησιακού προς τιμέςτου, που είναι οι μικρότερες δυνατές στην περιοχή του x. Αρα προς τιμές που βρίσκονταιπλησιέστερα προς το ελάχιστο που μας ενδιαϕέρει, κι αυτό γίνεται, με τη μεγαλύτερη δυνατήταχύτητα.

6.2 Μέθοδος της Απότομης Καθόδου (Steepest De-

scent)

Η μέθοδος της Απότομης Καθόδου είναι μία επαναληπτική μέθοδος, οϕείλεται στον Cauchyκαι ακολουθεί τη βασική ιδέα που ήδη αναπτύχτηκε. Πιο συγκεκριμένα, στην αρχή της k+1 ε-πανάληψης είναι γνωστή η προσέγγιση x(k), με τιμή του συναρτησιακού f(x(k)). Για να ορίσου-με το x(k+1) κινούμαστε στην κατεύθυνση u = −∇f(x(k)), οπότε x(k+1) = x(k) − α∇f(x(k)),το δε α ορίζεται ως η μικρότερη θετική τιμή του α = αk+1, που καθιστά το f(x(k+1)) =f(x(k) − α∇f(x(k))) ελάχιστο. Το συγκεκριμένο συναρτησιακό που χρησιμοποιείται είναι το

f(x) :=1

2(Ax, x)− (b, x), x ∈ IRn. (6.2)

Η επιλογή του συναρτησιακού (6.2) με βάση την ανάλυση που προηγήθηκε δικαιολογείται απότην παρακάτω ισχύουσα πρόταση.

Θεώρημα 6.1 Εστω το γραμμικό σύστημα

Ax = b, A ∈ IRn,n, AT = A, A θϵτικα oρισµϵνoς και b ∈ IRn, (6.3)

και το συναρτησιακό (6.2). Τότε η λύση του (6.3) (x∗ = A−1b) είναι το σημείο στοοποίο η τιμή του f(x) γίνεται ελάχιστη.

Απόδειξη: Εστω x = x∗ + y, y ∈ IRn, τότε, λαβαίνοντας υπόψη τις ιδιότητες του A, η τιμήτου f(x) θα γίνεται διαδοχικά

f(x) = f(x∗ + y) = 12(A(x∗ + y), x∗ + y)− (b, x∗ + y)

= 12(Ax∗, x∗) + 1

2(Ax∗, y) + 1

2(Ay, x∗) + 1

2(Ay, y)− (b, x∗)− (b, y)

= f(x∗) + (Ax∗ − b, y) + 12(Ay, y) = f(x∗) + 1

2(Ay, y) ≥ f(x∗)

, (6.4)

Page 149: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

149

με το “=” να ισχύει ανν y = 0, δηλαδή, ανν x = x∗. (Σημείωση: Η ελάχιστη τιμή του f(x)είναι τότε minx∈IRn f(x) = f(x∗) = 1

2(Ax∗, x∗)− (b, x∗) = −1

2(b, A−1b).)

Αν προσπαθήσουμε να δείξουμε, με τη μέθοδο που περιγράϕτηκε στην εισαγωγή, ότι τοx∗ είναι το σημείο στο οποίο η f(x) ελαχιστοποιείται, θα πρέπει πρώτα να βρούμε τα κρίσιμασημεία της και από αυτά να βρούμε εκείνο, αν υπάρχει, που ελαχιστοποιεί την τιμή της. Απότην έκϕραση της f(x) στην (6.2) βρίσκουμε την κλίση της από την (6.1), για την k-οστήσυνιστώσα της οποίας έχουμε

(∇f(x))k = ∂∂xk

f(x) = ∂∂xk

[12(Ax, x)− (b, x)

]= 1

2∂

∂xk

[∑ni=1

(xi

∑nj=1 aijxj

)]− ∂

∂xk(∑n

i=1 bixi) =12

(∑nj=1 akjxj +

∑ni=1 xiaik

)− bk =

∑ni=1 akixi − bk = (Ax− b)k,

οπότε∇f(x) = Ax−b. Με το μηδενισμό της κλίσης παίρνουμε x = A−1b, ως το μόνο κρίσιμοσημείο της f(x). Για το αν το σημείο που βρέθηκε είναι σημείο ελάχιστου της f(x) θεωρούμετον Εσιανό πίνακά της, H, για τον οποίο ισχύει ότι hij =

∂2

∂xixj(f(x)) = ∂

∂xj[(Ax− b)i] =

aij, και άρα H = A. Επειδή ο A, εκτός από πραγματικός συμμετρικός, είναι και θετικάορισμένος το μοναδικό κρίσιμο σημείο που ήδη βρέθηκε είναι σημείο ελάχιστου της f(x).

Επανερχόμενοι στη μέθοδο απότομης καθόδου που περιγράϕουμε, ορίζουμε καταρχάς τοδιάνυσμα-υπόλοιπο (ή απλά υπόλοιπο) στο τέλος της k επανάληψης ως

r(k) = b− Ax(k) = −∇f(x(k)).

Αν r(k) = 0 (x(k) = A−1b), αλλιώς r(k) = 0 και η λύση θα έχει βρεθεί, τότε η μέθοδος της από-τομης καθόδου υπολογίζει την επανάληψη x(k+1) = x(k)+αr(k), για α > 0, ελαχιστοποιώνταςτη συνάρτηση f(x(k) + αr(k)) ως προς α. Είναι εύκολο να πάρουμε διαδοχικά ότι

f(x(k) + αr(k)) = 12

(A(x(k) + αr(k)), x(k) + αr(k)

)− (b, x(k) + αr(k))

= 12(Ax(k), x(k)) + 1

2α(Ax(k), r(k)) + 1

2α(Ar(k), x(k)) + 1

2α2(Ar(k), r(k))− (b, x(k))− α(b, r(k))

= f(x(k)) + 12α2(Ar(k), r(k)) + α(Ax(k), r(k))− α(b, r(k))

= f(x(k)) + 12α2(Ar(k), r(k))− α(r(k), r(k)).

Η έκϕραση στο δεξιά μέλος των παραπάνω ισοτήτων είναι τριώνυμο δεύτερου βαθμού ως προςα. Επειδή 1

2(Ar(k), r(k)) > 0, αϕού ο A είναι πραγματικός, συμμετρικός και θετικά ορισμένος

και r(k) = 0, το τριώνυμο θα ελαχιστοποιείται για

α = αk+1 =(r(k), r(k))

(Ar(k), r(k)).

Επιπλέον έχουμε, μετά από απλές πράξεις, ότι

f(x(k) + αk+1r(k)) = f(x(k))− (r(k), r(k))2

2(Ar(k), r(k))< f(x(k)).

Page 150: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

150

Ο αλγόριθμος της μεθόδου απότομης καθόδου είναι εύκολο να διατυπωθεί και θα δοθείστη συνέχεια. Απλά τονίζουμε δύο σημεία. Το πρώτο είναι ότι πρέπει να οριστεί το κρι-τήριο σύγκλισης της μεθόδου. Οπως και στις κλασικές επαναληπτικές μεθόδους μπορούμενα ορίσουμε ως κριτήριο σύγκλισης το απόλυτο κριτήριο: ∥x(k) − x(k−1)∥ ≤ ϵ ή το σχετικό

απόλυτο κριτήριο: ∥x(k)−x(k−1)∥∥x(k)∥ ≤ η, όπου ϵ και η επιθυμητά ϕράγματα του σϕάλματος. Επει-

δή r(k) = b − Ax(k) = A(x − x(k)) = −Ae(k), είναι ϕανερό ότι αν limk→∞ r(k) = 0 τότε καιlimk→∞ x(k) = x. Για το λόγο αυτό μπορεί να ληϕτεί και ως κριτήριο σύγκλισης το: ∥r(k)∥ ≤ ϵ.Το δεύτερο σημείο είναι ότι συνήθως παίρνουμε x(0) = 0. (Σημείωση: Στον παρακάτω, όπωςκαι στους άλλους αλγόριθμους του παρόντος κεϕαλαίου, παίρνεται ως κριτήριο σύγκλισης το∥r(k)∥ ≤ ϵ και ως αρχική προσέγγιση το x(0) = 0. Αν παρθεί άλλο κριτήριο σύγκλισης ή άλληαρχική προσέγγιση τότε ο αντίστοιχος αλγόριθμος θα πρέπει να υποστεί μικρή τροποποίηση.)

Αλγόριθμος Μεθόδου Απότομης Καθόδου:

Δεδομένα: A ∈ IRn,n, AT = A, A θετικά ορισμένος, b ∈ IRn, ϵ ∈ IR+ το επιθυμητό σϕάλμα.x(0) = 0r(0) = bk = 0Εϕόσον ∥r(k)∥ > ϵ

k = k + 1αk =

(r(k−1),r(k−1))

(Ar(k−1),r(k−1))

x(k) = x(k−1) + αkr(k−1)

r(k) = b− Ax(k)

Τέλος ‘Εϕόσον’Αποτέλεσμα: x = x(k) η προσέγγιση της λύσης.

Αν μελετήσουμε προσεκτικά τα βήματα του αλγόριθμου που μόλις δόθηκε θα δούμε ότι σεκάθε επανάληψη το μεγαλύτερο κόστος των υπολογισμών σε πλήθος πράξεων προέρχεται απότα δύο γινόμενα πίνακα επί διάνυσμα, Ax(k) και Ar(k−1), που είναι της τάξης O(n2). Οι δυοαυτοί πολλαπλασιασμοί είναι δυνατόν να αναχτούν σε έναν αν χρησιμοποιήσουμε την παρακάτωιδιότητα που προέρχεται από τις μέχρι τώρα χρησιμοποιηθείσες σχέσεις. Συγκεκριμένα

r(k) = b− Ax(k) = b− A(x(k−1) + αkr(k−1)) = r(k−1) − αkAr

(k−1)(= r(k−1) − (r(k−1),r(k−1))

(Ar(k−1),r(k−1))Ar(k−1)

).

(6.5)

Αυτό σημαίνει ότι η έκϕραση r(k) = b − Ax(k), που υπάρχει στο τελευταίο βήμα της ανακύ-κλωσης του αλγόριθμου, μπορεί να αντικατασταθεί από την r(k) = r(k−1) − αkAr

(k−1), k =1, 2, 3, · · · , όπου το γινόμενο Ar(k−1) θα έχει βρεθεί προηγουμένως κατά τον υπολογισμό τουαk και θα έχει αποθηκευτεί.

Page 151: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

151

Ιδιότητες σαν αυτή που μόλις αναϕέρθηκε υπάρχουν και άλλες, μερικές από τις οποίεςδίνουμε στη συνέχεια υπό μορϕή προτάσεων.

Θεώρημα 6.2 (r(k), r(k−1)) = 0.

Απόδειξη: Πράγματι, αν χρησιμοποιηθεί η τελευταία έκϕραση από τις (6.5), που είναι μέσαστις παρενθέσεις, έχουμε

(r(k), r(k−1)) = (r(k−1) − (r(k−1),r(k−1))

(Ar(k−1),r(k−1))Ar(k−1), r(k−1))

= (r(k−1), r(k−1))− (r(k−1),r(k−1))

(Ar(k−1),r(k−1))(Ar(k−1), r(k−1)) = 0.

Μια άμεση συνέπεια του προηγούμενου θεωρήματος είναι και το παρακάτω πόρισμα.

Πόρισμα 6.1 (x(k+1) − x(k), x(k) − x(k−1)) = 0.

Απόδειξη: Εχουμε ότι (x(k+1) − x(k), x(k) − x(k−1)) = (αk+1r(k), αkr

(k−1)) = 0. Αν e(k) = x(k)−x είναι το διάνυσμα-σϕάλμα στο τέλος της k επανάληψης είναι δυνατόν να

βρεθούν απλές σχέσεις που να το συνδέουν με το διάνυσμα-υπόλοιπο και οι οποίες μπορούννα ϕανούν χρήσιμες στη συνέχεια. Π.χ.,

i) Ae(k) = A(x(k) − x) = Ax(k) − b = −r(k).ii) (Ae(k), r(k−1)) = 0.iii) e(k) = x(k) − x = x(k−1) + αkr

(k−1) − x = e(k−1) + αkr(k−1).

(6.6)

Για να δοθεί σχέση που να συνδέει δυό διαδοχικά σϕάλματα e(k), e(k+1) που να είναι ανεξάρτητηαπό οποιαδήποτε υπόλοιπα πρέπει να εισαχτεί μία νέα διανυσματική norm. Για το σκοπό αυτόχρησιμοποιούμε τη (θετική) τετραγωνική ρίζα ενός Ερμιτιανού και θετικά ορισμένου πίνακαA, που ορίστηκε σε προηγούμενο κεϕάλαιο. Συγκεκριμένα έχουμε:

Για ένα δοσμένο πίνακα A ∈ ICn,n, που είναι Ερμιτιανός και θετικά ορισμένος, και για κάθεx ∈ ICn ορίζουμε τη συνάρτηση (απεικόνιση του ICn στο IR+,0)

||x||A

12

:= (Ax, x)12 . (6.7)

Η συνάρτηση (Ax, x)12 της (6.7) ορίζει μια διανυσματική norm, η οποία είναι γνωστή και

ως norm ενέργειας (energy norm). Για να δειχτεί ότι η (6.7) ορίζει μία norm αρκεί ναμετασχηματίσουμε την (Ax, x)

12 ως εξής

(Ax, x)12 = (A

12x,A

12x)

12 = ||A

12x||,

Page 152: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

152

οπότε είναι πολύ εύκολο να διαπιστώσουμε ότι επαληθεύονται οι τρεις βασικές ιδιότητες τιςοποίες μία συνάρτηση πρέπει να ικανοποιεί για να ορίζει μια διανυσματική norm στο ICn. Οιαποδείξεις ως πολύ απλές παραλείπονται.

Θεώρημα 6.3 Εστω x(k), k ≥ 0, η ακολουθία που παράγεται από τον αλγόριθμο τηςμεθόδου απότομης καθόδου για οποιοδήποτε x(0) ∈ IRn και έστω x η λύση του συστήματοςAx = b, όπου ο A ∈ IRn,n είναι συμμετρικός και θετικά ορισμένος. Εστω κ = κ2(A) =

λmax

λmin,

όπου λmax και λmin η μέγιστη και η ελάχιστη ιδιοτιμή του A, αντίστοιχα. Αν e(k) = x(k)−xείναι το διάνυσμα-σϕάλμα στην k επανάληψη τότε

||e(k)||A

12

≤(κ− 1

κ+ 1

)k

||e(0)||A

12, k = 1, 2, 3, · · · . (6.8)

Απόδειξη: Καταρχάς χρησιμοποιώντας τις (6.6) έχουμε ότι για οποιοδήποτε α ∈ IR προκύπτειαμέσως ότι

||e(k+1)||2A

12

= (Ae(k+1), e(k+1))

= (Ae(k+1), e(k) + αk+1r(k)) = (Ae(k+1), e(k)) + αk+1(Ae

(k+1), r(k))= (Ae(k+1), e(k)) + α(Ae(k+1), r(k)) = (Ae(k+1), e(k) + αr(k)),

(6.9)

όπου μπορέσαμε και αντικαταστήσαμε το συγκεκριμένο αk+1 με το οποιοδήποτε α ∈ IR αϕούο παράγοντας (Ae(k+1), r(k)) είναι μηδέν.

Χρησιμοποιώντας την ανισότητα των Cauchy-Schwarz στο εσωτερικό γινόμενο (Ax1, x2),

όπου x1, x2 ∈ IRn, έχουμε |(Ax1, x2)| = |(A 12x1, A

12x2)| ≤ ||A 1

2x1||||A12x2|| = ||x1||A 1

2||x2||A 1

2,

οπότε, χρησιμοποιώντας το αποτέλεσμα που μόλις προέκυψε στην (6.9), παίρνουμε

||e(k+1)||2A

12

≤ ||e(k+1)||A

12||e(k) + αr(k)||

A12, ∀ α ∈ IR,

ή, ισοδύναμα,

||e(k+1)||2A

12≤ ||e(k) + αr(k)||2

A12= (A(e(k) + αr(k)), e(k) + αr(k)), ∀ α ∈ IR.

Επειδή e(k) +αr(k) = (I −αA)e(k) και A(e(k) +αr(k)) = (I −αA)Ae(k) συμπεραίνουμετελικά ότι

||e(k+1)||2A

12

≤ infα∈IR

((I − αA)Ae(k), (I − αA)e(k)

), k ≥ 0. (6.10)

Εστω ότι λi, i = 1(1)n, είναι οι πραγματικές θετικές ιδιοτιμές του πραγματικού, συμμε-τρικού και θετικά ορισμένου πίνακα A στη διάταξη

0 < λmin := λ1 ≤ λ2 ≤ · · · ≤ λn =: λmax (6.11)

Page 153: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

153

και zi, i = 1(1)n, τα αντίστοιχα ορθοκανονικά ιδιοδιανύσματά του, που μπορούν να παρθούνπραγματικά. Για κάθε u ∈ IRn προϕανώς θα ισχύει u =

∑ni=1(u, z

i)zi, και γενικότερα γιακάθε πραγματικό πολυώνυμο P (x) θα ισχύει P (A)u =

∑ni=1 P (λi)(u, z

i)zi. Συνεπώς, ανe(k) =

∑ni=1 βiz

i, όπου βi = (e(k), zi), i = 1(1)n, τότε για το εσωτερικό γινόμενο πουβρίσκεται στο infimum της (6.10) και για κάθε α ∈ IR μπορούμε να πάρουμε διαδοχικά(

(I − αA)Ae(k), (I − αA)e(k))

= ((I − αA)A(∑n

i=1 βizi), (I − αA)(

∑ni=1 βiz

i))= (

∑ni=1(1− αλi)λiβiz

i,∑n

i=1(1− αλi)βizi)

=∑n

i=1(1− αλi)2λiβ

2i

≤ (maxi=1(1)n |1− αλi|)2∑n

i=1 λiβ2i

= (maxi=1(1)n |1− αλi|)2(∑n

i=1 λiβizi,∑n

i=1 βizi)

= (maxi=1(1)n |1− αλi|)2(∑n

i=1 βiAzi,∑n

i=1 βizi)

= (maxi=1(1)n |1− αλi|)2(Ae(k), e(k))= (maxi=1(1)n |1− αλi|)2||e(k)||2

A12.

Με βάση τις παραπάνω σχέσεις, από την (6.10) προκύπτει ότι

||e(k+1)||A

12

≤ infα∈IR

(max

λ∈[λmin,λmax]|1− αλ|

)||e(k)||

A12, k ≥ 0. (6.12)

Το min-max πρόβλημα που έχουμε τώρα για επίλυση δεν είναι παρά το min-max πρόβληματης τεχνικής της extrapolation, όπως αυτό τέθηκε και λύθηκε στη συγκεκριμένη περίπτωσητου αντίστοιχου κεϕαλαίου, πράγμα που μπορούμε να διαπιστώσουμε αμέσως από τη διάταξη(6.11) και τις εκϕράσεις (;;)-(;;) αν θέσουμε α = ω. Το βέλτιστο α (αβ) βρίσκεται τότε, γιαλ = λmin ή λmax, από την έκϕραση (;;). Συγκεκριμένα

αβ =2

λmax + λmin

(6.13)

και με βάση την (6.13), η (6.12) γίνεται

||e(k+1)||A

12

≤ λmax − λmin

λmax + λmin

||e(k)||A

12

από την οποία παίρνουμε με απλή επαγωγή ότι

||e(k)||A

12

≤(λmax − λmin

λmax + λmin

)k

||e(0)||A

12.

Από την τελευταία ανισότητα, επειδή στην προκείμενη περίπτωση ισχύει ότι κ = κ2(A) =λmax

λmin,

έχουμε τελικά

||e(k)||A

12

≤(κ− 1

κ+ 1

)k

||e(0)||A

12, (6.14)

Page 154: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

154

που αποδείχνει το θεώρημα. Σημειώσεις: α) Η σχέση (6.14) αποδείχνει ότι limk→∞ e(k) = 0 και άρα limk→∞ x(k) =

A−1b. Δηλαδή η μέθοδος της απότομης καθόδου συγκλίνει ασυμπτωτικά στη λύση του θε-ωρηθέντος συστήματος. β) Από την ίδια σχέση συμπεραίνεται ότι όσο μεγαλύτερος είναι οδείκτης κατάστασης κ2(A) τόσο βραδύτερη (ασυμπτωτικά) είναι δυνατόν να είναι η σύγκλιση.

6.3 Μέθοδος Γενικών Διευθύνσεων

Στη μέθοδο απότομης καθόδου η επιλογή των διευθύνσεων στην k + 1 επανάληψη, κατάμήκος των οποίων ελαχιστοποιούμε την τιμή f(x(k+1)) του δοθέντος συναρτησιακού, είναιπάντοτε η r(k) = −∇f(x(k)), k = 0, 1, · · · . Αν προς στιγμήν θεωρήσουμε ότι αντί της r(k)επιλέγουμε μία “τυχαία” διεύθυνση p(k+1) = 0 και προσπαθήσουμε να ακολουθήσουμε τηλογική της ελαχιστοποίησης της τιμής του συναρτησιακού f(x(k+1)), x(k+1) = x(k) +αp(k+1),τότε μπορούμε να καταλήξουμε σε κάποια μέθοδο αντίστοιχη με αυτήν της απότομης καθόδου.

Πραγματικά, θεωρώντας το συναρτησιακό f(x) = 12(Ax, x) − (b, x) και αναπτύσσοντας

την τιμή f(x(k+1)), όπως προηγούμενα, θα έχουμε

f(x(k+1)) = f(x(k) + αp(k+1)) = 12(A(x(k) + αp(k+1)), x(k) + αp(k+1))− (b, x(k) + αp(k+1))

= 12(Ax(k), x(k)) + α(Ax(k), p(k+1)) + 1

2α2(Ap(k+1), p(k+1))− (b, x(k))− α(b, p(k+1))

= f(x(k)) + 12α2(Ap(k+1), p(k+1))− α(p(k+1), r(k)).

Η ελαχιστοποίηση του f(x(k+1)) ως προς α πετυχαίνεται για αk+1 = (p(k+1),r(k))

(Ap(k+1),p(k+1)), και άρα

f(x(k+1)) = f(x(k)) − (p(k+1),r(k))2

2(Ap(k+1),p(k+1))< f(x(k)) ανν (p(k+1), r(k)) = 0. Επομένως αν δεν

υπάρξει k τ.ω. r(k) = 0, οπότε η λύση x = x(k) θα έχει βρεθεί, τότε, με την προϋπόθεσηότι οι γενικές διευθύνσεις επιλέγονται έτσι ώστε (p(k+1), r(k)) = 0, η ακολουθία των f(x(k))θα είναι αυστηρά ϕθίνουσα και ϕραγμένη εκ των κάτω από την τιμή f(A−1b) και άρα θασυγκλίνει έτσι ώστε limk→∞ f(x(k)) ≥ f(A−1b). Συνεπώς, αν limk→∞ f(x(k)) = f(A−1b)τότε και limk→∞ x(k) = A−1b, αϕού το σημείο A−1b είναι το μοναδικό σημείο στο οποίο ηf(x) παίρνει την ελάχιστη τιμή της, και άρα η ακολουθία των x(k) θα συγκλίνει στη λύσητου συστήματος. Αν όμως limk→∞ f(x(k)) > f(A−1b), τότε είτε η ακολουθία των x(k) θασυγκλίνει σε κάποιο σημείο x′ = A−1b είτε δε θα συγκλίνει διόλου. Παρά το γεγονός αυτό,δίνουμε στη συνέχεια τον αντίστοιχο αλγόριθμο, καθώς και ορισμένες ιδιότητες της μεθόδου,γιατί η βασική ιδέα της παρούσας μεθόδου αποτελεί την αϕετηρία σημαντικότερων μεθόδωνελαχιστοποίησης.

Ο αλγόριθμος της μεθόδου των γενικών διευθύνσεων που αναπτύχτηκε δίνεται στη συνέ-χεια.

Page 155: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

155

Αλγόριθμος Μεθόδου Γενικών Διευθύνσεων:

Δεδομένα: A ∈ IRn,n, AT = A, A θετικά ορισμένος, b ∈ IRn, ϵ ∈ IR+ το επιθυμητό σϕάλμα.x(0) = 0r(0) = bk = 0Εϕόσον ∥r(k)∥ > ϵ

k = k + 1Επιλογή διεύθυνσης p(k) : (p(k), r(k−1)) = 0

αk =(p(k),r(k−1))

(Ap(k),p(k))

x(k) = x(k−1) + αkp(k)

r(k) = b− Ax(k)

Τέλος ‘Εϕόσον’Αποτέλεσμα: x = x(k) η προσέγγιση της λύσης.

Οπως και στον αλγόριθμο της μεθόδου απότομης καθόδου υπάρχουν δύο πολλαπλασιασμοίπίνακα επί διάνυσμα ανά ανακύκλωση, οι Ax(k) και Ap(k), που αποτελούν και το κύριο κόστοςτου αλγόριθμου. Τελικά και επειδή ισχύει ότι r(k) = b − Ax(k) = b − A(x(k−1) + αkp

(k)) =r(k−1) − αkAp

(k), οι δυο πολλαπλασιασμοί μπορούν ουσιαστικά να αναχτούν σε έναν. Ση-μειώνεται ακόμη ότι αρκετές ανάλογες ιδιότητες με αυτές που βρέθηκαν αμέσως μετά τοναλγόριθμο της μεθόδου απότομης καθόδου ισχύουν. Π.χ.,

(r(k), p(k)) = 0,

με απόδειξη αντίστοιχη αυτής για την (r(k), r(k−1)) = 0, για δε το διάνυσμα-σϕάλμα ισχύουνότι Ae(k) = −r(k), (Ae(k), p(k)) = 0 και e(k) = e(k−1) + αkp

(k).

6.4 Μέθοδος Συζυγών Διευθύνσεων (Conjugate Di-

rections)

Και οι δύο μέθοδοι ελαχιστοποίησης που αναπτύχτηκαν ως τώρα έχουν ένα κοινό χαρακτηρι-στικό. Η οποιαδήποτε επανάληψη x(k) μπορεί να γραϕτεί ως ένας γραμμικός συνδυασμός τηςαρχικής προσέγγισης x(0) και των διευθύνσεων που χρησιμοποιούνται. Συγκεκριμένα, ισχύει

x(k) = x(k−1) + αkr(k−1) = x(k−2) + αk−1r

(k−2) + αkr(k−1) = x(0) +

k∑i=1

αir(i−1)

για τη μέθοδο της απότομης καθόδου και αντίστοιχα

x(k) = x(0) +k∑

i=1

αip(i)

Page 156: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

156

για τη μέθοδο των γενικών διευθύνσεων. Επομένως και η διαϕορά x(k) − x(0) αποτελεί έναγραμμικό συνδυασμό των θεωρηθεισών προηγούμενων διευθύνσεων, ως προς τις οποίες γίνε-ται κάθε ϕορά η ελαχιστοποίηση της τιμής του συναρτησιακού. Φυσικά, οι διευθύνσεις αυτές,για k > n, είναι οπωσδήποτε γραμμικά εξαρτημένες. Γεννιέται, λοιπόν, το εύλογο ερώτημαμήπως θα ήταν δυνατόν να επιλεγούν n διευθύνσεις γραμμικά ανεξάρτητες και τ.ω. η ελαχι-στοποίηση της τιμής του συναρτησιακού ως προς κάθε μία χωριστά να αποτελεί συγχρόνωςκαι ελαχιστοποίηση της τιμής αυτού ως προς όλο τον υπόχωρο των μέχρι τότε θεωρηθεισώνδιευθύνσεων. Μία πρώτη διερεύνηση πιθανών δυνατοτήτων, όπως γίνεται στη συνέχεια, ίσωςέδινε απάντηση στο ερώτημά μας.

Εστω ότι έχουν βρεθεί n γραμμικά ανεξάρτητες διευθύνσεις p(i), i = 1(1)n, τ.ω.

x(n) − x(0) =n∑

i=1

αip(i),

με x(n) = A−1b τη λύση του γραμμικού συστήματος Ax = b. Το πρόβλημά μας τότε θαήταν η εύρεση των συντελεστών αi, i = 1(1)n. Μια πρώτη πιθανή επιλογή θα ήταν ναπαρθούν τα διανύσματα p(i) έτσι ώστε να είναι ανά δύο ορθογώνια. Τότε όμως θα είχαμε

αi =(p(i),x(n)−x(0))

(p(i),p(i)). Δυστυχώς όμως στην περίπτωση αυτή το x(n) = A−1b είναι άγνωστο κι

αυτό λόγω της παρουσίας του A−1. Η παρατήρηση αυτή ίσως δίνει και τη λύση στο πρόβλημάμας διότι αν τα p(i), i = 1(1)n, ήταν τ.ω.

(Ap(i), p(j))

> 0, ανν i = j,= 0, ανν i = j,

(6.15)

τότε θα είχαμε

αi =(p(i), A(x(n) − x(0)))

(Ap(i), p(i))=

(p(i), r(0))

(Ap(i), p(i)), i = 1(1)n, (6.16)

σα συναρτήσεις γνωστών στοιχείων και μόνο. Η απάντηση στο πρόβλημα της εύρεσης τέτοιωνp(i) δίνεται στη Γραμμική Αλγεβρα, όπου υπάρχει πρόταση που υποδείχνει τον τρόπο τηςκατασκευής τους και που είναι γνωστή ως Θεώρημα (ή αλγόριθμος) των Gram-Schmidt.

Πριν τη διατύπωση και απόδειξη του Θεώρηματος των Gram-Schmidt θα δώσουμε ένα γε-νικότερο ορισμό και με βάση αυτόν ένα λήμμα που θα χρησιμοποιήσουμε στο εν λόγω θεώρημα.

Ορισμός 6.1 Εστω A ∈ ICn,n \ 0 Ερμιτιανός πίνακας. Δύο διανύσματα u, v ∈ ICn θακαλούνται “A-συζυγή” ή “A-ορθογώνια” ανν (Au, v) = 0.

Σημείωση: Από τον ορισμό είναι ϕανερό ότι η γνωστή ορθογωνιότητα δύο διανυσμάτων δενείναι παρά μερική περίπτωση της A-ορθογωνιότητας για A = I.

Page 157: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

157

Λήμμα 6.1 Εστω A ∈ ICn,n Ερμιτιανός και θετικά (ή αρνητικά) ορισμένος πίνακας.Αν p(i) ∈ ICn \ 0, i = 1(1)k ≤ n, είναι ανά δύο A-ορθογώνια, τότε είναι γραμμικάανεξάρτητα.

Απόδειξη: Εστω∑k

i=1 cip(i) = 0, όπου ci ∈ IC, i = 1(1)k. Σχηματίζοντας το εσωτερικό

γινόμενο των μελών της ισότητας επί Ap(j), j = 1(1)k, έχουμε (Ap(j),∑k

i=1 cip(i)) = 0 ή∑k

i=1 ci(Ap(j), p(i)) = 0 ή, ακόμη, cj(Ap(j), p(j)) = 0, αϕού όλοι οι άλλοι όροι του αθροίσματος

θα είναι μηδέν λογω της A-ορθογωνιότητας των p(i) και p(j) για i = j. Από την τελευταίαισότητα και επειδή (Ap(j), p(j)) > 0 (ή < 0) προκύπτει ότι cj = 0, j = 1(1)k, που συνεπάγεταιτη γραμμική ανεξαρτησία των p(i), i = 1(1)k.

Θεώρημα 6.4 (Gram-Schmidt) Εστω A ∈ IRn,n, AT = A και A θετικά ορισμένος.Εστω ακόμη πίνακας U ∈ IRn,k, k ≤ n, τα διανύσματα-στήλες uj, j = 1(1)k, του οποίουείναι γραμμικά ανεξάρτητα. Υπάρχουν μοναδικοί πίνακες P ∈ IRn,k με P TAP = D =diag(d1, d2, · · · , dk), με dj > 0, j = 1(1)k, και άνω τριγωνικός R ∈ IRk,k, με rjj = 1, j =1(1)k, τ.ω.

U = PR. (6.17)

(Σημείωση: Αν p(j), j = 1(1)k, είναι τα διανύσματα-στήλες του P, τότε η σχέσηP TAP = D = diag(d1, d2, · · · , dk), με dj > 0, j = 1(1)k, δεν αποτελεί παρά τηναπαίτησή μας να ικανοποιούνται οι (6.15). Να είναι δηλαδή τα p(j) μή μηδενικά και ανάδύο A-ορθογώνια (ή A-συζυγή), οπότε με βάση το προηγούμενο λήμμα θα είναι καιγραμμικά ανεξάρτητα.)

Απόδειξη: Η αποδεικτέα σχέση (6.17) γράϕεται αναλυτικά ως εξής

[u1 u2 u3 · · · uk

]=[p(1) p(2) p(3) · · · p(k)

]

1 r12 r13 · · · r1k1 r23 · · · r2k

1 · · · r3k. . .

...1

, (6.18)

και είναι ισοδύναμη με τις k ισότητες

p(1) = u1

r12p(1) + p(2) = u2

r13p(1) + r23p

(2) + p(3) = u3

...r1kp

(1) + r2kp(2) + r3kp

(3) + · · ·+ rk−1,kp(k−1) + p(k) = uk,

(6.19)

Page 158: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

158

όπως μπορεί πολύ εύκολα να διαπιστωθεί. Η πρώτη ισότητα από τις (6.19) ορίζει το διάνυσμαp(1)( = 0), γιατί αν p(1) = 0, τότε και u1 = 0 και άρα το σύνολο των διανυσμάτων uj, j = 1(1)k,θα ήταν γραμμικά εξαρτημένα, πράγμα που δεν ισχύει. Από τη δεύτερη ισότητα, για να έχουμε

τα p(1) και p(2) Α-ορθογώνια, πρέπει και αρκεί να ορίσουμε το r12 ως r12 =(Ap(1),u2)

(Ap(1),p(1)). Τότε το

p(2) ορίζεται ως p(2) = u2 − r12p(1) = u2 − r12u

1 = 0, γιατί το p(2) είναι ίσο με ένα γραμμικόσυνδυασμό των διανυσμάτων u2 και u1, τα οποία είναι γραμμικά ανεξάρτητα ως υποσύνολοτων γραμμικά ανεξάρτητων διανυσμάτων uj, j = 1(1)k. Η απόδειξη μπορεί να ολοκληρωθείμε επαγωγή και είναι προϕανής. Η γενική έκϕραση για το τυχόν p(j), j = 1(1)k, θα δίνεταιαναδρομικά από τις παρακάτω σχέσεις

p(j) = uj −j−1∑i=1

rijp(i), rij =

(Ap(i), uj)

(Ap(i), p(i)), i = 1(1)j − 1, j = 1(1)k. (6.20)

Η απόδειξη για τη μοναδικότητα των P και R μπορεί να προκύψει με θεώρηση ανάλυσης τουU σε ένα άλλο γινόμενο P ′R′, όπου οι P ′ και R′ θα είναι αντίστοιχων μορϕών με αυτέςτων P και R στην (6.18) και με αντίστοιχες ιδιότητες. Η ισότητα PR = P ′R′, η εξίσωσητων αντίστοιχων στηλών των γινομένων τους και εϕαρμογή απλής επαγωγής αποδείχνει τημοναδικότητα. Από τις σχέσεις (6.19) μπορεί να προκύψει μια προϕανής πρόταση, που ήδη χρησιμοποιή-

θηκε στην απόδειξη των (6.20) και θα χρησιμοποιηθεί και στη συνέχεια στην κατασκευή τουαντίστοιχου αλγόριθμου της Μεθόδου των Συζυγών Διευθύνσεων.

Θεώρημα 6.5

(Ap(l), p(l)) = (Ap(l), ul −l−1∑j=1

rjlp(j)) = (Ap(l), ul), l = 1(1)k, k = 1(1)n. (6.21)

Θα πρέπει να τονιστεί ότι κάποιες από τις ιδιότητες της μεθόδου των γενικών διευθύν-σεων ισχύουν κι εδώ με τη μόνη διαϕορά ότι μπορούν να επεκταθούν παραπέρα λόγω τηςA-ορθογωνιότητας των διευθύνσεων p(j), j = 1(1)n. Π.χ., ισχύει η παρακάτω πρόταση.

Θεώρημα 6.6 (p(k), r(k−1)) = (p(k), r(j)), j = 0(1)k − 1, k = 1(1)n.

Απόδειξη: Επειδή r(k−1) = r(k−2) − αk−1Ap(k−1) έχουμε ότι

(p(k), r(k−1)) = (p(k), r(k−2))− αk−1(p(k), Ap(k−1)) = (p(k), r(k−2)),

αϕού (p(k), Ap(k−1)) = 0 λόγω της A-ορθογωνιότητας των p(k) και p(k−1). Απλή επαγωγήολοκληρώνει την απόδειξη.

Page 159: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

159

Σημείωση: Με βάση την πρόταση που μόλις αποδείχτηκε, και που αποδείχνει συγχρόνωςότι η Μέθοδος των Συζυγών Διευθύνσεων περατώνεται σε n το πολύ βήματα, θα μπορέ-σουμε να αντικαταστήσουμε στην έκϕραση του συντελεστή αi, της (6.16), το (p(i), r(0)) με(p(i), r(i−1)).

Εχοντας υπόψη τη μέχρι τώρα ανάλυση και τα Θεωρήματα 6.5 και 6.6, ο αλγόριθμος τηςμεθόδου των συζυγών διευθύνσεων, με ενσωματωμένο τον αλγόριθμο των Gram-Schmidt,μπορεί να δοθεί αμέσως και έχει ως εξής:

Αλγόριθμος Μεθόδου Συζυγών Διευθύνσεων:

Δεδομένα: A ∈ IRn,n, AT = A,A θετικά ορισμένος, b ∈ IRn, U ∈ IRn,n, με διανύσματαστήλες uj, j = 1(1)n, γραμμικά ανεξάρτητα, ϵ ∈ IR+ το επιθυμητό σϕάλμα

x(0) = 0r(0) = bk = 0Εϕόσον ∥r(k)∥ > ϵ και k < n

k = k + 1p(k) = uk

Για j = 1(1)k − 1

rjk =(Ap(j),p(k))

(Ap(j),p(j))

p(k) = p(k) − rjkp(j)

Τέλος ‘Για’

αk =(p(k),r(k−1))

(Ap(k),p(k))

x(k) = x(k−1) + αkp(k)

r(k) = b− Ax(k) (= r(k−1) − αkAp(k))

Τέλος ‘Εϕόσον’Αποτέλεσμα: x = x(k) η προσέγγιση της λύσης

Σημείωση: Στον Αλγόριθμο που μόλις δόθηκε, το διάνυσμα p(k) στην έκϕραση του rjk καιαυτό στα μέλη της σχέσης p(k) = p(k) − rjkp

(j) δεν είναι το τελικά ευρεθησόμενο διάνυσμαp(k) αλλά απλά ένα διάνυσμα που είναι εκάστοτε ίσο με uk −

∑ji=1 rikp

(i), j = 1(1)k − 1.

Η Σημείωση, που ακολουθεί το Θεώρημα 6.6 σε συνδυασμό με την (6.16), αποδείχνει ότι μεακριβή αριθμητική ο Αλγόριθμος των Συζυγών Διευθύνσεων περατώνεται σε n επαναλήψεις.Ο ισχυρισμός αυτός μπορεί να καταστεί πιο ϕανερός και με το παρακάτω θεώρημα.

Θεώρημα 6.7 Ο Αλγόριθμος της Μεθόδου των Συζυγών Διευθύνσεων περατώνεταισε n το πολύ επαναλήψεις. Δηλαδή

r(n) = 0.

Page 160: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

160

Απόδειξη: Από την κατασκευή του αλγόριθμου και το Θεώρημα 6.6 έχουμε ότι

x(n) = x(0) +n∑

k=1

αkp(k) ⇐⇒ x(n) − x(0) =

n∑k=1

(p(k), r(0))

(Ap(k), p(k))p(k).

Αρα

(Ap(i), x(n) − x(0)) = (Ap(i),n∑

k=1

(p(k), r(0))

(Ap(k), p(k))p(k)) = (p(i), r(0)), i = 1(1)n, (6.22)

ή επειδή

(p(i), A(x(n) − x(0))) = (p(i), r(0) − r(n)) = (p(i), r(0))− (p(i), r(n)), i = 1(1)n, (6.23)

έχουμε από την ισότητα των αριστερών μελών των (6.22) και (6.23) ότι

(p(i), r(n)) = 0, i = 1(1)n.

Λόγω της γραμμικής ανεξαρτησίας των p(i), i = 1(1)n, η τελευταία ισότητα συνεπάγεται ότιr(n) = 0. Οπως και στις δυο προηγούμενες μεθόδους οι δύο πολλαπλασιασμοί πίνακα επί διάνυ-

σμα ανά ανακύκλωση μπορούν να συμπτυχτούν σε έναν, όπως υποδείχνεται στον αλγόριθμο,αϕού μπορεί να δειχτεί αμέσως ότι r(k) = r(k−1) − αkAp

(k). Σημειώσεις: α) Οπως αποδεί-χτηκε στο Θεώρημα 6.6 το εσωτερικό γινόμενο (p(k), r(0)) στον αλγόριθμο της μεθόδου τωνσυζυγών διευθύνσεων μπορεί να αντικατασταθεί με (p(k), r(k−1)), όπως δηλαδή αυτό εμϕα-νίζεται στον αλγόριθμο της μεθόδου των γενικών διευθύνσεων. β) Εκτός από τον ορισμότων p(k), τον περιορισμό του στα n βήματα και την εύρεση της λύσης x(n) = A−1b, ο αλ-γόριθμος της μεθόδου των συζυγών διευθύνσεων είναι σχεδόν ταυτόσημος με αυτόν τωνγενικών διευθύνσεων. γ) Στην προκείμενη περίπτωση, σε αντίθεση με αυτήν των γενικώνδιευθύνσεων, είναι δυνατόν να είναι (p(k), r(k−1)) = 0, οπότε με βάση το θεώρημα θα είναι και(p(k), r(j)) = 0, j = 0(1)k − 2. Αυτό απλά σημαίνει ότι το διάνυσμα-υπόλοιπο r(k−1), καθώςκαι όλα τα προηγούμενα διανύσματα-υπόλοιπα, έχουν συνιστώσες 0 στην κατεύθυνση p(k) (ήείναι ορθογώνια στο p(k)).

Τέλος δίνεται ακόμη μια Πρόταση, που είναι πολύ χρήσιμη, κυρίως δε, στη Μέθοδο τωνΣυζυγών Κλίσεων που θα ακολουθήσει.

Θεώρημα 6.8 Ορίζοντας p(0) = 0 έχουμε ότι για j = 0(1)k − 1, k = 1(1)n, ισχύει

(r(k−1), p(j)) = 0.

Page 161: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

161

Απόδειξη: Η απόδειξη γίνεται με επαγωγή. Για k = 1 έχουμε j = 0 και άρα (r(0), p(0)) = 0,αϕού p(0) = 0, και επομένως η πρόταση ισχύει. Υποθέτουμε ότι η πρόταση ισχύει για κάποιατιμή του k και αποδείχνουμε ότι ισχύει και για την επόμενη τιμή k + 1. Διακρίνουμε δύοπεριπτώσεις. Για j ≤ k − 1 έχουμε διαδοχικά

(r(k), p(j)) = (r(k−1) − αkAp(k), p(j)) = (r(k−1), p(j))− αk(Ap

(k), p(j)) = 0,

κι αυτό γιατί το πρώτο εσωτερικό γινόμενο είναι μηδέν από την υπόθεση της τέλειας επαγωγήςκαι το δεύτερο είναι μηδέν από την A-ορθογωνιότητα των συζυγών διεθύνσεων. Για j = kέχουμε

(r(k), p(k)) = (r(k−1) − αkAp(k), p(k)) = (r(k−1), p(k))− (p(k), r(k−1))

(Ap(k), p(k))(Ap(k), p(k)) = 0.

Πόρισμα 6.2 Αν e(k), k = 1(1)n, είναι το διάνυσμα-σϕάλμα στην k επανάληψη ισχύειότι (Ae(k−1), p(j)) = 0, j = 1(1)k − 1.

Είναι ϕανερό ότι η μέθοδος των συζυγών διευθύνσεων πλεονεκτεί σαϕώς έναντι τωνπροηγούμενων μεθόδων διότι βρίσκει την ακριβή λύση σε n επαναλήψεις. Η πολυπλοκό-τητα της μεθόδου, αν περιοριστούμε στους πολλαπλασιασμούς και μόνο, είναι O(n3) και οασυμπτωτικός συντελεστής της είναι 3

2έναντι 1

3που είναι στη μέθοδο απαλοιϕής του Gauss.

(Σημείωση: Ο ασυμπτωτικός συντελεστής 32προκύπτει από το άθροισμα των ασυμπτωτι-

κών συντελεστών 1 για την εύρεση των Ap(k), k = 1(1)n, και 12για την εύρεση των

(Ap(j), uk+1), j = 1(1)k, k = 1(1)n − 1.) Συνεπώς αν κάτι θα πρέπει να μας προβληματί-σει ως προς τη δυνατότητα βελτίωσης της παρούσας μεθόδου είναι η κατασκευή μιας νέαςμεθόδου πάνω στην ιδέα των συζυγών διευθύνσεων η οποία όμως θα “εκμεταλλεύεται” την“αυθαιρεσία” της θεώρησης του πίνακα U για την κατασκευή των p(j).

Αν και είναι διαισθητικά ϕανερό δεν έχει αποδειχτεί τυπικά με τη μέχρι τώρα ανάλυση ότι ηπαρούσα μέθοδος είναι καταρχάς μια μέθοδος ελαχιστοποίησης όχι μόνο ως προς τη διεύθυνσηp(k), όπως συμβαίνει, αλλά και ως προς το μέχρις εκείνη τη στιγμή θεωρηθέντα υπόχωροspanp(1), p(2), · · · , p(k). Γι΄ αυτό, εξάλλου, βρίσκει την ακριβή λύση σε n επαναλήψεις.Για το σκοπό αυτό θα πρέπει, λοιπόν, η κάθε νέα προσέγγιση x(k) να βρίσκεται όχι μόνοαπό τη x(k−1) με ελαχιστοποίηση της τιμής του δοθέντος συναρτησιακού f(x) κατά μήκοςτης p(k), όπως συμβαίνει, αλλά και με τη σύγχρονη ελαχιστοποίηση της τιμής f(x(k)) στονυπόχωρο spanp(1), p(2), · · · , p(k). Πράγματι, τότε το x(n) θα ελαχιστοποιεί το f(x) γιαx ∈ spanp(1), p(2), · · · , p(n) ≡ IRn και άρα θα δίνει και τη λύση A−1b του συστήματος. Ηαπόδειξη μπορεί να γίνει με επαγωγή και δίνεται στη συνέχεια.

Page 162: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

162

Για k = 1 η τιμή του x ∈ spanp(1), που ελαχιστοποιεί το συναρτησιακό f(x) στη

διεύθυνση p(1), είναι η x(1) = x(0) + αp(1) με α = α1 = (p(1),r(0))

(Ap(1),p(1))και προϕανώς είναι η

ίδια με αυτήν που ελαχιστοποιεί το συναρτησιακό στον υπόχωρο spanp(1). Γα το γενικόβήμα της μετάβασης από το k − 1 στο k (1 < k ≤ n) εργαζόμαστε ως εξής. Εστω ότι τοx(k−1) ελαχιστοποιεί το f(x) κατά μήκος της διεύθυνσης p(k−1) και συγχρόνως στον υπόχωροspanp(1), p(2), · · · , p(k−1) και έστω x ∈ spanp(1), p(2), · · · , p(k). Εστω ακόμη ότιx = y + αp(k), όπου y ∈ spanp(1), p(2), · · · , p(k−1). Θα ισχύει y =

∑k−1i=1 βip

(i), όπουβi, i = 1(1)k − 1, πραγματικοί αριθμοί, και επομένως θα έχουμε διαδοχικά

f(x) = f(y + αp(k)) = 12(A(y + αp(k)), y + αp(k))− (b, y + αp(k))

= f(y) + 12(Ap(k), p(k))α2 − (b, p(k))α+ α(Ay, p(k))

= f(y) + 12(Ap(k), p(k))α2 − (b, p(k))α,

αϕού (Ay, p(k)) =∑k−1

i=1 βi(Ap(i), p(k)) = 0, λόγω της A-ορθογωνιότητας των p(i) με το

p(k).

Παρατηρούμε τώρα ότι η f(x) αποτελείται από το άθροισμα δύο ανεξάρτητων συναρτήσεων.Της f(y), που είναι συνάρτηση του y ∈ spanp(1), p(2), · · · , p(k−1), και της 1

2(Ap(k), p(k))α2−

(b, p(k))α, που είναι συνάρτηση του α μόνο. Αρα για την ελαχιστοποίησή της πρέπει και αρκείνα ελαχιστοποιηθεί κάθε μία ξεχωριστά. Η μεν πρώτη έχει ήδη ελαχιστοποιηθεί στον υπόχωροspanp(1), p(2), · · · , p(k−1), από την υπόθεση της τέλειας επαγωγής, για y = x(k−1). Η δε

δεύτερη ελαχιστοποιείται για α = αk = (b,p(k))

(Ap(k),p(k)), δηλαδή για την τιμή α = αk = (p(k),r(0))

(Ap(k),p(k)).

Η τελευταία είναι ίση με (p(k),r(k−1))

(Ap(k),p(k)), από το Θεώρημα 6.6, και δίνεται αντί της προηγούμενης

στον αλγόριθμο της μεθόδου των συζυγών διευθύνσεων.

Η πρόταση που μόλις αποδείχτηκε δίνεται στη συνέχεια υπό μορϕή θεωρήματος.

Θεώρημα 6.9 Στην k επανάληψη της μεθόδου των συζυγών διευθύνσεων η x(k), k =1(1)n, επιλύει το πρόβλημα της μονοδιάστατης ελαχιστοποίησης στη διεύθυνση p(k)

minx=x(k−1)+αp(k)

f(x)

και συγχρόνως το πρόβλημα της ελαχιστοποίησης στον υπόχωρο spanp(1), p(2), · · · , p(k)

minx∈spanp(1), p(2), ···, p(k)

f(x). (6.24)

Σημείωση: Το παραπάνω θεώρημα ισχύει για x(0) = 0. Αν είναι x(0) = 0, τότε το ελάχιστοστην (6.24) βρίσκεται για x− x(0) ∈ spanp(1), p(2), · · · , p(k). Αυτό γιατί στην περίπτωσηx(0) = 0 μπορεί να θεωρηθεί το σύστημα Ax

(= A(x− x(0)) = b− Ax(0)

)= b, οπότε η

ελαχιστοποίηση του αντίστοιχου συναρτησιακού με x(0) = 0 οδηγεί στο βασικό συμπέρασματου θεωρήματος.

Page 163: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

163

6.5 Μέθοδος Συζυγών Κλίσεων (Conjugate Gradients)

Η μέθοδος των συζυγών κλίσεων, που προτάθηκε από τους Hestenes και Stiefel (ο αναγνώ-στης παρεπέμπεται στο βιβλίο της Greenbaum [22]), είναι μία μέθοδος συζυγών διευθύνσεωναπαλλαγμένη από τα μειονεκτήματα της μεθόδου, όπως αυτά τονίστηκαν στην προηγούμενηπαράγραϕο. Καταρχάς, ως στήλες του πίνακα U στον αλγόριθμο (θεώρημα) των Gram-Schmidt παίρνονται τα διαδοχικά διανύσματα-υπόλοιπα uj = r(j−1), j = 1(1)k, k = 1(1)n.Θα διαπιστωθεί αμέσως μετά, στην Πρόταση 7 του Θεωρήματος 6.10, ότι για την εύρεση τηςνέας διεύθυνσης p(k) χρειάζεται μόνο η προηγούμενη p(k−1) και όχι όλες οι προηγούμενεςδιευθύνσεις, όπως στη μέθοδο των συζυγών διευθύνσεων. Μπορεί να αποδειχτεί, ακόμη,ότι είναι η βέλτιστη μέθοδος μεταξύ όλων των μεθόδων συζυγών διευθύνσεων. Αυτό, για-τί η εκάστοτε νέα διεύθυνση p(k) δεν ανήκει απλά στον υπόχωρο που είναι ορθογώνιος στοspanAp(1), Ap(2), · · · , Ap(k−1), k = 1(1)n, αλλά αποτελεί την ορθή προβολή του r(k−1)

στον εν λόγω υπόχωρο. Μερικοί από τους παραπάνω ισχυρισμούς που διατυπώθηκαν θα απο-δειχτούν στη συνέχεια. Για το σκοπό αυτό και για να είναι συγκεντρωμένες όλες οι σχετικέςπροτάσεις, μερικές από τις οποίες είναι ήδη γνωστές αϕού ισχύουν για οποιαδήποτε μέθοδοσυζυγών διευθύνσεων, πρώτα θα διατυπωθούν και μετά, όσες από αυτές παρουσιάζονται γιαπρώτη ϕορά, θα αποδειχτούν.

Θεώρημα 6.10 Στη μέθοδο συζυγών κλίσεων ισχύουν οι παρακάτω προτάσεις γιαk = 1(1)n, p(0) = 0.Πρόταση 1: uj = r(j−1), j = 1(1)k.Πρόταση 2: (r(k−1), p(j)) = 0, j = 0(1)k − 1, p(0) = 0.Πρόταση 3: (r(k−1), r(j−1)) = (r(k−1), uj) = 0, j = 1(1)k − 1.Πρόταση 4: (r(k−1), r(k−1)) = (r(k−1), uk) = (r(k−1), p(k)).

Πρόταση 5: αk =(p(k),r(k−1))

(Ap(k),p(k))= (r(k−1),r(k−1))

(Ap(k),p(k)).

Πρόταση 6: r(k) = r(k−1) − αkAp(k).

Πρόταση 7: Αν rjk, j = 1(1)k, είναι τα στοιχεία της k στήλης του άνω τριγωνικούπίνακα R της (6.17), τότε ισχύει

rjk =

0, j = 1(1)k − 2,

− (r(k−1),r(k−1))

(r(k−2),r(k−2)), j = k − 1,

1, j = k.

Απόδειξη: Πρόταση 1: Ισχύει εξ ορισμού.Πρόταση 2: Είναι το Θεώρημα 6.8.Πρόταση 3: Εχουμε (r(k−1), r(j−1)) = (r(k−1), uj) = (r(k−1), r1jp

(1) + · · · + rj−1,jp(j−1) +

p(j)) = 0. Η πρώτη ισότητα από τα αριστερά ισχύει λόγω της Πρότασης 1, η δεύτερη από τοναλγόριθμο (θεώρημα) των Gram-Schmidt και η τρίτη λόγω της Πρότασης 2. (Σημείωση: Η

Page 164: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

164

παρούσα πρόταση εξασϕαλίζει τη γραμμική ανεξαρτησία των διανυσμάτων r(j−1), j = 1(1)k,υπό την προϋπόθεση ότι είναι διάϕορα από το μηδέν και άρα έχει εϕαρμογή το Θεώρημα (καιο Αλγόριθμος) των Gram-Schmidt.)Πρόταση 4: Αποδείχνεται ακριβώς με τον ίδιο τρόπο όπως η προηγούμενη. Η μόνη διαϕοράείναι ότι το τελευταίο εσωτερικό γινόμενο (r(k−1), p(k)) δεν είναι μηδέν.

Πρόταση 5: Είναι αk = (p(k),r(k−1))

(Ap(k),p(k))από τον αλγόριθμο των συζυγών διευθύνσεων και το

Θεώρημα 6.6. Αν αντικατασταθεί ο αριθμητής με βάση το συμπέρασμα της Πρότασης 4αποδείχνεται το ζητούμενο.Πρόταση 6: Είναι η έκϕραση του υπολοίπου r(k) από τον αλγόριθμο των συζυγών διευθύνσεων.Πρόταση 7: Από τον αλγόριθμο των Gram-Schmidt και τη συγκεκριμένη επιλογή των uj

έχουμε rjk = (Ap(j),uk)

(Ap(j),p(j))= (Ap(j),r(k−1))

(Ap(j),p(j)). Αντικαθιστώντας το Ap(j) στον αριθμητή από την

Πρόταση 6 και διασπώντας σε δυο κλάσματα έχουμε ότι

rjk =1

αj

(r(j−1) − r(j), r(k−1))

(Ap(j), p(j))=

1

αj(Ap(j), p(j))

[(r(j−1), r(k−1))− (r(j), r(k−1))

].

Διακρίνουμε τρεις περιπτώσεις. Αν j < k − 1, τότε και τα δυο εσωτερικά γινόμενα μέσα στιςαγκύλες είναι μηδέν από την Πρόταση 3. Αν j = k − 1, τότε το πρώτο εσωτερικό γινόμενο

μέσα στις αγκύλες είναι πάλι μηδέν και άρα rk−1,k = − 1αk−1

(r(k−1),r(k−1))

(Ap(k−1),p(k−1)), οπότε με τη

χρησιμοποίηση της δεύτερης έκϕρασης του αk−1 από την Πρόταση 5 βρίσκεται το ζητούμενο.Τέλος, για j = k έχουμε rkk = 1 από τον αλγόριθμο των Gram-Schmidt, πράγμα που μπορείνα προκύψει αμέσως και από το συνδυασμό των Προτάσεων 6, 3, 4 και 5. Στη συνέχεια δίνεται ο αλγόριθμος της μεθόδου των συζυγών κλίσεων. Οπως είναι δυ-

νατόν να παρατηρήσει κανείς είναι σχεδόν ταυτόσημος με αυτόν των συζυγών διευθύνσεωνεκτός από το τμήμα του που αϕορά στην εύρεση της νέας διεύθυνσης p(k), που βρίσκεται,όπως είδαμε από την Πρόταση 7, μόνο από την προηγούμενη διεύθυνση και όχι σα συνάρτησηόλων των προηγούμενων διευθύνσεων.

Αλγόριθμος Μεθόδου Συζυγών Κλίσεων:

Δεδομένα: A ∈ IRn,n, AT = A, A θετικά ορισμένος, b ∈ IRn, ϵ ∈ IR+ το επιθυμητό σϕάλμαx(0) = 0r(0) = bp(1) = r(0)

α1 =(r(0),r(0))

(Ap(1),p(1))

x(1) = x(0) + α1p(1)

r(1) = b− Ax(1) (= r(0) − α1Ap(1))

k = 1Εϕόσον ∥r(k)∥ > ϵ και k < n

Page 165: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

165

k = k + 1βk =

(r(k−1),r(k−1))

(r(k−2),r(k−2))

p(k) = r(k−1) + βkp(k−1)

αk =(r(k−1),r(k−1))

(Ap(k),p(k))

x(k) = x(k−1) + αkp(k)

r(k) = b− Ax(k) (= r(k−1) − αkAp(k))

Τέλος ‘Εϕόσον’Αποτέλεσμα: x = x(k) η προσέγγιση της λύσης.

Στη συνέχεια δίνουμε δυο λήμματα που χρησιμεύουν στην εύρεση ενός άνω ϕράγματοςγια το απόλυτο σϕάλμα της k επανάληψης της μεθόδου των συζυγών κλίσεων σα συνάρτησητου απόλυτου αρχικού σϕάλματος.

Λήμμα 6.2 Αν x(0) = 0, τότε για j = 1(1)k και k = 1(1)n ισχύει ότι

spanp(1), p(2), · · · , p(j) = spanr(0), r(1), · · · , r(j−1)= spanb, Ab, · · · , Aj−1b. (6.25)

Απόδειξη: Από τον αλγόριθμο (θεώρημα) των Gram-Schmidt και όταν τα uj, j = 1(1)k, είναιγραμμικά ανεξάρτητα έχουμε ότι

spanp(1), p(2), · · · , p(j) = spanu1, u2, · · · , uj, j = 1(1)k.

Επειδή στη μέθοδο των συζυγών κλίσεων είναι uj = r(j−1), j = 1(1)k, με την προϋπόθεση ότικανένα από τα r(j−1), j = 1(1)k, δεν είναι μηδέν, από την Πρόταση 3 έπεται ότι αυτά θα είναιγραμμικά ανεξάρτητα. Αρα αποδείχνεται αμέσως η ισχύς της πρώτης ισότητας από τις (6.25).Για την απόδειξη της δεύτερης ισότητας παρατηρούμε ότι για x(0) = 0 είναι p(1) = r(0) = b καιη πρόταση ισχύει για j = 1. Εστω ότι η πρόταση ισχύει για κάποιο j = 1(1)k− 1, δηλαδή ότι

(spanp(1), p(2), · · · , p(j) =) spanr(0), r(1), · · · , r(j−1) = spanb, Ab, · · · , Aj−1b.

Από τον αλγόριθμο των συζυγών κλίσεων έχουμε ότι r(j) = r(j−1) − αjAp(j). Αλλά r(j−1) ∈

spanb, Ab, · · · , Aj−1b και Ap(j) ∈ spanAb, A2b, · · · , Ajb, j = 1(1)k − 1, από τηνπροηγούμενη υπόθεση. Επομένως r(j) ∈ spanb, Ab, · · · , Ajb. Προϕανώς, όμως, r(j) ∈spanr(0), r(1), · · · , r(j), που είναι διάστασης j+1. Αρα και ο υπόχωρος που παράγεται απότα j + 1 διανύσματα b, Ab, · · · , Ajb, ο spanb, Ab, · · · , Ajb, θα είναι της ίδιας διάστασης.Συνεπώς θα ισχύουν οι (6.25) και για j+1, πράγμα που ολοκληρώνει την επαγωγική απόδειξη.

Σημειώσεις: α) Στο προηγούμενο λήμμα υποτέθηκε ότι x(0) = 0. Αν x(0) = 0, τότε γιαj = 1(1)k το x(j) λύνει το πρόβλημα ελαχιστοποίησης

miny−x(0)∈spanp(1), p(2), ···, p(j)

f(y) (6.26)

Page 166: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

166

κι ακόμη ισχύει ότι

spanp(1), p(2), · · · , p(j) = spanr(0), r(1), · · · , r(j−1)= spanr(0), Ar(0), · · · , Aj−1r(0). (6.27)

β) Οι χώροι των δεξιών μελών στις σχέσεις (6.25) και (6.27) είναι γνωστοί και ως υπόχωροιKrylov του πίνακα A.

Λήμμα 6.3 Εστω ότι 0 < α < β. Τότε το min-max πρόβλημα

minpm∈Pm, pm(0)=1

(maxα≤z≤β

|pm(z)|), (6.28)

όπου Pm το σύνολο των πολυωνύμων βαθμού μικρότερου ή ίσου του m με πραγματικούςσυντελεστές, λύνεται μοναδικά από το πολυώνυμο

pm(z) =Tm

(β+α−2zβ−α

)Tm

(β+αβ−α

) (6.29)

για το οποίο

maxα≤z≤β

|pm(z)| =1

Tm

(β+αβ−α

) . (6.30)

Απόδειξη: Η απόδειξη δεν είναι παρά αυτή του Θεωρήματος 4.1 αρκεί να παρατηρήσουμε ταεξής. Καταρχάς οι ανισότητες 0 < α ≤ z ≤ β δίνουν ισοδύναμα 1− β ≤ 1− z ≤ 1−α < 1.Οι τελευταίες δεν είναι παρά οι αντίστοιχες των −1 < α ≤ z ≤ β < 1 του Θεωρήματος 4.1.(Σημείωση: Το γεγονός ότι στην παρούσα περίπτωση δεν παρουσιάζεται το κάτω ϕράγμα −1στο 1− β δεν επηρεάζει την κατάσταση. Στο Θεώρημα 4.1 το ϕράγμα −1 είχε προέρθει απόκάποια προηγούμενη απαίτησή μας για τον επαναληπτικό πίνακα T , που παρουσιαζόταν εκεί, ναείναι Ερμιτιανός με ρ(T ) < 1.) Επομένως αν στα αποτελέσματα των αντίστοιχων εκϕράσεωντης διατύπωσης του Θεωρήματος 4.1 αντικαταστήσουμε τις σταθερές και μεταβλητή α, z καιβ με 1−β, 1−z και 1−α, αντίστοιχα, προκύπτουν τα συμπεράσματα του παρόντος λήμματος.

Με μέθοδο αντίστοιχη αυτής του Θεωρήματος 6.3, για τη μέθοδο της απότομης καθόδου,και έχοντας υπόψη τα μέχρι στιγμής συμπεράσματα για τη μέθοδο των συζυγών κλίσεων είναιδυνατόν να διατυπωθεί και να αποδειχτεί με τη βοήθεια των δύο προηγούμενων λημμάτων έναανάλογο θεώρημα που δίνεται στη συνέχεια.

Page 167: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

167

Θεώρημα 6.11 Εστω x(k), k ≥ 0, η ακολουθία που παράγεται από τον αλγόριθμο τηςμεθόδου συζυγών κλίσεων για οποιοδήποτε x(0) ∈ IRn και έστω x η λύση του συστήματοςAx = b όπου ο A ∈ IRn,n είναι συμμετρικός και θετικά ορισμένος. Εστω κ = κ2(A) =

λmax

λmin,

όπου λmax και λmin η μέγιστη και η ελάχιστη ιδιοτιμή του A, αντίστοιχα. Αν e(k) = x(k)−xείναι το διάνυσμα-σϕάλμα στην k επανάληψη τότε

||e(k)||A

12

≤ 2

[(√κ− 1√κ+ 1

)k

+

(√κ+ 1√κ− 1

)k]−1

||e(0)||A

12, k = 1(1)n− 1. (6.31)

Απόδειξη: Καταρχάς παρατηρούμε ότι για y ∈ IRn είναι (A(y − x), y − x) = 2f(y) + (Ax, x).Επομένως το πρόβλημα ελαχιστοποίησης miny∈S f(y), με S ⊂ IRn, είναι ισοδύναμο με τοπρόβλημα ελαχιστοποίησης miny∈S(A(y−x), y−x), οπότε, σύμϕωνα με τη Σημείωση αμέσωςμετά το Λήμμα 6.2 και συγκεκριμένα τη σχέση (6.26), θα έχουμε

(Ae(k), e(k)) = (A(x(k) − x), x(k) − x) = miny−x(0)∈spanp(1),···,p(k)(A(y − x), y − x)

= minz∈spanp(1),···,p(k)(A(z + e(0)), z + e(0)).

(6.32)Από την (6.27) έχουμε ότι

z ∈ spanp(1), · · · , p(k) ⇐⇒ z ∈ spanr(0), Ar(0), · · · , Ak−1r(0) ⇐⇒ z = pk−1(A)r(0),

(6.33)για κάποιο πολυώνυμο pk−1 ∈ Pk−1, όπου Pk−1 το σύνολο των πολυωνύμων με πραγματικούςσυντελεστές βαθμού το πολύ k − 1. Επειδή r(0) = −Ae(0), η (6.32) λόγω της (6.33) γίνεται

(Ae(k), e(k)) = minpk−1∈Pk−1

(A(I − Apk−1(A))e(0), (I − Apk−1(A))e

(0)). (6.34)

(Σημείωση: Η παραπάνω σχέση ισχύει και για k = 0 αν οριστεί ότι P−1 = 0.) Χρησιμοποι-ώντας τη ϕασματική ανάλυση του A προκύπτει με πράξεις ανάλογες αυτών του Θεωρήματος(6.3) ότι

(Ae(k), e(k)) ≤ minpk−1∈Pk−1

(( maxλ∈[λmin,λmax]

|1− λpk−1(λ)|)2)(Ae(0), e(0)), (6.35)

η οποία είναι ισοδύναμη με την

||e(k)||A

12

≤ minpk∈Pk, pk(0)=1

(max

λ∈[λmin,λmax]|pk(λ)|

)||e(0)||

A12. (6.36)

Χρησιμοποιώντας το Λήμμα 6.3 για την εύρεση του συντελεστή του δεύτερου μέλους στην(6.36) προκύπτει αμέσως ότι

||e(k)||A

12

≤ 1

Tk

(λmax+λmin

λmax−λmin

) ||e(0)||A

12

(6.37)

Page 168: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

168

ή ισοδύναμα

||e(k)||A

12

≤ 1

Tk

(κ+1κ−1

) ||e(0)||A

12

(6.38)

και τέλος, επειδή κ+1κ−1

> 1, με βάση την ιδιότητα (γ) των πολυωνύμων Chebyshev καταλήγουμεστην (6.31). Σημειώσεις: α) Είναι δυνατόν να αποδειχτεί ότι για σταθερό k ο συντελεστής του ||e(0)||

A12

είναι αύξουσα συνάρτηση του δείκτη κατάστασης κ. β) Είναι επίσης δυνατόν να αποδειχτείμε επαγωγή, αν γίνει η σύγκριση των εκϕράσεων (6.8) και (6.31), ότι ο συντελεστής στοδεύτερο μέλος της δεύτερης είναι μικρότερος από τον αντίστοιχο συντελεστή της πρώτης(εκτός από την περίπτωση κ = 1 ή/και k = 1, οπότε έχουμε ισότητα), πράγμα που ήτανάλλωστε αναμενόμενο. γ) Στην πράξη και για πολλές κατηγορίες πινάκων, η μέθοδος των συ-ζυγών κλίσεων, και ιδιαίτερα παραλλαγές αυτής, αποδείχνονται ταχύτατες ως προς τη σύγκλισησυγκρινόμενες με άλλες επαναληπτικές μεθόδους. Στην τελευταία παρατήρηση οϕείλεται καιτο γεγονός ότι η μέθοδος των συζυγών κλίσεων είναι ιδιαίτερα δημοϕιλής.

Θεωρώντας τις τρεις μεθόδους, απότομης καθόδου, συζυγών διευθύνσεων και συζυγώνκλίσεων, είναι ϕανερό ότι παρά τα τυχόν υπάρχοντα μειονεκτήματα η τελευταία υπερτερεί σα-ϕώς των δύο πρώτων. Καταρχάς οι δυο τελευταίες υπερτερούν της μεθόδου της απότομηςκαθόδου, αϕού ολοκληρώνονται σε n βήματα, ενώ η πρώτη συγκλίνει στη λύση μόνο ασυμ-πτωτικά. Μεταξύ των μεθόδων συζυγών διευθύνσεων και συζυγών κλίσεων η δεύτερη, όπωςήδη αναϕέρθηκε, είναι η βέλτιστη μέθοδος συζυγών διευθύνσεων.

6.6 Προρρυθμισμένη Μέθοδος Συζυγών Κλίσεων

Ενα πιθανό μειονέκτημα της μεθόδου συζυγών κλίσεων είναι ότι για μεγάλο n, πολλές ϕορέςστην πράξη, ϕαίνεται να συγκλίνει αργά. Για τη βελτίωση της ταχύτητας σύγκλισής της χρησι-μοποιείται η μέθοδος της προρρύθμισης. Η ιδέα της προρρύθμισης είναι η ακόλουθη. Επειδή ηταχύτητα σύγκλισης είναι αύξουσα συνάρτηση του δείκτη κατάστασης κ2(A), προσπαθούμε νατροποποιήσουμε το αρχικό σύστημα και αντ΄ αυτού να επιλύσουμε ένα ισοδύναμό του με αρκετάμικρότερο δείκτη κατάστασης. Για το σκοπό αυτό χρησιμοποιείται ένας πίνακας M ∈ IRn,n,συμμετρικός και θετικά ορισμένος, ως προρρυθμιστής, τ.ω. αϕενός μεν να είναι οικονομικάαντιστρέψιμος σε σχέση με τον A αϕετέρου δε να ισχύει λmax(M−1A)

λmin(M−1A)<< κ2(A), όπου λmax(·)

και λmin(·) συμβολίζουν, αντίστοιχα, τη μεγαλύτερη και τη μικρότερη ιδιοτιμή τουM−1A, πουμπορεί να δειχτεί ότι είναι θετικές. Ετσι το σύστημα που θεωρούμε για επίλυση, αντί τουαρχικού, είναι το

M−1Ax = M−1b. (6.39)

Page 169: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

169

Ο συντελεστής πίνακας του συστήματος (6.39) όμως δεν είναι συμμετρικός και άρα δεν είναιδυνατόν να εϕαρμοστεί η μέθοδος των συζυγών κλίσεων για τη λύση του. Για τη μετατροπήτου συστήματος (6.39) σε ένα άλλο ισοδύναμο με πίνακα συντελεστών αγνώστων συμμετρικόκαι θετικά ορισμένο με τις ίδιες ακραίες ιδιοτιμές με αυτές του M−1A εργαζόμαστε ως εξής.Αϕού ο M είναι πραγματικός, συμμετρικός και θετικά ορισμένος θα υπάρχει (μοναδικός)πίνακας πραγματικός συμμετρικός και θετικά ορισμένος του οποίου το τετράγωνο θα είναι οM . Εστω C ο πίνακας αυτός για τον οποίο ισχύει C2 = M . Χρησιμοποιώντας τον C, η (6.39)μπορεί να γραϕτεί ισοδύναμα ως

C−1AC−1Cx = C−1b

ή θεωρώντας τις αντικαταστάσεις

A = C−1AC−1, x = Cx, b = C−1b (6.40)

γράϕεται ισοδύναμα και ωςAx = b. (6.41)

Είναι προϕανές ότι το νέο σύστημα (6.41) έχει πίνακα συντελεστών αγνώστων A που είναι πρα-γματικός, συμμετρικός και θετικά ορισμένος, όπως είναι εύκολο να ελεγχτεί. Ακόμη, επειδήισχύει ότι σ(A) ≡ σ(C−1AC−1) = σ(C−2A) = σ(M−1A), θα ισχύει ότι κ2(A) =

λmax(M−1A)λmin(M−1A)

και άρα κ2(A) << κ2(A).

Ισως από μια πρώτη ματιά η προρρύθμιση, με τον τρόπο που εισάγει τον πίνακα C, ναθεωρείται ότι δεν είναι δυνατόν να συνεισϕέρει ουσιαστικά στο πρόβλημα που θέσαμε αϕούγια την εύρεση του C απαιτούνται όλες οι ιδιοτιμές και όλα τα ιδιοδιανύσματα του πίνακααυτού ή, με βάση το Θεώρημα 3.13, του M . Οπως θα δούμε όμως στη συνέχεια ο πίνακας Cεμϕανίζεται στον τελικό αλγόριθμο ως C2 = M και άρα δε χρειάζεται να βρεθεί αναλυτικά.

Αν ο αλγόριθμος της μεθόδου συζυγών κλίσεων εϕαρμοστεί για τη λύση του συστήματος(6.41) θα είναι ο παρακάτω:

x(0) = 0r(0) = bp(1) = r(0)

α1 =(r(0),r(0))

(Ap(1),p(1))

x(1) = x(0) + α1p(1)

r(1) = b− Ax(1) (= r(0) − α1Ap(1))

k = 1Εϕόσον ∥r(k)∥ > ϵ και k < n

k = k + 1

Page 170: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

170

βk =(r(k−1),r(k−1))

(r(k−2),r(k−2))

p(k) = r(k−1) + βkp(k−1)

αk =(r(k−1),r(k−1))

(Ap(k),p(k))

x(k) = x(k−1) + αkp(k)

r(k) = b− Ax(k) (= r(k−1) − αkAp(k))

Τέλος ‘Εϕόσον’Αποτέλεσμα: x = x(k) η προσέγγιση της λύσης.

Λόγω των αντικαταστάσεων (6.40) είναι λογικό να θέσουμε καταρχάς x(k) = Cx(k) καιακόμη r(k) = b−Ax(k) = C−1b−C−1AC−1Cx(k) = C−1(b−Ax(k)) = C−1r(k). Αν δε επιπλέονεπιθυμούμε παραπέρα απλοποίηση του αλγόριθμου και ιδιαίτερα αν θέλουμε να έχουμε τησχέση x(k) = x(k−1)+ αkp

(k) σε πλήρη αντιστοιχία με τη x(k) = x(k−1)+αkp(k) του κανονικού

αλγόριθμου της μεθόδου των συζυγών κλίσεων, τότε θα πρέπει να θέσουμε p(k) = Cp(k).Είναι εύκολο να διαπιστώσει κανείς τότε ότι οι (6.40) μαζί με τις αντικαταστάσεις, που μόλιςθεωρήθηκαν, μπορούν να μετασχηματίσουν τον παρόντα αλγόριθμο σε έναν ισοδύναμο όπου,όμως, μόνο οι γνωστές, ως προς το συμβολισμό, ποσότητες από τον κλασικό αλγόριθμο θαεμϕανίζονται. Τέλος, με μερικούς απλούς μετασχηματισμούς, όπου παραλείπουμε το σύμβολο“˜” από τα αk και βk+1 και κυρίως αντικαθιστούμε το εμϕανιζόμενο C2 με το ίσο του Mκαι το M−1r(k) = z(k), με το z(k) να βρίσκεται από τη λύση του συστήματος Mz(k) = r(k),παίρνουμε τον αλγόριθμο της προρρυθμισμένης μεθόδου των συζυγών κλίσεων στην τελικήτου μορϕή. Συγκεκριμένα:

Αλγόριθμος Προρρυθμισμένης Μεθόδου Συζυγών Κλίσεων:

Δεδομένα: A ∈ IRn,n, AT = A, A θετικά ορισμένος, b ∈ IRn, M ∈ IRn,n, MT = M, M

θετικά ορισμένος με λmax(M−1A)λmin(M−1A)

<< κ2(A), ϵ ∈ IR+ το επιθυμητό σϕάλμα.

x(0) = 0r(0) = bMz(0) = r(0)

p(1) = z(0)

α1 =(z(0),r(0))

(Ap(1),p(1))

x(1) = x(0) + α1p(1)

r(1) = b− Ax(1) (= r(0) − α1Ap(1))

k = 1Εϕόσον ∥r(k)∥ > ϵ και k < n

k = k + 1Mz(k−1) = r(k−1)

βk =(z(k−1),r(k−1))

(z(k−2),r(k−2))

Page 171: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

171

p(k) = z(k−1) + βkp(k−1)

αk =(z(k−1),r(k−1))

(Ap(k),p(k))

x(k) = x(k−1) + αkp(k)

r(k) = b− Ax(k) (= r(k−1) − αkAp(k))

Τέλος ‘Εϕόσον’Αποτέλεσμα: x = x(k) η προσέγγιση της λύσης.

Η επιλογή κατάλληλου προρρυθμιστή πίνακα M έχει τις ίδιες δυσκολίες που έχει κανείςστην επιλογή προρρυθμιστή στις γενικές επαναληπτικές μεθόδους. Λόγω της ϕύσης του A(πραγματικός, συμμετρικός και θετικά ορισμένος) υπάρχουν κάποιοι προρρυθμιστές που δενείναι άλλοι παρά αυτοί που χρησιμοποιούνται στις κλασικές επαναληπτικές μεθόδους με τηνπροϋπόθεση ότι είναι (πραγματικοί) συμμετρικοί και θετικά ορισμένοι πίνακες. Ετσι μπορείκανείς να επιλέξει

M = diag(a11, a22, · · · , ann),

οπότε προκύπτει ως μέθοδος η γνωστή και ως Jacobi-Συζυγών Κλίσεων (Jacobi-CG), ή

M = diag(A11, A22, · · · , App), Aii ∈ IRni,ni ,

p∑i=1

ni = n,

με αντίστοιχη μέθοδο τη γνωστή και ως Block Jacobi-Συζυγών Κλίσεων (Block Jacobi-CG),ή, τέλος,

M =1

ω(2− ω)(D − ωL)D−1(D − ωLT ),

με αντίστοιχη μέθοδο τη γνωστή και ως (Block) SSOR-Συζυγών Κλίσεων ((Block) SSOR-CG). Σημειώνεται ότι η τελευταία μέθοδος χρησιμοποιείται συνήθως με ω = 1.

ΑΣΚΗΣΕΙΣ

1.: Να θεωρηθεί το 2 × 2 γραμμικό σύστημα Ax = b, όπου A =diag(1, λ), λ > 0, b = 0και x(0) ∈ IR2\0 οποιοδήποτε.α) Αν x(k) = [x

(k)1 x

(k)2 ]T , να δειχτεί ότι η μέθοδος της Απότομης Καθόδου δίνει:

x(k+1) =x(k)1 x

(k)2 (λ− 1)

(x(k)1 )2 + λ3(x

(k)2 )2

[λ2x(k)2 − x

(k)1 ]T .

β) Να δειχτεί ότι αν x(k) = c[λ ± 1]T , c ∈ IR \ 0, τότε η σχέση

||e(k+1)||A

12

≤(κ− 1

κ+ 1

)||e(k)||

A12,

Page 172: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

172

όπου e(k) το διάνυσμα-σϕάλμα στην k επανάληψη και κ ο δείκτης κατάστασης, πουαντιστοιχεί στη ϕασματική norm του πίνακα A, ισχύει ως ισότητα.

2.: α) Αν είναι A ∈ ICn,n Ερμιτιανός και θετικά ορισμένος πίνακας να βρεθούν οι σταθερέςσύγκρισης των διανυσματικών norms ||x||2 και ||x||A 1

2∀ x ∈ ICn.

β) Να βρεθούν δυο διανύσματα x ∈ ICn\0, που να ικανοποιούν την κάθε μία από τιςδυο ισότητες που εμϕανίζονται στην παραπάνω σύγκριση.

3.: Δίνονται τα διανύσματα x(1) =

101

, x(2) =

011

και x(3) =

110

. Να βρεθείμια βάση ορθογώνιων διανυσμάτων q(1), q(2), q(3) και να δοθούν τα x(1), x(2), x(3) ωςγραμμικοί συνδυασμοί των q(1), q(2), q(3) χρησιμοποιώντας τη μέθοδο της ορθογωνιοποί-ησης των Gram-Schmidt. (Περιορισμός: Να γίνουν ακριβείς πράξεις χρησιμοποιώντας(ριζικά και) κλάσματα στους υπολογισμούς.)

4.: Να λυθεί το γραμμικό σύστημα Ax = b, με A =

2 1 11 2 11 1 2

και b =

202

, με τημέθοδο Συζυγών Κλίσεων και αρχικό διάνυσμα x(0) = 0.

5.: Υποτίθεται ότι στον αρχικό αλγόριθμο των Gram-Schmidt παίρνεται U = I.α) Να βρεθούν αναλυτικά οι τρεις πρώτες στήλες p(1), p(2), p(3) του πίνακα P στην παρα-γοντοποίηση U = PR, όπου P ∈ IRn,n με στήλες ανά δύο A−ορθογώνιες (A ∈ IRn,n,συμμετρικός και θετικά ορισμένος) και R ∈ IRn,n άνω τριγωνικός με διαγώνια στοιχείαμονάδες. καιβ) Με βάση το παραπάνω συμπέρασμα να δοθούν, χωρίς απόδειξη, οι αναλυτικές εκϕρά-σεις των στοιχείων της k στήλης του πίνακα P καθώς και της k γραμμής του πίνακαR.

6.: Δίνεται ο πίνακας

U =

1 1 11 −1 11 1 −11 −1 −1

.

α) Να δειχτεί ότι τα διανύσματα-στήλες του πίνακα U είναι γραμμικά ανεξάρτητα. καιβ) Βασιζόμενοι στο γεγονός ότι ο πίνακας I είναι πραγματικός, συμμετρικός και θετικάορισμένος να αναλυθεί κατά Gram-Schmidt ο παραπάνω πίνακας U σε γινόμενο παρα-γόντων PR, έτσι ώστε τα διανύσματα-στήλες του πίνακα P να είναι ορθογώνια μεταξύτους και ο πίνακας R να είναι άνω τριγωνικός με διαγώνια στοιχεία μονάδες.

Page 173: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

173

7.: Δίνονται πίνακας A ∈ IRn,n, με AT = A, και διανύσματα xi ∈ IRn, i = 1(1)n, που είναιA−ορθογώνια ανά δύο και τέτοια ώστε (Axi, xi) > 0, i = 1(1)n.α) Να δειχτεί ότι τα xi ∈ IRn, i = 1(1)n, είναι γραμμικά ανεξάρτητα. καιβ) Να δειχτεί ότι ο A είναι θετικά ορισμένος.

8.: Είναι γνωστό απο τη Γραμμική Αλγεβρα ότι αν r ∈ IRn και M υπόχωρος του IRn, τότεp ∈ M είναι η ορθή προβολή του r στον M ανν ισχύει ότι

(r, x) = (p, x) ∀ x ∈ M

α) Με βάση τον παραπάνω ορισμό να αποδειχτεί ότι η ορθή προβολή p του r στον Mυπάρχει, είναι μοναδική και ικανοποιεί τη σχέση

||p||2 = ||r||2 − ||r − p||2.

(Υπόδειξη: Να θεωρηθούν n ορθοκανονικά διανύσματα x(i) ∈ IRn, i = 1(1)n, τα m (<n) πρώτα από τα οποία ανήκουν στον υπόχωρο M .)β) Να αποδειχτεί ότι το διάνυσμα r− p είναι η ορθή προβολή του r στον υπόχωρο M⊥,όπου M⊥ συμβολίζει τον υπόχωρο που είναι κάθετος στον υπόχωρο M . καιγ) Να αποδειχτεί ότι το διάνυσμα p(k) της μεθόδου των Συζυγών Κλίσεων δεν είναιπαρά η ορθή προβολή του διανύσματος r(k−1) στον υπόχωρο που είναι κάθετος στονspan

Ap(1), Ap(2), · · · , Ap(k−1)

, k = 1(1)n, r(j) = 0, j = 0(1)k − 1.

9.: Για την επίλυση του γραμμικού συστήματος (5.21) προτιθέμεθα να εϕαρμόσουμε τηΜέθοδο Συζυγών Κλίσεων καθώς και τις δυο Προρρυθμισμένες Μεθόδους ΣυζυγώνΚλίσεων με προρρυθμιστές πίνακες α) 4 I⊗I και β) I⊗(2I+T ). Να βρεθούν αναλυτικάοι δείκτες κατάστασης των αντίστοιχων συντελεστών πινάκων των συστημάτων πουεπιλύονται και να σχολιαστεί (συγκριτικά) η σύγκλιση των τριών μεθόδων.

Page 174: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

174

Page 175: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

Κεϕάλαιο 7

Γραμμική Μέθοδος ΕλάχιστωνΤετραγώνων

7.1 Εισαγωγή

Πολλά προβλήματα της Επιστήμης και της Τεχνολογίας απαιτούν τακτικές προσομοίωσηςγια την αναπαραγωγή ϕυσικών ϕαινομένων (καταστάσεων) σε συνθήκες Εργαστηρίου. Σταπερισσότερα από αυτά προτείνεται ένα μαθηματικό πρότυπο (μοντέλο) που συνήθως είναι γραμ-μικό είτε για την περιγραϕή του ϕαινομένου είτε για μια πρώτη προσέγγιση στην κατανόησήτου. Για την καλύτερη δυνατή κατανόηση του ϕαινομένου που μελετιέται το πλήθος τωνδιεξαγόμενων πειραμάτων και αντίστοιχων μετρήσεων (εξισώσεων) είναι συνήθως κατά πολύμεγαλύτερο από τον αριθμό των ζητούμενων παραμέτρων (αγνώστων). Σε τέτοιες περιπτώ-σεις, και όχι μόνον, η μαθηματική διατύπωση του προβλήματος είναι η ακόλουθη:Να βρεθεί διάνυσμα x ∈ IRm που ικανοποιεί κατά τον καλύτερο δυνατό τρόπο το γραμμικόσύστημα

Ax = b, µϵ A ∈ IRn,m, b ∈ IRn και m ≤ n. (7.1)

Αν υποτεθεί ότι οι πρώτες m εξισώσεις του (7.1) έχουν μονοσήμαντα ορισμένη λύση τότεείναι μάλλον απίθανο στη γενική περίπτωση (m < n) η λύση αυτή να επαληθεύει και τιςυπόλοιπες n−m εξισώσεις του (7.1). Ετσι οδηγούμαστε στο να αναζητούμε εκείνο το x γιατο οποίο το διάνυσμα-σϕάλμα r = b− Ax είναι όσο το δυνατόν “μικρότερο”. Με άλλα λόγιαεπιζητιέται η ελαχιστοποίηση μιας norm του r. Αν η προϋπάρχουσα εμπειρία υποδείχνει ότι η“καλύτερη” norm είναι η Ευκλείδεια, τότε το αντίστοιχο πρόβλημα της ελαχιστοποίησης της||r||2, ή ισοδύναμα της ||r||22, διατυπώνεται μαθηματικά ως

minx∈IRm

||r||22 ≡ minx∈IRm

||b− Ax||22 = minx∈IRm

n∑i=1

(bi −

m∑j=1

aijxj

)2

. (7.2)

175

Page 176: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

176

Το πρόβλημα (7.2), για ευνόητους λόγους, είναι γνωστό ως Πρόβλημα των Ελάχιστων Τε-τραγώνων.

7.2 Λύση των Κανονικών Εξισώσεων

Για την ελαχιστοποίηση της έκϕρασης

f(x) := ||r||22 =n∑

i=1

(bi −

m∑j=1

aijxj

)2

θα πρέπει πρώτα να βρεθούν τα κρίσιμα σημεία της f(x) μηδενίζοντας την αντίστοιχη κλίση.Δηλαδή

∇f(x) =

[∂f(x)

∂x1

∂f(x)

∂x2

· · · ∂f(x)

∂xm

]T= 0. (7.3)

Η αναγκαία συνθήκη (7.3) είναι ισοδύναμη με το σύνολο των εξισώσεων

∂f(x)

∂xk

=n∑

i=1

2

(bi −

m∑j=1

aijxj

)(−aik) = 0, k = 1(1)m.

Οι παραπάνω εξισώσεις γράϕονται ισοδύναμα ως

n∑i=1

(aik

(m∑j=1

aijxj

))=

n∑i=1

aikbi, k = 1(1)m,

ή ωςn∑

i=1

(aik(Ax)i) =n∑

i=1

aikbi, k = 1(1)m. (7.4)

Αν θεωρηθεί ότι A = [a1 a2 · · · am], όπου ak = [a1k a2k · · · ank]T , k = 1(1)m, τότε οι

εξισώσεις (7.4) γράϕονται ως

aTk (Ax) = aTk b, k = 1(1)m, (7.5)

και το σύνολο των (7.5) γράϕεται υπό μορϕήν πινάκων ωςaT1 (Ax)aT2 (Ax)...

aTm(Ax)

=

aT1 baT2 b...

aTmb

Page 177: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

177

ή ισοδύναμα ωςATAx = AT b. (7.6)

Το γραμμικό σύστημα (7.6) των m εξισώσεων με τους m αγνώστους είναι γνωστό και ωςσύστημα των “Κανονικών Εξισώσεων”.

Στη συνέχεια θα αποδείξουμε ότι το σύστημα (7.6), που έχει πάντοτε μία ή άπειρες λύσεις,δεν αποτελεί μόνο αναγκαία αλλά και ικανή συνθήκη για να έχει το πρόβλημα (7.2) λύση.

Αποδείχνουμε πρώτα το δεύτερο ισχυρισμό.

Θεώρημα 7.1 Αν x ∈ IRm είναι λύση του συστήματος (7.6), τότε ∀ y ∈ IRm ισχύει

||ry||22 ≥ ||rx||22, oπoυ ry = b− Ay και rx = b− Ax. (7.7)

Απόδειξη: Από την (7.6) παίρνουμε αμέσως ότι

AT rx = 0m και rTxA = 0Tm. (7.8)

Επομένως

||ry||22 = rTy ry = (b− Ay)T (b− Ay) = (rx + A(x− y))T (rx + A(x− y))= (rTx + (x− y)TAT )(rx + A(x− y))= ||rx||22 + rTxA(x− y) + (x− y)TAT rx + ||A(x− y)||22= ||rx||22 + ||A(x− y)||22

(7.9)

αϕού οι δυο μεσαίοι όροι στο προτελευταίο μέλος είναι μηδέν λόγω της (7.8). Επομένως||ry||22 ≥ ||rx||22, πράγμα που αποδείχνει την (7.7). Για τον πίνακα των συντελεστών των αγνώστων ATA στο σύστημα των κανονικών ε-

ξισώσεων (7.6) παρατηρούμε ότι είναι πραγματικός με ATA ∈ IRm,m, συμμετρικός, διό-τι (ATA)T = ATA, και μή αρνητικά ορισμένος, διότι ∀ y ∈ IRm \ 0 είναι yTATAy =(Ay)T (Ay) = ||Ay||22 ≥ 0. Λόγω της τελευταίας ανισότητας θα διακρίνουμε προϕανώς δύοπεριπτώσεις. Την ||Ay||2 > 0, ∀ y ∈ IRm \ 0 και την ||Ay||2 = 0 για ένα τουλάχιστονy ∈ IRm \ 0. Στην πρώτη περίπτωση ο πίνακας ATA θα είναι θετικά ορισμένος, θα έχειορίζουσα θετική (διάϕορη από το μηδέν) και άρα το σύστημα (7.6) θα έχει μία και μόνο λύσηκαι θα λέμε ότι ο πίνακας A είναι πλήρους βαθμού, ενώ στη δεύτερη περίπτωση ο ATA θαείναι μή αρνητικά ορισμένος και άρα θα πρέπει να εξεταστεί παραπέρα για το αν και πότε τοσύστημα (7.6) έχει άπειρες λύσεις ή καμία λύση, και θα λέμε ότι ο πίνακας A είναι ελλιπούςβαθμού.

Για την πρώτη περίπτωση ισχύει η παρακάτω πρόταση:

Θεώρημα 7.2 Ο πίνακας ATA του συστήματος (7.6) είναι θετικά ορισμένος ανν ταδιανύσματα-στήλες του πίνακα A είναι γραμμικά ανεξάρτητα.

Page 178: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

178

Απόδειξη: Ο πίνακας ATA είναι θετικά ορισμένος ανν ∀ y ∈ IRm \ 0 ισχύει yTATAy > 0 ή,ισοδύναμα, ||Ay||22 > 0 ή ακόμη Ay = 0. Αν ai, i = 1(1)m, είναι τα διανύσματα-στήλες τουA και yi, i = 1(1)m, οι συνιστώσες του y, τότε η τελευταία σχέση είναι ισοδύναμη με τηνy1a1+ y2a2+ · · ·+ ymam = 0, ∀ y ∈ IRm \ 0. Η σχέση στην οποία καταλήξαμε, όμως, είναιισοδύναμη με το ότι τα διανύσματα ai, i = 1(1)m, είναι γραμμικά ανεξάρτητα, που αποδείχνειτην παρούσα πρόταση.

Πόρισμα 7.1 Αν τα διανύσματα-στήλες του πίνακα A του συστήματος (7.6) είναιγραμμικά ανεξάρτητα, τότε το σύστημα των κανονικών εξισώσεων έχει μία και μόνολύση.

Αμεση συνέπεια του θεωρήματος που αποδείχτηκε είναι ότι αν τα διανύσματα-στήλες τουπίνακα A είναι γραμμικά εξαρτημένα, τότε ο πίνακας ATA του συστήματος των κανονικώνεξισώσεων (7.6) δεν είναι αντιστρέψιμος και άρα το σύστημα (7.6) έχει άπειρες λύσεις ή καμίαλύση. Στην παρακάτω πρόταση θα αποδειχτεί ότι μόνο η πρώτη περίπτωση είναι δυνατή.

Θεώρημα 7.3 Εστω ότι r (0 < r < m) είναι το μέγιστο πλήθος των γραμμικά ανεξάρ-τητων διανυσμάτων-στηλών του πίνακα A ∈ IRn,m, m ≤ n, του συστήματος (7.1). Τότε τοσύστημα των κανονικών εξισώσεων (7.6) έχει άπειρες λύσεις. (Σημείωση: Στην παρούσαπερίπτωση ο A είναι ελλιπούς βαθμού r (< m), πράγμα που γράϕεται και ως rank(A) = r.)

Απόδειξη: Σύμϕωνα με γνωστή πρόταση της Γραμμικής Αλγεβρας, αν r (0 < r < m) είναιτο μέγιστο πλήθος των γραμμικά ανεξάρτητων διανυσμάτων-στηλών του A, τότε το μέγιστοπλήθος των γραμμικά ανεξαρτήτων διανυσμάτων-γραμμών του A θα είναι κι αυτό r. Οπωςεπίσης γνωρίζουμε από τη Γραμμική Αλγεβρα, είναι δυνατόν, με πολλαπλασιασμό του A από τααριστερά επί κατάλληλο μεταθετικό πίνακα P1 ∈ IRn,n και με πολλαπλασιασμό του από τα δεξιάεπί κατάλληλο μεταθετικό πίνακα P2 ∈ IRm,m, να έχουμε όχι μόνο τα διανύσματα των r πρώτωνγραμμών του P1AP2 γραμμικά ανεξάρτητα και τα διανύσματα των r πρώτων στηλών του ομοίωςγραμμικά ανεξάρτητα, αλλά συγχρόνως και όλους τους p× p, p = 1(1)r, κύριους υποπίνακεςτης άνω αριστερής γωνίας του αντιστρέψιμους. Εϕαρμόζοντας τότε τη μέθοδο απαλοιϕής τουGauss στον πίνακα A = P1AP2, για την απαλοιϕή των στοιχείων του που βρίσκονται κάτω απότα διαγώνια στοιχεία του aii, i = 1(1)r, όπως ακριβώς στο Θεώρημα 2.1, καταλήγουμε σε ένανn×m “άνω τριγωνικό” πίνακα U του οποίου όλα τα στοιχεία κάτω από τα r πρώτα διαγώνιαέχουν απαλειϕτεί. Επιπλέον, ο (n− r)× (m− r) υποπίνακάς του της κάτω δεξιά γωνίας τουείναι ο μηδενικός. Αυτό γιατί αν κάποιο από τα στοιχεία του υποπίνακα αυτού ήταν μή μηδενικότότε προϕανώς εκτός από τα r γραμμικά ανεξάρτητα διανύσματα-στήλες των r πρώτων στηλώντου U μαζί με τη στήλη που θα περιείχε το προαναϕερόμενο μή μηδενικό στοιχείο, και άρα τααντίστοιχα διανύσματα-στήλες των πινάκων A και A, θα ήταν γραμμικά ανεξάρτητα πλήθουςr + 1, που είναι άτοπο. Για την απαλοιϕή που περιγράϕτηκε χρησιμοποιήθηκαν προϕανώς

Page 179: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

179

πολλαπλασιαστές, που αντιστοιχούν στις πρώτες r στήλες του A, και οι οποίοι θα μπορούννα γραϕτούν σε έναν n × r “κάτω τριγωνικό” πίνακα L με διαγώνια στοιχεία μονάδες. Γιανα μπορεί να γραϕτεί ο A σα γινόμενο ενός “κάτω τριγωνικού” και ενός “άνω τριγωνικού”πίνακα, όπως στο Θεώρημα 2.1, επεκτείνουμε τον πίνακα των πολλαπλασιαστών έτσι ώστενα καταστεί n× n. Τα στοιχεία των τελευταίων n− r στηλών του νέου “κάτω τριγωνικού”πίνακα L μπορεί να είναι οποιαδήποτε κι αυτό λόγω της παρουσίας των n − r μηδενικώνγραμμών του πίνακα U . Για να διατηρείται η κάτω τριγωνική μορϕή του νέου πίνακα τωνπολλαπλασιαστών L επιλέγουμε τον άνω δεξιά (n− r)× r υποπίνακά του να είναι ο μηδενικόςκαι τον (n− r)× (n− r) κάτω δεξιά να είναι ο μοναδιαίος. Ετσι μπορούμε να γράϕουμε τονπίνακα A σαν το γινόμενο A = LU . Επισημαίνεται ότι ο m × m “άνω τριγωνικός” πίνακαςU έχει στοιχεία a(k)kj , k = 1(1)r, j = k(1)m, τα οποία έχουν προκύψει κατά τα r βήματα της

απαλοιϕής, με a(1)1j = a1j, j = 1(1)m. Τέλος, για να δώσουμε στην παραγοντοποίηση του A

μια μορϕή ανάλογη αυτής της παραγοντοποίσης Crout γράϕουμε τον U σαν ένα γινόμενο ενός“διαγώνιου” n×m πίνακα D τα διαγώνια στοιχεία του οποίου είναι τα διαγώνια στοιχεία τουU , με όλα τα άλλα στοιχεία του μηδενικά, επί έναν “άνω τριγωνικό” πίνακα U , του οποίουστοιχεία στις r πρώτες γραμμές είναι αυτά του U διαιρεμένα ανά γραμμή με τα αντίστοιχαοδηγά στοιχεία του. Ακόμη παρατηρούμε ότι, λόγω της παρουσίας των μηδενικών του D, οιτελευταίες m−r γραμμές του U μπορεί να είναι οποιεσδήποτε. Επιλέγουμε τον κάτω αριστερά(m− r)× r υποπίνακά του να είναι ο μηδενικός και τον κάτω δεξιά (m− r)× (m− r) να είναιο μοναδιαίος. Ετσι τελικά έχουμε ότι

LDU = A = P1AP2, , (7.10)

όπου, υπενθυμίζεται ότι, L ∈ IRn,n είναι κάτω τριγωνικός με lii = 1, i = 1(1)n, και (n −r) × (n − r) υποπίνακα της κάτω δεξιά γωνίας του τον In−r, D ∈ IRn,m, “διαγώνιος” μεdii = 0, i = 1(1)r, και dii = 0, i = r + 1(1)m, και U ∈ IRm,m άνω τριγωνικός με διαγώνιαστοιχεία uii = 1, i = 1(1)m, και (m − r) × (m − r) υποπίνακα της κάτω δεξιάς γωνίας τουτον Im−r.Λύνοντας την (7.10) ως προς A και αντικαθιστώντας στην (7.6) έχουμε

P2UTDTLTP1P

T1 LDUP T

2 x = P2UTDTLTP1b,

οπότε απλοποιώντας παίρνουμε

DTLTLDUP T2 x = DTLTP1b.

Εστω y = UP T2 x ∈ IRm και c = LTP1b ∈ IRn. Χρησιμοποιώντας block μορϕές για τους

πίνακες D και L, όπου οι block υποπίνακές τους, εκτός από τους μοναδιαίους, συμβολίζονταιενδεικτικά με τις διαστάσεις τους, καθώς και τους block διαχωρισμούς των διανυσμάτων

Page 180: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

180

y = [yrT ym−rT ]T , και c = [crT cn−rT ]T , όπου yr, cr ∈ IRr, ym−r ∈ IRm−r, cn−r ∈ IRn−r,έχουμε[

Dr,r 0r,n−r

0m−r,r 0m−r,n−r

] [Mr,r Mr,n−r

Mn−r,r Mn−r,n−r

] [Dr,r 0r,m−r

0n−r,r 0n−r,m−r

] [yr

ym−r

]=

[Dr,r 0r,n−r

0m−r,r 0m−r,n−r

] [cr

cn−r

],

(7.11)

όπου

M :=

[Mr,r Mr,n−r

Mn−r,r Mn−r,n−r

]=

[LTr,r LT

n−r,r

0n−r,r In−r

] [Lr,r 0r,n−r

Ln−r,r In−r

]=

[LT

r,rLr,r + LTn−r,rLn−r,r LT

n−r,r

Ln−r,r In−r

]=: LTL.

(7.12)

Η (7.11) είναι ισοδύναμη με Mr,rDr,ry

r = cr,0 ym−r = 0m−r.

(7.13)

Η δεύτερη των εξισώσεων (7.13) δίνει αμέσως

ym−r ∈ IRm−r, µϵ ym−ri = yr+i ∈ IR, i = 1(1)m− r, αυθαιρϵτα. (7.14)

Για την πρώτη των εξισώσεων (7.13), με βάση την (7.12), έχουμε καταρχάς ότι ∀ z ∈ IRr \0ισχύει

zTMr,rz = zT (LTr,rLr,r + LT

n−r,rLn−r,r)z = ||Lr,rz||22 + ||Ln−r,rz||22 > 0,

αϕού ο Lr,r είναι κάτω τριγωνικός με διαγώνια στοιχεία μονάδες, άρα αντιστρέψιμος, καιεπομένως η πρώτη από τις δύο norms θα είναι θετική ενώ η δεύτερη, γενικά, μή αρνητική.Συνεπώς η πρώτη των εξισώσεων (7.13) λύνεται ως προς yr και δίνει

yr = D−1r,rM

−1r,r c

r. (7.15)

Από τις (7.14) και (7.15) έχουμε ότι το διάνυσμα y ∈ IRm έχει τιςm−r τελευταίες συνιστώσεςτου αυθαίρετους πραγματικούς αριθμούς. Ετσι, έχοντας βρεί το y = [yrT ym−rT ]T και έχονταςυπόψη την block μορϕή του πίνακα U βρίσκουμε από την U(P T

2 x) = y ότι[Ur,r Ur,m−r

0m−r,r Im−r

] [(P T

2 x)r

(P T2 x)

m−r

]=

[yr

ym−r

], (7.16)

όπου (P T2 x)

r ∈ IRr και (P T2 x)

m−r ∈ IRm−r διανύσματα με συνιστώσες τις r πρώτες και τιςm − r τελευταίες του διανύσματος P T

2 x ∈ IRm. Το σύστημα (7.16) δίνει ισοδύναμα τα δύοσυστήματα

Ur,r(PT2 x)

r + Ur,m−r(PT2 x)

m−r = yr

(P T2 x)

m−r = ym−r

Page 181: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

181

Από το δεύτερο σύστημα έχουμε αμέσως τις m− r (αυθαίρετες) τελευταίες συνιστώσες τουδιανύσματος P T

2 x, οπότε αντικαθιστώντας στο πρώτο σύστημα και λύνοντας ως προς (PT2 x)

r,με προς τα πίσω αντικατάσταση, βρίσκουμε τις r πρώτες συνιστώσες του P T

2 x, ως συναρτήσειςτων m − r αυθαίρετων τελευταίων συνιστωσών του. Τέλος, έχοντας το διάνυσμα P T

2 x, μεπολλαπλασιασμό από τα αριστερά επί P2, βρίσκουμε τη λύση x. Λόγω των m− r αυθαίρετωνσυνιστωσών του P T

2 x η λύση x ∈ IRm έχει επίσης m−r αυθαίρετες συνιστώσες και τις άλλεςr συνιστώσες της συναρτήσεις αυτών των m−r αυθαίρετων. Αρα το σύστημα των κανονικώνεξισώσεων (7.6) θα έχει άπειρες λύσεις οι οποίες θα βρίσκονται με τον τρόπο που έμμεσα,αλλά εξαντλητικά, περιγράϕτηκε. Στην περίπτωση που το σύστημα των κανονικών εξισώσεων έχει μία μόνο λύση, οπότε ο

ATA είναι πραγματικός, συμμετρικός και θετικά ορισμένος, τότε η άμεση μέθοδος Choleskyίσως συνιστάται για την επίλυσή του.

Στη γενικότερη περίπτωση, όπου norms για μή τετραγωνικούς πίνακες καθώς και γενι-κευμένοι αντίστροϕοι μή αντιστρέψιμων ή και μή τετραγωνικών πινάκων έχουν εισαχτεί, είναιδυνατόν να αποδειχτεί ότι ο δείκτης κατάστασης, που αντιστοιχεί στη ϕασματική norm τουπίνακα ATA, είναι ίσος με το τετράγωνο του δείκτη κατάστασης του πίνακα A του αρχικούπροβλήματος. Ευνόητο είναι τότε ότι το αντίστοιχο σύστημα (7.6) θα είναι πολύ χειρότερηςκατάστασης σε σχέση με το αρχικό. Θα δείξουμε του λόγου το αληθές στην τετριμμένηπερίπτωση όπου A ∈ IRn,n με det(A) = 0. Πράγματι, τότε

κ2(A) = ||A||2||A−1||2 = ρ12 (ATA)ρ

12 (A−TA−1).

ενώ για τον πίνακα ATA θα είναι

κ2(ATA) = ||ATA||2||(ATA)−1||2 = ρ

12 ((ATA)TATA)ρ

12 ((ATA)−T (ATA)−1)

= ρ(ATA)ρ((ATA)−1

)= ρ(ATA)ρ

(A−1A−T

)= ρ(ATA)ρ

(A−TA−1

)= (κ2(A))

2 .

(7.17)

Σημειώνεται ότι η τρίτη από τα δεξιά έκϕραση είναι ίση με τη δεύτερη από τα δεξιά γιατίοι πίνακες A−1A−T και A−TA−1 είναι όμοιοι και άρα έχουν το ίδιο ϕάσμα ιδιοτιμών.

7.3 QR Ανάλυση (Παραγοντοποίηση)

Η “χειρότερη” κατάσταση την οποία έχει το σύστημα των κανονικών εξισώσεων σε σχέσημε το αρχικό μπορεί να ξεπεραστεί με την παραγοντοποίηση του αρχικού πίνακα A ∈ IRn,m

σε γινόμενο δύο παραγόντων, ενός πίνακα Q ∈ IRn,m, τα διανύσματα-στήλες του οποίου είναιανά δύο ορθογώνια με Ευκλείδεια norm μονάδα, δηλαδή QTQ = Im, και ενός άνω τριγωνικούπίνακα R ∈ IRm,m, με θετικά διαγώνια στοιχεία. Το πλεονέκτημα μιας τέτοιας ανάλυσης, με

Page 182: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

182

την προϋπόθεση ότι έχουν οριστεί ϕυσικές norms και αντίστροϕοι μή τετραγωνικών πινάκων,είναι ότι ο νέος πίνακας συντελεστής QR έχει τον ίδιο δείκτη κατάστασης με τον πίνακα Aως προς την ℓ2−norm. Για την εύρεση των πινάκων Q και R, οι οποίοι είναι μοναδικοί ανντα διανύσματα-στήλες του A είναι γραμμικά ανεξάρτητα, μπορεί να χρησιμοποιηθεί μία από τιςμεθόδους που θα πραγματευτούμε παρακάτω. Πριν όμως προχωρήσουμε θα παραθέσουμε μιαγενικότερη πρόταση ευρεία χρήση της οποίας, άμεσα ή έμμεσα και χωρίς παραπέρα επεξηγήσεις,θα γίνεται στη συνέχεια του παρόντος κεϕαλαίου.

Στο σημείο αυτό δίνεται το παρακάτω λήμμα ευρεία χρήση του οποίου θα γίνει σε ό,τιακολουθεί.

Λήμμα 7.1 Αν ο Q ∈ ICn,m, m ≤ n, είναι ένας ορθομοναδιαίος πίνακας, δηλαδή QHQ = Im,(ορθογώνιος στην περίπτωση που ο Q είναι πραγματικός), τότε για κάθε x ∈ ICm ισχύει ότι∥Qx∥2 = ∥x∥2.

Απόδειξη: Πραγματικά, έχουμε διαδοχικά ∥Qx∥22 = (Qx)H(Qx) = xHQHQx = xHImx =∥x∥22. Αν έχει πραγματοποιηθεί η παραγοντοποίηση QR τότε αποϕεύγεται η λύση του προβλήμα-

τος με τη λύση των Κανονικών Εξισώσεων, που είναι ασταθής λόγω της δυναμικής αύξησηςτου δείκτη κατάστασης. Για το σκοπό αυτό, θεωρούμε πρώτα τον ορθοκανονικό πίνακαQ ∈ IRn,n−m(QT Q = In−m), τ.ω. τα διανύσματα-στήλες του να είναι ορθογώνια με όλα ταδιανύσματα-στήλες του Q, (QTQ = 0n−m,m). Με άλλα λόγια ο Q συμπληρώνει τον Q για τηδημιουργία ενός τετραγωνικού ορθογώνιου πίνακα [Q | Q] ∈ IRn,n. Το πως υπολογίζεται οπίνακας Q εξετάζεται παρακάτω.

Ξεκινώντας από την τοποθέτηση του προβλήματος (7.2) έχουμε διαδοχικά

minx∈IRm

∥r∥22 ≡ minx∈IRm

∥b− Ax∥22 = minx∈IRm

∥b−QRx∥22

= minx∈IRm

∥[Q | Q]T (b−QRx)∥22 = minx∈IRm

∥∥∥∥[ QT

QT

](b−QRx)

∥∥∥∥22

(7.18)

= minx∈IRm

∥∥∥∥[ QT

QT

]b−

[QT

QT

]QRx

∥∥∥∥22

= minx∈IRm

∥∥∥∥[ QT b−Rx

QT b

]∥∥∥∥22

= minx∈IRm

||QT b−Rx||22 + ||QT b||22.

Ο δεύτερος όρος του δεξιού μέλους των (7.18) είναι σταθερός και ανεξάρτητος του διανύ-σματος x, επομένως η λύση x του προβλήματός μας προκύπτει από τη λύση του προβλήματοςminx∈IRm ||QT b − Rx||2. Παρατηρούμε όμως ότι ο R είναι τετραγωνικός πίνακας και άρα ηλύση του τελευταίου προβλήματος προκύπτει από το μηδενισμό του διανύσματος QT b − Rx,

Page 183: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

183

δηλαδή για τα διανύσματα x που αποτελούν λύση του γραμμικού συστήματος

Rx = QT b. (7.19)

Αν ο πίνακας R είναι αντιστρέψιμος, που σημαίνει ότι οι στήλες του A είναι γραμμικά ανεξάρ-τητες ή rank(A) = m, τότε υπάρχει μια μοναδική λύση η

x = R−1QT b.

Στην περίπτωση που ο A είναι ελλιπούς βαθμού, rank(A) = r < m, χρησιμοποιούμε τηντεχνική της αναδιάταξης του πίνακα A, όπως ακριβώς και στο Θεώρημα 7.3. Τότε η ανάλυσηQR δίνει

P1AP2 = QR = [Q1 | Q2]

[Rr,r Rr,m−r

0m−r,r 0m−r,m−r

],

όπου ο Q διαχωρίστηκε σε Q1 ∈ IRn,r και Q2 ∈ IRn,m−r και ο R στην παραπάνω block μορϕήμε Rr,r ∈ IRr,r αντιστρέψιμο. Υλοποιώντας αυτές τις αλλαγές στην (7.18) θα έχουμε

minx∈IRm

||b− Ax||22 = minx∈IRm

||P1(b− Ax)||22 = minx∈IRm

||P1b− P1AP2PT2 x||22

= miny∈IRm

||b− P1AP2y||22 = miny∈IRm

||QT b−Ry||22 + ||QT b||22, (7.20)

όπου b = P1b, y = P T2 x και Q ∈ IRn,n−m ο πίνακας που θεωρήθηκε προηγουμένως. Αν

θεωρήσουμε και τον αντίστοιχο block διαχωρισμό του y (y = [yT1 | yT2 ]T , y1 ∈ IRr, y2 ∈IRm−r), ο πρώτος όρος του δεξιά μέλους της (7.20) δίνει

miny∈IRm

||QT b−Ry||22 = miny∈IRm

∥∥∥∥∥[QT

1 b−Rr,ry1 −Rr,m−ry2QT

2 b

]∥∥∥∥∥2

2

= miny∈IRm

||QT1 b−Rr,ry1 −Rr,m−ry2||22 + ||QT

2 b||22. (7.21)

Από την τελευταία έκϕραση στις (7.21) προκύπτει ότι έχουμε άπειρες λύσεις στο πρόβλημα,που ταυτίζονται με τις λύσεις των γραμμικών συστημάτων

Rr,ry1 = QT1 b−Rr,m−ry2

όπου το y2 παίρνεται αυθαίρετα στον IRm−r. Οι λύσεις αυτές δίνονται από τις

y1 = R−1r,r (Q

T1 b−Rr,m−ry2), µϵ y2 ∈ IRm−r αυθαιρϵτo.

Είμαστε τώρα σε θέση να δώσουμε τη λύση του προβλήματος ελάχιστων τετραγώνωνμε ανάλυση QR ξεκινώντας από μια διαϕορετική θεώρηση του προβλήματος. Το διάνυσμαυπόλοιπο b− Ax μπορεί να γραϕτεί και ως

b− Ax = (I −QQT +QQT )b−QRx = (I −QQT )b+Q(QT b−Rx). (7.22)

Page 184: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

184

Εύκολα αποδείχνεται ότι τα διανύσματα (I−QQT )b και Q(QT b−Rx) είναι ορθογώνια. Πράγ-ματι

bT (I−QQT )TQ(QT b−Rx) = bT (I−QQT )Q(QT b−Rx) = bT (Q−Q)(QT b−Rx) = 0. (7.23)

Εϕαρμόζοντας το “Πυθαγόρειο” θεώρημα στην (7.22) έχουμε

||b− Ax||22 = ||(I −QQT )b||22 + ||Q(QT b−Rx)||22 = ||(I −QQT )b||22 + ||QT b−Rx||22.

Προέκυψε έτσι η ίδια λύση (7.19) με τη διαϕορά ότι η ελάχιστη ποσότητα είναι η ||(I−QQT )b||2αντί της ||QT b||2 στην (7.18). Αναμϕισβήτητα οι δύο αυτές ποσότητες θα πρέπει να είναι ίσεςμεταξύ τους. Το όϕελος στην προκείμενη περίπτωση είναι ότι δε χρειάζεται να προσδιοριστείο βοηθητικός ορθογώνιος πίνακας Q.

Απομένει να δειχτεί ότι η QR ανάλυση δίνει την ίδια ακριβώς λύση με εκείνη της λύσηςτων κανονικών εξισώσεων. Πράγματι, στην περίπτωση όπου rank(A) = m, ξεκινώντας απότη λύση των κανονικών εξισώσεων έχουμε

x = (ATA)−1AT b = [(QR)T (QR)]−1(QR)T b = (RTQTQR)−1RTQT b

= (RTR)−1RTQT b = R−1(RT )−1RTQT b = R−1QT b. (7.24)

Στην περίπτωση όπου rank(A) = r < m θα πρέπει να ακολουθηθεί πρώτα μία ανάλυση τουπίνακα A, όπως αυτή του Θεωρήματος 7.3, η οποία παραλείπεται.

Στη συνέχεια δίνουμε τις μεθόδους με τις οποίες πραγματοποιείται η QR ανάλυση.

7.3.1 Gram-Schmidt Ορθογωνιοποίηση

Στην παρούσα παράγραϕο θα εκθέσουμε τη μέθοδο και τον αλγόριθμο της Gram-SchmidtΟρθογωνιοποίησης ξεκινώντας από το βασικό της θεώρημα. Προϕανώς ο υπόψη αλγόριθμοςμπορεί να δοθεί ως εϕαρμογή αυτού των Συζυγών Διευθύνσεων. Εντούτοις δίνεται εξαρχήςγια την ολοκληρωμένη παρουσίαση της ανάλυσης QR του παρόντος κεϕαλαίου.

Θεώρημα 7.4 Εστω A ∈ IRn,m, m ≤ n, τα διανύσματα-στήλες ai, i = 1(1)m, του οποίουείναι γραμμικά ανεξάρτητα. Υπάρχουν μοναδικοί πίνακες Q ∈ IRn,m, με QTQ = Im, καιάνω τριγωνικός πίνακας R ∈ IRm,m, με rii > 0, i = 1(1)m, τ.ω.

A = QR. (7.25)

(Σημείωση: Διαπιστώνεται αμέσως ότι η απαίτηση QTQ = Im είναι ισοδύναμη με τηναπαίτηση τα διανύσματα-στήλες q(i), i = 1(1)m, του πίνακα Q, να είναι ανά δύο ορθογώνιαμε Ευκλείδεια norm μονάδα.)

Page 185: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

185

Απόδειξη: Η αποδεικτέα σχέση (7.25) γράϕεται αναλυτικά ως εξής

[a1 a2 a3 · · · am] =[q(1) q(2) q(3) · · · q(m)

]

r11 r12 r13 · · · r1mr22 r23 · · · r2m

r33 · · · r3m. . .

...rmm

, (7.26)

και είναι ισοδύναμη με τις m ισότητες

r11q(1) = a1

r12q(1) + r22q

(2) = a2r13q

(1) + r23q(2) + r33q

(3) = a3...r1mq

(1) + r2mq(2) + r3mq

(3) + · · ·+ rm−1,mq(m−1) + rmmq

(m) = am,

(7.27)

όπως μπορεί πολύ εύκολα να διαπιστωθεί. Από την πρώτη ισότητα, το γεγονός ότι το διάνυσμαq(1) είναι κανονικοποιημένο (∥q(1)∥2 = 1) και από την απαίτηση r11 > 0, προκύπτει ότι r11 =∥a1∥2. Λύνοντας στη συνέχεια ως προς q(1) έχουμε q(1) = a1

r11. Από τη δεύτερη ισότητα,

για να προσδιορίσουμε το r12, θεωρούμε το εσωτερικό γινόμενο αυτής με το q(1). ΄Ετσι,r12(q

(1), q(1))2 + r22(q(2), q(1))2 = (a2, q

(1))2 και λόγω της απαίτησης τα q(1) και q(2) να είναιορθογώνια, έχουμε ότι r12 = (a2, q

(1))2. Στη συνέχεια η δεύτερη ισότητα γίνεται r22q(2) =a2 − r12q

(1) και τα r22 και q(2) υπολογίζονται με το ίδιο σκεπτικό που υπολογίστηκαν τα r11και q(1) αντίστοιχα, από την πρώτη. ΄Ετσι, r22 = ∥a2 − r12q

(1)∥2 και q(2) = a2−r12q(1)

r22. Είναι

προϕανές ότι q(2) = 0 διότι σε αντίθετη περίπτωση, τα a1 και a2 θα ήταν γραμμικά εξαρτημένα.Η απόδειξη μπορεί να ολοκληρωθεί με επαγωγή και είναι προϕανής. Η γενική έκϕραση για τοτυχόν q(i), i = 1(1)m, θα δίνεται αναδρομικά από τις παρακάτω σχέσεις

q(i) = ai −i−1∑j=1

rjiq(j), rji = (ai, q

(j))2, j = 1(1)i− 1, i = 1(1)m. (7.28)

Η απόδειξη για τη μοναδικότητα των Q και R μπορεί να προκύψει με θεώρηση ανάλυσης τουA σε ένα άλλο γινόμενο Q′R′, όπου οι Q′ και R′ θα είναι αντίστοιχων μορϕών με αυτέςτων Q και R στην (7.26) και με αντίστοιχες ιδιότητες. Η ισότητα QR = Q′R′, η εξίσωσητων αντίστοιχων στηλών των γινομένων τους και εϕαρμογή απλής επαγωγής αποδείχνει τημοναδικότητα. ΄Εχουμε να παρατηρήσουμε εδώ ότι το παραπάνω θεώρημα αποτελεί ειδική περίπτωση και

παραλλαγή του Θεωρήματος 6.4 Gram-Schmidt του προηγούμενου Κεϕαλαίου.

Στη συνέχεια δίνουμε τον αλγόριθμο της QR ανάλυσης με Gram-Schmidt ορθογωνιοποί-ηση, θεωρώντας ότι rank(A) = m, όπως διατυπώθηκε στο αντίστοιχο θεώρημα. (Σημείωση:

Page 186: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

186

Αν rank(A) = r < m, τότε θα πρέπει να προβλεϕτούν μεταθέσεις στηλών του A ώστε οιγραμμικά ανεξάρτητες στήλες του να τοποθετηθούν στις πρώτες στη σειρά στήλες, οπότε καιη διατύπωση του αντίστοιχου θεωρήματος θα πρέπει να δοθεί ανάλογα.)

Αλγόριθμος QR Ανάλυσης με Gram-Schmidt Ορθογωνιοποίηση:

Δεδομένα: A ∈ IRn,m με διανύσματα-στήλες ai, i = 1(1)m, γραμμικά ανεξάρτητα.Για i = 1(1)m

q(i) = aiΓια j = 1(1)i− 1

rji = (ai, q(j))2 η rji = (q(i), q(j))2

q(i) = q(i) − rjiq(j)

Τέλος ‘Για’rii = ||q(i)||2q(i) = q(i)/rii

Τέλος ‘Για’

Παρατηρούμε ότι στην εσωτερική ανακύκλωση του αλγόριθμου έχουμε δύο ισοδύναμεςδιαδικασίες. Η πρώτη δίνει τον κλασικό αλγόριθμο ενώ η δεύτερη τον παραλλαγμένο αλγόριθμοGram-Schmidt ορθογωνιοποίησης. Η πρώτη διαδικασία προκύπτει άμεσα από τη θεώρηση τουπροβλήματος A = QR. Η ισοδυναμία της δεύτερης με την πρώτη αποδείχνεται ως εξής:Είναι ϕανερό ότι κατά την i-οστή στη σειρά εξωτερική επανάληψη και κατά την είσοδό τηςστην j-οστή εσωτερική επανάληψη, το διάνυσμα q(i) θα είναι

q(i) = ai −j−1∑k=1

rkiq(k). (7.29)

Το εσωτερικό γινόμενο αυτού με το q(j) δίνει

(q(i), q(j))2 = (ai, q(j))2 −

j−1∑k=1

rki(q(k), q(j))2 = (ai, q

(j))2, (7.30)

λόγω της ορθογωνιότητας των διανυσμάτων q(k), k = 1(1)j − 1, με το q(j).

Πρέπει να τονιστεί εδώ ότι στην πράξη προτιμιέται ο παραλλαγμένος αλγόριθμος διότι είναιπερισσότερο ευσταθής από τον αντίστοιχο κλασικό, κυρίως σε προβλήματα όπου οι στήλεςτου A είναι “σχεδόν” γραμμικά εξαρτημένες. Αυτό οϕείλεται στο γεγονός ότι με τον πα-ραλλαγμένο αλγόριθμο συνεχίζουμε τους υπολογισμούς αϕαιρώντας από τα ai τις ορθογώνιεςδιευθύνσεις q(k), k = 1(1)j− 1, και “εργαζόμαστε” με τις υπόλοιπες, ενώ στον κλασικό υπο-λογίζονται κάθε ϕορά και τα εσωτερικά γινόμενα (q(j), q(k))2, k = 1(1)j − 1, τα οποία στην

Page 187: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

187

πράξη δεν είναι ακριβώς μηδέν και άρα δίνουν σϕάλματα η μετάδοση των οποίων από βήμα σεβήμα έχει ως συνέπεια τη συσσώρευσή τους και την αλλοίωση του αποτελέσματος.

Σημείωση: Εχουμε να παρατηρήσουμε ότι ο αλγόριθμος Gram-Schmidt όπως ακριβώςδίνεται, μπορεί να χρησιμεύσει για την εύρεση όρθογώνιων βάσεων σε χώρους Hilbert. Γιαπαράδειγμα, αν θεωρήσουμε το χώρο των συνεχών και ϕραγμένων πραγματικών συναρτήσεωνστο διάστημα [α, β] και το εσωτερικό γινόμενο: (u, v) =

∫ β

αuvdx, ορίζεται ένας απειροδιάστα-

τος χώρος Hilbert. Επιλέγοντας ως ai μια ακολουθία γραμμικά ανεξάρτητων συναρτήσεων,ο αλγόριθμος Gram-Schmidt παράγει την qi, μια ακολουθία ορθογώνιων συναρτήσεων, πουαποτελεί ορθογώνια βάση. Εϕαρμογή του αλγόριθμου Gram-Schmidt έχουμε στη ΘεωρίαΠροσέγγισης, για την παραγωγή βάσεων ορθογώνιων πολυωνύμων.

7.3.2 Μετασχηματισμοί ή Ανακλάσεις (Reflections) Householder

Η QR ανάλυση με μετασχηματισμούς Householder πραγματοποιείται διαμέσου μιας ακολου-θίας ορθογώνιων μετασχηματισμών όπου κάθε ϕορά απαλείϕεται το κάτω από τη διαγώνιοτμήμα μιας στήλης του πίνακα A.

Ορισμός 7.1 Ενας ορθογώνιος πίνακας P ∈ IRn,n καλείται μετασχηματισμός ή ανάκλασηHouseholder αν ορίζεται διαμέσου διανύσματος u ∈ IRn, με ||u||2 = 1, έτσι ώστε

P = I − 2uuT . (7.31)

Ο πίνακας P στην (7.31) είναι πράγματι ορθογώνιος αϕού P TP = (I − 2uuT )T (I − 2uuT ) =(I − 2uuT )2 = I − 4uuT + 4u(uTu)uT = I − 4uuT + 4uuT = I. Ο μετασχηματισμόςονομάστηκε και ανάκλαση από το εξής γεγονός: Εστω θ1 η γωνία που σχηματίζει το τυχαίοδιάνυσμα x ∈ IRn\0 με το u και θ2 η αντίστοιχη γωνία του Px με το u. Εύκολα αποδείχνεταιότι οι γωνίες αυτές είναι παραπληρωματικές. Πράγματι, cosθ1 = uT x

||u||2||x||2 = uT x||x||2 ενώ cosθ2 =

uTPx||u||2||Px||2 = uT (I−2uuT )x

||x||2 = uT x−2(uTu)uT x||x||2 = uT x−2uT x

||x||2 = − uT x||x||2 = −cosθ1. Αυτό σημαίνει ότι

αν θεωρήσουμε τη θ1 ως γωνία πρόσπτωσης, η θ2 θεωρείται ως γωνία ανάκλασης.

Σημείωση: Για την απλοποίηση της ανάλυσης, τόσο στην παρούσα παράγραϕο όπως καιστην επόμενη, εκτός κι αν σαϕώς τονίζεται αλλιώς, θα θεωρούμε ότι ο πίνακαςA ∈ IRn,m, m ≤n, είναι πλήρους βαθμού m, επιπλέον δε οι m πρώτες γραμμές του είναι γραμμικά ανεξάρτητεςκαι όλοι οι m− 1 κύριοι υποπίνακες της άνω αριστερής γωνίας του είναι αντιστρέψιμοι.

Στη συνέχεια θεωρούμε την εϕαρμογή των μετασχηματισμών Householder στην QR αν-άλυση, στόχος της οποίας είναι η απαλοιϕή των κάτω από τη διαγώνιο στοιχείων του πίνακαA, όπου για την απλούστευση της ανάλυσης υποθέτουμε ότι τα αντίστοιχα “οδηγά” στοιχεία

Page 188: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

188

είναι διαϕορετικά από το μηδέν. Την πρώτη ϕορά θα πρέπει να απαλειϕτούν όλα τα στοιχείατης πρώτης στήλης εκτός από το πρώτο. Εστω ότι y = [a11 a21 . . . an1]

T ∈ IRn είναι τοδιάνυσμα της πρώτης στήλης του A. Θα πρέπει να προσδιορίσουμε το u έτσι ώστε

P1y = (I − 2uuT )y = ce1, (7.32)

όπου e1 είναι το διάνυσμα της πρώτης στήλης του n×n μοναδιαίου πίνακα I. Η (7.32) γίνεται

(I − 2uuT )y = ce1 ⇔ y − 2(uTy)u = ce1 ⇔ 2(uTy)u = y − ce1.

Η τελευταία έκϕραση υποδείχνει ότι το διάνυσμα u είναι γραμμικός συνδυασμός των διανυσμά-των y και e1. Η σταθερά c προσδιορίζεται από την (7.32) αν πάρουμε norms. Συγκεκριμένα

||P1y||2 = ||ce1||2 ⇔ |c| = ||y||2 ⇔ c = ±||y||2.

Συμβολίζουμε με u το διάνυσμα y±||y||2e1. Αυτό θα είναι παράλληλο προς το u, επομένως u =u

||u||2 . Παρατηρούμε ότι έχουμε δύο λύσεις στο πρόβλημά μας, που σημαίνει ότι η QR ανάλυσηδε θα είναι μονοσήμαντα ορισμένη, πράγμα που έρχεται σε αντίϕαση με την Gram-Schmidtορθογωνιοποίηση όπου αποδείχτηκε το μονοσήμαντο της QR ανάλυσης. Αυτό εξηγείται απλάαπό το γεγονός ότι στον αλγόριθμο των Gram-Schmidt απαιτήσαμε τα διαγώνια στοιχείατου R να είναι θετικά. Ετσι, η QR ανάλυση είναι μονοσήμαντα ορισμένη ανεξάρτητα από τοθεωρούμενο πρόσημο. Πράγματι, αν αλλάξουμε το πρόσημο όλων των στοιχείων μιας στήληςτου Q και της αντίστοιχης γραμμής του R, έχουμε διαϕορετική ανάλυση που δεν επηρεάζειόμως το αποτέλεσμα του γραμμικού προβλήματος των ελάχιστων τετραγώνων. Στην πράξηπροτιμούμε να παίρνουμε το πρόσημο του στοιχείου y1 ώστε |u1| > |y1|. Αυτό γίνεται για τηναποϕυγή της περίπτωσης όπου το u1 θα γίνει μηδέν λόγω των σϕαλμάτων που θα υπεισέλθουνκατά τους υπολογισμούς.

Παίρνοντας επομένως ως y το διάνυσμα της πρώτης στήλης του A, κατασκευάζοντας τομετασχηματισμό Householder P1 ∈ IRn,n, όπως περιγράϕτηκε και θεωρώντας το γινόμενοP1A, θα έχουμε

A1 = P1A =

a(1)11 a

(1)12 a

(1)13 · · · a

(1)1m

0 a(1)22 a

(1)23 · · · a

(1)2m

0 a(1)32 a

(1)33 · · · a

(1)3m

......

.... . .

...0 a

(1)n2 a

(1)n3 · · · a

(1)nm

,

όπου θέσαμε άνω δείκτη 1 στα μή μηδενικά στοιχεία του A1 για να διακρίνονται από εκείνατου A. Ακολουθεί η απαλοιϕή των κάτω από τη διαγώνιο στοιχείων της δεύτερης στήληςτου πίνακα A1 παίρνοντας ως y = [a

(1)22 a

(1)32 · · · a(1)n2 ]

T ∈ IRn−1. Κατασκευάζουμε έτσι το

Page 189: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

189

μετασχηματισμό Householder Q2 ∈ IRn−1,n−1. Ο αντίστοιχος μετασχηματισμός Householderδιάστασης n θα είναι

P2 =

[1 0Tn−1

0n−1 Q2

],

και ο A2 θα δίνεται ως

A2 = P2A =

a(1)11 a

(1)12 a

(1)13 · · · a

(1)1m

0 a(2)22 a

(2)23 · · · a

(2)2m

0 0 a(2)33 · · · a

(2)3m

......

.... . .

...0 0 a

(2)n3 · · · a

(2)nm

.

Επαγωγικά, κατά την k επανάληψη θα έχουμε να απαλείψουμε το κάτω της διαγωνίου τμήματης k στη σειρά στήλης. Θα κατασκευάσουμε, λοιπόν, τον Qk παίρνοντας ως y ∈ IRn−k+1 το[a

(k−1)kk a

(k−1)k+1,k · · · a

(k−1)nk ]T , και ο Pk θα είναι

Pk =

[Ik−1 0k−1,n−k+1

0n−k+1,k−1 Qk

].

Τέλος, μετά την m επανάληψη θα έχουμε

Am = PmAm−1 = PmPm−1Am−2 = · · · = PmPm−1Pm−2 · · ·P2P1A

=

a(1)11 a

(1)12 a

(1)13 · · · a

(1)1,m−1 a

(1)1m

0 a(2)22 a

(2)23 · · · a

(2)2,m−1 a

(2)2m

0 0 a(3)33 · · · a

(3)3,m−1 a

(3)3m

......

.... . .

......

0 0 0 · · · a(m−1)m−1,m−1 a

(m−1)m−1,m

0 0 0 · · · 0 a(m)mm

......

......

...0 0 0 · · · 0 0

.

(7.33)

Από αυτές προκύπτει ότι

A = (PmPm−1Pm−2 · · ·P2P1)−1Am = P T

1 PT2 · · ·P T

m−1PTmAm

= P1P2 · · ·Pm−1PmAm = PAm, (7.34)

όπου P ονομάσαμε το γινόμενο P1P2 · · ·Pm−1Pm, που είναι κι αυτό ορθογώνιος πίνακας. Απότην (7.34) είναι προϕανές ότι η QR ανάλυση ολοκληρώθηκε. Ως άνω τριγωνικό πίνακα R

Page 190: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

190

έχουμε τον πίνακα που αποτελείται από τις πρώτες m γραμμές του Am ενώ ως Q τον πίνακαπου αποτελείται από τις πρώτες m στήλες του P . Ουσιαστικά ο πίνακας P είναι ο πίνακας[Q | Q] που είχαμε θεωρήσει στην (7.18).

Για την εύρεση του κόστους του αλγόριθμου της QR μεθόδου με ανακλάσεις Householderεργαζόμαστε ως εξής. Καταρχάς είναι προϕανές ότι όχι μόνο δε θα πραγματοποιηθούν οιπολλαπλασιασμοί μεταξύ πινάκων, όπως ϕαίνεται στην (7.33), αλλά ούτε καν θα υπολογιστούνοι πίνακες Pk, k = 1(1)m−1. Θα ακολουθηθεί η επαναληπτική διαδικασία που ορίζει η (7.33)για τον υπολογισμό των Ak κάνοντας πράξεις απ΄ ευθείας μεταξύ των διανυσμάτων uk και τωνπινάκων Ak. Ουσιαστικά υπολογίζεται το διάνυσμα uk και στη συνέχεια το

(I − 2

||uk||22uku

Tk )Ak = Ak −

2

||uk||22uk(u

TkAk).

Ακόμη, επειδή κατά την k επανάληψη αλλάζουν μόνο τα στοιχεία aij του A για τα οποίαk ≤ i ≤ m και k ≤ j ≤ n, οι πράξεις θα γίνονται μόνο στο αντίστοιχο block του πίνακα A.Μετά από τις παρατηρήσεις αυτές είμαστε σε θέση να δώσουμε το νέο αλγόριθμο της QRανάλυσης.

Αλγόριθμος QR Ανάλυσης με Ανακλάσεις Householder:

Δεδομένα: A ∈ IRn,m.Για k = 1(1)minn− 1,m

c =√∑n

j=k a2jk Υπολογισμός της ||y||2

uk = akk + sign(akk)cΓια i = k + 1(1)n

ui = aik Υπολογισμός του uk

Τέλος ‘Για’d = 2c(c+ |akk|) Υπολογισμός της ||uk||22γ = 2/dΓια j = k(1)m

vj =∑n

l=k ulalj Υπολογισμός του uTkAk

vj = γvjΤέλος ‘Για’akk = akk − ukvkΓια i = k(1)n

Για j = k + 1(1)maij = aij − uivj Υπολογισμός του Ak − uk(

2||uk||22

uTkAk)

Τέλος ‘Για’Τέλος ‘Για’

Τέλος ‘Για’

Page 191: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

191

Για τον υπολογισμό του κόστους του αλγόριθμου, παρατηρούμε ότι σε κάθε επανάληψηέχουμε την εύρεση μιας norm (||y||2), την εύρεση m − k + 1 εσωτερικών γινομένων τά-ξης n − k + 1 (uT

kAk), την εκτέλεση ενός πολλαπλασιασμού σταθεράς επί διάνυσμα τάξηςm− k + 1 ( 2

||uk||2uTkAk) και την εύρεση του κάτω δεξιά (n − k + 1) × (m − k) block, που

απαιτεί έναν πολλαπλασιασμό και μία αϕαίρεση για κάθε στοιχείο. Το κόστος επομένως, σεπλήθος πράξεων, οϕείλεται κυρίως στον τελευταίο υπολογισμό των στοιχείων του block καιστα m − k + 1 εσωτερικά γινόμενα. Κάνοντας τους υπολογισμούς βρίσκεται ότι το πλήθοςπράξεων, αγνοώντας όρους μικρότερου βαθμού, είναιm2n−m3

3πολλαπλασιασμοί και m

2n2

−m3

6

προσθαϕαιρέσεις. Επιπλέον, η λύση του τριγωνικού συστήματος με προς τα πίσω αντικατά-σταση απαιτεί κόστος μικρότερης τάξης O(m2). Για το κόστος του αλγόριθμου σε θέσειςμνήμης, εύκολα ϕαίνεται ότι ο πίνακας R μπορεί να αποθηκευτεί στο άνω τριγωνικό μέροςτου πίνακα A. Οπως προαναϕέρθηκε θα ήταν δαπανηρό και ως προς το πλήθος των πράξεωνκαι ως προς τις θέσεις μνήμης, να υπολογίζονται και να αποθηκεύονται οι ορθογώνιοι πίνακεςPk, k = 1(1)m. Εκείνο που γίνεται στην πράξη είναι να αποθηκεύονται μόνο τα διανύσματαuk τα οποία πολλαπλασιάζονται απ΄ ευθείας με τους πίνακες Ak. Τα διανύσματα αυτά έχουνμή μηδενικά στοιχεία από την k θέση και κάτω, επομένως αποθηκεύονται ως στήλες στοκάτω τριγωνικό μέρος του πίνακα A, εκτός από τα πρώτα στοιχεία τους που μπορούν να α-ποθηκευτούν σε ένα m-διάστατο διάνυσμα. Ακόμη, ένα m-διάστατο διάνυσμα χρειάζεται γιατην αποθήκευση των ποσοτήτων γ = 2

||uk||22που παρουσιάζονται στον αλγόριθμο. Επιπλέον,

για τη λύση του προβλήματος ελάχιστων τετραγώνων θα χρειαστεί και η αποθήκευση τουn-διάστατου διανύσματος b, στις πρώτες m θέσεις του οποίου θα αποθηκευτεί τελικά η λύσηx.

Στη συνέχεια παραθέτουμε ένα αριθμητικό παράδειγμα γραμμικού προβλήματος ελάχιστωντετραγώνων. Αν

A =

2 −1 0

−1 2 −10 −1 21 1 1

, b =

1111

(7.35)

είναι τα δεδομένα του προβλήματος ελάχιστων τετραγώνων, τότε εϕαρμόζοντας τον αλγόριθμοQR ανάλυσης με ανακλάσεις Householder έχουμε

Q =

−0.8165 0 0.31060.4082 −0.6386 0.0565

0 0.4264 −0.7625−0.4082 −0.6396 −0.5648

, R =

−2.4495 1.2247 −0.81650 −2.3452 0.85280 0 −2.1462

(7.36)και η λύση του προβλήματος είναι η x = [0.4474 0.5263 0.4474]T . Ας σημειωθεί ότι τοσυγκεκριμένο παράδειγμα επιλύθηκε χρησιμοποιώντας το πακέτο προγραμμάτων MATLABκαι τα αποτελέσματα δόθηκαν με τέσσερα δεκαδικά ψηϕία.

Page 192: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

192

7.3.3 Στροϕές Givens

Ενας τρίτος τρόπος για την επίτευξη της QR ανάλυσης είναι η χρησιμοποίηση των ορθογώνιωνμετασχηματισμών, των καλούμενων στροϕών Givens. Είναι γνωστό ότι ο 2× 2 πίνακας της

μορϕής R(θ) =

[cos θ − sin θsin θ cos θ

], είναι ορθογώνιος και αν πολλαπλασιάσει από τα αριστερά

ένα διάνυσμα x ∈ IR2 το στρέϕει κατά γωνία θ κατά τη θετική ϕορά. Κατ΄ επέκταση ο πίνακαςRkj(θ) ∈ IRn,n της μορϕής

Rkj(θ) =

k j

k

j

11. . .

cos θ − sin θ1. . .

1sin θ cos θ

. . .1

είναι ορθογώνιος και αν εϕαρμοστεί με τον ίδιο τρόπο σε ένα n-διάστατο διάνυσμα το στρέϕειως προς τις συνιστώσες k και j ενώ το αϕήνει αναλλοίωτο ως προς τις άλλες συνιστώσες.Ο πίνακας αυτός ονομάζεται στροϕή Givens και ο αντίστοιχος μετασχηματισμός, μετασχη-ματισμός Givens. Οι στροϕές Givens χρησιμεύουν ως ορθογώνιοι μετασχηματισμοί για τηνεπίτευξη της QR ανάλυσης μηδενίζοντας κάθε ϕορά και ένα στοιχείο κάτω από τη διαγώνιοξεκινώντας από την πρώτη στήλη και προχωρώντας προς τα δεξιά.

Για να προσδιορίσουμε τη στροϕή Rkj(θ), j > k, ώστε να μηδενιστεί το (j, k) στοιχείοτου πίνακα A ∈ IRn,n, rank(A) = m < n, συμβολίζουμε με c το cos θ και με s το sin θ καιμηδενίζουμε το (j, k) στοιχείο του γινομένου Rkj(θ)A. Τότε,

sakk + cajk = 0

και η λύση της μας δίνει τις τιμές

s = − ajk√a2kk + a2jk

, c =akk√

a2kk + a2jk

.

Με την προϋπόθεση ότι έχουν μηδενιστεί τα στοιχεία apq, q = 1(1)k − 1, p = q + 1(1)n,κάτω από τη διαγώνιο, εκείνο που θα αλλάξει στον πίνακα A μετά την εϕαρμογή του Rkj(θ)

Page 193: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

193

θα είναι μόνο οι γραμμές k και j, η πρώτη από το k στοιχείο και δεξιά ενώ η δεύτερη, με τομηδενισμό του (j, k) στοιχείου της, από το k + 1 στοιχείο και δεξιά. Το (k, k) στοιχείο θαγίνει

a′kk = cakk − sajk =√

a2kk + a2jk.

Τα υπόλοιπα στοιχεία της k γραμμής θα γίνουν

a′ki = caki − saji =akkaki + ajkaji√

a2kk + a2jk

, i = k + 1(1)m,

ενώ τα αντίστοιχα στοιχεία της j γραμμής

a′ji = saki + caji =−ajkaki + akkaji√

a2kk + a2jk

, i = k + 1(1)m.

Με την απλούστευση της υπόθεσης ότι τα “οδηγά” στοιχεία δε μηδενίζονται, είναι ϕανερό ότιστις πρώτες k−1 στήλες δεν επέρχεται καμία μεταβολή αϕού τα κάτω από τη διαγώνιο στοιχείαέχουν μηδενιστεί και η εϕαρμογή του μετασχηματισμού δίνει πάλι μηδέν. Ακόμη, πρέπει νατονιστεί ότι δεν παίζει ρόλο η σειρά που θα απαλειϕτούν τα στοιχεία της ίδιας στήλης. Ανεπιλέξουμε την ορθή σειρά, από πάνω προς τα κάτω, θα πάρουμε την εξής ακολουθία πινάκων

R12A, R13R12A, R14R13R12A, · · · , R1nR1,n−1 · · ·R13R12A,

R23(R1n · · ·R12)A, · · · , (R2n · · ·R23)(R1n · · ·R12)A, (7.37)

· · · , (Rmn · · ·Rm,m+1) · · · (R2n · · ·R23)(R1n · · ·R12)A.

Οι μετασχηματισμοί Givens είναι τόσοι, όσα και τα στοιχεία που πρέπει να απαλειϕτούν,δηλαδή nm− m(m+1)

2. Με την ολοκλήρωση της QR ανάλυσης, το τελικό αποτέλεσμα θα είναι

ο άνω τριγωνικός πίνακας R που θα αποτελείται από τις m πρώτες γραμμές του A μετά τηναπαλοιϕή, ενώ ο πίνακας Q θα αποτελείται από τις m πρώτες στήλες του ορθογώνιου πίνακα

P = (R12 · · ·R1n)(R23 · · ·R2n) · · · (Rm,m+1 · · ·Rmn).

Ο αλγόριθμος της QR ανάλυσης με στροϕές Givens δίνεται στη συνέχεια.

Αλγόριθμος QR Ανάλυσης με Στροϕές Givens:

Δεδομένα: A ∈ IRn,m.Για k = 1(1)minn− 1,m

Για j = k + 1(1)n

r =√a2kk + a2jk

Page 194: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

194

c = akkr

s = −ajkr

akk = rΓια i = k + 1(1)m

x = caki − sajiy = saki + cajiaki = xaji = y

Τέλος ‘Για’Τέλος ‘Για’

Τέλος ‘Για’

Αν υπολογίσουμε το πλήθος των πράξεων που απαιτούνται για την πραγματοποίηση τουαλγόριθμου θα παρατηρήσουμε ότι το κόστος είναι πολύ μεγαλύτερο από εκείνο των ανακλά-σεων Householder. Από την άποψη αυτή, είναι ασύμϕορη η χρησιμοποίηση του αλγόριθμου.Θα δούμε όμως παρακάτω, ότι η ιδέα των στροϕών Givens είναι πολύ χρήσιμη και εϕαρμόζε-ται συχνά στην QR μέθοδο για την εύρεση των ιδιοτιμών ενός πίνακα. Από πλευράς θέσεωνμνήμης, οι δύο τελευταίοι αλγόριθμοι είναι ισοδύναμοι. Ο πίνακας R μπορεί να αποθηκευτείστο άνω τριγωνικό μέρος του A. Για την αποθήκευση των πινάκων στροϕών Givens Rkj,αρκεί η αποθήκευση των ποσοτήτων c και s κάθε ϕορά. Δημιουργείται έτσι η εντύπωση ότιδεν επαρκεί το κάτω τριγωνικό μέρος του A αλλά χρειάζεται διπλάσιος χώρος. Επειδή όμωςοι αριθμοί c και s αποτελούν το συνημίτονο και το ημίτονο αντίστοιχα της ίδιας γωνίας, α-κολουθείται το εξής τέχνασμα: Αν |s| ≤ |c| τότε αποθηκεύεται η ποσότητα p = s · sign(c)αλλιώς η ποσότητα p = sign(s)

c. Κατά την αντίστροϕη διαδικασία της αποκρυπτογράϕησης, αν

|p| ≤ 1 τότε παίρνεται ως s = p και ως c =√1− s2 αλλιώς παίρνεται ως c = 1/p και ως

s =√1− c2. Είναι επίσης ϕανερό ότι αν (c, s) αποτελεί ένα ζεύγος στροϕής Givens, τότε

και το (−c,−s) αποτελεί επίσης ζεύγος στροϕής Givens.

7.4 Ανάλυση Ιδιαζουσών Τιμών (Singular Value Decom-

position-SVD)

Η ανάλυση ιδιαζουσών τιμών ενός πίνακα A ∈ IRn,m είναι ένα από τα σημαντικά κεϕάλαια τηςΓραμμικής Αλγεβρας και έχει πολλές εϕαρμογές. Μια από τις εϕαρμογές είναι και το γραμμικόπρόβλημα ελάχιστων τετραγώνων. Για το σκοπό αυτό δίνουμε καταρχάς το ακόλουθο βασικόθεώρημα.

Θεώρημα 7.5 Εστω ο πίνακας A ∈ IRn,m\0n,m με m ≤ n. Τότε αυτός μπορεί να

Page 195: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

195

γραϕτεί υπό τη μορϕήA = UΣV T ,

όπου U ∈ IRn,m ορθογώνιος πίνακας (UTU = Im), V ∈ IRm,m ορθογώνιος πίνακας (V V T =Im) και Σ ∈ IRm,m διαγώνιος τ.ω. Σ = diag(σ1, σ2, . . . , σm) με σ1 ≥ σ2 ≥ . . . ≥ σm ≥ 0.(Σημείωση: Οι στήλες u1, u2, . . . , um του πίνακα U ονομάζονται αριστερά ιδιάζοντα διανύσμα-τα, οι στήλες υ1, υ2, . . . , υm του πίνακα V δεξιά ιδιάζοντα διανύσματα, ενώ τα σi ιδιάζουσεςτιμές.)

Απόδειξη: Το θεώρημα θα αποδειχτεί με τη μέθοδο της τέλειας επαγωγής ως προς m και n.Για m = 1 και για n οποιοδήποτε αριθμό ο A θα είναι ένα n-διάστατο διάνυσμα. Τότε ηανάλυση ιδιαζουσών τιμών πραγματοποιείται αν λάβουμε U ∈ IRn με U = 1

||A||2A, Σ ∈ IR1,1

με Σ = [||A||2] και V ∈ IR1,1 με V = [1].Υποθέτοντας ότι η ανάλυση ιδιαζουσών τιμών μπορεί να πραγματοποιηθεί για όλους τους πίνα-κες A ∈ IRn−1,m−1 θα αποδείξουμε ότι πραγματοποιείται και για τους A ∈ IRn,m. (Σημείωση:Στη συνέχεια δεχόμαστε ότι τουλάχιστον οι ϕυσικές norms πινάκων μπορούν να επεκταθούνκαι για μή τετραγωνικούς πίνακες, πράγμα που είναι αληθές.) Εστω, λοιπόν, A ∈ IRn,m.Επιλέγουμε ως υ1 το διάνυσμα εκείνο για το οποίο ισχύει ||A||2 = ||Aυ1||2. Τέτοιο διάνυσμαυπάρχει, από τον ορισμό της ||A||2 (||A||2 = max||υ||2=1 ||Aυ||2). Ως u1 επιλέγουμε το διάνυ-σμα u1 =

Aυ1||Aυ1||2 το οποίο είναι τ.ω. ||u1||2 = 1. Στη συνέχεια συμπληρώνουμε πίνακες U και

V με τους υποπίνακες U ′ ∈ IRn,n−1 και V ′ ∈ IRm,m−1 ώστε οι U = [u1 | U ′] και V = [υ1 | V ′]να είναι ορθογώνιοι. Εϕαρμόζουμε τους πίνακες αυτούς στον A ως εξής:

UTAV =

[uT1

U ′T

]A[υ1 | V ′] =

[uT1Aυ1 uT

1AV′

U ′TAυ1 U ′TAV ′

]. (7.38)

Απο τη θεώρηση των u1 και υ1 έχουμε

uT1Aυ1 =

(Aυ1)T

||Aυ1||2(Aυ1) =

||Aυ1||22||Aυ1||2

= ||Aυ1||2 = ||A||2 = σ1

καιU ′TAυ1 = U ′Tu1||Aυ1||2 = 0

λόγω της ορθογωνιότητας του U . Ισχυριζόμαστε ότι και uT1AV

′ = 0 γιατί αλλιώς θα είχαμε

σ1 = ||A||2 = ||AV ||2 = ||uT1 ||2||AV ||2 ≥ ||uT

1AV ||2= ||[uT

1Aυ1|uT1AV

′]||2 = ||[σ1|uT1AV

′]||2 > σ1 (7.39)

που είναι άτοπο. Η σχέση (7.38) μετά την παρατήρηση αυτή γίνεται

UTAV =

[σ1 0Tm−1

0n−1 U ′TAV ′

]. (7.40)

Page 196: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

196

Ο πίνακας A′ = U ′TAV ′ είναι τάξης (n − 1) × (m − 1) και σύμϕωνα με την υπόθεση τηςτέλειας επαγωγής, πραγματοποιείται γι΄ αυτόν η ανάλυση ιδιαζουσών τιμών. Εστω

U ′TAV ′ = U1Σ1VT1 (7.41)

όπου U1 ∈ IRn−1,m−1, V1 ∈ IRm−1,m−1 ορθογώνιοι πίνακες και Σ1 = diag(σ2, σ3, . . . , σm).Τότε η (7.40) γίνεται

UTAV =

[σ1 0Tm−1

0n−1 U1Σ1VT1

]=

[1 0Tm−1

0n−1 U1

] [σ1 0Tm−1

0m−1 Σ1

] [1 0Tm−1

0m−1 V T1

](7.42)

ή

A = U

[1 0Tm−1

0n−1 U1

[1 0Tm−1

0m−1 V T1

]V T = UΣV T ,

όπου U ∈ IRn,m, V ∈ IRm,m ορθογώνιοι πίνακες, αϕού είναι γινόμενα ορθογώνιων πινάκων.Το γεγονός ότι οι ιδιάζουσες τιμές εμϕανίζονται κατά ϕθίνουσα τάξη μεγέθους αποδείχνεταιαν δείξουμε ότι σ1 ≥ σ2. Τότε η απόδειξη για τις υπόλοιπες θα είναι προϕανής από την αρχήτης τέλειας επαγωγής. Από την (7.41) προκύπτει ότι η σ2 θα είναι η πρώτη ιδιάζουσα τιμήτου πίνακα U ′TAV ′. Για τον ίδιο ακριβώς λόγο για τον οποίο σ1 = ||A||2, αν επιλέξουμε μετον ίδιο τρόπο τα διανύσματα u2 ∈ IRn−1 και υ2 ∈ IRm−1, θα έχουμε και

σ2 = ||A′||2 = ||U ′TAV ′||2 ≤ ||U ′T ||2||A||2||V ′||2 = ||A||2 = σ1.

Ετσι ολοκληρώθηκε η απόδειξη του βασικού θεωρήματος της ανάλυσης των ιδιαζουσών τιμών.Σημείωση: Η ανάλυση ιδιαζουσών τιμών που δόθηκε στο θεώρημα ισχύει και στην περί-

πτωση όπου A ∈ ICn,m. Η μόνη διαϕορά τότε είναι ότι οι πίνακες U και V είναι ορθομοναδιαίοι(UHU = Im, V V H = Im), οπότε κι οι διαϕορές στην απόδειξη είναι προϕανείς.

Είναι ϕανερό ότι μπορεί να αλλαχτεί η διάταξη των ιδιαζουσών τιμών σi στον πίνακα Σ,αρκεί να γίνουν οι αντίστοιχες αλλαγές στις στήλες των U και V . Στην ουσία ο πίνακας Ααναλύεται στο άθροισμα των πινάκων

A =m∑i=1

σiuiυTi

με rank([uiυTi ]) = 1, i = 1(1)m.

Η ανάλυση ιδιαζουσών τιμών έχει ιδιότητες που την καθιστούν χρησιμότατη σε πολλέςεϕαρμογές. Συγκεκριμένα, από τον ορισμό της έχουμε ότι

AV = UΣ.

Page 197: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

197

Από αυτήν προκύπτει εύκολα η εξής γεωμετρική ερμηνεία: Αν θεωρήσουμε ένα ορθογώνιοσύστημα συντεταγμένων του IRm με άξονες τα διανύσματα υi του V , τότε ο πίνακας A εϕαρ-μοζόμενος στη μοναδιαία σϕαίρα του IRm τη μετασχηματίζει σε ένα ελλειψοειδές του IRn μεάξονες τα διανύσματα σiui.Παραθέτουμε μια σειρά από χρήσιμες ιδιότητες χωρίς απόδειξη.

i) Η ανάλυση ιδιαζουσών τιμών ενός πίνακα A ∈ IRn,m, εκτός από τυχόν μεταθέσεις, είναιμοναδική.ii) Αν ο πίνακας A είναι τετραγωνικός (A ∈ IRn,n) και αντιστρέψιμος, τότε σn = ||A−1||−1

2 ,ενώ ο δείκτης κατάστασης του A ως προς τη || · ||2, θα είναι κ2(A) =

σ1

σn.

iii) Αν ο πίνακας A είναι συμμετρικός (AT = A), τότε η ανάλυση ιδιαζουσών τιμών είναιA = UΣV T , ενώ η κανονική μορϕή Jordan θα είναι A = UΛUT , όπου U, V ∈ IRn,n ορθο-γώνιοι πίνακες, Σ = diag(σ1, σ2, . . . , σn) και Λ = diag(λ1, λ2, . . . , λn), λi οι ιδιοτιμές του A.Επιπλέον ισχύουν οι σχέσεις

σi = |λi|, υi = sign(λi)ui, i = 1(1)n, με sign(0) = 1.

iv) Αν ο πίνακας A είναι συμμετρικός και θετικά ορισμένος, τότε η ανάλυση ιδιαζουσών τιμώνταυτίζεται με την κανονική μορϕή Jordan του A. Η πρόταση αυτή είναι άμεση συνέπεια τηςπροηγούμενης.v) Αν A ∈ IRn,m, m < n, τότε οι ιδιοτιμές του συμμετρικού πίνακα ATA ∈ IRm,m θα είναι σ2

i

με αντίστοιχα ορθοκανονικά ιδιοδιανύσματα τα δεξιά ιδιάζοντα διανύσματα υi του A.vi) Αν A ∈ IRn,m, m < n, τότε οι ιδιοτιμές του συμμετρικού πίνακα AAT ∈ IRn,n θα είναι οισ2i και n −m το πλήθος μηδενικές, με αντίστοιχα ορθοκανονικά ιδιοδιανύσματα τα αριστεράιδιάζοντα διανύσματα ui του A για τις σ2

i , ενώ ως ιδιοδιανύσματα των μηδενικών ιδιοτιμώνμπορούν να ληϕτούν οποιαδήποτε διανύσματα του IRn ορθογώνια προς όλα τα ui, i = 1(1)m.

vii) Εστω H =

[0n,n AT

A 0n,n

]∈ IR2n,2n, με A ∈ IRn,n τετραγωνικό πίνακα και A = UΣV T

η ανάλυση ιδιαζουσών τιμών του A. Τότε, οι 2n ιδιοτιμές του πίνακα H είναι οι ±σi με

αντίστοιχα ορθοκανονικά ιδιοδιανύσματα τα 1√2

[υi±ui

].

viii) Εστω A ∈ IRn,m, m < n, και A = UΣV T , η ανάλυση ιδιαζουσών τιμών του A ή ωςάθροισμα πινάκων με βαθμό 1, A =

∑mi=1 σiuiυ

Ti . Τότε, ο πλησιέστερος προς τον A πίνακας

με βαθμό k < m, μετρούμενος με τη || · ||2, θα είναι ο Ak =∑k

i=1 σiuiυTi ή Ak = UΣkV

T , μεΣk = diag(σ1, σ2, . . . , σk, 0, . . . , 0), η δε απόστασή του από τον A θα είναι σk+1. Δηλαδή

minB∈IRn,m

k

||A−B||2 = ||A− Ak||2 = σk+1,

όπου IRn,mk είναι ο χώρος όλων των n×m πινάκων βαθμού k.

Η τελευταία ιδιότητα έχει μεγάλη εϕαρμογή στην επεξεργασία εικόνας (συμπίεση εικόνας)[11]. Για το σκοπό αυτό διακριτοποιούμε την εικόνα χρησιμοποιώντας ορθογώνιο πλέγμα με

Page 198: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

198

πολλά και πολύ μικρά στοιχεία (pics). Σε κάθε στοιχείο, ανάλογα με τη σκιερότητα ή τοχρωματισμό του, αντιστοιχίζεται ένας πραγματικός αριθμός. Η διάταξη των αριθμών σύμϕωναμε τη διάταξη των στοιχείων στην εικόνα, δημιουργεί έναν πολύ μεγάλο πίνακα A, με συνέπειατην πολύ δαπανηρή απεικόνισή του στον Υπολογιστή. Η ανάλυση των ιδιαζουσών τιμών τουπίνακα A, δίνει τη δυνατότητα αναπαραγωγής της εικόνας χρησιμοποιώντας τον πίνακα Ak

για αρκετά μικρό k (σε σχέση με τους n και m) χωρίς να υπάρχει μεγάλο σϕάλμα στηνεικόνα. Για την αποθήκευση απαιτούνται θέσεις μνήμης μόνο για τα ιδιάζοντα διανύσματαu1, u2, . . . , uk, υ1, υ2, . . . , υk και για τις ιδιάζουσες τιμές σ1, σ2, . . . , σk.Μια άλλη σημαντική εϕαρμογή βρίσκεται στο χώρο της Στατιστικής και συγκεκριμένα στηνανάλυση αντιστοιχιών (Correspondence Analysis-CA) των πινάκων συνάϕειας. Ο πίνακαςσυνάϕειας A ∈ IRn,m, n > m, είναι ο πίνακας συχνοτήτων ενός διδιάστατου δείγματος. ΗCA, διαμέσου της ανάλυσης ιδιαζουσών τιμών, αναλύει τον πίνακα A στο άθροισμα A =σ1u1υ

T1 +

∑mi=2 σiuiυ

Ti . Ο πρώτος όρος αντιστοιχεί στην ανεξαρτησία των μεταβλητών,

ενώ ο δεύτερος τυποποιεί (μοντελοποιεί) την απόκλιση από αυτή. Στόχος της CA είναι οπροσδιορισμός της μικρότερης δυνατής διάστασης που ερμηνεύει κατά τον καλύτερο τρόπο τησυσχέτιση των μεταβλητών. Δηλαδή την προσέγγιση του

∑mi=2 σiuiυ

Ti από το

∑ki=2 σiuiυ

Ti ,

όπου ο k είναι πρακτικά πολύ μικρότερος από τον m.

Οπως ϕάνηκε από τις ιδιότητες που προαναϕέρθηκαν, οι ιδιάζουσες τιμές και τα ιδιάζονταδιανύσματα συνδέονται άμεσα με τις ιδιοτιμές και τα ιδιοδιανύσματα, αντίστοιχα, πινάκων πουσχετίζονται με τον A. Για το λόγο αυτό και οι αλγόριθμοι για την ανάλυση ιδιαζουσών τιμώνείναι άμεσα συνδεδεμένοι με αλγόριθμους για την εύρεση ιδιοτιμών και ιδιοδιανυσμάτων. Δεθα ασχοληθούμε επομένως στην παράγραϕο αυτή με αλγόριθμους της αντίστοιχης ανάλυσης,αλλά στο επόμενο κεϕάλαιο όπου θα ασχοληθούμε κυρίως με μεθόδους για την αριθμητικήεύρεση ιδιοτιμών και ιδιοδιανυσμάτων.

Απομένει να δοθεί η λύση στο γραμμικό πρόβλημα ελάχιστων τετραγώνων χρησιμοποιών-τας την ανάλυση ιδιαζουσών τιμών. Η τεχνική που ακολουθείται για τη λύση του προβλήματοςαυτού είναι ακριβώς η ίδια με εκείνη της QR μεθόδου. Το ρόλο του πίνακα Q ∈ IRn,m παίζειο πίνακας U ∈ IRn,m, ενώ το ρόλο του R ο πίνακας ΣV T . Στην περίπτωση που ο A είναιπλήρους βαθμού, δηλαδή rank(A) = m, θεωρούμε U ∈ IRn,n−m τον πίνακα που συμπληρώνειτον πίνακα U σε τετραγωνικό ορθογώνιο πίνακα. Ακολουθώντας την ίδια πορεία όπως στιςισότητες (7.18) έχουμε

minx∈IRm

||r||22 ≡ minx∈IRm

||b− Ax||22 = minx∈IRm

||b− UΣV Tx||22

= minx∈IRm

||[U | U ]T (b− UΣV Tx)||22 = minx∈IRm

∥∥∥∥[ UT

UT

]b−

[UT

UT

]UΣV Tx)

∥∥∥∥22

= minx∈IRm

∥∥∥∥[ UT b− ΣV Tx

UT b

]∥∥∥∥22

= minx∈IRm

∥∥UT b− ΣV Tx∥∥22+ ||UT b||22 (7.43)

Page 199: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

199

και η λύση x δίνεται από τηx = V Σ−1UT b.

Στην περίπτωση που ο A είναι ελλιπούς βαθμού, έστω ότι rank(A) = r < m, τότε σύμϕωναμε την (7.43), η λύση θα δοθεί ξανά από το μηδενισμό της UT b−ΣV Tx. Η μόνη διαϕορά θαέγκειται στο γεγονός ότι ο Σ θα είναι μή αντιστρέψιμος πίνακας της μορϕής

Σ =

[Σ1 0r,m−r

0m−r,r 0m−r,m−r

]με Σ1 = diag(σ1, σ2, . . . , σr). Τότε, διαχωρίζουμε τους πίνακες U και V σε blocks ώστεοι διαστάσεις των blocks να συμϕωνούν με τη νέα μορϕή του Σ, δηλαδή U = [U1 | U2],U1 ∈ IRn,r, U2 ∈ IRn,m−r και V = [V1 | V2], V1 ∈ IRm,r, V2 ∈ IRm,m−r. Η λύση τότε δίνεταιαπό τη

minx∈IRm

||UT b− ΣV Tx||22 = minx∈IRm

∥∥∥∥[ UT1

UT2

]b−

[Σ1 0r,m−r

0m−r,r 0m−r,m−r

] [V T1

V T2

]x

∥∥∥∥22

= minx∈IRm

∥∥∥∥[ UT1 b− Σ1V

T1 x

UT2 b

]∥∥∥∥22

= minx∈IRm

||UT1 b− Σ1V

T1 x||22 + ||UT

2 b||22 = ||UT2 b||22. (7.44)

Η ελαχιστοποίηση πετυχαίνεται για

x = V1Σ−11 UT

1 b + V2y (7.45)

για όλα τα y ∈ IRm−r, αϕού V T1 V1 = I και V T

1 V2y = 0 για όλα τα y. Προϕανώς η συσχέτισητων (7.43) και (7.44) δίνει

minx∈IRm

||b− Ax||22 = ||UT2 b||22 + ||UT b||22.

7.5 Ευστάθεια και Κόστος των Μεθόδων για τοΓραμμικό Πρόβλημα Ελάχιστων Τετραγώνων

Στην παράγραϕο αυτή θα γίνει μια περιγραϕή και σύγκριση των μεθόδων που αναπτύχτηκανσε σχέση με το κόστος και την ευστάθειά τους. Για το κόστος έγινε ήδη αναϕορά κατά τηνπαρουσίαση του αλγόριθμου της κάθε μεθόδου. Εδώ θα γίνει προσπάθεια να δοθεί ένα είδοςσύγκρισης του κόστους σε σχέση με την ευστάθεια.Πριν προχωρήσουμε θα δώσουμε τους ορισμούς του ψευδοαντίστροϕου πίνακα κατά Moore-Penrose και του δείκτη κατάστασης για n×m πίνακες.

Page 200: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

200

Ορισμός 7.2 Εστω ότι ο πίνακας A ∈ IRn,m, m ≤ n, είναι πλήρους βαθμού, με A = QR =UΣV T την QR ανάλυση και την ανάλυση ιδιαζουσών τιμών του A, αντίστοιχα. Τότε ο πίνακας

A† = (ATA)−1AT = R−1QT = V Σ−1UT

καλείται ψευδοαντίστροϕος κατά Moore-Penrose του πίνακα A.

Είναι ϕανερό ότι ο A† είναι αριστερός αντίστροϕος του A αϕού A†A = (ATA)−1ATA = I.Ακόμη, η λύση του γραμμικού προβλήματος ελάχιστων τετραγώνων θα δίνεται υπό τη μορϕή

x = A†b. (7.46)

Θα πρέπει να παρατηρήσουμε ότι αν m = n τότε ο A† συμπίπτει με τον A−1. Στην περίπτωσηπου n < m, ο ψευδοαντίστροϕος ορίζεται ως A† = AT (AAT )−1 και είναι δεξιός αντίστροϕος.Με τον ορισμό αυτόν η (7.46) δίνει τη λύση μόνο στην περίπτωση που ο A είναι πλήρουςβαθμού. Θα πρέπει να επεκτείνουμε τον ορισμό και για τους πίνακες βαθμού r < m (≤ n),ώστε η (7.46) να δίνει μία από τις λύσεις του προβλήματος. Οι λύσεις του προβλήματος μεανάλυση ιδιαζουσών τιμών δίνονται από την (7.45). Αν σ΄ αυτή θέσουμε y = 0 τότε παίρνουμετη λύση

x = V1Σ−11 UT

1 b. (7.47)

Η λύση αυτή είναι η λύση με τη μικρότερη Ευκλείδεια norm. Πράγματι, κάθε άλλη λύση θαέχει ∥x∥22 = ∥V1Σ

−11 UT

1 b∥22 + ∥V2y∥22 λόγω του Πυθαγορείου θεωρήματος αϕού τα διανύσμα-τα V1Σ

−11 UT

1 b και V2y είναι ορθογώνια. Δίνουμε, λοιπόν, τον ορισμό του ψευδοαντίστροϕουώστε η λύση (7.47) να συμπίπτει με την (7.46).

Ορισμός 7.3 Εστω ότι ο πίνακας A ∈ IRn,m, m ≤ n, είναι ελλιπούς βαθμού, με rank(A) =r < m και A = UΣV T = U1Σ1V

T1 η ανάλυση ιδιαζουσών τιμών του A, όπως ορίστηκε στην

προηγούμενη παράγραϕο. Τότε ο πίνακας

A† = V1Σ−11 UT

1 (7.48)

καλείται ψευδοαντίστροϕος κατά Moore-Penrose του πίνακα A.

Η σχέση (7.48) γράϕεται και ως

A† = V Σ†UT , Σ† =

[Σ1 0r,m−r

0m−r,r 0m−r,m−r

]†=

[Σ−1

1 0r,m−r

0m−r,r 0m−r,m−r

].

Εύκολα μπορεί να παρατηρήσει κανείς ότι ο ορισμός αυτός καλύπτει πλήρως και τον προηγού-μενο ορισμό.

Στη συνέχεια δίνουμε την επέκταση του ορισμού του δείκτη κατάστασης για n×m πίνακες.

Page 201: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

201

Ορισμός 7.4 Ο δείκτης κατάστασης ενός πίνακα A ∈ IRn,m, m ≤ n, ορίζεται ως

κ2(A) =σmax

σmin

,

όπου σmax και σmin, η μεγαλύτερη και η μικρότερη (θετική) ιδιάζουσα τιμή του A αντίστοιχα.

Από τη ιδιότητα (ii) των ιδιαζουσών τιμών της προηγούμενης παραγράϕου ϕαίνεται καθαράότι ο ορισμός αυτός καλύπτει πλήρως και τον ορισμό του δείκτη κατάστασης για τετραγωνικούςπίνακες. Επίσης, χρησιμοποιώντας την ιδιότητα (v) των ιδιαζουσών τιμών, αποδείχνεται ηισχύς της σχέσης (7.17) για το δείκτη κατάστασης του συστήματος των κανονικών εξισώσεων.Πράγματι

κ2(ATA) = ||ATA||2||(ATA)−1||2 = ρ(ATA)ρ

((ATA)−1

)= σ2

max

σ2min

= (κ2(A))2 .

(7.49)

Πρέπει να παρατηρήσουμε εδώ ότι αν ο A είναι ελλιπούς βαθμού τότε ο ATA είναι μή αντι-στρέψιμος πίνακας και σmin = 0, οπότε θεωρείται ότι ο δείκτης κατάστασης είναι ίσος με ∞.

Μετά από τους τρεις αυτούς απαραίτητους ορισμούς μπορούμε να μελετήσουμε την κα-τάσταση του γραμμικού προβλήματος ελάχιστων τετραγώνων. Μπορεί να αναπτυχτεί μιαθεωρία διατάραξης αντίστοιχη εκείνης των γραμμικών συστημάτων του Κεϕαλαίου 2. Δεθα αναπτύξουμε εδώ τη θεωρία αυτή διότι αϕενός δε διαϕέρει στη ϕιλοσοϕία της από εκεί-νη του Κεϕαλαίου 2 και αϕετέρου γίνεται τεχνικά πιο δύσκολη. Θα παραθέσουμε απλώς τοαποτέλεσμά της στο παρακάτω θεώρημα.

Θεώρημα 7.6 Υποθέτουμε ότι A ∈ IRn,m, m ≤ n, είναι ελλιπούς βαθμού και ότι τοδιάνυσμα x ελαχιστοποιεί τη ||Ax − b||2. Αν δA είναι η διατάραξη του A, δb η διατάραξητου b και ϵ ≡ max( ||δA||2

||A||2 ,||δb||2||b||2 ) <

1κ2(A)

= σmin

σmax, τότε η σχετική απόλυτη διατάραξη της

λύσης δίνεται από τη σχέση

||δx||2||x||2

= ϵ

(2κ2(A)

cos θ+ tan θκ2

2(A)

)+O(ϵ2), (7.50)

όπου sin θ = ||Ax−b||2||b||2 .

Από την (7.50) ϕαίνεται ότι η κατάσταση του προβλήματος εξαρτιέται από την ποσότητα2κ2(A)cos θ

+ tan θκ22(A), που ονομάζεται δείκτης κατάστασης του προβλήματος ελάχιστων τετρα-

γώνων και συμβολίζεται με κLS. Παρατηρούμε ότι ο κLS εξαρτιέται όχι μόνο από τον κ2(A)αλλά και από τη γωνία που σχηματίζουν τα διανύσματα Ax και b. Αν τα διανύσματα αυτά είναισυνευθειακά, τότε εξαρτιέται μόνο από τον κ2(A), ο οποίος αν είναι σχετικά μικρός προσδίδει

Page 202: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

202

καλή κατάσταση στο πρόβλημα (well-conditioned). Αν δεν είναι συνευθειακά, τότε εξαρτιέταιαπό τον κ2

2(A) και το πρόβλημα χάνει την καλή κατάστασή του (ill-conditioned) όσο μεγαλώ-νει η γωνία, με ακραία την περίπτωση όπου κLS = ∞ όταν θ = π

2. Στην τελευταία περίπτωση

έχουμε τη λύση x = 0.

Προχωρούμε στη μελέτη της ευστάθειας και τη σύγκρισή της σε σχέση και με το κόστοςτων μεθόδων που αναπτύχθηκαν. Αρχικά μελετάμε το πρόβλημα όταν ο πίνακας είναι πλήρουςβαθμού.

Ως προς το κόστος, οικονομικότερη μέθοδος είναι η επίλυση του συστήματος των κανο-νικών εξισώσεων, ακολουθεί η QR ανάλυση, ενώ η ανάλυση ιδιαζουσών τιμών είναι η πιοδαπανηρή. Τα πράγματα όμως αλλάζουν όσον αϕορά την ευστάθεια των μεθόδων. Η επίλυσητων κανονικών εξισώσεων είναι η πιο ασταθής μέθοδος αϕού, όπως ϕαίνεται από τις (7.17)και (7.49), έχουμε τετραγωνική αύξηση του δείκτη κατάστασης. Αυτό σημαίνει ότι χάνεταισε ακρίβεια διπλάσιος αριθμός σημαντικών ψηϕίων, από εκείνα που χάνονται από τις άλλεςδύο μεθόδους. Συνιστάται να εϕαρμόζεται μόνο σε προβλήματα με καλή κατάσταση επειδή τοόϕελος σε πλήθος πράξεων για την επίλυση είναι μεγάλο. Τα περισσότερα όμως προβλήματαπου προέρχονται από διάϕορες εϕαρμογές δεν έχουν καλή κατάσταση. Για τη λύση αυτώνσυνιστάται η QR ανάλυση. Πρέπει όμως να γίνει σύγκριση των επί μέρους αλγόριθμων τηςQR ανάλυσης.Εχει αναϕερθεί ότι και έχει εξηγηθεί γιατί ο κλασικός αλγόριθμος της Gram-Schmidt ορθο-γωνιοποίησης είναι ασταθής. Ο παραλλαγμένος αλγόριθμος είναι αρκετά πιο ευσταθής, αλλάκι αυτός δε δίνει καλά αποτελέσματα ειδικά όταν ο πίνακας A είναι “σχεδόν” ελλιπούς βαθμού.Αυτό οϕείλεται στο γεγονός ότι ο αλγόριθμος βρίσκει ακολουθιακά μία προς μία τις στήλεςτου ορθογώνιου πίνακα Q, με συνέπεια τα σϕάλματα που εισχώρησαν σε προηγούμενες στή-λες, να μεταβιβάζονται και να συσσωρεύονται στις επόμενες με αποτέλεσμα ο πίνακας Q νααπέχει αρκετά από ορθογώνιο πίνακα. Δε συνιστάται επομένως ούτε η παραλλαγμένη μέθοδοςGram-Schmidt, η οποία είναι πολύ χρήσιμη σε άλλα ειδικά προβλήματα ορθογωνιοποίησης,όπως η εύρεση των ιδιοδιανυσμάτων τριδιαγώνιων και συμμετρικών πινάκων. Σε αντίθεσηπρος αυτήν, οι αλγόριθμοι Householder και Givens είναι πιο ενδεδειγμένοι γιατί σ΄ αυτούςεκτελούνται μόνο διαδοχικοί πολλαπλασιασμοί από αριστερά με ορθογώνιους πίνακες των ο-ποίων το γινόμενο είναι ένας ορθογώνιος πίνακας που έχει την ίδια τάξη σϕάλματος με εκείνητων επί μέρους παραγόντων. Αυτό ϕαίνεται καθαρά από την ακόλουθη ανάλυση σϕαλμάτων.Εστω ότι επιθυμούμε να βρούμε το γινόμενο XA και ότι έχουμε στη διάθεσή μας την προ-σεγγιστική τιμή fl(X) του X με την ακρίβεια του Υπολογιστή ϵ. Στην πράξη δε θα βρεθείτο γινόμενο fl(X)A αλλά η στρογγύλευσή του στο fl(fl(X)A). Υπενθυμίζεται ότι η συνάρ-τηση fl(·) που προσεγγίζει έναν αριθμό x στον πλησιέστερο αριθμό του Υπολογιστή, δίνεταιως fl(x) = x(1+ δ) με |δ| ≤ ϵ ή δ = O(ϵ). Για την παράσταση ενός πίνακα στον Υπολογιστή

Page 203: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

203

ισχύει κάτι αντίστοιχο, συγκεκριμένα

fl(X) = X(I +∆), ||∆||2 = O(ϵ).

Εϕαρμόζοντας τη σχέση αυτή στο παραπάνω γινόμενο παίρνουμε

fl (fl(X)A) = fl (X(I +∆1)A) = X(I +∆1)A(I +∆2)

= X(A+∆1A+ A∆2 +∆1A∆2) = X(A+ δA). (7.51)

Από την (7.51) διαπιστώνεται ότι ο πολλαπλασιασμός αυτός θα δώσει το ίδιο αποτέλεσμα μεεκείνον του πολλαπλασιασμού του ακριβούς πίνακα X με το διαταραγμένο πίνακα A + δA.Υπολογίζοντας τη ||δA||2, έχουμε

||δA||2 = ||∆1A+ A∆2 +∆1A∆2||2≤ ||∆1||2||A||2 + ||∆2||2||A||2 + ||∆1||2||∆2||2||A||2 = O(ϵ)||A||2. (7.52)

Η συνολική διατάραξη θα είναι XδA και επομένως το συνολικό σϕάλμα είναι

||E||2 = ||XδA||2 ≤ ||X||2||δA||2 = O(ϵ)||X||2||A||2.

Αν πολλαπλασιάσουμε διαδοχικά από αριστερά με τους πίνακες X1, X2, . . . , Xk, τότε θα πά-ρουμε ϕράγμα για το ολικό σϕάλμα

||Eολ||2 = O(ϵ)||X1||2||X2||2 · · · ||Xk||2||A||2.

Στις μεθόδους Householder και Givens οι πίνακες Xi, i = 1(1)k, είναι ορθογώνιοι και κατάσυνέπεια οι ϕασματικές norms τους μονάδα. Επομένως τα σϕάλματα στις δύο αυτές μεθόδουςθα είναι

||EH ||2 = O(ϵ)||A||2, ||EG||2 = O(ϵ)||A||2,αντίστοιχα. Η ίδια θεωρία μας δίνει και το ολικό σϕάλμα του ορθογώνιου πίνακα Q, αρκεί στηθέση του A να θέσουμε το μοναδιαίο πίνακα I, έτσι

||EQ||2 = O(ϵ).

Επιπλέον με την QR μέθοδο εξασϕαλίζεται το αμετάβλητο του δείκτη κατάστασης του πίνακαA, αϕού αυτός πολλαπλασιάζεται με μια πολύ καλή προσέγγιση του ορθογώνιου πίνακα QT .Ισχύει δε και για την επέκταση του ορισμού του δείκτη κατάστασης ότι

κ2(R) = κ2(QTA) = κ2(A)

επειδή οι QTA και A έχουν τις ίδιες ακριβώς ιδιάζουσες τιμές.Ακριβώς για τις ιδιότητές τους αυτές, όπως ϕαίνεται κι από την παραπάνω ανάλυση της θε-ωρίας σϕαλμάτων, επινοήθηκαν και χρησιμοποιήθηκαν οι ορθογώνιοι μετασχηματισμοί για τη

Page 204: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

204

λύση του γραμμικού προβλήματος ελάχιστων τετραγώνων και όχι κάποιοι άλλοι, όπως π.χ. οιτριγωνικοί.Ως προς την ευστάθεια οι αλγόριθμοι Householder και Givens αποδείχτηκαν ισοδύναμοι. Ε-πειδή δε το κόστος του αλγόριθμου Householder είναι μικρότερο, αυτός είναι εκείνος πουσυνιστάται για την επίλυση του προβλήματος με QR ανάλυση.

ΑΣΚΗΣΕΙΣ

1.: Να λυθεί το γραμμικό πρόβλημα των ελάχιστων τετραγώνων minx∈IR3 ||b−Ax||2, όπου

A =

1 0 11 0 −10 1 10 1 −1

και b = [1 1 1 1]T .

α) Με τη λύση του συστήματος των κανονικών εξισώσεων.β) Με την QR ανάλυση χρησιμοποιώντας τον αλγόριθμο ορθογωνιοποίησης των Gram-Schmidt. καιγ) Τέλος, να βρεθεί η τιμή minx∈IR3 ||b− Ax||2.(Περιορισμός: Να γίνουν ακριβείς πράξεις διατηρώντας ριζικά και κλάσματα στουςυπολογισμούς.)

2.: Να λυθεί το γραμμικό σύστημα Ax = b, με A =

2 −1 0 −11 2 −1 00 1 2 −11 0 1 2

και b =

[4 − 2 2 0]T , με τη μέθοδο της QR ανάλυσης χρησιμοποιώντας τον αλγόριθμο ορθο-γωνιοποίησης των Gram-Schmidt (Περιορισμός: Να γίνουν ακριβείς πράξεις διατη-ρώντας ριζικά και κλάσματα στους υπολογισμούς.)

3.: Να λυθεί το γραμμικό σύστημα Ax = b, με A =

3 2 12 2 11 1 1

και b = [2 1 1]T , με την

QR ανάλυση χρησιμοποιώντας τον αλγόριθμο ορθογωνιοποίησης των Gram-Schmidt.(Περιορισμός: Να γίνουν ακριβείς πράξεις διατηρώντας ριζικά και κλάσματα στουςυπολογισμούς.)

4.:α) Να αποδειχτεί ότι η λύση των κανονικών εξισώσεων για το πρόβλημα ελάχιστωντετραγώνων συμπίπτει με τη λύση που δίνει η μέθοδος QR παραγοντοποίησης, για την

Page 205: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

205

περίπτωση που ο συντελεστής πίνακας A είναι πλήρους βαθμού. και

β) Να λυθεί το γραμμικό σύστημα ελάχιστων τετραγώνων, με A =

1 1 11 1 10 1 10 0 1

καιb = [1 1 1 1]T , με την QR ανάλυση χρησιμοποιώντας τον αλγόριθμο ορθογωνιοποίησηςτων Gram-Schmidt. (Περιορισμός: Να γίνουν ακριβείς πράξεις διατηρώντας ριζικάκαι κλάσματα στους υπολογισμούς.)

5.: Να λυθεί το γραμμικό πρόβλημα ελάχιστων τετραγώνων minx∈IR3 ||b−Ax||2, όπου A =3 0 44 0 30 4 30 3 4

και b = [1 1 1 1]T , χρησιμοποιώντας τον αλγόριθμο της QR με Gram-

Schmidt ορθογωνιοποίηση και να βρεθεί η τιμή minx∈IR3 ||b− Ax||2. (Περιορισμός:Να γίνουν ακριβείς πράξεις διατηρώντας ριζικά και κλάσματα στους υπολογισμούς.)

6.: Να λυθεί το γραμμικό πρόβλημα ελάχιστων τετραγώνων minx∈IR3 ||b−Ax||2, όπου A =1 3 41 3 21 1 0

−1 −1 2

και b = [1 1 1 1]T , χρησιμοποιώντας τον αλγόριθμο της QR με Gram-

Schmidt ορθογωνιοποίηση και να βρεθεί η τιμή minx∈IR3 ||b− Ax||2. (Περιορισμός:Να γίνουν ακριβείς πράξεις διατηρώντας ριζικά και κλάσματα στους υπολογισμούς.)

7.: Δίνεται το γραμμικό σύστημα Ax = b, όπου

A =

1 11 00 1

και b =

100

.

α) Να σχηματιστεί το σύστημα των κανονικών εξισώσεων και να λυθεί με τη μέθοδοτου Cholesky. καιβ) Να επαληθευτεί ότι το διάνυσμα r = Ax∗−b, όπου x∗ η λύση που παίρνεται παραπάνω,είναι ορθογώνιο προς κάθε ένα από τα διανύσματα-στήλες του A.

8.: Δίνεται το γραμμικό σύστημα Ax = b, όπου

A =

1 1 11 −1 13 −1 32 0 2

και b =

3156

.

Page 206: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

206

α) Να βρεθεί x ∈ IR3 τέτοιο ώστε η ποσότητα ||b− Ax||2 να γίνεται ελάχιστη. καιβ) Να βρεθεί η ελάχιστη τιμή της παραπάνω ποσότητας.

Page 207: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

Κεϕάλαιο 8

Αριθμητικές Μέθοδοι για τονΥπολογισμό Ιδιοτιμών καιΙδιοδιανυσμάτων

8.1 Εισαγωγή

Στο παρόν κεϕάλαιο θα ασχοληθούμε με αριθμητικές μεθόδους για τον υπολογισμό των ι-διοτιμών λi, i = 1(1)n, και των ιδιοδιανυσμάτων xi ∈ ICn \ 0, i = 1(1)n, του πίνακαA ∈ ICn,n(A ∈ IRn,n). Οπως είδαμε σε προηγούμενα κεϕάλαια, η γνώση του ϕάσματος τωνιδιοτιμών του πίνακα των συντελεστών των αγνώστων ενός γραμμικού συστήματος έχει μεγά-λη σημασία στην επιλογή κατάλληλης μεθόδου επίλυσής του. Εκτός όμως από την παραπάνωχρησιμότητά τους, οι ιδιοτιμές αποτελούν σημαντικές οντότητες σε μια πληθώρα προβλημάτωνστις Θετικές Επιστήμες και την Τεχνολογία. Αναϕέρουμε εδώ ενδεικτικά μερικά παραδείγμα-τα: Στη Θεωρία Πληροϕοριών οι ιδιοτιμές αποτελούν μέτρα πληροϕορίας. Στη Στατιστική εμ-ϕανίζονται στην πολυδιάστατη ανάλυση και στις Μαρκοβιανές στοχαστικές διαδικασίες. ΣτηΜηχανική, κατά τη μελέτη των ελεύθερων ταλαντώσεων παραμορϕώσιμων σωμάτων (πλάκες,κελύϕη), προκύπτουν πίνακες που οι ιδιοτιμές τους είναι τετράγωνα των ιδιοσυχνοτήτων τωνταλαντώσεων. Στη Θεωρία Στερεών Σωμάτων, οι ιδιοτιμές είναι ιδιοσυχνότητες των ταλαν-τώσεων. Στην Πυρηνική Φυσική είναι ιδιοενέργειες των σωματιδίων του πυρήνα (νουκλεόνια).Στην Ατομική Φυσική είναι ιδιοενέργειες των ηλεκτρονίων. Ακόμη, οι ιδιοτιμές εμϕανίζονταιστην Κβαντική Χημεία και σε πολλές άλλες επιστήμες. Πριν προχωρήσουμε σε συγκεκριμέ-νες μεθόδους για την εύρεση των ιδιοτιμών και των ιδιοδιανυσμάτων θα δώσουμε μερικούςορισμούς, κάποιοι από τους οποίους είναι ήδη γνωστοί, απαραίτητους για την ανάπτυξη τηςβασικής θεωρίας.

207

Page 208: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

208

8.2 Βασική Θεωρία

Ορισμός 8.1 Αν A ∈ ICn,n, x ∈ ICn \ 0 και λ ∈ IC πληρούν τη σχέση Ax = λx τότε η λείναι ιδιοτιμή του πίνακα A και το x αντίστοιχο (δεξιό) ιδιοδιάνυσμα. Το διάνυσμα y ∈ ICn\0για το οποίο ισχύει η σχέση yHA = λyH , θα λέγεται αριστερό ιδιοδιάνυσμα.

Είναι ϕανερό ότι για να υπάρξει μή μηδενική λύση x στο σύστημα Ax = λx, θα πρέπει οπίνακας (A−λI) να είναι μή αντιστρέψιμος. Οι ιδιοτιμές λ θα δίνονται ως ρίζες του πολυωνύμουP (λ) = det(A−λI). Το πολυώνυμο αυτό λέγεται χαρακτηριστικό πολυώνυμο και είναι βαθμούακριβώς n. Ακριβώς n το πλήθος θα είναι και οι ιδιοτιμές του A, κάποιες από τις οποίες μπορείνα είναι και πολλαπλές. Είναι προϕανές ότι αν A ∈ ICn,n τότε, γενικά, λ ∈ IC ενώ αν A ∈ IRn,n

τότε οι ιδιοτιμές θα είναι πραγματικές ή ζεύγη συζυγών μιγαδικών αριθμών. Ενώ οι ιδιοτιμέςείναι ακριβώς n το πλήθος, τούτο δεν ισχύει και για τα ιδιοδιανύσματα. Υπάρχουν πίνακες πουδεν έχουν βάση n γραμμικά ανεξάρτητων ιδιοδιανυσμάτων. Αυτό ϕαίνεται από την κανονικήμορϕή Jordan του πίνακα A που έχει δοθεί στο Θεώρημα 3.2. Σε κάθε block Ji της μορϕήςJordan αντιστοιχεί μόνο ένα ιδιοδιάνυσμα, επομένως αν p είναι τα blocks, p θα είναι και ταγραμμικά ανεξάρτητα ιδιοδιανύσματα του A. Πρέπει να παρατηρήσουμε εδώ ότι p θα είναι και ταγραμμικά ανεξάρτητα αριστερά ιδιοδιανύσματα. (Σημείωση: Τα ιδιοδιανύσματα αντιστοιχούνστην πρώτη θέση του κάθε block ενώ τα αριστερά ιδιοδιανύσματα στην τελευταία.) Η εύρεσητης κανονικής μορϕής Jordan θα έλυνε συγχρόνως και το πρόβλημα της εύρεσης των ιδιοτιμώνκαι των ιδιοδιανυσμάτων. Τούτο όμως είναι δαπανηρό από πλευράς τόσο του κόστους όσοκαι της ευστάθειας. Μια άλλη κανονική μορϕή που οϕείλεται σε ορθογώνιο μετασχηματισμόομοιότητας (θα τον λέμε ορθομοναδιαίο, από τη λεξη unitary, στην περίπτωση μιγαδικώνπινάκων), είναι η κανονική μορϕή Schur. Λόγω της χρήσης ορθογώνιων μετασχηματισμών,εξασϕαλίζεται η ευστάθεια σε ικανοποιητικό βαθμό, ενώ όπως θα δούμε παρακάτω ότι έχουνεπινοηθεί αποτελεσματικοί αλγόριθμοι για την υλοποίησή της. Δίνουμε την κανονική μορϕήSchur με το θεώρημα που ακολουθεί.

Θεώρημα 8.1 (Κανονική μορϕή Schur) Δοθέντος ενός πίνακα A ∈ ICn,n, υπάρχει έναςορθομοναδιαίος πίνακας Q ∈ ICn,n και ένας άνω τριγωνικός πίνακας T ∈ ICn,n τ.ω.

QHAQ = T. (8.1)

Προϕανώς οι ιδιοτιμές του A θα είναι τα διαγώνια στοιχεία του T.

Απόδειξη: Η απόδειξη θα γίνει επαγωγικά. Είναι προϕανές ότι η (8.1) ισχύει για 1×1 πίνα-κες. Υποθέτουμε ότι ο ισχυρισμός του θεωρήματος αληθεύει για όλους τους (n−1)× (n−1)πίνακες και θα αποδείξουμε την ισχύ του για τους n× n πίνακες. Εστω A ∈ ICn,n, λ ∈ IC μιαιδιοτιμή του A και u ∈ ICn \ 0 το αντίστοιχο ιδιοδιάνυσμα, κανονικοποιημένο (∥u∥2 = 1).

Page 209: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

209

Συμπληρώνουμε το χώρο θεωρώντας τον πίνακα U ∈ ICn,n−1 με στήλες ορθομοναδιαία διανύ-σματα με το διάνυσμα u και μεταξύ τους. Ετσι ο πίνακας U = [u|U ], είναι ένας τετραγωνικόςορθομοναδιαίος πίνακας. Κατασκευάζουμε το γινόμενο

UHAU =

[uH

UH

]A[u|U ] =

[uHAu uHAU

UHAu UHAU

]=

[λ uHAU

λUHu UHAU

](8.2)

αλλά UHu = 0 επειδή ο πίνακας U κατασκευάστηκε έτσι ώστε να είναι ορθομοναδιαίος. Η(8.2) επομένως γίνεται

UHAU =

[λ uHAU

0 UHAU

]. (8.3)

Συμβολίζουμε με A τον (n − 1) × (n − 1) πίνακα UHAU . Από την υπόθεση της τέλειαςεπαγωγής, υπάρχει ορθομοναδιαίος πίνακας P ∈ ICn−1,n−1 που δίνει την κανονική μορϕή Schur.Συγκεκριμένα,

PHAP = T ⇔ A = PTPH .

Αντικαθιστώντας στην (8.3) έχουμε

UHAU =

[λ uHAU

0 A

]=

[λ uHAU

0 PTPH

]

=

[1 00 P

][λ uHAUP

0 T

] [1 00 PH

]. (8.4)

Είναι προϕανές ότι ο

[1 00 P

]είναι ορθομοναδιαίος n × n πίνακας, καθώς και το γινόμενο

Q = U

[1 00 P

]ως γινόμενο ορθομοναδιαίων πινάκων. Ετσι η (8.4) γίνεται

QHAQ =

[1 00 PH

]UHAU

[1 00 P

]=

[λ uHAUP

0 T

]= T (8.5)

και η απόδειξη ολοκληρώθηκε. Σημειώσεις: α) Πρέπει να παρατηρήσουμε ότι αν ο A είναι Ερμιτιανός πίνακας, τότε

uHAUP = (Au)HUP = λuHUP = 0,

αϕού ο U είναι ορθομοναδιαίος. β) Στην περίπτωση (α), αν ακολουθήσουμε την πορεία τηςαπόδειξης του θεωρήματος προκύπτει ότι ο πίνακας T θα είναι διαγώνιος, οπότε η κανονι-κή μορϕή Schur συμπίπτει με την κανονική μορϕή Jordan. Ετσι αποδείχνεται και η γνωστή

Page 210: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

210

πρόταση: Κάθε Ερμιτιανός πίνακας έχει n γραμμικά ανεξάρτητα ιδιοδιανύσματα που αποτε-λούν ορθομοναδιαία βάση. Στην περίπτωση των πραγματικών συμμετρικών πινάκων, κάθεπραγματικός συμμετρικός πίνακας έχει n γραμμικά ανεξάρτητα ιδιοδιανύσματα που αποτελούνορθογώνια βάση. γ) Από την απόδειξη του θεωρήματος ϕαίνεται ακόμη ότι η κανονική μορϕήSchur δεν είναι μονοσήμαντα ορισμένη, αλλά εξαρτιέται από τη σειρά που λαμβάνονται οι ιδιο-τιμές στο διαγώνιο μέρος του άνω τριγωνικού πίνακα.

Το θεώρημα της κανονικής μορϕής Schur ισχύει για κάθε μιγαδικό. πίνακα. Η υλοποίησήτου επομένως από κάποιον αλγόριθμο, προϋποθέτει αριθμητική μιγαδικών αριθμών. Ακόμηκαι στην περίπτωση πραγματικού πίνακα, εκ πρώτης όψεως, ϕαίνεται ότι δεν μπορούμε νααποϕύγουμε την αριθμητική μιγαδικών αριθμών, επειδή κάποιες ιδιοτιμές μπορεί να είναι ζεύγησυζυγών μιγαδικών αριθμών και τα αντίστοιχα ιδιοδιανύσματα συζυγή μιγαδικά. Μπορούμεόμως να εξειδικεύσουμε την κανονική μορϕή Schur για πραγματικούς πίνακες, παραλλάσσοντάςτην ώστε να απαιτείται αριθμητική πραγματικών αριθμών μόνο. Την πραγματική αυτή κανονικήμορϕή Schur δίνουμε με το ακόλουθο θεώρημα.

Θεώρημα 8.2 (Πραγματική κανονική μορϕή Schur) Δοθέντος ενός πίνακα A ∈ IRn,n, υ-πάρχει πραγματικός ορθογώνιος πίνακας Q ∈ IRn,n και πραγματικός “σχεδόν” άνω τριγωνικόςπίνακας T ∈ IRn,n τ.ω. QTAQ = T. Το “σχεδόν” άνω τριγωνικός σημαίνει ότι ο T θαείναι block άνω τριγωνικός με διαγώνια blocks 1 × 1, που θα αντιστοιχούν στις πραγματικέςιδιοτιμές ή 2× 2, που θα αντιστοιχούν σε ζεύγη μιγαδικών ιδιοτιμών.

Απόδειξη: Αν θεωρήσουμε ότι η ιδιοτιμή λ είναι πραγματική, τότε ακολουθούμε την ίδιαακριβώς πορεία απόδειξης όπως στο προηγούμενο θεώρημα με τέλεια επαγωγή. Εστω όμωςότι η λ είναι μια μιγαδική ιδιοτιμή του A με αντίστοιχο (μιγαδικό) ιδιοδιάνυσμα u. Τότε καιη λ θα είναι ιδιοτιμή του A με αντίστοιχο (μιγαδικό) ιδιοδιάνυσμα u. Τα συζυγή αυτά μιγαδι-κά ιδιοδιανύσματα παράγουν ένα διδιάστατο υπόχωρο αποτελούμενο από όλα τα διανύσματα,γραμμικούς συνδυασμούς των u και u, το spanu, u. Θεωρούμε τώρα τα διανύσματα uR, τοπραγματικό μέρος του u, και uI , το ϕανταστικό μέρος του u. Είναι προϕανές ότι τα διανύσματααυτά παράγουν τον ίδιο υπόχωρο (spanuR, uI = spanu, u). Εστω ότι P = [uR | uI ] καιP = QR, η QR παραγοντοποίηση του P (P,Q ∈ IRn,2, R ∈ IR2,2). Τα διανύσματα στήλεςτου P θα είναι γραμμικοί συνδυασμοί των στηλών του Q. Ο 2× 2 πίνακας R αποτελείται απότους συντελεστές των γραμμικών συνδυασμών των στηλών του P ως προς τις στήλες του Q.Επομένως

spanQ = spanP = spanu, u. (8.6)

Από την (8.6) προκύπτει ότι οι στήλες του Q αποτελούν γραμμικούς συνδυασμούς των u καιu. Οι στήλες τότε του AQ θα είναι γραμμικοί συνδυασμοί των Au και Au και άρα των u καιu, αϕού αυτά είναι ιδιοδιανύσματα του A. Αυτό σημαίνει ότι

spanAQ = spanu, u = spanQ,

Page 211: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

211

που οδηγεί στο συμπέρασμα ότι θα υπάρχει ένας πίνακας B ∈ IR2,2 τ.ω.

AQ = QB.

Ας σημειωθεί ότι ο πίνακας B αποτελείται από τους συντελεστές των γραμμικών συνδυασμώνπου δίνουν τις στήλες του AQ σα συναρτήσεις των στηλών του Q. Θεωρούμε τον πίνακαQ ∈ IRn,n−2, που συμπληρώνει τον ορθογώνιο πίνακα Q, στον τετραγωνικό ορθογώνιο πίνακαU . Ακολουθούμε τώρα αντίστοιχη πορεία με την απόδειξη του προηγουμένου θεωρήματος μετη μέθοδο της τέλειας επαγωγής. Εστω ότι ο ισχυρισμός του θεωρήματος αληθεύει για 2× 2πίνακες. Υποθέτουμε ότι αληθεύει για (n− 2)× (n− 2) και θα αποδείξουμε την ισχύ του γιαn× n πραγματικούς πίνακες. Θεωρούμε το γινόμενο

UTAU =

[QT

QH

]A[Q|Q] =

[QTAQ QTAQ

QTAQ QTAQ

]=

[B QTAQ

0 QTAQ

], (8.7)

αϕού QTAQ = QTQB = B και QTAQ = QTQB = 0. Ακολουθεί στη συνέχεια η ίδιαακριβώς επαγωγική διαδικασία του προηγούμενου θεωρήματος, και η απόδειξη ολοκληρώνεται.Στην περίπτωση που έχει επιτευχτεί η εύρεση της κανονικής μορϕής Schur, απομένει

η εύρεση των ιδιοδιανυσμάτων που αντιστοιχούν στην κάθε μια ιδιοτιμή. Αν y(i) είναι τοιδιοδιάνυσμα του πίνακα T που αντιστοιχεί στην ιδιοτιμή λi, τότε το ιδιοδιάνυσμα του A θαείναι

x(i) = Qy(i).

Το y(i) βρίσκεται από τη λύση του συστήματος (λiIn − T )y(i) = 0 ως εξής. Αν η ιδιοτιμή λi

βρίσκεται στην i-οστή στη σειρά θέση της διαγωνίου του T , τότε το προς λύση σύστημα, σεblock μορϕή, θα είναι λiIi−1 − T11 t2 T13

0 tT3λiIn−i − T33

y

(i)1

y(i)2

y(i)3

= 0, (8.8)

όπου έγινε ένας block διαχωρισμός του T της i-οστής γραμμής και i-οστής στήλης. Είναιϕανερό, αν υποθέσουμε ότι η λi είναι απλή ιδιοτιμή (εύκολα γενικεύεται όταν είναι πολλαπλή),ότι οι πίνακες λiIi−1 − T11 και λiIn−i − T33 είναι αντιστρέψιμοι. Ακολουθώντας τη διαδικασίατης επίλυσης του συστήματος με προς τα πίσω αντικατάσταση έχουμε y(i)3 = 0, το σύστημααληθεύει για οποιαδήποτε τιμή του y

(i)2 οπότε θέτοντας, π.χ. y

(i)2 = 1, το y

(i)1 βρίσκεται με

προς τα πίσω αντικατάσταση από το σύστημα (λiIi−1 − T11)y(i)1 = −t2.

Page 212: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

212

Αρχικά οι ερευνητές, για τον υπολογισμό των ιδιοτιμών και των αντίστοιχων ιδιοδιανυ-σμάτων, έθεσαν ως στόχο την εύρεση του χαρακτηριστικού πολυωνύμου Pn του πίνακα A,η εύρεση των ριζών του οποίου δίνει συγχρόνως και τις ιδιοτιμές του A. Η μέθοδος Krylovείναι μια τέτοια μέθοδος. Βασίζεται στην ακολουθία διανυσμάτων x(0), x(1) = Ax(0), x(2) =Ax(1) = A2x(0), · · · , x(n−1) = Ax(n−2) = · · · = An−1x(0), που ορίζει έναν υπόχωρο Krylov μεx(0) ∈ IRn \ 0 αυθαίρετο αρχικό διάνυσμα. Θεωρούμε τον πίνακα K ∈ IRn,n ως τον πίνακααποτελούμενο από τα πρώτα n διανύσματα που ορίζουν τον υπόχωρο Krylov

K =[x(0) x(1) x(2) · · · x(n−1)

].

Θεωρούμε στη συνέχεια το γινόμενο

AK =[Ax(0) Ax(1) Ax(2) · · · Ax(n−1)

]=[x(1) x(2) · · · x(n−1) Anx(0)

].

Παρατηρούμε ότι ο πίνακας AK προέκυψε από τον K με μετατόπιση όλων των στηλών τουκατά μία θέση αριστερά, με εξαϕάνιση του x(0) από την πρώτη θέση και εμϕάνιση του Anx(0)

στην τελευταία, που είναι ο επόμενος όρος της ακολουθίας Krylov. Αυτό, σε μορϕή πινάκων,σημαίνει ότι

AK = K[e2 e3 · · · en −a

]= KF,

όπου ei, i = 2(1)n, είναι η i-οστή στήλη του μοναδιαίου πίνακα και a = [a0 a1 a2 · · · an−1]T =

−K−1Anx(0). Ετσι κατασκευάστηκε ο πίνακας

F = K−1AK =

0 0 · · · 0 −a01 0 · · · 0 −a1

0 1. . .

......

....... . . 0 −an−2

0 0 · · · 1 −an−1

.

Ο πίνακας αυτός είναι γνωστός ως ο “συνοδεύων” πίνακας Frobenius και είναι όμοιος προςτον A. Επομένως έχει το ίδιο χαρακτηριστικό πολυώνυμο και εύκολα αποδείχνεται ότι αυτόείναι το

Pn(x) = xn + an−1xn−1 + an−2x

n−2 + · · ·+ a1x+ a0.

Ο αλγόριθμος επομένως για την εύρεση του Pn συνίσταται στην εύρεση του πίνακα K, στηνεύρεση του επόμενου όρου x(n) = Ax(n−1) = Anx(0) και στη συνέχεια στη λύση του συστή-ματος

Ka = −x(n). (8.9)

Ο αλγόριθμος αυτός δεν είναι αποτελεσματικός ούτε από την άποψη του κόστους ούτε απόαυτήν της ευστάθειας. Το κόστος αϕορά σε n πολλαπλασιασμούς πίνακα επί διάνυσμα καιστη λύση ενός συστήματος. Επιπλέον επιβαρύνεται και με το κόστος της εύρεσης των ριζών

Page 213: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

213

του Pn, που αποτελεί ένα εντελώς διαϕορετικό πρόβλημα. Αν το Pn δεν είναι κάποιας συγκε-κριμένης μορϕής, τότε το πρόβλημα αυτό είναι αρκετά πελύπλοκο με μεγάλο κόστος.Οσον αϕορά στην ευστάθεια, το πρόβλημα της επίλυσης του συστήματος (8.9) δεν έχει καλήκατάσταση (ill-conditioned). Αυτό οϕείλεται στο γεγονός ότι η ακολουθία των διανυσμάτωνπου ορίζουν τον υπόχωρο Krylov, όπως θα δούμε παρακάτω στη μέθοδο δυνάμεων, τείνει σεένα ιδιοδιάνυσμα. Ετσι, όσο προχωρούμε προς τα δεξιά, οι στήλες του πίνακα K τείνουν ναγίνουν παράλληλες.

Δε συνιστάται επομένως η μέθοδος αυτή, εκτός από προβλήματα με πολύ μικρή διάσταση.Στην περίπτωση των μεγάλων αραιών πινάκων, δε συνιστάται για έναν ακόμη λόγο. Διότι οπίνακας K γίνεται πυκνός.

Για τους παραπάνω λόγους η έρευνα στράϕηκε προς την κατεύθυνση του υπολογισμού τωνιδιοτιμών και ιδιοδιανυσμάτων, απευθείας με τεχνικές της Γραμμικής Αλγεβρας, που οδήγησεσε μια σειρά από επαναληπτικές κυρίως μεθόδους. Η μέθοδος Krylov θεωρείται ως άμεσημέθοδος, αϕού υποτίθεται ότι υπολογίζει τις ακριβείς τιμές των ιδιοτιμών αν εϕαρμοστεί μεακριβή αριθμητική.

Σε κάποιες μεθόδους απαιτείται ο εντοπισμός των ιδιοτιμών οι οποίες βρίσκονται σε κάποιοχωρίο του μιγαδικού επιπέδου. Ενας τέτοιος εντοπισμός δίνεται από τη γνωστή σχέση ρ(A) ≤∥A∥ για κάθε ϕυσική norm. Αν επομένως γνωρίζουμε μία norm του A έχουμε ως συμπέρασμαότι όλες οι ιδιοτιμές ανήκουν στο δίσκο του μιγαδικού επιπέδου που ορίζεται ως z ∈ IC :|z| ≤ ∥A∥. Ο εντοπισμός αυτός είναι αρκετά χοντρικός ένας πιο εκλεπτισμένος δίνεται απότο ακόλουθο Θεώρημα του Gerschgorin.

Θεώρημα 8.3 (Gerschgorin) Αν A ∈ ICn,n, τότε οι ιδιοτιμές του λi, i = 1(1)n, ανήκουνστην ένωση των δίσκων του μιγαδικού επιπέδου

n∪i=1

z ∈ IC : |z − aii| ≤n∑

j=1,j =i

|aij|. (8.10)

Απόδειξη: Εστω λ ∈ IC ιδιοτιμή του A και x το αντίστοιχο ιδιοδιάνυσμα, κανονικοποιημένο ωςπρος τη ∥ · ∥∞ (∥x∥∞ = 1). Εστω επίσης ότι |xi| = ∥x∥∞ = 1, τότε η σχέση Ax = λx δίνει

n∑j=1

aijxj = λxi ⇔ (λ− aii)xi =n∑

j=1,j =i

aijxj

⇒ |λ− aii||xi| = |n∑

j=1,j =i

aijxj| ≤n∑

j=1,j =i

|aij||xj| (8.11)

⇒ |λ− aii| ≤n∑

j=1,j =i

|aij|.

Page 214: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

214

Η τελευταία σχέση θα ισχύει για όλες τις ιδιοτιμές του A, επομένως αυτές θα ανήκουν στηνένωση των δίσκων (8.10).

Σημειώνεται ότι, επειδή οι ιδιοτιμές του A είναι και ιδιοτιμές του AT , το Θεώρημα τουGerschgorin ισχύει και για τον AT . Επομένως οι ιδιοτιμές του θα ανήκουν και στην ένωσητων δίσκων

n∪i=1

z ∈ IC : |z − aii| ≤n∑

j=1,j =i

|aji|.

Μετά τη βασική θεωρία και τις εισαγωγικές παρατηρήσεις, που προηγήθηκαν, είμαστεσε θέση να προχωρήσουμε στη μελέτη επαναληπτικών μεθόδων για την αριθμητική εύρεσηιδιοτιμών και ιδιοδιανυσμάτων, ξεκινώντας από την πιο απλή και βασική, τη μέθοδο δυνάμεων.

8.3 Μέθοδος Δυνάμεων

Η μέθοδος δυνάμεων είναι μία από τις πιο απλές επαναληπτικές μεθόδους και χρησιμεύει γιατον υπολογισμό μιας μόνο ιδιοτιμής, της απόλυτα μεγαλύτερης.Υποθέτουμε ότι A ∈ IRn,n, και ότι οι ιδιοτιμές του λi, i = 1(1)n, ικανοποιούν τις σχέσεις

|λ1| > |λ2| ≥ |λ3| ≥ · · · ≥ |λn|,

δηλαδή ότι η απόλυτα μεγαλύτερη ιδιοτιμή είναι απλή, πραγματική και ότι υπάρχει βάση nγραμμικά ανεξάρτητων αντίστοιχων ιδιοδιανυσμάτων xi, i = 1(1)n. Θεωρούμε επίσης μια normκαι επιλέγουμε ένα αρχικό διάνυσμα x(0) ∈ IRn \ 0 κανονικοποιημένο ώστε ∥x(0)∥ = 1. Στησυνέχεια κατασκευάζουμε την κανονικοποιημένη ακολουθία x(k) ∈ IRn \ 0, k = 1, 2, 3, · · · ,των δυνάμεων του A επί το διάνυσμα x(0)

x(k) =Akx(0)

∥Akx(0)∥. (8.12)

Αποδείχνεται ότι η ακολουθία αυτή είτε έχει όριο το ιδιοδιάνυσμα x1, που αντιστοιχεί στηναπόλυτα μεγαλύτερη ιδιοτιμή λ1, είτε υπάρχουν δυο υποακολουθίες της που συγκλίνουν στουπόψη ιδιοδιάνυσμα. Για το σκοπό αυτό θεωρούμε το μονοσήμαντα ορισμένο γραμμικό συν-δυασμό του x(0) σα συνάρτηση των ιδιοδιανυσμάτων του πίνακα A. Θα έχουμε

x(0) =n∑

i=1

cixi, ci ∈ IC, i = 1(1)n, µϵ c1 = 0. (8.13)

Page 215: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

215

Σημειώσεις: α) Προϕανώς σε πραγματικές ιδιοτιμές του A αντιστοιχούν πραγματικά ιδιονύσμα-τα. β) Αν υπάρχει ζεύγος συζυγών μιγαδικών ιδιοτιμών τότε και τα αντίστοιχα ιδιοδιανύσματαείναι συζυγή μιγαδικά. γ) Στην τελευταία περίπτωση και οι αντίστοιχοι συντελεστές στο γραμ-μικό συνδυσμό (8.13) είναι συζυγείς μιγαδικοί αριθμοί. και δ) Η οποιαδήποτε περίπτωση δενεπηρεάζει τις αποδείξεις που δίνονται στη συνέχεια.

Με βάση τα παραπάνω η (8.12) γίνεται

x(k) = Akx(0)

∥Akx(0)∥ =∑n

i=1 ciAkxi

∥∑n

i=1 ciAkxi∥

=∑n

i=1 ciλki xi

∥∑n

i=1 ciλki xi∥

=λk1

|λ1|k ·∑n

i=1 ci

(λiλ1

)kxi

∥∑n

i=1 ci

(λiλ1

)kxi∥

=λk1

|λ1|k ·c1x1+

∑ni=2 ci

(λiλ1

)kxi

∥c1x1+∑n

i=2 ci

(λiλ1

)kxi∥

.

(8.14)

Αν λ1 > 0 τότε θα είναι λk1

|λ1|k = 1 και άρα

limk→∞ x(k) = limk→∞c1x1+

∑ni=2 ci

(λiλ1

)kxi

∥c1x1+∑n

i=2 ci

(λiλ1

)kxi∥

=c1x1+

∑ni=2 ci limk→∞

(λiλ1

)kxi

∥c1x1+∑n

i=2 ci limk→∞

(λiλ1

)kxi∥

= c1x1

∥c1x1∥ = sign(c1) · x1

∥x1∥ .

(8.15)

Επειδή το ιδιοδιάνυσμα x1 είναι ανεξάρτητο διαϕορετικού από το μηδέν σταθερού παράγοντα,έχουμε ότι η ακολουθία x(k) συγκλίνει στο ιδιοδιάνυσμα x1. Αϕού η x(k) συγκλίνει στο x1, ηιδιοτιμή λ1 θα είναι το όριο του πηλίκου Rayleigh

λ1 = limk→∞

x(k)TAx(k)

x(k)Tx(k).

Πράγματι,

limk→∞

x(k)TAx(k)

x(k)Tx(k)=

limk→∞ x(k)TA limk→∞ x(k)

limk→∞ x(k)T limk→∞ x(k)=

xT1Ax1

xT1 x1

= λ1.

Αν λ < 0, τότε θεωρούμε τις δυο υποακολουθίες του x(k) στην (8.14) για k περιττό και kάρτιο, οπότε θα έχουμε τα εξής:

Για k = 2l − 1, l = 1, 2, 3, · · · , στην τελευταία των (8.14) θα είναι λ2l−11

|λ1|2l−1 = −1, και άρα η(8.15) θα δίνει τελικά

liml→∞

x(2l−1) = −sign(c1) ·x1

∥x1∥. (8.16)

Page 216: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

216

Για k = 2l, l = 1, 2, 3, · · · , έχουμε αντίστοιχα λ2l−11

|λ1|2l−1 = 1, οπότε η (8.15) θα δίνει

liml→∞

x(2l) = sign(c1) ·x1

∥x1∥. (8.17)

Στην οποιαδήποτε εξετασθείσα περίπτωση η ακολουθία x(k), με την έννοια που επεξηγή-θηκε αναλυτικά, θα συγκλίνει στο ιδιοδιάνυμα x1.

Τονίζεται ότι εϕεξής η σύγκλιση στο ιδιοδιάνυσμα x1, και στην αντίστοιχη απόλυτα μεγα-λύτερη μοναδική ιδιοτιμή λ1, του πραγματικού πίνακα A θα θεωρείται με την παραπάνω έννοιακαι δε θα εξετάζονται εκ νέου επιμέρους περιπτώσεις.

Ο αλγόριθμος, επομένως, της μεθόδου δυνάμεων παράγει επαναληπτικά την ακολουθίαx(k), k = 1, 2, · · · , και θεωρεί, στην k επανάληψη, το διάνυσμα x(k) ως την προσέγγιση του

x1 και το πηλίκο Rayleigh λ(k)1 = x(k)T Ax(k)

x(k)T x(k)ως την προσέγγιση της ιδιοτιμής λ1.

Στην πράξη, δεν υπολογίζεται το γινόμενο Akx(0) για μεγάλο k και μετά να γίνει η κανο-νικοποίηση. Αν γινόταν αυτό θα ήταν επικίνδυνο, αν λ1 > 1, να αυξηθούν τα μέτρα τωνσυνιστωσών των διανυσμάτων, ώστε να βρεθούν έξω από τη χωρητικότητα της μνήμης τουΥπολογιστή (overflow) ή αν λ1 < 1, να μηδενιστεί η ακολουθία διανυσμάτων (underflow).Εκείνο που γίνεται είναι να κανονικοποιείται σε κάθε βήμα το διάνυσμα

y(k) = Ax(k−1),

που θα παράγει την ίδια ακολουθία x(k). Πραγματικά, η απόδειξη γίνεται εύκολα με τη μέθοδοτης τέλειας επαγωγής. Ο ισχυρισμός αληθεύει για k = 1 αϕού

y(1)

∥y(1)∥=

Ax(0)

∥Ax(0)∥= x(1).

Υποθέτουμε ότι αληθεύει για k = m, δηλαδή

y(m)

∥y(m)∥= x(m) =

Amx(0)

∥Amx(0)∥

και αποδείχνουμε στη συνέχεια την αλήθεια του για k = m+ 1

y(m+1)

∥y(m+1)∥=

Ax(m)

∥Ax(m)∥=

A Amx(0)

∥Amx(0)∥

∥A Amx(0)

∥Amx(0)∥∥=

Am+1x(0)

∥Am+1x(0)∥= x(m+1).

Στη συνέχεια δίνουμε τον αλγόριθμο της μεθόδου δυνάμεων. Ως norm επιλέγουμε την Ευ-κλείδεια norm, όπου το πηλίκο Rayleigh γίνεται x(k)TAx(k), αϕού x(k)Tx(k) = 1.

Page 217: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

217

Αλγόριθμος Μεθόδου Δυνάμεων:

Δεδομένα: A ∈ IRn,n.Επιλογή x(0) ∈ IRn , ώστε ∥x(0)∥2 = 1Για k = 1 έως ότου υπάρξει σύγκλιση

y(k) = Ax(k−1)

λ(k−1) = x(k−1)T y(k)

x(k) = y(k)

∥y(k)∥2Τέλος ‘Για’Αποτέλεσμα: λ(k−1) είναι η προσέγγιση της λ1 και x(k) η προσέγγιση του x1.

Παρατηρούμε ότι το κόστος του αλγορίθμου, ανά επανάληψη, είναι ένας πολλαπλασιασμόςπίνακα επί διάνυσμα, ο υπολογισμός ενός εσωτερικού γινομένου, ο υπολογισμός της norm δια-νύσματος και η διαίρεση διανύσματος δια αριθμού. Ο πολλαπλασιασμός πίνακα επί διάνυσμαχαρακτηρίζει το κόστος που είναι O(n2). Αν m είναι το πλήθος των επαναλήψεων, τότε τοσυνολικό κόστος ανέρχεται σε O(mn2). Ως κριτήριο τερματισμού των επαναλήψεων λαμβά-

νεται η προσέγγιση του σχετικού απόλυτου σϕάλματος της ιδιοτιμής: |λ(k−1)−λ(k)||λ(k)| ≤ ϵ, ή η

προσέγγιση του απόλυτου σϕάλματος του ιδιοδιανύσματος ∥x(k) − x(k+1)∥ ≤ ϵ, όπου ϵ είναι“μικρός” αριθμός επιλεγόμενος από το χρήστη. Το πρώτο κριτήριο προτιμάται ως το λιγότεροδαπανηρό. Το δεύτερο κριτήριο είναι συγχρόνως απόλυτο και σχετικό απόλυτο σϕάλμα αϕούτα ιδιοδιανύσματα λαμβάνονται κανονικοποιημένα.Σ΄ ό,τι αϕορά την ταχύτητα σύγκλισης της μεθόδου έχουμε, από τις διαδοχικές ισότητες στις

σχέσεις (8.15), ότι το σϕάλμα αποκοπής οϕείλεται στο άθροισμα∑n

j=2 ci

(λi

λ1

)kxi. Ο μεγα-

λύτερος απόλυτα όρος του αθροίσματος, από κάποιο k και πέρα, θα είναι ο c2(

λ2

λ1

)kx2. Αυτός

είναι και ο όρος που χαρακτηρίζει την τάξη σύγκλισης. Μπορούμε επομένως να πούμε ότι το

σϕάλμα είναι της τάξης O(|λ2

λ1|k). Η σύγκλιση θα είναι ταχύτερη όταν το κλάσμα |λ2

λ1| είναι

όσο το δυνατόν μικρότερο.

Στη συνέχεια δίνουμε μια σειρά από παρατηρήσεις για τη συμπεριϕορά της μεθόδου δυνά-μεων σε ορισμένες ειδικές περιπτώσεις.

i) Στο γραμμικό συνδυασμό (8.13) υποθέτουμε ότι c1 = 0. Το διάνυσμα όμως x(0) το επιλέ-γουμε αυθαίρετα χωρίς να γνωρίζουμε το ιδιοδιάνυσμα x1, επομένως δε γνωρίζουμε αν το x1

υπεισέρχεται στο γραμμικό συνδυασμό. Στην περίπτωση οπου το x(0) δίνεται ως γραμμικόςσυνδυασμός άλλων ιδιοδιανυσμάτων εκτός του x1, δηλαδή c1 = 0, τότε η θεωρία που ανα-πτύχθηκε για τη μέθοδο δυνάμεων, ισχύει για το υποσύνολο των ιδιοτιμών των οποίων τααντίστοιχα ιδιοδιανύσματα υπεισέρχονται στο γραμμικό συνδυασμό. Δηλαδή η μέθοδος προ-

Page 218: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

218

σεγγίζει την απόλυτα μεγαλύτερη ιδιοτιμή του υποσυνόλου, εϕόσον αυτή είναι απλή και δενυπάρχει άλλη με το ίδιο μέτρο. Στην πράξη όμως συμβαίνει κάτι άλλο. Ενώ στο ανάπτυγματου x(0) δεν υπάρχει το x1, κατά τη διαδικασία εϕαρμογής της μεθόδου δημιουργούνται σϕάλ-ματα στρογγύλευσης από τον Υπολογιστή, με συνέπεια να θεωρείται μια προσέγγιση x(0)∗

ως αρχικό διάνυσμα, στο ανάπτυγμα του οποίου υπεισέρχεται το x1 με πολύ μικρό απόλυτασυντελεστή c∗1 = 0. Με την έναρξη των επαναλήψεων η μέθοδος κατευθύνει τη σύγκλισηπρος την απόλυτα μεγαλύτερη ιδιοτιμή του υποσυνόλου. Από κάποια επανάληψη όμως και

μετά ο όρος c∗1x1 θα υπερισχύσει του c2(

λ2

λ1

)kx2, αϕού |λ1| > |λ2|. Τότε δημιουργείται μία

“αναταραχή” στη μέθοδο η οποία αλλάζει την κατεύθυνση της σύγκλισης και συγκλίνει στηλ1 και στο ιδιοδιάνυσμα x1.ii) Στην περίπτωση όπου η λ1 είναι πολλαπλότητας n1 > 1 και υπάρχουν n1 γραμμικά ανεξάρ-τητα ιδιοδιανύσματα που αντιστοιχούν σ΄ αυτήν, τότε ο γραμμικός συνδυασμός (8.13) γράϕεταιως

x(0) =

n1∑i=1

cixi +n∑

i=n1+1

cixi, αi, ci ∈ IR,

n1∑i=1

c2i > 0,

όπου xi, i = 1(1)n1, είναι τα ιδιοδιανύσματα της λ1. Το διάνυσμα όμως x =∑n1

i=1 αixi

θεωρείται ως ιδιοδιάνυσμα του A αντίστοιχο της λ1. Τότε, η όλη αναπτυχθείσα θεωρία ισχύεικαι η μέθοδος των δυνάμεων θα συγκλίνει στην πολλαπλή ιδιοτιμή λ1 και στο ιδιοδιάνυσμα x.iii) Στην περίπτωση όπου η λ1 είναι πολλαπλότητας n1 > 1 αλλά δεν υπάρχουν n1 γραμμικάανεξάρτητα ιδιοδιανύσματα που να αντιστοιχούν σ΄ αυτήν, τότε η παραπάνω θεωρία δεν ισχύει.Μια παραπλήσια θεωρία αναπτύσσεται κάνοντας ευρεία χρήση της κανονικής μορϕής Jordanκαι των δυνάμεων αυτής. Η θεωρία αυτή αποδείχνει ότι και τότε η μέθοδος συγκλίνει στηνιδιοτιμή λ1 και στο ιδιοδιάνυσμα που αντιστοιχεί στο μεγαλύτερης τάξης block της λ1 στηνκανονική μορϕή Jordan. Η σύγκλιση όμως είναι βραδεία και το σϕάλμα αποκοπής είναι O

(1k

)αντί O

(|λ2

λ1|k), που είναι στην ομαλή περίπτωση.

iv) Οταν η λ1 αντιστοιχεί σε ζεύγος συζυγών μιγαδικών ιδιοτιμών ή σε ζεύγος αντίθετωνιδιοτιμών, η μέθοδος δυνάμεων δε συγκλίνει.v) Από τον αλγόριθμο της μεθόδου παρατηρούμε ότι αϕού το διάνυσμα x(k−1) τείνει προς τοx1, τότε και τό y(k) = Ax(k−1) θα τείνει προς το λ1x

(k−1). Επομένως η ιδιοτιμή λ1 μπορεί

να προσεγγιστεί και από το πηλίκο των συνιστωσών y(k)i

x(k−1)i

, αρκεί x(k−1)i = 0. Αυτό εϕαρμό-

ζεται κυρίως όταν χρησιμοποιούμε ως norm τη ∥ · ∥∞. Η προσέγγιση της λ1 τότε θα είναι

η λ(k−1) =y(k)i

x(k−1)i

, όπου i θα είναι η συνιστώσα που αντιστοιχεί στη μέγιστη απόλυτα τιμή,

δηλαδή το x(k−1)i θα είναι 1 ή −1. Μπορούμε επομένως να διατυπώσουμε παραλλαγμένα τον

αλγόριθμο χρησιμοποιώντας τη ∥ · ∥∞ ως εξής:

Page 219: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

219

Αλγόριθμος Μεθόδου Δυνάμεων με ∥ · ∥∞ :

Δεδομένα: A ∈ IRn,n.Επιλογή x(0) ∈ IRn , ώστε ∥x(0)∥∞ = 1

Αποθήκευση της συνιστώσας i για την οποία |x(0)i | = 1

Για k = 1 έως ότου υπάρξει σύγκλισηy(k) = Ax(k−1)

λ(k−1) =y(k)i

x(k−1)i

Υπολογισμός της ∥y(k)∥∞Αποθήκευση της συνιστώσας i για την οποία |y(k)i | = ∥y(k)∥∞x(k) = y(k)

∥y(k)∥∞Τέλος ‘Για’Αποτέλεσμα: λ(k−1) είναι η προσέγγιση της λ1 και x(k) η προσέγγιση του x1.

vi) Οταν θέλουμε να υπολογίσουμε τη μικρότερη ή τη μεγαλύτερη ιδιοτιμή του πίνακα A εϕαρ-μόζουμε τη μέθοδο δυνάμεων στον πίνακα A+∥A∥I ή στον πίνακα A−∥A∥I, αντίστοιχα, γιαοποιαδήποτε norm. Οι ιδιοτιμές των πινάκων αυτών θα είναι λi+ ∥A∥ ή λi−∥A∥ αντίστοιχα.Επειδή |λi| ≤ ∥A∥, i = 1(1)n, θα έχουμε λi + ∥A∥ ≥ 0 ενώ λi − ∥A∥ ≤ 0. Στην πρώτηπερίπτωση η μέθοδος δυνάμεων υπολογίζει τη μεγαλύτερη των λi + ∥A∥ ενώ στη δεύτερη,την μικρότερη των λi − ∥A∥. Τελικά αν αϕαιρέσουμε ή προσθέσουμε αντίστοιχα τη ∥A∥ θαέχουμε υπολογίσει τη μεγαλύτερη ή τη μικρότερη ιδιοτιμή.

Παράδειγμα: Δίνουμε εδώ ένα παράδειγμα εϕαρμογής του αλγόριθμου για την προ-σέγγιση της απόλυτα μεγαλύτερης ιδιοτιμής και του αντίστοιχου ιδιοδιανύσματος, του πίνακα 1 1 0

1 0 10 1 1

, ξεκινώντας με x(0) = [0 1 0]T , κάνοντας τρείς επαναλήψεις και διατηρώντας τρία

δεκαδικά ψηϕία στους υπολογισμούς.

x(0) =

010

, y(1) = Ax(0) =

101

, λ(0) = x(0)T y(1) = 0, ∥y(1)∥2 =√2 = 1.414

x(1) =

0.7070

0.707

, y(2) = Ax(1) =

0.7071.4140.707

, λ(1) = x(1)T y(2) = 1, ∥y(2)∥2 =√3 = 1.732

x(2) =

0.4080.8160.408

, y(3) = Ax(2) =

1.2240.8161.224

, λ(2) = x(2)T y(3) = 1.665, ∥y(3)∥2 = 1.914

Page 220: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

220

x(3) = [0.639 0.426 0.639]T .

Ας σημειωθεί ότι η απόλυτα μεγαλύτερη ιδιοτιμή είναι η λ1 = 2 με αντίστοιχο ιδιοδιάνυσμα το

[1 1 1]T , όπου και θα συγκλίνει ο αλγόριθμος αν συνεχιστεί η εϕαρμογή του.

Στη συνέχεια παρουσιάζουμε μια παραλλαγή της μεθόδου δυνάμεων, με την οποία έχουμετη δυνατότητα να υπολογίζουμε και άλλες ιδιοτιμές εκτός από την απόλυτα μεγαλύτερη, τημέθοδο των αντίστροϕων δυνάμεων.

8.3.1 Μέθοδος Αντίστροϕων Δυνάμεων ή Αντίστροϕης Ε-πανάληψης

Με την προϋπόθεση ότι ο πίνακας A είναι αντιστρέψιμος, η μέθοδος των αντίστροϕων δυνά-μεων βασίζεται στο γεγονός ότι οι ιδιοτιμές του A−1 είναι οι αντίστροϕες των ιδιοτιμών τουA. Ετσι, η εϕαρμογή της μεθόδου δυνάμεων στον πίνακα A−1 οδηγεί στον υπολογισμό τηςαπόλυτα μεγαλύτερης ιδιοτιμής του A−1, το αντίστροϕο της οποίας είναι η απόλυτα μικρότερηιδιοτιμή του A. Η μέθοδος αυτή υπολογίζει ουσιαστικά την πλησιέστερη προς το μηδέν ιδιο-τιμή και το αντίστοιχο ιδιοδιάνυσμα. Εκμεταλλευόμενοι και το γεγονός ότι μία μετατόπισηενός πίνακα κατά σI δίνει μετατόπιση σ σε όλες τις ιδιοτιμές, δηλαδή αν λi, i = 1(1)n, είναιιδιοτιμές του A τότε λi−σ θα είναι ιδιοτιμές του A−σI, μπορούμε να εϕαρμόσουμε τη μέθοδοδυνάμεων στον πίνακα (A − σI)−1 για να υπολογίσουμε την πλησιέστερη ιδιοτιμή προς τονπραγματικό αριθμό σ. Η μέθοδος αυτή μπορεί να οδηγήσει και στον υπολογισμό όλων τωνιδιοτιμών του πίνακα A, αρκεί να επιλεγούν μεθοδικά διαϕορετικά σi μέσα στο ϕάσμα τωνιδιοτιμών του A και να εϕαρμόζεται κάθε ϕορά ο αλγόριθμος των αντίστροϕων δυνάμεων.Θα έλεγε κανείς ότι δε χρειάζεται να δοθεί ξεχωριστός αλγόριθμος αλλά να χρησιμοποιηθείο αλγόριθμος της μεθόδου δυνάμεων, όπου στη θέση του A θα τεθεί ο (A − σI)−1. Ομως,επειδή στην πράξη αποϕεύγεται ο υπολογισμός του αντίστροϕου πίνακα ως ασύμϕορος καιλύνεται ένα γραμμικό σύστημα με πίνακα τον A− σI, ο αντίστοιχος αλγόριθμος θα είναι:

Αλγόριθμος Μεθόδου Αντίστροϕων Δυνάμεων:

Δεδομένα: A ∈ IRn,n, αντιστρέψιμος, σ ∈ IR.Επιλογή x(0) ∈ IRn , ώστε ∥x(0)∥2 = 1Για k = 1 έως ότου υπάρξει σύγκλιση

Λύση του συστήματος (A− σI)y(k) = x(k−1)

λ(k−1) = x(k−1)T y(k)

µ(k−1) = 1λ(k−1) + σ

Page 221: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

221

x(k) = y(k)

∥y(k)∥2Τέλος ‘Για’Αποτέλεσμα: µ(k−1) είναι η προσέγγιση της πλησιέστερης προς το σ ιδιοτιμής καιx(k) η προσέγγιση του αντίστοιχου ιδιοδιανύσματος.

Το κόστος του αλγόριθμου χαρακτηρίζεται από το κόστος λύσης συστήματος. Πρέπει ναπαρατηρήσουμε εδώ ότι οποιαδήποτε από τις μεθόδους που αναπτύχθηκαν σε προηγούμενα κε-ϕάλαια, για την επίλύση συστημάτων, μπορεί να εϕαρμοστεί εϕόσον το επιτρέπει η κατάστασητου προβλήματος και το συνιστούν τυχόν ιδιότητες του πίνακα A. Το κόστος επομένως τουαλγόριθμου ποικίλει. Αν ο πίνακας είναι καλής κατάστασης, τότε προτιμάται η LU παραγον-τοποίηση η οποία γίνεται μια ϕορά στην αρχή με κόστος O(n3). Στη συνέχεια, και σε κάθεεπανάληψη λύνονται ένα κάτω τριγωνικό και ένα άνω τριγωνικό σύστημα, με προς τα μπροςκαι προς τα πίσω αντικαταστάσεις, αντίστοιχα, που κοστίζουν O(n2). Ετσι, το κόστος τουαλγόριθμου είναιO(n3), κατά μία τάξη μεγέθους μεγαλύτερο από αυτό της μεθόδου δυνάμεων.

Η ταχύτητα σύγκλισης της μεθόδου θα είναι η ίδια με εκείνη της μεθόδου δυνάμεων γιατον πίνακα (A− σI)−1. Αν µi είναι η πλησιέστερη προς το σ ιδιοτιμή του A που αναζητούμεκαι µj η αμέσως πιο απομακρυσμένη, ώστε η λj = 1

µj−σνα είναι η δεύτερη σε απόλυτη τι-

μή ιδιοτιμή, τότε η ταχύτητα σύγκλισης θα είναι τάξης O(|λj

λi|k) σύμϕωνα με τη θεωρία της

μεθόδου δυνάμεων. Αντικαθιστώντας θα έχουμε τάξη σύγκλισης O(| µi−σµj−σ

|k). Μπορούμε ναπαρατηρήσουμε ότι αν σ είναι μια καλή προσέγγιση της λi τότε η ταχύτητα σύγκλισης θα είναιπολύ μεγάλη. Επομένως η μέθοδος είναι αποτελεσματική όταν υπάρχουν καλές προσεγγίσειςτων ιδιοτιμών, ίσως από άλλη μέθοδο, και επιθυμούμε να τις προσεγγίσουμε καλύτερα και ναυπολογίσουμε και τα αντίστοιχα ιδιοδιανύσματα.

Παράδειγμα: Δίνουμε στη συνέχεια ένα παράδειγμα όπου ϕαίνεται η μεγάλη ταχύτητα

σύγκλισης. Ο πίνακας A =

2 −1 0−1 2 −10 −1 2

έχει ιδιοτιμές τις 2, 2 +√2 και 2 −

√2.

Η ιδιοτιμή 2−√2 (= 0.58578644) βρίσκεται κοντά στο 0.5, ενώ το αντίστοιχο ιδιοδιάνυσμα

κανονικοποιημένο, είναι [12

√22

12]T . Θα εϕαρμόσουμε τη μέθοδο των αντίστροϕων δυνάμεων

με σ = 0.5 χρησιμοποιώντας την LU παραγοντοποίηση.

A− σI =

1.5 −1 0−1 1.5 −10 −1 1.5

=

1−2

31

0 −1.2 1

1.5 −1 056

−10.3

= LU.

Επιλέγουμε x(0) = [0 1 0]T και αρχίζουμε με την πρώτη επανάληψη.

Lz(1) = x(0) ⇒ z(1) = [0 1 2]T , Uy(1) = z(1) ⇒ y(1) = [4 6 4]T ,

Page 222: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

222

λ(0) = x(0)T y(1) = 6, µ(0) = 1λ(0) + σ = 0.66666667, ∥y(1)∥2 = 8.24621125,

x(1) = y(1)

∥y(1)∥2= [0.48507125 0.72760688 0.48507125]T .

Ακολουθώντας την ίδια ακριβώς διαδικασία, η δεύτερη και τρίτη επανάληψη δίνουν.

∆ϵυτϵρη Tριτη Aκριβϵις τ ιµϵς

µ(1) = 0.58585859 µ(2) = 0.58578650 µ = 0.58578644

x(2) =

0.499566540.707719260.49956654

x(3) =

0.499987250.707124820.49998725

x =

0.50.70710678

0.5

.

Παρατηρούμε ότι στη δεύτερη επανάληψη έχουμε σύγκλιση με ακρίβεια τριών δεκαδικών ψη-ϕίων ενώ στην τρίτη με ακρίβεια έξι για την ιδιοτιμή και τεσσάρων δεκαδικών ψηϕίων για τοιδιοδιάνυσμα. Οι πράξεις έγιναν με διπλή ακρίβεια με το πρόγραμμα MATLAB.

8.3.2 Τεχνική της Υποτίμησης (Deflation)

Η τεχνική της υποτίμησης οδηγεί ακολουθιακά στον υπολογισμό και των άλλων ιδιοτιμώνκαι ιδιοδιανυσμάτων, με βάση τη μέθοδο δυνάμεων. Βασίζεται στην ιδέα της εξάλειψης, μεκάποιον τρόπο, της απόλυτα μεγαλύτερης ιδιοτιμής που μόλις βρέθηκε, μετασχηματίζοντας τονπίνακα A, ώστε η εϕαρμογή της μεθόδου δυνάμεων στο νέο πίνακα, να υπολογίζει τη δεύτερηαπόλυτα μεγαλύτερη ιδιοτιμή. Εχουν επινοηθεί δύο τέτοιες τεχνικές, μία για συμμετρικούςπίνακες και μια δεύτερη, γενικά, για κάθε πίνακα A ∈ IRn,n.

Για την πρώτη τεχνική, έστω ότι ο πίνακας A ∈ IRn,n είναι συμμετρικός με ιδιοτιμές τιςλi, i = 1(1)n, ώστε |λ1| > |λ2| > |λ3| ≥ · · · ≥ |λn| και αντίστοιχα ιδιοδιανύσματαxi, i = 1(1)n, κανονικοποιημένα. Με εϕαρμογή της μεθόδου δυνάμεων βρίσκεται αρχικά μιαπροσέγγιση της λ1 και του x1. Εχοντας αυτά ως γνωστά κατασκευάζουμε τον πίνακα

A1 = A− λ1x1xT1 .

Ο A1 έχει ιδιοτιμές τις λi, i = 2(1)n, με αντίστοιχα ιδιοδιανύσματα xi, i = 2(1)n, και τη 0με αντίστοιχο ιδιοδιάνυσμα το x1. Πραγματικά

A1xi = (A− λ1x1xT1 )xi = Axi − λ1x1x

T1 xi = λixi, i = 2(1)n. (8.18)

Page 223: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

223

Στην (8.18) xT1 xi = 0, i = 2(1)n, λόγω της ορθογωνιότητας των ιδιοδιανυσμάτων ενός

συμμετρικού πίνακα. Επίσης

A1x1 = (A− λ1x1xT1 )x1 = Ax1 − λ1x1x

T1 x1 = λ1x1 − λ1x1 = 0.

Εϕαρμόζοντας τη μέθοδο δυνάμεων στον A1, προσεγγίζουμε τη λ2 και το x2. Μπορούμε νασυνεχίσουμε τη διαδικασία παίρνοντας A2 = A1 − λ2x2x

T2 κ.ο.κ.

Πρέπει να σημειώσουμε εδώ ότι αν λάβουμε υπόψη την παρατήρηση (ii) της παραγράϕου14.1, συμπεραίνουμε ότι η τεχνική αυτή μπορεί να εϕαρμοστεί και όταν η λ1 είναι πολλαπλήιδιοτιμή. Τότε, με την τεχνική υποτίμησης, η μία από τις πολλές λ1 γίνεται μηδέν και οι άλλεςπαραμένουν ως έχουν. Με την εϕαρμογή της μεθόδου δυνάμεων θα βρεθεί ξανά η λ1 μεαντίστοιχο ιδιοδιάνυσμα κάποιο άλλο, ορθογώνιο προς το πρώτο. Με άλλα λόγια, η τεχνικήυποτίμησης υποβιβάζει την πολλαπλότητα της λ1 κατά ένα κάθε ϕορά. Μπορούμε λοιπόν ναπούμε ότι η τεχνική υποτίμησης οδηγεί πάντα στον υπολογισμό όλων των ιδιοτιμών και ιδιο-διανυσμάτων του A. Εκείνο που πρέπει να τονιστεί είναι ότι χρειάζεται μεγάλη ακρίβεια στιςπροσεγγίσεις με τη μέθοδο δυνάμεων, διότι με την τεχνική υποτίμησης μεταϕέρονται τα σϕάλ-ματα από βήμα σε βήμα και συσσωρεύονται, με συνέπεια να αλλοιώνονται τα αποτελέσματααπό ένα σημείο και πέρα.

Στη συνέχεια παρουσιάζουμε τη δεύτερη τεχνική. Εστω πίνακας A ∈ IRn,n, λi, i = 1(1)n,οι ιδιοτιμές του, τ.ω. |λ1| > |λ2| > |λ3| ≥ · · · ≥ |λn|, με αντίστοιχα, κανονικοποιημένα ωςπρος τη ∥ · ∥∞, ιδιοδιανύσματα xi. Τότε, οι λ1 και λ2 θα είναι απλές πραγματικές ιδιοτιμές καιεπομένως τα ιδιοδιανύσματα x1 και x2 υπάρχουν και είναι γραμμικά ανεξάρτητα. Εϕαρμόζονταςτη μέθοδο δυνάμεων προσεγγίζουμε την ιδιοτιμή λ1 και το ιδιοδιάνυσμα x1. Εχοντας αυτά ωςγνωστά μπορούμε να προχωρήσουμε για την προσέγγιση των στοιχείων λ2 και x2 ως εξής:

Εστω ότι η k-οστή συνιστώσα του x1 είναι μονάδα ((x1)k = ∥x1∥∞ = 1). Συμβολίζουμεμε aTk την k-οστή γραμμή του A και κατασκευάζουμε τον πίνακα

A1 = A− x1aTk .

Ο πίνακας A1 έχει ιδιοτιμές τις λi, i = 2(1)n, με αντίστοιχα ιδιοδιανύσματα xi − x1, καιτην ιδιοτιμή 0 με αντίστοιχο ιδιοδιάνυσμα το x1. Πραγματικά, θεωρώντας ότι και το xi έχειμονάδα στην k-οστή συνιστώσα του ((xi)k = 1), αϕού είναι ιδιοδιάνυσμα και άρα ανεξάρτητοαπό σταθερό παράγοντα, έχουμε

A1(xi − x1) = (A− x1aTk )(xi − x1) = Axi − Ax1 − x1a

Tk xi + x1a

Tk x1

= λixi − λ1x1 − λix1 + λ1x1 = λi(xi − x1), i = 2(1)n, (8.19)

Page 224: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

224

αϕού aTk x1 = λ1 επειδή aTk είναι η k-οστή γραμμή του A και x1 ιδιοδιάνυσμα με (x1)k = 1 καιaTk xi = λi για τον ίδιο λόγο. Επίσης

A1x1 = (A− x1aTk )x1 = Ax1 − x1a

Tk x1 = λ1x1 − λ1x1 = 0.

Ακόμη, ο πίνακας A1 έχει μηδενική ολόκληρη την k-οστή γραμμή, αϕού ο πίνακας x1aTk έχει

την aTk ως k-οστή γραμμή του. Αν θεωρήσουμε την ορίζουσα det(A1−λIn) και αναπτύξουμεως προς την k-οστή γραμμή της, θα έχουμε

det(A1 − λIn) = −λ det(B1 − λIn−1), (8.20)

όπου ο B1 ∈ IRn−1,n−1 προκύπτει από τον A1 αν διαγράψουμε την k-οστή γραμμή και στή-λη. Η (8.20) δίνει ότι ο πίνακας B1 έχει όλες τις ιδιοτιμές του A1 εκτός από τη μηδενική.Εϕαρμόζοντας λοιπόν τη μέθοδο δυνάμεων στον πίνακα B1, προσεγγίζουμε την απόλυτα με-γαλύτερη ιδιοτιμή του που είναι η λ2 και το αντίστοιχο ιδιοδιάνυσμα y2 ∈ IRn−1. Απομένει ναακολουθήσουμε την αντίστροϕη πορεία για την προσέγγιση του x2 ∈ IRn έχοντας γνωστό τοy2 ∈ IRn−1.Για το σκοπό αυτό επεκτείνουμε το διάνυσμα y2 στο z2 ∈ IRn θέτοντας τη συνιστώσα 0 μεταξύτων k − 1 και k στη σειρά συνιστωσών του y2, δηλαδή

z2 = [(y2)1 (y2)2 · · · (y2)k−1 0 (y2)k · · · (y2)n−1]T .

Εύκολα προκύπτει, από το γεγονός ότι υπάρχει 0 στην k-οστή συνιστώσα του z2 και μηδενικήγραμμή στην k-οστή γραμμή του A1, ότι το διάνυσμα z2 είναι ιδιοδιάνυσμα του A1 με ιδιοτιμήτη λ2. Από την (8.19) έχουμε ότι x2 − x1 είναι το ιδιοδιάνυσμα του A1 με ιδιοτιμή τη λ2.Επομένως το x2 − x1 θα είναι πολλαπλάσιο του z2, δηλαδή

x2 − x1 = cz2 ⇔ x2 = x1 + cz2, c ∈ IR \ 0. (8.21)

Για τον προσδιορισμό της σταθεράς c πολλαπλασιάζουμε με aTk από αριστερά τα δύο μέλη της(8.21), οπότε

aTk x2 = aTk x1 + caTk z2 ⇔ λ2 = λ1 + caTk z2 ⇔ c =λ2 − λ1

aTk z2.

Εδώ ολοκληρώθηκε η διαδικασία υπολογισμού και της δεύτερης ιδιοτιμής με το αντίστοιχοιδιοδιάνυσμα. Απομένει να διευκρινίσουμε μια λεπτομέρεια, την περίπτωση όπου aTk z2 = 0.Στην περίπτωση αυτή το c θεωρείται άπειρο ενώ το 1

cμηδέν. Τότε, επειδή το x2 είναι ιδιο-

διάνυσμα, μπορούμε να διαιρέσουμε με τη σταθερά c το δεύτερο μέλος της (8.21), οπότε θαέχουμε x2 =

1cx1 + z2 ή x2 = z2. Στην περίπτωση αυτή το z2 θα είναι το ιδιοδιάνυσμα. Εδώ

αίρουμε κάποια ασάϕεια στη θεώρηση (xi)k = 1 στη σχέση (8.19). Εκεί δεν αναϕέρθηκε κάτι

Page 225: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

225

για την περίπτωση (xi)k = 0. Διευκρινίζουμε εδώ ότι αν (x2)k = 0, τότε x2 = z2. Δίνουμεστη συνέχεια την παραπάνω περιγραϕή σε μορϕή αλγόριθμου:

Αλγόριθμος Τεχνικής Υποτίμησης :

Δεδομένα: A ∈ IRn,n.Υλοποίηση αλγόριθμου μεθόδου δυνάμεων - Υπολογισμός των λ1 και x1

Κανονικοποίηση του x1 ώστε ∥x1∥∞ = 1 - Εύρεση του k ώστε (x1)k = 1A1 = A− x1a

Tk (a

Tk η k γραμμή του A)

Υποτίμηση του πίνακα A1 στον πίνακα B1 ∈ IRn−1,n−1

Υλοποίηση αλγόριθμου μεθόδου δυνάμεων στον B1 - Υπολογισμός των λ2 και y2 ∈ IRn−1

Επέκταση του y2 στο z2 ∈ IRn

s = aTk z2Αν s = 0 τότε

x2 = z2αλλιώς

c = λ2−λ1

s

x2 = x1 + cz2Τέλος ‘Αν’Αποτέλεσμα: λ1 και λ2, ιδιοτιμές του A με αντίστοιχα ιδιοδιανύσματα x1 και x2.

Θα πρέπει να παρατηρήσουμε εδώ ότι η διαδικασία της υποτίμησης μπορεί να εϕαρμοστείκαι για τον υπολογισμό των στοιχείων λ3 και x3, αρκεί στη θέση του A να θεωρήσουμε τονπίνακα B1 ∈ IRn−1,n−1 και να εϕαρμόσουμε τον παραπάνω αλγόριθμο. Αυτός όμως υπολογίζειτο ιδιοδιάνυσμα y3 του B1. Θα πρέπει επομένως να το επεκτείνουμε ξανά με τη διαδικασίαπου αναϕέραμε για να μεταβούμε στο ιδιοδιάνυσμα x3 του A. Μ΄ αυτή τη διαδικασία μπορούμενα πάμε σε περισσότερο βάθος και να υπολογίσουμε όλες τις ιδιοτιμές, αν είναι δυνατόν, καιστη συνέχεια να επιστρέψουμε με συνεχείς επεκτάσεις, μέχρι την κορυϕή, για τον υπολογισμότων αντίστοιχων ιδιοδιανυσμάτων. Ακόμη, η τεχνική της υποτίμησης μπορεί να εϕαρμοστείκαι χωρίς τη μέθοδο δυνάμεων στην αρχή, αρκεί να γνωρίζουμε τα στοιχεία λ1 και x1, απόοποιαδήποτε άλλη πηγή, και ας μην είναι αναγκαστικά η λ1 η απόλυτα μεγαλύτερη ιδιοτιμή.

Παράδειγμα: Δίνουμε στη συνέχεια ένα παράδειγμα τεχνικής υποτίμησης χωρίς να α-

παιτείται καθόλου εϕαρμογή μεθόδου δυνάμεων. Ο πίνακας A =

1 2 3−1 3 4−1 2 5

έχει ιδιοτιμήτη λ1 = 6 με αντίστοιχο ιδιοδιάνυσμα το x1 = [1 1 1]T . Θα προσπαθήσουμε να υπολογίσουμετις άλλες δύο ιδιοτιμές και τα αντίστοιχα ιδιοδιανύσματα, με την τεχνική υποτίμησης.Παρατηρούμε ότι το x1 είναι κανονικοποιημένο, ως προς τη ∥ · ∥∞, με μονάδες σε όλα ταστοιχεία, επομένως μπορούμε να θεωρήσουμε οποιαδήποτε από τις τρεις γραμμές του A ως

Page 226: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

226

aTk . Επιλέγουμε την πρώτη aT1 = [1 2 3]. Τότε

A1 = A− x1aT1 =

1 2 3−1 3 4−1 2 5

111

[ 1 2 3]

=

0 0 0−2 1 1−2 0 2

,οπότε B1 θα είναι ο πίνακας

[1 10 2

]. Αυτός είναι άνω τριγωνικός επομένως οι ιδιοτιμές του

θα είναι λ2 = 2 και λ3 = 1. Τα αντίστοιχα ιδιοδιανύσματα προκύπτουν εύκολα από τη λύσητων συστημάτων (B1 − λiI)y = 0, i = 1, 2, και είναι y2 = [1 1]T και y3 = [1 0]T .Επεκτείνουμε το y2 στο z2 = [0 1 1]T . Στη συνέχεια βρίσκουμε το c2 = λ2−λ1

aT1 z2= 2−6

5=

−0.8 και το x2 = x1 + c2z2 = [1 1 1]T − 0.8[0 1 1]T = [1 0.2 0.2]T .Η ίδια ακριβώς διαδικασία για το τρίτο ιδιοδιάνυσμα δίνειy3 = [1 0]T , z3 = [0 1 0]T , c3 = λ3−λ1

aT1 z3= 1−6

2= −2.5 και x3 = x1 + c3z3 =

[1 1 1]T − 2.5[0 1 0]T = [1 − 1.5 1]T .

Ισχύουν κι εδώ οι παρατηρήσεις που κάναμε για τη συσσώρευση σϕαλμάτων στην τεχνικήυποτίμησης για συμμετρικούς πίνακες. Κι εδώ όσο προχωρούμε σε βάθος, τόσο αυξάνουν τασϕάλματα, με συνέπεια να μην είναι αποτελεσματική η μέθοδος από ένα σημείο και μετά. Τοκόστος της χαρακτηρίζεται κυρίως από το κόστος της μεθόδου δυνάμεων που είναι O(mn2).Αν θελήσουμε όμως να υπολογίσουμε όλες τις ιδιοτιμές, θα εϕαρμόσουμε τη μέθοδο δυνάμεωνn− 1 ϕορές, κάθε ϕορά όμως και με πίνακα διάστασης ελαττωμένης κατά ένα. Αν θεωρήσου-με ότι m είναι ο μέσος όρος των επαναλήψεων σε κάθε εϕαρμογή και αθροίσουμε, παίρνουμεσυνολικό κόστος O(mn3).

Λόγω του ότι αϕενός οι τεχνικές υποτίμησης έχουν προβλήματα συσσώρευσης σϕαλμάτωνκαι αϕετέρου η μέθοδος δυνάμεων δε λύνει το πρόβλημα σ΄ όλες τις περιπτώσεις, οι μέθοδοιαυτές γίνονται αναποτελεσματικές. Ετσι, η έρευνα στράϕηκε σε επινόηση επαναληπτικώνμεθόδων που θα προσεγγίζουν συγχρόνως όλες τις ιδιοτιμές και κυρίως όχι με διαδικασίααλληλουχίας. Τέτοιες μέθοδοι θα μελετηθούν στη συνέχεια.

8.4 Μέθοδος QR

Η μέθοδος QR προήρθε ως επέκταση της μεθόδου δυνάμεων για την ταυτόχρονη εύρεση όλωντων ιδιοτιμών. Βασίζεται στην QR παραγοντοποίηση που αναπτύχτηκε στο προηγούμενοκεϕάλαιο. Ξεκινώντας με την ιδέα της επέκτασης της μεθόδου δυνάμεων θεωρούμε αρχικάότι ο πίνακας A ∈ IRn,n έχει διακεκριμένες ιδιοτιμές λi, i = 1(1)n, με |λ1| > |λ2| >

Page 227: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

227

· · · > |λn|. Στη θέση του αρχικού διανύσματος x(0) ∈ IRn, θεωρούμε τον ορθογώνιο πίνακαX0 ∈ IRn,p, p ≤ n. Στη συνέχεια παράγουμε τις λεγόμενες ορθογώνιες επαναλήψεις ως εξής

Yi+1 = AXi, (8.22)

ενώ ως Xi+1 παίρνουμε τον ορθογώνιο παράγοντα του πίνακα Yi+1 κατά την QR παραγοντο-ποίηση

Yi+1 = Xi+1Ri+1, (8.23)

όπου Ri+1 ∈ IRp,p είναι άνω τριγωνικός πίνακας. Είναι ϕανερό ότι για p = 1 έχουμε ακριβώς τημέθοδο δυνάμεων. Για p > 1, από την (8.23) παίρνουμε ότι ο Yi+1 παράγεται από γραμμικούςσυνδυασμούς των στηλών του Xi+1, επομένως οι δύο αυτοί πίνακες παράγουν τον ίδιο χώρο

spanXi+1 = spanYi+1 = spanAXi. (8.24)

Θεωρούμε τη μορϕή Jordan του πίνακα A

A = SΛS−1 = Sdiag(λ1, λ2, · · · , λn)S−1.

Η σχέση (8.24) δίνει επαγωγικά ότι

spanXi = spanAiX0 = spanSΛiS−1X0.

Κατασκευάζουμε στη συνέχεια τον πίνακα SΛiS−1X0

SΛiS−1X0 = λipS

(λ1

λp

)i (λ2

λp

)i. . .

1. . . (

λn

λp

)i

S−1X0 = λi

pS

[U

(i)1

U(i)2

],

όπου θεωρήσαμε τα blocks U (i)1 ∈ IRp,p και U (i)

2 ∈ IRn−p,p. Επειδή |λj

λp| < 1, j = p + 1(1)n, η

ακολουθία πινάκων U (i)2 συγκλίνει στο μηδενικό πίνακα με ταχύτητα O(|λp+1

λp|i), αϕού το λp+1

λp

είναι το απόλυτα μεγαλύτερο στοιχείο στο αντίστοιχο block του διαγώνιου πίνακα. Θεωρούμετον αντίστοιχο διαχωρισμό του πίνακα S

S = [S1|S2], S1 ∈ IRn,p, S2 ∈ IRn,n−p.

Τότε,SΛiS−1X0 = λi

p(S1U(i)1 + S2U

(i)2 )

Page 228: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

228

και επειδή limi→∞ U(i)2 = 0, έχουμε

spanXi = spanSΛiS−1X0 = spanS1U(i)1 + S2U

(i)2 → spanS1U

(i)1 . (8.25)

Θεωρούμε ότι ο πίνακας U (i)1 είναι πλήρους βαθμού (rank(U (i)

1 ) = p). Η προϋπόθεση αυτήπετυχαίνεται αν ξεκινήσουμε με πίνακα U (0)

1 πλήρους βαθμού. Το τελευταίο είναι η γενίκευ-ση της υπόθεσης c1 = 0 στο γραμμικό συνδυασμό (8.13) της μεθόδου δυνάμεων. Με τηνπροϋπόθεση αυτή έχουμε ότι

spanS1U(i)1 = spanS1

και σύμϕωνα με την (8.25), ο χώρος που παράγεται από τον πίνακα Xi τείνει προς τον χώροπου παράγεται από τον πίνακα S1, που αποτελείται από τα πρώτα p ιδιοδιανύσματα του A.Εδώ πρέπει να σημειώσουμε ότι αν θεωρήσουμε έναν ακέραιο r < p και λάβουμε τις r πρώτεςστήλες της ακολουθίαςXi, από την παραπάνω διδικασία, θα έχουμε την ίδια ακριβώς ακολουθίαX ′

i ∈ IRn,r με εκείνη που θα προερχόταν αν εξαρχής θεωρούσαμε p = r. Θεωρώντας τώραόλα τα r από 1 έως p, θα ισχύουν όλα τα παραπάνω συμπεράσματα, επομένως ο U (i)

1 θα τείνεισε άνω τριγωνικό πίνακα. Στη συνέχεια θεωρούμε p = n και X0 = I. Η παραπάνω θεωρίατων ορθογώνιων επαναλήψεων δίνει την επαναληπτική μέθοδο QR, βάση της οποίας είναι τοεπόμενο θεώρημα.

Θεώρημα 8.4 Εστω A ∈ IRn,n, με διακεκριμένες απόλυτες τιμές ιδιοτιμών. Θεωρούμετις ορθογώνιες επαναλήψεις Xi ∈ IRn,n, (p = n) i = 1, 2, · · · με X0 = I και τον πίνακα Sαποτελούμενο από τα ιδιοδιανύσματα του A, που αντιστοιχούν στη ϕθίνουσα τάξη των μέτρωντων αντίστοιχων ιδιοτιμών. Αν όλοι οι κύριοι υποπίνακες Sjj, j = 1(1)n, που αποτελούνταιαπό τις πρώτες j γραμμές και στήλες του S, είναι πλήρους βαθμού (rank(Sjj) = j), τότεη ακολουθία πινάκων Ai = XT

i AXi συγκλίνει στην κανονική μορϕή Schur, δηλαδή σε άνωτριγωνικό πίνακα όπου στη διαγώνιο εμϕανίζονται οι ιδιοτιμές του A κατά ϕθίνουσα τάξηαπόλυτου μεγέθους.

Απόδειξη: Η απαίτηση Sjj, j = 1(1)n, να είναι πλήρους βαθμού, προέρχεται από την απαί-τηση ο U

(0)1 να είναι πλήρους βαθμού, όπως αναϕέρθηκε προηγουμένως. Διαχωρίζουμε τον

πίνακα Xi στην block μορϕή Xi = [X1i|X2i], X1i ∈ IRn,p, X2i ∈ IRn,n−p. Τότε η ακολουθίαAi δίνεται ως

Ai = XTi AXi =

[XT

1iAX1i XT1iAX2i

XT2iAX1i XT

2iAX2i

].

Σύμϕωνα με την παραπάνω θεωρία των ορθογώνιων επαναλήψεων, ο υπόχωρος spanX1iσυγκλίνει στον spanS1 στον οποίο συγκλίνει και ο spanAX1i, επομένως

spanX1i → spanAX1i.

Page 229: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

229

Τότε το γινόμενο XT2iAX1i συγκλίνει στο XT

2iX1i = 0. Αρα ο πίνακας Ai συγκλίνει σε blockάνω τριγωνικό, και επειδή αυτό ισχύει για όλα τα p από 1 έως n−1, προκύπτει ότι η ακολουθίαAi συγκλίνει σε άνω τριγωνικό πίνακα.

Θα πρέπει να σημειωθεί ότι η τάξη σύγκλισης για τα στοιχεία του XT2iAX1i, θα είναι

O(|λp+1

λp|i) ενώ στην p διαγώνια θέση θα έχουμε σύγκλιση στην ιδιοτιμή λp με τάξη σύγκλι-

σης O(max|λp+1

λp|i,

| λp

λp−1|i).

Ακόμη έχουμε να παρατηρήσουμε ότι αν δεν ισχύει η απαίτηση να είναι πλήρους βαθμού οιπίνακες Sjj, τότε οι ορθογώνιες επαναλήψεις συγκλίνουν αν θεωρήσουμε ως S μια μικρή α-ναδιάταξη των στηλών του έτσι ώστε να ισχύει η απαίτηση. Ετσι όμως θα παρουσιαστούν τοίδιο αναδιατεταγμένες και οι ιδιοτιμές στη διαγώνιο. Στην πράξη, λόγω σϕαλμάτων στρογγύ-λευσης, θα παρουσιαστεί το ϕαινόμενο που περιγράϕτηκε στην παρατήρηση (i) της μεθόδουδυνάμεων.

Στη συνέχεια δίνεται ο αλγόριθμος της μεθόδου QR.

Αλγόριθμος Μεθόδου QR:

Δεδομένα: A ∈ IRn,n.A0 = AΓια i = 0 έως ότου υπάρξει σύγκλιση

Ai = QiRi (QR Παραγοντοποίηση του Ai)Ai+1 = RiQi

Τέλος ‘Για’Αποτέλεσμα: Ai+1 είναι η προσέγγιση της κανονικής μορϕής Schur του πίνακα A.

Απομένει να αποδείξουμε ότι ο αλγόριθμος, που δόθηκε, παράγει την ίδια ακολουθία Ai,με εκείνη των ορθογώνιων επαναλήψεων. Αυτό θα γίνει με τη μέθοδο της τέλειας επαγωγής.Για i = 1, από τις ορθογώνιες επαναλήψεις έχουμε A1 = XT

1 AX1 αλλά A = X1R1 είναι η QRπαραγοντοποίηση, επομένως A1 = XT

1 X1R1X1 = R1X1, που δίνει τον A1 του αλγόριθμουQR. Εστω ότι ο Ai = XT

i AXi προέρχεται και από τον αλγόριθμο QR. Θα αποδείξουμε ότι οισχυρισμός αληθεύει και για την i+ 1 επανάληψη. Εχουμε

Ai+1 = XTi+1AXi+1 = (XT

i+1AXi)XTi Xi+1, (8.26)

αλλά από τις ορθογώνιες επαναλήψεις (8.22) και (8.23) παίρνουμε ότι

AXi = Xi+1Ri+1. (8.27)

Page 230: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

230

Αντικαθιστώντας στην (8.26) έχουμε

Ai+1 = (XTi+1Xi+1Ri+1)X

Ti Xi+1 = Ri+1(X

Ti Xi+1). (8.28)

Από την υπόθεση της τέλειας επαγωγής και την (8.27) παίρνουμε

Ai = XTi AXi = XT

i Xi+1Ri+1. (8.29)

Παρατηρούμε ότι η (8.29) δίνει την QR παραγοντοποίηση του Ai, με Q = XTi Xi+1 και

R = Ri+1, ενώ η (8.28) δίνει τον Ai+1 ως το γινόμενο RQ. Αυτό όμως είναι μια επανά-ληψη της μεθόδου QR, που δίνει τον Ai+1 από τον Ai και η απόδειξη ολοκληρώθηκε.

Για την υλοποίηση του αλγόριθμου QR χρειάζεται να γίνει η QR παραγοντοποίηση, αλ-γόριθμοι της οποίας δόθηκαν στο προηγούμενο κεϕάλαιο. Οι πιο αποτελεσματικοί είναι οιαλγόριθμοι Householder και Givens. Αποδείχνεται ότι ένας συνδυασμός των δύο αυτών αλγό-ριθμων καθιστά την μέθοδο QR ως την πιο αποτελεσματική μέθοδο. Το κόστος της ανέρχεταισυνολικά σε O(n3), ενώ είναι ευσταθής λόγω της χρήσης ορθογώνιων μετασχηματισμών.

ΑΣΚΗΣΕΙΣ

1.: Χρησιμοποιώντας κατάλληλη επαναληπτική μέθοδο και αρχικό διάνυσμα x(0) = [1 1 1]T ,να βρεθούν κατά προσέγγιση, μετά από δυο επαναλήψεις, η απόλυτα μικρότερη ιδιοτιμή

και το αντίστοιχο ιδιοδιάνυσμα του πίνακα A =

0 1 11 0 −11 −1 0

.

2.: Δίνεται ο πίνακας A =

1 −1 0−1 2 −10 −1 1

. Χρησιμοποιώντας τη μέθοδο των δυνάμεων,με αρχικό διάνυσμα x(0) = [1 0 1]T , και την επέκτασή της (τεχνική υποτίμησης), ναβρεθούν όλες οι ιδιοτιμές του με προσέγγιση τεσσάρων σηματικών ψηϕίων.

3.: Δίνεται ο πίνακας A =

6 1 11 3 21 2 3

. Αϕού αποδειχτεί ότι ο A είναι θετικά ορισμένοςνα προσεγγιστεί με κάποια παραλλαγή της μεθόδου των δυνάμεων η ϕασματική ακτίνατου αντιστρόϕου του εκτελώντας τρεις επαναλήψεις.

Page 231: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

231

4.: Δίνεται ο πίνακας A =

3 2 12 3 21 2 3

. Να προσεγγιστεί η ιδιοτιμή του A, που βρίσκεταικοντά στον αριθμό 3, με κάποια παραλλαγή της μεθόδου των δυνάμεων και με αρχικόδιάνυσμα x(0) = [1 0 0]T , εκτελώντας τρεις επαναλήψεις.

5.: Δίνεται ότι ο πίνακας A =

6 −2 2−2 5 02 0 7

έχει ως απόλυτα μεγαλύτερη ιδιοτιμή τηλ1 = 9 με αντίστοιχο ιδιοδιάνυσμα το x(1) = [1 − 0.5 1]T . Χρησιμοποιώντας την αρχήτης υποτίμησης να προσεγγιστεί η αμέσως μικρότερη σε απόλυτη τιμή ιδιοτιμή λ2 καιτο αντίστοιχο ιδιοδιάνυσμα x(2), εκτελώντας τρεις επαναλήψεις με αρχικό διάνυσμα το[1 1]T .

6.: Δίνεται ο πίνακας A =

1 1 01 0 10 1 1

. Να προσεγγιστεί η ιδιοτιμή του A, που βρίσκεταικοντά στον αριθμό 0.5, με κάποια παραλλαγή της μεθόδου των δυνάμεων και με αρχικόδιάνυσμα [1 1 − 1]T , εκτελώντας τρεις επαναλήψεις.

7.: Δίνεται ο πίνακας A =

2 1 01 2 11 1 2

. Να προσεγγιστεί η μεγαλύτερη ιδιοτιμή του A κα-θώς και το αντίστοιχο ιδιοδιάνυσμα, με τη μέθοδο των δυνάμεων και με αρχικό διάνυσματο x(0) = [0 1 0]T , χρησιμοποιώντας τη || · ||∞ και εκτελώντας τρεις επαναλήψεις.

8.: Αϕού αποδειχτεί ότι ο πίνακας A =

1 −1 1−1 2 −21 −2 3

είναι θετικά ορισμένος , ναπροσεγγιστεί η μικρότερη ιδιοτιμή του και το αντίστοιχο ιδιοδιάνυσμα, εκτελώντας τρειςεπαναλήψεις με τη μέθοδο των αντίστροϕων δυνάμεων και με αρχικό διάνυσμα [0 1 0]T .Για τη λύση γραμμικών συστημάτων να χρησιμοποιηθεί η ανάλυση Cholesky διατηρών-τας ακρίβεια ενός δεκαδικού ψηϕίου στους ενδιάμεσους υπολογισμούς.

9.: Δίνεται ο πίνακας A =

3 2 12 2 11 1 1

. Χρησιμοποιώντας τη μέθοδο των δυνάμεων μεαρχικό διάνυσμα x(0) = [0 1 0]T να προσεγγιστεί η απόλυτα μεγαλύτερη ιδιοτιμή τουA και το αντίστοιχο ιδιοδιάνυσμα, εκτελώντας δύο επαναλήψεις.

Page 232: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

232

10.: Δίνεται ο πίνακας A =

−3 4 1−2 2 2−1 1 1

. Χρησιμοποιώντας τη μέθοδο των δυνάμεωνμε αρχικό διάνυσμα x(0) = [0 1 0]T , να γίνουν τρεις επαναλήψεις για την εύρεσητης απόλυτα μεγαλύτερης ιδιοτιμής και το αντίστοιχου ιδιοδιανύσματος. Στη συνέχειανα βρεθούν ολες οι ιδιοτιμές με τη μέθοδο του Krylov, με το ίδιο αρχικό διάνυσμα.(Περιορισμός: Να γίνουν ακριβείς πράξεις διατηρώντας ριζικά και κλάσματα στουςυπολογισμούς.)

11.: Δίνεται ο πίνακας A =

3 −1 0−1 4 −10 −1 3

. Να προσεγγιστεί η πλησιέστερη προςτη μονάδα ιδιοτιμή του και το αντίστοιχο ιδιοδιάνυσμα, εκτελώντας τρεις επαναλήψειςμε τη μέθοδο των δυνάμεων και με αρχικό διάνυσμα το [0 1 0]T . Για τη λύση γραμμι-κών συστημάτων να χρησιμοποιηθεί η LU παραγοντοποίηση διατηρώντας ακρίβεια δύοδεκαδικών ψηϕίων στους ενδιάμεσους υπολογισμούς.

12.: Δίνεται ο πίνακας A =

3 −1 0−2 3 −20 −1 3

. Χρησιμοποιώντας τους αλγόριθμους τηςμεθόδου των δυνάμεων με || · ||2 και || · ||∞ και αρχικό διάνυσμα x(0) = [0 1 0]T ,να προσεγγιστεί η απόλυτα μεγαλύτερη ιδιοτιμή του A και το αντίστοιχο ιδιοδιάνυσμα,εκτελώντας τρεις επαναλήψεις με τον καθένα. (Περιορισμός: Να γίνουν ακριβείςπράξεις διατηρώντας ριζικά και κλάσματα στους υπολογισμούς.)

13.: Αϕού αποδειχτεί ότι ο πίνακας A =

1 1 11 2 11 1 2

είναι θετικά ορισμένος, να προσεγγι-στεί η μικρότερη ιδιοτιμή του και το αντίστοιχο ιδιοδιάνυσμα, εκτελώντας τρεις επαναλή-ψεις με τη μέθοδο των αντίστροϕων δυνάμεων και με αρχικό διάνυσμα το [0 1 0]T . Για τηλύση γραμμικών συστημάτων να χρησιμοποιηθεί η ανάλυση Cholesky. (Περιορισμός:Να γίνουν ακριβείς πράξεις διατηρώντας ριζικά και κλάσματα στους υπολογισμούς.)

14.: Να γίνουν τρεις επαναλήψεις της QR μεθόδου για την προσέγγιση των ιδιοτιμών τουπίνακα

A =

[2 −1

−1 2

].

Page 233: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

Βιβλιογραϕία

[1] O. Axelsson. Iterative Solution Methods. Cambridge University Press, Cambridge, En-gland, 1994.

[2] R. Bellman. Introduction to Matrix Analysis, 2nd edition. Classics in Applied Mathe-matics 19, SIAM, Philadelphia, 1997.

[3] A. Berman, M. Neumann and R.J. Stern. Nonnegative Matrices in Dynamic Systems.John Wiley and Sons, New York, 1989.

[4] A. Berman and R.J. Plemmons. Nonnegative Matrices in the Mathematical Sciences.Classics in Applied Mathematics 9, SIAM, Philadelphia, 1994.

[5] G. Birkhoff and S. MacLane. A Survey in Modern Algebra, revised edition. The Ma-cMillan Company, New York, 1953.

[6] E. Bodewig. Matrix Calculus, revised edition. Interscience Publishers, Inc., New York,1959.

[7] W. Cheney and D. Kincaid. Numerical Mathematics and Computing, fourth edition.Brooks/Cole Publishing Company, Pacific Grove, CA, 1999.

[8] P. Ciarlet. Introduction to Linear Algebra and Optimization. Cambridge UniversityPress, Cambridge, England, 1989.

[9] S.D. Conte and C. de Boor. Elementary Numerical Analysis, 2nd edition. McGraw-HillBook Co., Inc., New York, 1972.

[10] G. Dahlquist and A. Bjork. Numerical Methods, translated by N. Anderson. Prentice-Hall, Englewood Cliffs, N.J., 1974.

[11] J.W. Demmel. Applied Numerical Linear Algebra. SIAM, Philadelphia, 1996.233

Page 234: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

234

[12] Β. Δουγαλής. Αριθμητική Λύση Γραμμικών Συστημάτων στον Υπολογιστή. ΜαθηματικόΤμήμα Πανεπιστημίου Κρήτης και Ινστιτούτο Υπολογιστικών Μαθηματικών ΕρευνητικούΚέντρου Κρήτης, Ηράκλειο, 1986.

[13] D.K. Fadeev and V.N. Fadeeva. Computational Methods in Linear Algebra. W.H. Fre-eman and Company, San Francisco, CA, 1963.

[14] L.V. Fausett.Applied Numerical Analysis Using MATLAB. Prentice-Hall, Upper Sadd-le River, N.J., 1999.

[15] G.E. Forsythe, M.A. Malcolm and C.B. Moler. Computer Methods for MathematicalComputations. Prentice-Hall, Englewood Cliffs, N.J., 1977.

[16] G.E. Forsythe and W.R. Wasow. Finite Difference Methods for Partial DifferentialEquations. John Wiley and Sons, Inc., New York, 1960.

[17] L. Fox. Introduction to Numerical Linear Algebra. Clarendon Press, Oxford, 1964.

[18] F.R. Gantmakher. Matrix Theory, 2 vols. Chelsea, New York, 1959.

[19] F.R. Gantmakher. Applications of the Theory of Matrices, translated and revised byJ.L. Brenner. Interscience Publishers, Inc., New York, 1959.

[20] N. Gastinel. Linear Numerical Analysis. Academic Press, London, 1970.

[21] G.H. Golub and C.F. Van Loan. Matrix Computations. The John Hopkins UniversityPress, Baltimore and London, 1989.

[22] A. Greenbaum. Iterative Methods for Solving Linear Systems. SIAM, Philadelphia,1997.

[23] A. Hadjidimos. Computational Methods in Analysis. Lecture Notes, Department ofComputer Sciences, Purdue University, West Lafayette, IN, 1988.

[24] L.A. Hageman and D.M. Young. Applied Iterative Methods. Academic Press, NewYork, 1981.

[25] P.R. Halmos. Finite-Dimensional Vector Spaces. Van Nostrand, Princeton, N.J., 1958.

[26] P. Henrici. Applied and Computational Complex Analysis, 3 vols. John Wiley and Sons,New York, 1974.

[27] R.A. Horn and C.R. Johnson. Matrix Analysis. Cambridge University Press, Cambrid-ge, England, 1985.

Page 235: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

235

[28] R.A. Horn and C.R. Johnson. Topics in Matrix Analysis. Cambridge University Press,Cambridge, England, 1991.

[29] A.S. Householder. Principles in Numerical Analysis. McGraw-Hill Book Co., Inc., NewYork, 1953.

[30] A.S. Householder. The Theory of Matrices in Numerical Analysis. Blaisdell, New York,1965.

[31] C.T. Kelly. Iterative Methods for Linear and Nonlinear Equations. SIAM, Philadelphia,1995.

[32] P. Lancaster. Theory of Matrices. Academic Press, New York, 1969. (2nd edition byP. Lancaster and M. Tismenetsky: 1985)

[33] C. D. Meyer Jr. Matrix Analysis and Applied Linear Algebra. SIAM, Philadelphia,2000.

[34] B. Noble. Applied Linear Algebra. Prentice-Hall, Englewood Cliffs, N.J., 1969. (2ndedition by P. Noble and J.W. Daniel: 1997; 3rd edition 1988.)

[35] Δ. Νούτσος. Σημειώσεις από τις παραδόσεις του μαθήματος Αριθμητική Γραμμική Αλ-γεβρα. Τμήμα Μαθηματικών, Πανεπιστήμιο Ιωαννίνων, Ιωάννινα, 1998.

[36] J.M. Ortega. Matrix Theory: A Second Course. Plenum Press, New York, 1987.

[37] J.R. Rice. Numerical Methods, Software and Analysis. McGraw-Hill Book Co., Inc.,New York, 1983.

[38] Y. Saad. Iterative Methods for Sparse Linear Systems. PWS Publishing Company,Boston, MA, 1996.

[39] R.V. Southwell. Relaxation Methods in Theoretical Physics. Clarendon Press, Oxford,1946.

[40] G.W. Stewart. Introduction to Matrix Computations. Academic Press, New York, 1973.

[41] G. Strang. Linear Algebra and its Applications, 3rd edition. Harcourt Brace Jovanovi-ch, San Diego, 1988.

[42] L.N. Trefethen and D. Bau III. Numerical Linear Algebra. SIAM, Philadelphia, 1997.

[43] R.S. Varga. Matrix Iterative Analysis, 2nd, revised and expanded, edition. Springer,Berlin, 2000.

Page 236: ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ …users.uoi.gr/dnoutsos/books/Numerical Linear Algebra.pdf8 εύρεση των τελικών σϕαλμάτων, καθώς

236

[44] E.L. Wachspress. Iterative Solution of Elliptic Systems. Prentice-Hall, Inc., EnglwoodCliffs, N.J., 1966.

[45] D.S. Watkins. Fundamentals of Matrix Computations. John Wiley and Sons, NewYork, 1991.

[46] J.H. Wilkinson. The Algebraic Eigenvalue Problem. Clarendon Press, Oxford, 1965.

[47] G. Williams. Linear Algebra With Applications, 4th edition. Jones and Bartlett Publi-shers, Sudbury, MA, 2001.

[48] D.M. Young. Iterative Solution of Large Linear Systems. Academic Press, New York,1971.

[49] J.Y. Yuan. Applied Iterative Analysis. Lecture Notes, Departamento de Matematica,Universidade Federal do Parana, Curitiba, Parana, Brazil, 2002.