046197 תוטיש הירואיתו םילוגרת תרבוח...8 תיראניל הרבגלא לע...

253
באופטימיזציה חישוביות שיטות- 046197 ותיאוריה תרגולים חוברת מאת פלג דורי גרסה3.0 t p=1 p=2 p →∞ p (t) ϕ 3 L 1 x 2 x 3 x

Transcript of 046197 תוטיש הירואיתו םילוגרת תרבוח...8 תיראניל הרבגלא לע...

046197 -שיטות חישוביות באופטימיזציה

חוברת תרגולים ותיאוריה

דורי פלגמאת

3.0גרסה

t

p=1p=2

p →∞

p (t)ϕ

3L

1x

2x

3x

2

3

הקדמה

מהנדסים . הקורס שיטות חישוביות באופטימזציה מהווה מבוא לעולם הרחב מאד של האופטימיזציהרים כדי לקבל תוצר הפועל כלומר בחירה של פרמט, tradeoffנתקלים כמעט בכל תחום בבעיות של

, תקשורת, לכן תורת האופטימזציה תורמת רבות לתחומים רבים כמו עיבוד אותות. בצורה אופטימליתVLSI ,וכדומה.

למשל , ברוב המכריע של בעיות הנדסיות אמיתיות חישוב אנליטי של נקודות האופטימום בלתי מעשילכן הקורס . אשר קיים סט אילוצים לא טריוויאליכאשר נדרש לפתור מערכת משוואות לא לינארית או כ

.עוסק במציאת נקודות אופטימום של פונקציות באופן נומריאני מודה מראש . ספר זה נועד להשלים את ההרצאות ומציג דוגמאות ותרגילים בנוסף לחומר התיאורטי

. il.ac.technion.dorip@txלקוראים שישלחו לי הערות ותגובות על מהדורה זו לכתובת

דורי פלג

2005מרץ

4

5

תוכן עניניים 8..........................................................................................................................חזרה על אלגברה לינארית. 1

8........................................................................................)ע"ו( עצמיים ווקטורים )ע"ע( צמייםע לערכים פירוק 9.........................................................................................................................................לכסינה מטריצה

10...................................................................................................................שמושים של לכסון מטריצה POSITIVE SEMIDEFINITE(............11( מוגדרת חצי חיובית ומטריצה )POSITIVE DEFINITE( מוגדרת חיובית מטריצה

13......................................................................................................חזרה על חשבון דיפרנציאלי ואינטגרלי. 2 13..........................................................................................................................................כיוונית נגזרת

13.........................................................................................................................................2.1תרגיל 14...........................................................................................................................................הדיפרנציאל

15..........................................................................................................?למה אופרטור הדיפרנציאל חשוב 15.........................................................................................................................................2.2תרגיל 16.........................................................................................................................................2.3תרגיל 17.........................................................................................................................................2.4 תרגיל

18................................................................................................................................חלקיים דיפרנציאלים 18.........................................................................................................................................2.5תרגיל 21.........................................................................................................................תהנגזרו לשערוך נוסחאות 23.................................................................................................................................................קמירות

23.....................................................................................................................................קבוצה קמורה 23.........................................................................................................................................2.6תרגיל 24.........................................................................................................................................2.6תרגיל 25.........................................................................................................................................2.7תרגיל

26......................................................................................................פונקציה קמורה ופונקציה קמורה ממש 27......................................................................................................................קמורות פונקציות של תכונות

28.........................................................................................................................................2.8תרגיל 30.........................................................................................................................................2.9תרגיל 32.......................................................................................................................................2.10תרגיל 35.......................................................................................................................................2.11תרגיל 38.......................................................................................................................................2.12תרגיל 39.......................................................................................................................................2.13תרגיל

43....................................................................................................................אלגוריתמים לחיפוש על ישר. 3 43...............................................................................................................................................מוטיבציה UNIMODAL..............................................................................................................................46 פונקציה

BISECTION.........................................................................................................................47-ה אלגוריתם 48..................................................................................................מינימום נקודת שמכיל התחלתי מקטע מציאת

50......................................................................................................................................ניוטון אלגוריתם 52..................................................................................................................................אינטרפולציה גישת

53...............................................................................................................................ריבועית אינטרפולציה 54.................................................................................................................................קובית אינטרפולציה GOLDEN SECTION.................................................................................................................56 אלגוריתם

64....................................................................................................הישר על לחיפוש מדויקים לא אלגוריתמים 64...................................................................................................................................גודל צעד דועך

Armijo.....................................................................................................................................65כלל 67............................................................................................................הישר על לחיפוש אלגוריתמים סיכום

69...................................................................................מימדיים מבוססי גרדיאנט-אלגוריתמי מינימיזציה רב. 4 STEEPEST DESCENT..............................................................................................................70 אלגוריתם 71.........................................................................................................................................4.1תרגיל 72.........................................................................................................................................4.2תרגיל θ condition number............................................................................................................74הגדרה NORMALIZED STEEPEST DESCENT........................................................................................77 אלגוריתם PARTRAN (PARALLEL TANGENTS).....................................................................................79 אלגוריתם 81......................................................................................................................................ניוטון אלגוריתם

82.....................................................................................................................שיפורים לאלגוריתם ניוטון CONJUGATE DIRECTIONS......................................................................................................85 אלגוריתם

6

85....................................................................................................................................כיוונים צמודים Q.......................................................................................................................85יצירת כיוונים צמודים

86.........................................................................................................................................4.3תרגיל CONJUGATE GRADIENTS...........................................................................................89 צמודים גרדיאנטים

CG............................................................................................................90חסם התכנסות של אלגוריתם QUASI NEWTON..................................................................................................92 למחצה ניוטוניות שיטות

Quasi-Newton.................................................................................................93 של Broydenמשפחת Broyden.............................................................................................95תכונות של אלגוריתמים ממשפחת

TRUNCATED NEWTON...........................................................................................................96 אלגוריתם LEAST SQUARES..........................................................................................99בעיות ריבועים פחותים . 5

GAUSS-NEWTON.................................................................................................................101 אלגוריתם 102.........................................................................................................................לינארית LS בעית תרוןפ

103...................................................................................................יחודי מבנה בעלות לינאריות לא LS בעיות 104.......................................................................................................................................5.1תרגיל 107.......................................................................................................................................5.2תרגיל

NORM APPROXIMATION(.....................................................................................109(קירוב נורמה . 6 111...............................................................................................................................קנס פונקציות קירוב 114...................................................................................................................................לשגיאות רגישות

117.............................................................................................................בעיות אופטימיזציה עם אילוצים. 7 119............................................................................................בלבד שוויון אילוצי עם אופטימיזציה בעיות 7.1

119.....................................................................................................................................'כופלי לגרנז 120..............................................................................)תנאים הכרחיים לנקודת מינימום(' משפט כופלי לגראנז 121................................................................................)תנאים מספיקים לנקודת מינימום(' משפט כופלי לגרנז

122....................................................................................................................................7.1.1תרגיל 126....................................................................................................................................7.1.2תרגיל 129....................................................................................................................................7.1.3תרגיל

136..............................................................................................................................שוויון אי אילוצי 7.2 COMPLEMENTARY SLACKNESS.................................................................................................137 עקרון KARUSH-KUHN-TUCKER........................................................................................138 של הכרחיים תנאים

139....................................................................................................................................7.2.1תרגיל 143........................................................................................אילוצים עם בעיות לפתרון נומרים אלגורתמים 7.3

Penalty.......................................................................................................................143 שיטת 7.3.1 Barrier.......................................................................................................................149 שיטת 7.3.2 Augmented Lagrangian.........................................................................................152 אלגוריתם 7.3.3

LINEAR PROGRAMMING(..................................................................................155(תכנות ליניארי . 8 155.............................................................................................................................הדיאטה בעיית :דוגמא

157................................................................................................חוקיים בסיסיים ופתרונות בסיסיים פתרונות 158.....................................................................................................................................פתרון בסיסי

158..............................................................................................................................פתרון בסיסי חוקי 159.......................................................................................................................................8.1תרגיל 160.......................................................................................................................................8.2תרגיל 161.......................................................................................................................................8.3תרגיל 163.......................................................................................................................................8.4תרגיל

164....................................................................................................................................נקודות קיצון 165.......................................................................................................................................8.5תרגיל SIMPLEX.........................................................................................................................166 -ה אלגוריתם 167...........................................................................................................................................1בעיה

167.......................................................................................................................................8.6תרגיל 171...........................................................................................................................................2בעיה 172...........................................................................................................................................3בעיה 174...........................................................................................................................................4בעיה

175.......................................................................................................................................8.7תרגיל 179..............................................................................................................דואליות של MIN-MAX השקפת

181.......................................................................................................................................9.1תרגיל 188.......................................................................................................................................9.2תרגיל

190............................................................................................................................................9.3 תרגיל

7

192.......................................................................................................................................9.4תרגיל 179................................................................................... האיברים הכי גדולים של וקטורr סכום -9.5תרגיל

199......................................................................................................שוויונים מוכללים ובעיות קוניות-אי. 10 200..................................................................................................שלילי-האי האורטנט וקון וקטורי שוויון-אי 202...................................................................................................מוגדר חצי החיובי והקון מטריצי שוויון-אי

204.......................................................................................................................................דואליים קונים 205.....................................................................................................................................10.1תרגיל

206..........................................................................................מוכללים שוויון אי אילוצי עם אופטימיזציה בעיות 209.....................................................................................................................................10.2תרגיל 210.....................................................................................................................................10.3תרגיל

SEMIDEFINITE PROGRAMMING..........................................................................................................211 211..............................................................................בעיית מינימיזציה של ערך עצמי מקסימלי: 10.4תרגיל

Schur Complements.....................................................................................................................212 LMI(...................................................................214(המרת אי שוויון ריבועי לאי שוויון מטריצי : 10.5תרגיל SDP.....................................................................................215 לבעיית QCQPהמרת בעיית : 10.6תרגיל 216.....................................................................................................................................10.7תרגיל 217.....................................................................................................................................10.8תרגיל 218.....................................................................................................................................10.9תרגיל

ROBUST LINEAR PROGRAMMING......................................................................................................219 SVM...........................................................................................................221 אלגוריתם -דוגמא מסכמת. 11

221................................................................................................................................תבניות זיהוי :מבוא 224..................................................................אימון שגיאות ללא לינארית בצורה להפרדה ניתנות אימון מדידות .1 229............................................................אימון שגיאות ללא לינארית בצורה להפרדה ניתנות אינן אימון מדידות .2 234...................................................................................................................ליניארי לא למקרה הרחבה .3

237....................................................................................................................................................נספחים 237...................................האינטרפולציה גישת אלגוריתם עבור ריבועית פונקציה של הקירוב נוסחת כחתהו :3.1 נספח 238...................................................................הריבועית ההתאמה אלגוריתם של הקידום נוסחת הוכחת :3.2 נספח 240.............................................................................................................................................4.1 נספח 241.............................................................................................................................................4.2 נספח 242.............................................................................................................................................4.3 נספח 245.............................................................................................................................................4.5 נספח 246...........................................................................................................................................10.1 נספח 247...........................................................................................................................................10.2 נספח 248........................................................................................................................הגרעין מושג :11.1 נספח

250.........................................................................................................................................רשימת מקורות 252.........................................................................................................................................רשימת מונחים

8

חזרה על אלגברה לינארית. 1

.אלא אם נאמר אחרת, עמודהכל הווקטורים יהיו וקטורי : הסכם לאורך הקורס

].A] n x nלפרק זה נגדיר מטריצה ריבועית

A היא מטריצה הפיכה Aמטריצה 0≠ ⇔.

) ע"ו(ווקטורים עצמיים ) ע"ע(פירוק לערכים עצמיים

Av: אם מתקיים היחס הבא v=λ

,כאשרA- מטריצה ]n x n[

v ]n x 1[ וקטור – ≠0λ-סקלר

.Aשל מטריצה ) ע"ע( מוגדר ערך עצמי λ- וAשל מטריצה ) ע"ו( מוגדר וקטור עצמי vאז

ע"חישוב ע , המוגדר באופן הבא הם שורשי הפולינום האופיניע"הע

J( ) det(A I)λ = −λ ,כאשר

I- מטריצת היחידה ]n x n[

,ע"כלומר חישוב המשוואה הבאה מניב את העA I 0−λ =

ע"חישוב ו

,י הנוסחה" המתאים לו עפiv ע" מחשבים את הוiλ ע"לכל ע

i i(A I)v 0−λ =

דוגמא

של המטריצה ע" והוע"נחשב את הע1 2

A3 2⎡ ⎤

= ⎢ ⎥⎣ ⎦

.

,ע"חישוב ע

1

2

1 2A I (1 )(2 ) 2 3 ... ( 1)( 4) 0

3 2

14

−λ−λ = = −λ −λ − ⋅ = = λ + λ − =

−λ

λ = −⎧⇒ ⎨ λ =⎩

9

,ע"חישוב ו1 1(A I)v 0

1 ( 1) 2 x 2x 2y 03 2 ( 1) y 3x 3y 0

−λ =

− − +⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤= =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥− − +⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

, משוואות בשני נעלמים והפתרון הוא2כלומר קיבלנו

1

1v

1⎡ ⎤

⇒ = ⎢ ⎥−⎣ ⎦

x 1y 1=⎧

⎨ = −⎩

2 2(A I)v 0

1 4 2 x 3x 2y 03 2 4 y 3x 2y 0

−λ =

− − +⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤= =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥− −⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

, משוואות בשני נעלמים והפתרון הוא2כלומר קיבלנו

2

2v

3⎡ ⎤

⇒ = ⎢ ⎥⎣ ⎦

x 2y 3=⎧

⎨ =⎩

מטריצה לכסינה

nמטריצה nA )היא לכסינה אם היא דומה למטריצה אלכסונית ∋× )1 ndiag , ,Λ = λ λ… . כלומר אם - כך שVיש מטריצה הפיכה

.1V AV− = Λ

משפטnמטריצה nA . וקטורים עצמיים בלתי תלויים לינאריתn יש A-ם ל"היא לכסינה אם∋×

כמטריצה Vע "נגדיר את מטריצת הו וקטורים עצמיים בלתי תלויים לינארית אז n יש A-כלומר אם ל

,Aע של מטריצה "שעמודותיה הן הו

1 2 n

| | |V v v v

| | |

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

,A של מטריצהע" הם העiλ כמטריצה אלכסונית שאיברי אלכסונה Λע "נגדיר את מטריצת הע

10

1

2

n

0

0

λ⎡ ⎤⎢ ⎥λ⎢ ⎥Λ⎢ ⎥⎢ ⎥λ⎣ ⎦

ואז מתקיים

. 1A V V−= Λ

הערה

.ע שלהן תמיד ממשיים"מטריצות סימטריות הן תמיד לכסינות והע

,בדוגמא שלנו

[ ]1 2

1 2V v v

1 3

1 00 4

⎡ ⎤= = ⎢ ⎥−⎣ ⎦

−⎡ ⎤Λ = ⎢ ⎥

⎣ ⎦

שמושים של לכסון מטריצה 1: הפיכת מטריצה). 1 1 1A V V− − −= Λ n: העלאה בחזקה). 2 n 1

n

A A A A V V−= ⋅ ⋅⋅⋅ = Λ

)spectral radius( רדיוס ספקטרלי

ii: מוגדררדיוס ספקטרלי(A) maxρ λ, כאשר iλ של מטריצה סימטריתע"הע הם A.

11

ומטריצה חיובית חצי ) Positive Definite(מטריצה חיובית מוגדרת )Positive Semidefinite(מוגדרת

הגדרות עזר

nA S∈- סימטרית מטריצה ריבועית [n n]× nx∈ - וקטור [n 1]×

Tx - היא ביטוי מהצורה תבנית ריבועית Ax .

!קלר היא סנשים לב כי התבנית הריבועית

A שני תנאים שקולים להגדרת מטריצה חיובית מוגדרת 0, xאם ). 1 0∀ Tx, שנבחר מתקיים≠ Ax 0>. iiאם ). 2

min( ) 0λ . הם חיובייםAל שע"כלומר אם כל הע. <

A שני תנאים שקולים להגדרת מטריצה חיובית חצי מוגדרת 0,

Tx, שנבחר מתקיים∀xאם ). 1 Ax 0≥. iiאם ). 2

min( ) 0λ .שליליים- הם איA של ע"כלומר אם כל הע. ≤

הערות

בשני ( עם סימן הפוך טריצה שלילית חצי מוגדרת ומבאופן דומה מגדירים מטריצה שלילית מוגדרת •

).התנאים כמובן ע של המטריצה"נשים לב כי הע •

1 30 2⎡ ⎤⎢ ⎥⎣ ⎦

,1 הם ! אבל המטריצה לא חיובית מוגדרת כי היא לא סימטרית2

לינאריותמערכות משוואות ) -מסומנת כ (Aרגה של מטריצה הד )rank A ( היא מספר השורות השונות מאפס של המטריצה

. על ידי פעולות שורה אלמנטריותAהמדורגת המתקבלת ממטריצה

:קיימות שלוש אפשריות. נעלמיםn- משוואות בm מערכת של Ax=bתהי

)ם "יד אםלמערכת יש פתרון יח .1 ) [ ]( )rank A =rank A|b =n.

)אם .2 ) [ ]( )rank A =rank A|b <n למערכת יש אינסוף פתרונות והיא בעלת ( )n-rank A .דרגות חופש

12

)אם .3 ) [ ]( )rank A rank A|b≠למערכת אין פתרון .

מסקנות)ם " נעלמים יש פתרון יחיד אםn- משוואות לינאריות בnלמערכת של • )rank A n=. ).x=0הפתרון הטריוויאלי ( יש לפחות פתרון אחד Ax=0למערכת הומוגנית •) רק הפתרון הטריוויאלי כאשר למערכת הומוגנית קיים • )rank A n≥.

13

חזרה על חשבון דיפרנציאלי ואינטגרלי. 2

נגזרת כיוונית r–וקטור כיוון

f (x)∇-וקטור הגרדיאנט

T: היאהנגזרת הכיווניתrf (x) f (x) r′ = ∇

הערותכלומר וקטור הכיוון . רק עבור וקטורים שנרמלו אותםא הגדירו את הנגזרת הכיוונית"חדווב -

rr

את ההגדרה של הנגזרת " נגמיש"לצורך שימוש באלגוריתמים נומריים בהמשך הקורס .

.הכיוונית גם לווקטורי כיוון שלא מנורמלים . r בכיוון x בנקודה f היא השיפוע של הפונקציה אומטרית של הנגזרת הכיווניתהמשמעות הגי - . היא גודל סקלריהנגזרת הכיוונית -בגלל שמכפלה ( תמיד קטנה מזו שבכיוון הגרדיאנטט שלא בכיוון הגרדיאנהנגזרת הכיוונית -

).פנימית מכסימלית כאשר שני הווקטורים באותו כיוון

2.1תרגיל

, הבאהfנתונה פונקציה 2f : →R R

1

2

xx

x⎡ ⎤⎢ ⎥⎣ ⎦

1 2x 2x

1 1 2f (x) 10x x x e −= + + .f של חשבו את הגרדיאנט). א

1 2

1 2

x 2x1 2

x 2x1

2

fx 10 x e

f (x)f x 2ex

∂⎡ ⎤⎢ ⎥∂ ⎡ ⎤+ +⎢ ⎥∇ = = ⎢ ⎥∂⎢ ⎥ −⎣ ⎦⎢ ⎥∂⎣ ⎦

1 בנקודה חשבו את הנגזרת הכיוונית). ב

2

x 1x 1⎡ ⎤ ⎡ ⎤

=⎢ ⎥ ⎢ ⎥⎣ ⎦⎣ ⎦

ובכיוון 2

r1⎡ ⎤

= ⎢ ⎥⎣ ⎦

.

1

1

11 ef (1,1)

1 2e

⎡ ⎤+∇ = ⎢ ⎥−⎣ ⎦

T 1 1

r

2f (1,1) f (1,1) r 11 e 1 2e 23

1− − ⎡ ⎤′ ⎡ ⎤= ∇ = + − =⎢ ⎥⎣ ⎦ ⎣ ⎦

14

,fהפונקציה של חשבו את ההסיאן). ג

1 2 1 2

1 2 1 2

2 2

x 2x x 2x1 1 1 22

x 2x x 2x2 2

2 1 2 2

f fx x x x e 1 2e

H(x) f (x)1 2e 4ef f

x x x x

− −

− −

⎡ ⎤∂ ∂⎢ ⎥∂ ∂ ∂ ∂ ⎡ ⎤−⎢ ⎥= ∇ = = ⎢ ⎥⎢ ⎥ −∂ ∂ ⎣ ⎦⎢ ⎥∂ ∂ ∂ ∂⎣ ⎦

ע "ולכן היא תמיד לכסינה והע) 1בגלל שהנגזרות המעורבות מתחלפות (נשים לב כי זו מטריצה סימטרית

.שלה ממשיים

הדיפרנציאל

?2מהו הדיפרנציאל

, הרב ממדיxעבור המשתנה ,נסמן

11 1

2 22

n n

n

fx

x dxf

x dxxx ; dx ; g(x) f (x)

x dxf

x

∂⎡ ⎤⎢ ⎥∂⎢ ⎥⎡ ⎤ ⎡ ⎤∂⎢ ⎥⎢ ⎥ ⎢ ⎥

⎢ ⎥⎢ ⎥ ⎢ ⎥ ∂∇ = ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦ ∂⎢ ⎥⎢ ⎥∂⎣ ⎦

,3מתקיים

אנו נתעסק עם פונקציות . בנקודה זו הנגזרות המעורבות שוות⇐אם כל הנגזרות החלקיות רציפות בנקודה מסוימת 1

.שמקיימות את התנאי הזה 173מ "ע, 1א "חדו/ סמי זעפרני-ראו ספר של בן ציון קון 2 186מ "ע', חלק א2א "חדו/ סמי זעפרני-ראו ספר של בן ציון קון 3

y

x

dydx

0x

0f (x )

y = f(x) עבור פונקציהy f (x)=של משתנה , כזכורxממדי יחיד -חד

dy f (x)dx

′=

רעיון הדיפרנציאל הוא שניתן להתיחס

, באופן נפרד ולכןdx - ולdy -ל

dy f (x)dx′⇒ =

15

T1 2 n

1 2 n

f f fdf g,dx f (x),dx f (x) dx dx dx dxx x x∂ ∂ ∂

= = ∇ = ∇ = + + +∂ ∂ ∂

? חשובלמה אופרטור הדיפרנציאל

כדי למצוא מינימום של פונקציה במקרים רבים צריך . למצוא מינימום של פונקציותמטרת הקורס היאברוב המקרים יש צורך לבצע גזירה לפי וקטורים ומטריצות ועוד . שלה וההסיאןלחשב את הגרדיאנט

ניתן לעשות זאת בקלות ללא צורך בזכירת באמצעות אופרטור הדיפרנציאל. מתמטיים אחרים" יצורים" .נוסחאות רבות

2.2תרגיל

,נתוןT1f (x) x Ax

2=

x – וקטור עמודה [n 1]× A – מטריצה ריבועית [n n]× .חשבו את הגרדיאנט). א

, ונביא אותו לצורה הבאה df נחשב את הדיפרנציאלכדי לחשב את הגרדיאנטTdf g,dx g dx= =

( ) ( )

( )

( ) ( )

T T T T T T

סקלר

T T

TT T T

1 1 1df d x Ax dx Ax x Adx x A dx x Adx2 2 2

1 x A A dx2

1 1g(x) x A A A A x2 2

⎛ ⎞= = + = + =⎜ ⎟⎜ ⎟

⎝ ⎠

= +

⎡ ⎤⇒ = + = +⎢ ⎥⎣ ⎦

.חשבו את ההסיאן). ב

, ונביא אותו לצורה הבאהdg נחשב את הדיפרנציאלכדי לחשב את ההסיאן

( )

( )

T

T

dg Hdx

1dg A A dx2

1H(x) A A2

=

= +

⇒ = +

16

2.3תרגיל

,נתוןf (h(w))= ϕ

,כאשרw – וקטור עמודה [n 1]× [ ]( )T

1 2 nw w , w , , w= …

h – 1 פונקציה של המשתנים 2 nw , w , , w… ϕפונקציה של משתנה אחד . .חשבו את הגרדיאנט). א

Tdf dh h dw↓

′ ′= ϕ = ϕ ∇

( ) ( )T TTg h h h′ ′ ′⇒ = ϕ ∇ = ∇ ϕ = ϕ ∇

.חשבו את ההסיאן). ב

( )T 2dg d( ) h d( h) h dw h hdw′ ′ ′′ ′= ϕ ∇ +ϕ ∇ = ϕ ∇ ∇ +ϕ ∇ =

( )T 2 T 2

T 2

h h dw hdw h h h dw

H h h h

′′ ′ ′′ ′= ϕ ∇ ∇ +ϕ ∇ = ϕ ∇ ∇ +ϕ ∇

′′ ′⇒ =ϕ ∇ ∇ +ϕ ∇

דיפרנציאל של פונקציה של משתנה אחד

Tdh h dw= ∇

↑דיפרנציאל של

פונקציה של מספר משתנים

′ϕסקלר

T

2

d( ) dh h dwd( h) hdw

′ ′′ ′′ϕ = ϕ = ϕ ∇

∇ = ∇

17

2.4תרגיל

נתונה הפונקציהT Tf (x) x Qx b x (1)= − ,

Q וידוע כי ∋nxכאשר n- ו0 1>. .חשבו את הגרדיאנט). א

T

T T

1 1f (x) d(x Qx) b Qx b2 x Qx x Qx

∇ = − = −

Q-נשים לב כי מאחר ו . אז המטריצה היא סימטרית0

.חשבו את ההסיאן). ב

( )

( )

( ) ( )

( ) ( )

T T T

3T T2

T

3T T T2

32 T T T2

1 Qdx 1d f (x) d Qx Qx dx Qx x Qx x Qx

Qdx 1Qx x Qx 2 x Qdx2x Qx

x Qx x Qx Q Qxx Q dx

f (x) x Qx x Qx Q Qxx Q

⎛ ⎞ ⎛ ⎞∇ = = + ⋅ =⎜ ⎟ ⎜ ⎟

⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠

= + ⋅− ⋅ ⋅ =

⎡ ⎤= −⎣ ⎦⇓

⎡ ⎤∇ = −⎣ ⎦

18

משתנה ( לפונקציות היה משתנה אחד נשים לב כי בשלוש הדוגמאות הקודמות של אופרטור הדיפרנציאל .חיב למקרה בו ישנם מספר משתניםכעת נר). יכול להיות גם וקטור או מטריצה של משתנים סקלרים

דיפרנציאלים חלקיים

,f של הדיפרנציאלים החלקייםu, v היא פונקציה של שני משתנים fאם

u vf fdf (u, v) du dv df dfu v∂ ∂

= + +∂ ∂

של הפונקציה לפי הוא הדיפרנציאלvdf-ו, ) קבועu) v של הפונקציה לפי הוא הדיפרנציאלudfכלומר

v) uקבוע .(

כדי לחשב אותם נשתמש . והסיאןעבור פונקציה של מספר משתנים לכל משתנה יש גרדיאנט ,רנציאלים החלקיים באותו אופן שבו עשינו במקרה של משתנה בודדבדיפ

u u u u

v v v v

df g ,du ; dg H du

df g ,dv ; dg H dv

= =

= =

2.5תרגיל

,)Neural Net (נתונה רשת ניורונים ( ) ( )Tf v, b, W v Wx b= ϕ +

v - וקטור עמודה [n 1]× b - וקטור עמודה [n 1]×

W –טריצה מ[n m]× x - וקטור עמודה [m 1]×

ϕ- שמוגדרת באופן הבאוקטורית פונקציה ,( )

( )( )

( )

11

22

nn

uuuu

u

uu

ϕ⎡ ⎤⎛ ⎞⎢ ⎥⎜ ⎟ ϕ⎢ ⎥⎜ ⎟ϕ = ϕ =⎢ ⎥⎜ ⎟⎢ ⎥⎜ ⎟ϕ⎢ ⎥⎝ ⎠ ⎣ ⎦

. היא אותה פונקציה אבל סקלריתϕכאשר

). הוא מטריצהWהמשתנה (W ,b ,v: היא פונקציה של מספר משתנים fהפונקציה

.v - vg לפי חשבו את הגרדיאנט). א

( ) ( )

( )

TTv

v

df dv Wx b Wx b dv

g Wx b

= ϕ + = ϕ +

⇒ = ϕ +

19

.b - bg לפי חשבו את הגרדיאנט). ב

, של פונקציה וקטוריתתחילה נחשב דיפרנציאל

1 1 1 1 1

2 2 2 2 2

n n n n n

d (u ) (u )du (u ) 0 dud (u ) (u )du (u ) du

d

d (u ) (u )du 0 (u ) du

′ ′ϕ ϕ ϕ⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥′ ′ϕ ϕ ϕ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ϕ = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥′ ′ϕ ϕ ϕ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

Φ′

d du′⇒ ϕ = Φ

, חזרה לתרגיל( ) ( )

( ) ( )

T T Tb

T TTb

df v d (Wx b) v d Wx b v db

g v v v

′ ′= ϕ + = Φ + = Φ

′ ′ ′⇒ = Φ = Φ = Φ

.W -WG לפי חשבו את הגרדיאנט). ג

, בין מטריצות היא מטריצה אז נגדיר מכפלה פנימיתW-מאחר ו

A – מטריצה [n m]× B – מטריצה [n m]×

(1)

,נובע כי) 1(-לכן מ

(2)( )Tdf G,dW tr G dW= =

הערות . הוא מטריצהGנשים לב כי כעת - ).סקלר נחשב למטריצה ריבועית( פועל רק על מטריצות ריבועיות traceאופרטור -

( )Ti, j i, j

i, jA, B a b tr A B= =∑

′Φהיא מטריצה אלכסונית ועבור מטריצות אלכסוניות

TAמתקיים A=

20

trace אופרטור תכונה של

, מהצורה הבאהC, Dידוע כי לכל מטריצות C – מטריצה [m n]× D – מטריצה [n m]×

,מתקיים

(3)tr(CD) tr(DC)=

,חזרה לתרגיל

( ) ( )

( ) ( )

( ) ( )

T T TW

T T TW

T TT T TW

scalar

D[m 1]C[1 m]

scalar tr(scalar)

df v d (Wx b) v d Wx b v dWx

tr v dW x tr xv dW tr G dW

(3) (2)

G xv vx vx

××

=

′ ′= ϕ + = Φ + = Φ =

⎛ ⎞′ ′⎜ ⎟= Φ ⋅ = Φ =

⎜ ⎟⎝ ⎠

↑ ↑

′ ′ ′⇒ = Φ = Φ = Φ

21

נוסחאות לשערוך הנגזרות

. לכן רצוי לפתח אמצעי בדיקה. לעיתים נופלות טעויות חישוב וההסיאןבחישוב האנליטי של הגרדיאנט .בקירוב זה יש צורך בחישוב ערך הפונקציה בלבד. קירוב נומרי של הנגזרותבאמצעות ניתן לעשות זאת

,קירוב הגרדיאנט

ii

i

i ii

i

f (x e ) f (x)fg (4)x

f (x e ) f (x e )fg (5)x 2

+ ε −∂= ≅∂ ε

+ ε − − ε∂= ≅∂ ε

ערה ה

מניבה קירוב יותר מדויק מפני ) 5(נוסחה . f(x)יש פחות חישובים מפני שכבר נתון לנו ) 4(בנוסחה .xשהיא סימטרית סביב נקודת המדידה

,)4(קירוב ההסיאן לפי

( ) ( ) ( ) ( )

2i j i

i, ji j

i j j ii, j 2

(4)

g (x e ) g (x)fH (x)x x

f x e e f x e f x e f xH (x) (6)

↓+ ε −∂

= ≅ ⇒∂ ∂ ε

+ ε + ε − + ε − + ε +⇒ =

ε

,)5(קירוב ההסיאן לפי

2i j i j

i, ji j

(5)

g (x e ) g (x e )fH (x)x x 2

↓+ ε − − ε∂

= ≅ ⇒∂ ∂ ε

nf : →R R nx∈Rנקודת המדידה

ε∈Rערך קטן וקבוע n

ie ∈Rוקטורי יחידה

ig - רכיב i של הגרדיאנט g

i

0

0e coordinate i1

0

0

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= ←⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

22

( ) ( ) ( ) ( )i j i j i j i ji, j 2

f x e e f x e e f x e e f x e eH (x) (7)

4+ ε + ε − − ε + ε − + ε − ε + − ε − ε

⇒ =ε

טריק לקירוב ההסיאן

,כזכור2 2 2

1 1 1 2 1 n12 2 2

2 2 1 2 2 2 n1 2 n

2 2 2

n n 1 n 2 n n

f f ffx x x x x xx

| | |f f f f

g g gxg(x) ; H(x) x x x x x xx x x| | |

f f f fx x x x x x x

⎡ ⎤∂ ∂ ∂∂⎡ ⎤⎢ ⎥⎢ ⎥ ∂ ∂ ∂ ∂ ∂ ∂∂ ⎢ ⎥⎢ ⎥ ⎡ ⎤⎢ ⎥∂⎢ ⎥ ∂ ∂ ∂ ⎢ ⎥⎢ ⎥ ∂ ∂ ∂⎢ ⎥ ⎢ ⎥∂= = =∂ ∂ ∂ ∂ ∂ ∂⎢ ⎥⎢ ⎥ ⎢ ⎥∂ ∂ ∂⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎣ ⎦∂ ⎢ ⎥∂ ∂ ∂⎢ ⎥⎢ ⎥⎢ ⎥∂ ∂ ∂ ∂ ∂ ∂ ∂⎣ ⎦ ⎢ ⎥⎣ ⎦

ניתן לקרב בבת אחת עמודה ) 7( ,)6( לפי נוסחאות כלומר במקום לחשב איבר איבר במטריצת ההסיאן

. באמצעות הגרדיאנטשלמה של ההסיאן

הערה חשובה

לכן לאורך כל הקורס לא נסתפק . שנבחרε מאד תלויים בערך וההסיאןהקירובים הנומריים לגרדיאנט מאחר ולעיתים קרובות החישוב . באופן אנליטי וההסיאןל אלא נחשב את הגרדיאנט"בקירובים הנ

. כדי לבדוק אם נפלו טעויות בחישובים האנליטייםרקנוכל להשתמש בקירובים הנומריים , מורכב

23

קמירות

תכונה חשובה מאד שלהן . הן פונקציות בעלות חשיבות רבה באופטימיזציהפונקציות קמורות: מוטיבציה ?למה זה חשוב. א גם מינימום גלובליהיא שמינימום לוקלי הו

עבור רוב הבעיות המעשיות אי אפשר . נזכור כי מטרת הקורס היא למצוא מינימום גלובלי של פונקציותאת נקודת המינימום במקום " מחפשים"לכן בהמשך הקורס נפתח אלגוריתמים ש. לחשב זאת אנליטית

עבור פונקציות קמורות הם . ימום לוקלי בלבדאלגוריתמים אלו יוכלו להבטיח מציאת מינ. לחשב אותה .יוכלו להבטיח מציאת מינימום גלובלי

קבוצה קמורה

1מוגדרת כקבוצה קמורה אם לכל שתי נקודות Ωקבוצה 2x , x ∈Ω 0 מתקבל כי לכל 1≤ α ≤ 1הנקודה 2x (1 )xα + −αאף היא בקבוצה Ω.

,דוגמאות

קבוצה קמורה קבוצה לא קמורה קבוצה לא קמורה

1x 2x

1x

2x

1x

2x

24

2.6תרגיל

, נתונה הקבוצה הבאה B z | z 1= ∈ ≤

Imz

Re z1

B

? קבוצה קמורהBהאם

. צריכה להיות קבוצה קמורהB היא עיגול ולכן אינטואיטיבית Bה המשמעות הגיאומטרית של קבוצ

הוכחה

1נגדיר 2z , z B∈

1 2 1 2 1 2

1 2

z z (1 )z z (1 )z z (1 ) z (1 ) 1

( ) [0,1] z , z B

= α + −α ≤ α + −α = α + −α ≤ α + −α =

↑ ↑ ↑

∗ α∈ ∈

ם זוהי תכונה ידועה שערך מוחלט של סכום של שני מספרים קומפלקסים קטן שווה מסכום הערכי- ∗

).שוויון המשולש-אי (4המוחלטים

. קבוצה קמורהBלכן

.' סעיף ה8 פונקציות מורכבות עמוד ,ציון קון-ראה ספר של בן 4

25

2.7תרגיל

,Bנתונה הקבוצה המשלימה של CB z | z 1= ∈ >

? קבוצה קמורהcBהאם

, היאBהמשמעות הגיאומטרית של קבוצה

Imz

Re z

CB

1

. צריכה להיות קבוצה לא קמורהBלכן אינטואיטיבית

)באמצעות דוגמא נגדית(הוכחה

,נבחר

C1

C2

z 2 B

z 2 B12

= ∈

= − ∈

α =

( ) c1 2

1 1z z (1 )z 2 2 0 B2 2

= α + −α = + − = ∉

. קבוצה לא קמורהcBלכן

26

פונקציה קמורה ופונקציה קמורה ממש

1 אם לכל שתי נקודות מוגדרת כפונקציה קמורהΩ מעל קבוצה קמורהf(x)פונקציה 2x , x ∈Ω מתקבל ,כי

1 2 1 2f ( x (1 )x ) f (x ) (1 )f (x ) [0,1]α + −α ≤ α + −α ∀α∈

1מוגדרת כפונקציה קמורה ממש אם לכל שתי נקודות Ω מעל קבוצה קמורה f(x)פונקציה 2x , x ∈Ω ,מתקבל כי

1 2 1 2f ( x (1 )x ) f (x ) (1 )f (x ) (0,1)α + −α < α + −α ∀α∈

כלומר פונקציה מעל קבוצה קמורה היא קמורה ממש אם לכל שתי נקודות שניקח מהקבוצה הקמורה אז .ערך הפונקציה קטן יותר מערך המיתר לכל נקודה על הישר המחבר את שתי הנקודות

2x1x

1f(x )

2f(x )

x

27

תכונות של פונקציות קמורות 1fתהי ). 1 (x) C∈ . אזי פונקציה זו קמורה מעל תחום ההגדרה קמורΩם מתקיים כי " אמ

0x, x∀ ∈Ω,

( )T0 0 0f (x) f (x ) f (x ) x x≥ +∇ −

2fתהי ). 2 (x) C∈ . אזי פונקציה זו קמורה מעל תחום ההגדרה קמורΩם מתקיים כי " אמx∀ ∈Ω,

2H(x) f (x) 0= ∇ ). הוא מטריצה חיובית חצי מוגדרתכלומר ההסיאן(

,1אינטואיציה לתכונה fהישר המשיק לפונקציה (x)0ודה בנקxהוא :( )T

0 0 0f (x ) f (x ) x x+∇ לכן המשמעות . −

)הגיאומטרית של תכונה זו היא שעבור פונקציה קמורה בכל נקודה )0x שבה נמתח ישר משיק .תהיה מעל המשיק הזה) xלכל (כל הפונקציה , לפונקציה

( )T0 0 0f (x ) f (x ) x x+∇ −

f (x)

0x

28

2.8תרגיל

נתונה הפונקציה הריבועיתT T1f(x)= x Ax+b x

2

nAכאשר S∈ .בדקו לפי שלושת הקריטריונים? האם הפונקציה קמורה ותחת איזה תנאים.

פתרון

nΩבשאלה זו =. ).א

:ש"נבדוק תחת איזה תנאים מתקיים האי1 2x , x ∈Ωמתקבל כי ,

n1 2 1 2 1 2[0,1], x , x : f ( x (1 )x ) f (x ) (1 )f (x )∀α∈ ∈ α + −α ≤ α + −α

אגף ימין של המשוואה הוא

T T T T

1 2 1 1 1 2 2 2

T T T T1 1 2 2 1 2

1 1f (x ) (1 )f (x ) x Ax +b x (1 ) x Ax +b x2 2

1 1x Ax (1 )x Ax b x (1 )b x2 2

⎛ ⎞ ⎛ ⎞α + −α = α + −α =⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠

= α + −α +α + −α

אגף שמאל של המשוואה הוא

[ ] [ ] [ ]T T1 2 1 2 1 2 1 2

2 T 2 T T T T1 1 2 2 1 2 1 2

1f ( x (1 )x ) x (1 )x A x (1 )x +b x (1 )x2

1 1x Ax (1 ) x Ax (1 )x Ax b x (1 )b x2 2

α + −α = α + −α α + −α α + −α =

= α + −α +α −α +α + −α

שלילי-נבדוק מתי הביטוי הבא הוא אי

1 2 1 2

T T T T1 1 2 2 1 2

2 T 2 T T T T1 1 2 2 1 2 1 2

T T 2 T 2 T T1 1 2 2 1 1 2 2 1 2

f (x ) (1 )f (x ) f ( x (1 )x )1 1x Ax (1 )x Ax b x (1 )b x2 2

1 1x Ax (1 ) x Ax (1 )x Ax b x (1 )b x2 21 1 1 1x Ax (1 )x Ax x Ax (1 ) x Ax (1 )x Ax2 2 2 2

=

α + −α − α + −α =

= α + −α +α + −α −

⎛ ⎞α + −α +α −α +α + −α =⎜ ⎟⎝ ⎠

= α + −α − α − −α −α −α =

( ) [ ]

2 T 2 T T1 1 2 2 1 2

T T T1 1 2 2 1 2

1 x Ax (1 ) (1 ) x Ax 2 (1 )x Ax21 (1 )x Ax (1 ) 1 (1 ) x Ax 2 (1 )x Ax2

⎡ ⎤α −α + −α − −α − α −α =⎣ ⎦

= α −α + −α − −α − α −α =

29

( )

( ) ( )

T T T1 1 2 2 1 2

T1 2 1 2

1 (1 ) x Ax x Ax 2x Ax21 (1 ) x x A x x 02

= α −α + − =

= α −α − − ≥

, -מאחר ו (1 ) 0α −α ש" אז מספיק לבדוק מתי מתקיים האי≤

( ) ( )Tn1 2 1 2 1 2x , x : x x A x x 0 (1)∀ ∈ − − ≥

1נגדיר 2x x x= nלכל ) 1(ש "מאחר וצריך לבדוק את אי. −

1 2x , x∀ אז זה שקול לבדוק את ∋ ש"האי

Tx: x Ax 0 (2)∀ ≥

מתקיים כאשר ) 2(ש "לכן אי. Aהוא התבנית הריבועית של המטריצה ) 2(ש "נשים לב כי הביטוי באיA 0.

. היא מטריצה חיובית חצי מוגדרתAהפונקציה הריבועית קמורה אם המטריצה , לסיכום

).ב

1fי נניח כ (x) C∈ .הגרדיאנט של הפונקציה הוא f(x)=Ax+b∇ .

:ש"נבדוק תחת איזה תנאים מתקיים האי( )n T

0 0 0 0x, x : f (x) f (x ) f (x ) x x∀ ∈ ≥ +∇ − :נציב

( )TT T T T0 0 0 0 0

1 1x Ax+b x x Ax +b x x x f(x )2 2

≥ + − ∇

( )

( )

( ) ( )

TT T T T0 0 0 0 0

T T T T T T T T0 0 0 0 0 0 0

T T T0 0 0

T0 0

1 1x Ax+b x x Ax b x x x (Ax +b) 02 2

1 1x Ax+b x x Ax b x x Ax b x x Ax +b x 02 2

1 x Ax x Ax 2x Ax 02

1 x x A x x 0 (3)2

− − − − ≥

− − − − + ≥

+ − ≥

− − ≥

0xנגדיר x x= Aמתקיים כאשר ) 3(ש "לסעיף הקודם נקבל כי איבאופן זהה . − 0.

2fנניח כי ). ג (x) C∈ .ההסיאן של הפונקציה הוא

2f(x)=A∇ הפונקציה היא קמורה אם

2f(x)=A 0∇

30

2.9 תרגיל

,נתונה הפונקציה הבאה

1 1h (t) t , 0tδ = + − δ >+ δ δ

,כאשר ( tδסקלרים .( hחשבו את הנגזרת הראשונה והשניה של הפונקציה ). א (t)δ לכל t∈.

tנגזור תחילה בתחום 0>:

( )

( )( )

( )

2

4 3

1 1h (t) tt

1h '(t) 1t

1 2h ''(t) 2 tt t

δ

δ

δ

= + −+ δ δ

= −+ δ

= − ⋅− + δ =+ δ + δ

tעבור 0<:

( )

( )( )

( )

2

4 3

1 1h (t) tt

1h '(t) 1t

1 2h ''(t) 2 tt t

δ

δ

δ

= − + −− + δ δ

= − +− + δ

= ⋅ − + δ =− + δ − + δ

:נאחד את שני המקרים

( )

( )

2

3

1h '(t) sign(t) 1t

2h ''(t)t

δ

δ

⎛ ⎞⎜ ⎟= ⋅ −⎜ ⎟+ δ⎝ ⎠

=+ δ

t-מה קורה ב 0=? ?האם הפונקציה רציפה

t 0

t 0

1 1lim t 0t

1 1lim t 0t

+

+ − =+ δ δ

− + − =− + δ δ

.δהפונקציה רציפה לכל ערך של

31

?האם הנגזרת הראשונה רציפה

( )

( )

2 2t 0

2 2t 0

1 1lim1 1t

1 1lim 1 1t

+

− = −δ+ δ

− + = − +δ− + δ

1δרק עבור hנגזרת הראשונה ה= '(t)δרציפה ואין בעיית גזירות .

1עבור 0≠ δ h הפונקציה < '(t)δאיננה גזירה ב -t 0=. ?האם הפונקציה הזו קמורה). ב

,tנשים לב כי הנגזרת השניה היא חיובית לכל 0δ hבל הפונקציה א. < (t)δ איננה קמורה לכל δ !0.5δלדוגמא עבור , מתקבל=

הסיבה לכך היא שניסינו להוכיח קמירות באמצעות הנגזרת השניה אך תנאי הגזירות מתקיים רק עבור

1δ =.

32

2.10יל תרג

,נתונה הפונקציה הבאה2t 1t, t2 2(t)

1 3 1ln( 2t) , t4 8 2

⎧+ ≥ −⎪⎪ϕ = ⎨

⎪− − − < −⎪⎩

t-סקלר . .י שתי התכונות של פונקציות קמורות"הוכיחו כי פונקציה זו קמורה עפ

פתרון

)1תכונה

.תחום הגדרה כמובן קמור

, פונקציה רציפהϕ(t)נוכיח תחילה כי

2t t2 היא פונקציה רציפה+

1 3ln( 2t)4 8

− − 1t חיובי בתחום ההגדרהlnהארגומנט של ( היא פונקציה רציפה −2

< −(

1tנבדוק את נקודת החיבור 2

= − ,

2

1t2

1t 21t 2

t 1 1 3t2 8 2 8

(t)1 3 1 3 3ln( 2t) ln(1)4 8 4 8 8

= −

= −

= −

⎧+ = − = −⎪

⎪⎪ϕ = ⎨⎪− − − = − − = −⎪⎪⎩

.∀t רציפה ϕ(t)ולכן הפונקציה

, פונקציה גזירה ברציפותϕ(t)כעת נוכיח כי 1t 1, t2(t)

1 1, t4t 2

⎧ + ≥ −⎪⎪′ϕ = ⎨⎪− < −⎪⎩

t . היא פונקציה רציפה+1

14t

tהערך ( היא פונקציה רציפה − ). איננו נכלל בתחום ההגדרה של פונקציה זו=0

1tנבדוק את נקודת החיבור 2

= −,

33

1t2

1t2

1t2

1t 12

(t) 1 14t 2

= −

= −

= −

⎧ + =⎪⎪′ϕ = ⎨− =⎪⎪⎩

.∀t גזירה ברציפות ϕ(t)ולכן הפונקציה

1f (x) C∈ ⇐.

Tכעת צריך להוכיח כי מתקיים 0 0 0f (x) f (x ) f (x ) (x x )≥ +∇ − 0x, x∀ ∈Ω . מקרים4ישנם ,

0. א1x , x [ , )2

∈ − ∞

0. ב1x , x ( , )2

∈ −∞ −

0. ג1 1x ( , ); x [ , )2 2

∈ −∞ − ∈ − ∞

0. ד1 1x [ , ); x ( , )2 2

∈ − ∞ ∈ −∞ −

. ד רק נראה מה צריך להוכיח, ג, ובסעיפים בנוכיח את סעיף א באופן מלא

.ל.צ. א

0

220

0 0 0

1x , x [ , )2

xx x x (x 1)(x x )2 2

∀ ∈ − ∞

+ ≥ + + + −

פתרון

220

0 0 0

2 22 22 20 0

0 0 0 0 0 0

xx x x (x 1)(x x ) 02 2

x xx x 1x x x x x x x x x (x x ) 02 2 2 2 2

+ − − − + − ≥

+ − − − + − + = − + = − ≥

.ל.צ. ב

01x , x ( , ]2

∈ −∞ −

0 00

1 3 1 3 1ln( 2x) ln( 2x ) ( )(x x )4 8 4 8 4x

− − − ≥ − − − + − −

34

.ל.צ. ג

0

2

0 00

1 1x [ , ); x ( , ]2 2

x 1 3 1x ln( 2x ) ( )(x x )2 4 8 4x

∀ ∈ − ∞ ∀ ∈ −∞ −

+ ≥ − − − + − −

.ל.צ. ד

1 1x [ , ); y ( , ]2 2

∈ − ∞ ∈ −∞ −

( ) ( )( )2

00 0 0

x1 3ln 2x x x 1 x x4 8 2

− − − ≥ + + + −

)2תכונה

1f הוכחנו כי 1בחלק (x) C∈ . כדי להוכיח קיום התכונה השניה יש להוכיח תחילה כי הנגזרת השניה גם ,רציפה

2

11, t2(t)

1 1, t4t 2

⎧ ≥ −⎪⎪′′ϕ = ⎨⎪ < −⎪⎩

היא פונקציה רציפה1

2

14t

tהערך ( היא פונקציה רציפה ) איננו נכלל בתחום ההגדרה של פונקציה זו=0

1tנבדוק את נקודת החיבור 2

= −,

1t2

11, t2(t)11, t2

= −

⎧ ≥ −⎪⎪′′ϕ = ⎨⎪ < −⎪⎩

.∀t גזירה ברציפות פעמיים ϕ(t)ולכן הפונקציה

2f (x) C∈ ⇐.

,במקרה הסקלרי זוהי הנגזרת השניה. t לכל הוא מטריצה חיובית מוגדרתכעת נותר לבדוק אם ההסיאן

2

11 0, t2(t)

1 10, t4t 2

⎧ ≥ ≥ −⎪⎪′′ϕ = ⎨⎪ ≥ < −⎪⎩

.ולכן הפונקציה קמורה ואפילו קמורה ממש

35

2.11תרגיל ,תונה הפונקציה הבאהנ

Ti i

ma x b

i 1f (x) log e +

=

⎛ ⎞= ⎜ ⎟

⎝ ⎠∑

,כאשרn

ni

i

xa , i 1, ,mb , i 1, ,m

∈ =∈ =

……

RRR

fהאם הפונקציה (x)קעורה ממש/קבעו מתי הפונקציה קמורה? היא קמורה או קעורה.

פתרון

:נגדיר תחילה

1

m

y1 1

m ym

ym m

a b 1 eA ; b ; y Ax b ; 1 ; e

a b 1 e

⎡ ⎤− −⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥= + ∈ = = ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥− −⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

,ולכן( )T y

mf (x) log 1 e= :חישוב הגרדיאנט

( ) ( ) ( ) ( )T y T y T y T ym m m mT y T y T y T y

m m m m

T yT ym

1 1 1 1df d 1 e 1 d e 1 diag e dy 1 diag e Adx1 e 1 e 1 e 1 e

1g f (x) A e1 e

= = = =

⇒ =∇ =

:חישוב ההסיאן

( )

( )( ) ( )

( )( ) ( ) ( )

T y T yT y T ym m

T y T y T ym2 T yT y

mm

T y T y T y T ym m2T y

m

1 1dg d A e d A e1 e 1 e

1 11 diag e AdxA e A diag e Adx1 e1 e

1 1 e A diag e A A e 1 diag e A dx1 e

⎛ ⎞= + =⎜ ⎟

⎝ ⎠

= − + =

⎡ ⎤= −⎣ ⎦

( )( ) ( ) ( )( )T2 T T y y y y

m2T ym

1H(x) f (x) A 1 e diag e e e A1 e

⎡ ⎤= ∇ = −⎢ ⎥⎣ ⎦

:הפונקציה קמורה כיnv ,∀ ∈

( )( ) ( ) ( )( )TT T T T y y y y

m2T ym

1v H(x)v v A 1 e diag e e e A v1 e

⎡ ⎤⎡ ⎤⎢ ⎥= − =⎢ ⎥⎣ ⎦⎢ ⎥

⎣ ⎦

36

( )( ) ( ) ( )( )

( )( ) ( ) ( )

TT T y y y ym2T y

m

2T y T y T ym2T y

m

1 s 1 e diag e e e s1 e

1 1 e s diag e s s e 01 e

⎡ ⎤= − =⎢ ⎥⎣ ⎦

⎡ ⎤= − ≥⎢ ⎥⎣ ⎦

,כאשרms Av= ∈

:שוורץ-שוויון קושי-נזכר כעת באי

( ) ( )( )2T T Tw z w w z z≤

yנשים לב כי אם נגדיר yw s e , z e= ∗ :אז מתקיים) איבר- היא פעולת כפל איבר∗כאשר (=

( ) j jm m2 y yT y 2

jj 1 j 1

s e e s e= =

⎛ ⎞⎛ ⎞≤ ⎜ ⎟⎜ ⎟⎝ ⎠⎝ ⎠∑ ∑

Tvולכן מתקיים H(x)v .ל.ש.מ. ≤0

vהפונקציה היא קמורה ממש כאשר לכל Tv מתקיים ≠0 H(x)v vנבדוק אם ניתן למצוא . <0 0≠ Tvאשר מקיים H(x)v ?שוורץ מתקיים בשוויון-שוויון קושי-מתי אי. =0

הוא sל זה יתקיים כאשר "עבור הבחירה הנ. תלויים לינאריתw,zהתשובה היא כאשר הווקטורים

ms, וקטור של קבועים c1= , כאשרc∈ .כלומר אם קיים פתרון למערכת המשוואות:

mAv c1= . אז הפונקציה איננה קמורה ממש, כלשהוc-ל

mAv אין פתרון למערכת המשוואות cלכן התנאי שהפונקציה קמורה ממש הוא שלכל c1= , כאשרv :כעת נפריד לשני מקרים. ≠0

c. א v(השאלה היא מתי לא קיים פתרון לא טריוויאלי : =0 למערכת המשוואות ההומוגנית ) ≠0Av לכן תנאי . n-או שווה ל גדולהAמאלגברה לינארית תנאי זה מתקיים כאשר דרגת המטריצה. =0

m-הכרחי הוא ש n≥. c. ב mAvהשאלה היא מתי לא קיים פתרון למערכת המשוואות הלא הומוגנית : ≠0 c1= . נשים לב כי

v בנוסף מספיק לבחון . ך להתחשב במקרה זה איננו פתרון של מערכת משוואות זו ולכן אין צור=0mAvמערכת משוואות c ולא לכל =1 הוא פתרון של מערכת המשוואות vהסיבה לכך היא שאם . ≠0

mAv v אז =1c

mAv הוא פתרון של c1=.

] שונה מהדרגה של המטריצה Aמאלגברה לינארית זה יתקיים כאשר הדרגה של מטריצה ]mA |1. :הפונקציה קמורה ממש כאשר, לסיכום .n- גדולה או שווה לAדרגת המטריצה .א] שונה מהדרגה של המטריצה Aגה של מטריצה הדר .ב ]mA |1.

:דוגמא

1 1A 1 1

2 0

⎡ ⎤⎢ ⎥= −⎢ ⎥⎢ ⎥⎣ ⎦

]הדרגה של מטריצה . 2 היא Aהדרגה של מטריצה ]mA .3 היא 1|

37

תנאים מספיקים למינימום לוקלי

2f(ציפות גזירה פעמיים ברfתהי (x) C∈ ( ותהי הנקודהx∗ נקודה כלשהי בתחום ההגדרה של , מתקיים∗xנניח כי ידוע שבנקודה. fהפונקציה

1 .(f (x ) 0∗∇ = 2 .(2f (x ) 0∗∇

.f היא נקודת מינימום לוקלית ממש של הפונקציה ∗xאזי הנקודה

,להלן דוגמא של פונקציה של משתנה סקלרי יחיד ונקודות הקיצון שלו

x

( )f x

מינימום גלובלימינימום לוקלימינימום לוקלי מקסימום לוקלימקסימום גלובלי

38

2.12תרגיל

,מצאו את נקודת המינימום של הפונקציה הבאה2 2

1 1 2 2 2f (x) x x x x 3x= − + −

1כאשר

2

xx

x⎡ ⎤⎢ ⎥⎣ ⎦

.

פתרון

1 1 2 1

1 2 2

2

2

fx 2x x 0 x 1

f (x)x 2x 3f 0 x 2

x

2 1H(x) f (x)

1 2

∂⎡ ⎤⎢ ⎥∂ − ⎧ =⎡ ⎤ ⎡ ⎤⎢ ⎥∇ = = = ⇒ ⎨⎢ ⎥ ⎢ ⎥− + −∂⎢ ⎥ =⎣ ⎦⎣ ⎦ ⎩⎢ ⎥∂⎣ ⎦

−⎡ ⎤= ∇ = ⎢ ⎥−⎣ ⎦

, בשתי הדרכים שלמדנונבדוק אם זוהי מטריצה חיובית מוגדרת

באמצעות ערכים עצמיים). א

2 2 2

1,2

2 1H I (2 ) 1 4 4 1 4 3

1 2

( 1)( 3) 0

1,3 0

−λ −−λ = = −λ − = − λ + λ − = λ − λ + =

− −λ

= λ − λ − =

⇒ λ = >

.לכן המטריצה חיובית מוגדרת באמצעות תבנית ריבועית). ב

[ ] ( ) ( )2 21 21 2 1 2 1 2

2

1

2

y2 1y y (y y ) y y 0

y1 2

yy 0

y

− ⎡ ⎤⎡ ⎤= − + + >⎢ ⎥⎢ ⎥−⎣ ⎦ ⎣ ⎦

⎡ ⎤∀ = ≠⎢ ⎥

⎣ ⎦

2fכמו כן ניתן לראות כי .לכן המטריצה חיובית מוגדרת C∈ 1 ולכן

2

x 1x 2

⎧ =⎨

=⎩ . היא נקודת מינימום

39

2.13תרגיל

.ב פולינומיאליקירו מדידות Lנתונות : הבעיה L

k k k 1x , y

=רעש + n וידוע כי מקור המדידות הוא מודל של פולינום מסדר

כלומר). ת ותוחלת אפס"ב(גאוסי לבן y h(x)= +η

,כאשרn

ii

i 0h(x) a x

=

= ∑

מצאו את המקדמים : המטרה ni i 0

a=

.לנקודות המדידה" קרוב" הכי h(x) כך שהפולינום

כלומר לכל מדידה k kx , yנתאים את המודל הבא ,

0 1 2 nk 0 k 1 k 2 k n ky a x a x a x ... a x k 1,2,...,L↔ + + + + ∀ =

,ובצורה מטריצית נסמן

40

1

2

L

yy

y

y

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

0

1

2

n

aa

a a

a

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

0 1 2 n1 1 1 1

0 1 2 n2 2 2 2

0 1 2 nL L L L

x x x xx x x x

X

x x x x

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

,Xכלומר בהינתן מטריצות הקבועים הידועים y המטרה היא לבחור את המשתנים a כך שהווקטור y

י סוג הקנס שנטיל על המרחק בין "קריטריון הקרבה מוגדר ע. Xaככל האפשר לווקטור " קרוב"יהיה ,נבחר בפונקצית קנס ריבועית. שני הווקטורים

( ) ( )( )2L

0 1 2 nk 0 k 1 k 2 k n k

k 1

1f a y a x a x a x ... a x2 =

= − + + + +∑

.ל" הנ שימזערו את פונקצית הקנסaומטרתנו היא למצוא את המשתנים ,כלומר בעיית האופטימיזציה היא

( ) ( )T2

2a

1 1minimize Xa y Xa y Xa y2 2

− = − −

).Least Squares(זוהי בעיית ריבועים פחותים fחשבו את הגרדיאנט של ). א (a).

( ) ( )T T T T T1 1 1f Xa y Xa y a X Xa y Xa y y2 2 2

= − − = − +

( )

( )

T T T T T T T T T T T

TT T T T T

1 1df da X Xa a X Xda y Xda a X Xda y Xda a X X y X da2 2

g a X X y X X Xa X y

= + − = − = −

⇒ = − = −

fחשבו את ההסיאן של ). ב (a). T

T

dg X Xda

H X X

=

⇒ =

TXנשים לב כי המטריצה Xהיא מטריצה סימטרית ,

( ) ( ) ( )T TTT T TX X X X X X= =

41

? Xימום לכל האם זו נקודת המינ. מצאו את נקודת המינימום וחשב את ערך הפונקציה). ג

,כעת נבדוק את קיום שני התנאים. נפעל לפי התנאים למציאת מינימום לוקלי1.(

( )T Tg X Xa X y 0= − =

( )

T * T

1* T T

X Xa X y

a X X X y−

⇒ =

⇒ =

TXבהנחה כי Xהיא מטריצה הפיכה . 2.(

היא אכן נקודת המינימום צריך לבדוק האם מטריצת ההסיאן היא מטריצה חיובית a*כדי לבדוק אם .תחילה נשים לב כי מטריצת ההסיאן היא מטריצה סימטרית. מוגדרת

,)באמצעות תבנית ריבועית(נוכיח כי ההסיאן היא מטריצה חיובית חצי מוגדרת

X היא מטריצה מגודל [L n 1]× n] ולכן ההסיאן היא מטריצה ריבועית מגודל + 1 n 1]+ × + .

n וקטור שנבחר לכל 1r +∈Rנגדיר ,

T T T

s Xr [L 1]

s r X [1 L]

×

= ×

,ומתקיים

( )L

T T T 2k

k 1r X X r s s s 0

=

= = ≥∑

ה ללא קשר לערך הנעלמים במקרה זXהוכחנו כי מטריצת ההסיאן היא מטריצה חיובית חצי מוגדרת לכל

a . בנוסף ברור כי הפונקציהEולכן הפונקציה , גזירה פעמים ברציפותEלכן אם . היא פונקציה קמורהגם היא נקודת מינימום לוקלית ממש וa*נוכיח בנוסף כי מטריצת ההסיאן חיובית מוגדרת אז גם נוכיח כי

. בהכרח גם נקודת מינימום גלובליa*-ש

rכדי להוכיח כי המטריצה חיובית מוגדרת נותר להראות כי לכל ) מתקיים ≠0 )T T Tr X X r s s 0= > .sזה יתקיים רק כאשר Xrכלומר כאשר , ≠0 לכן הפונקציה קמורה ממש כאשר לא קיים פתרון . ≠0

Xrלא טריוויאלי למערכת המשוואות )מאלגברה לינארית זה יתקיים כאשר . =0 )rank X n 1≥ +.

מטריצת (Xיוחד של מטריצה לכן עבור המבנה המ. הן המדידותXנזכר כי שורות המטריצה Vandermonde ( זה יתקיים כאשר ישנן לפחותn . שונותx נקודות בעלות קואורדינטות ציר +1

הערה

משפט זה נובע . ע שלה שונים מאפס"ם כל הע"קיים משפט הקובע כי מטריצה ריבועית היא הפיכה אמ

1: מטריצה ההופכיתמלכסון 1 1A V V− − −= Λשהוצג בחזרה על אלגברה לינארית .

42

. קימת מטריצה הופכית) או שליליות מוגדרות(באופן מידי ניתן להסיק כי למטריצות חיוביות מוגדרות TXלכן כאשר המטריצה Xואז קיימת . ריצה הפיכהאז גם קיימת לה מט, היא מטריצה חיובית מוגדרת

,נקודת המינימום

( ) 1* T Ta X X X y−

= ,כעת נמצא את ערך הפונקציה בנקודת המינימום

( ) ( ) ( )

( ) ( )

( )

( )

( )( )

*T * *

* *T T * T * T

T 1 1T T T T T T T T T

a a a

T 1T T T T T T T

TT

1T T T T

1T T T

1 1f (a ) a X Xa y Xa y y2 2

1 1y X X X X X X X X y y X X X X y y y2 2

1 1y X X X X y y X X X X y y y2 2

if A A inv(A) inv(A)

1 1y X X X X y y y2 2

1 y I X X X X y2

− − −

− −

= − + =

= − + =

= − + =

= ⇒ =

= − + =

= − הגדרה

)הביטוי ) 1T TX X X−

.Xשל המטריצה ) pseado inverse(אינברס - הוא הפסאדו , ריבועיXעבור

( ) 1T T 1 T T 1

I

X X X X X X X− − − −= =

,ואז נקבל

( ) ( )1

1* T T T T

X

f (a ) y I X X X X y y I I y 0−

−⎛ ⎞⎜ ⎟= − = − =⎜ ⎟⎜ ⎟⎝ ⎠

.נצפה לערכים הקרובים לאפס עבור קירוב טוב) הלא ריבועי(כלומר במקרה הכללי

43

אלגוריתמים לחיפוש על ישר. 3

מוטיבציה

, ולהשוות לאפסכדי למצוא נקודת מינימום של פונקציה תנאי הכרחי הוא לחשב את הגרדיאנט

1

n

fx 0

g(x) f (x)f 0

x

∂⎡ ⎤⎢ ⎥∂ ⎡ ⎤⎢ ⎥ ⎢ ⎥= ∇ = =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥∂ ⎣ ⎦⎢ ⎥⎢ ⎥∂⎣ ⎦

-ברוב הבעיות המעשיות זוהי מערכת משוואות לא. נעלמיםn משוואות עם n של כלומר לפתור מערכת

לכן מעשית נשתמש באלגוריתמים . לינאריות ולכן או שאין או שקשה מאד למצוא פתרון אנליטי .את המינימום" יחפשו"ש

)מהי נקודת המינימום של : למשל )2 21 2(x x )2 2

1 2 1 2 1 2f (x , x ) (x x )e 0.01 x x− += + − + ? :וואות הלא לינארית הבאהצריך לפתור את מערכת המש

2 2 2 2

1 2 1 2

2 2 2 21 2 1 2

(x x ) (x x )21 1 1 2

1 2 (x x ) (x x )22 1 2 2

2x e 2x (x x )e 0.01 0f (x , x )

0e 2x (x x )e 0.02x

− + − +

− + − +

⎡ ⎤− + − ⎡ ⎤∇ = =⎢ ⎥ ⎢ ⎥

⎢ ⎥ ⎣ ⎦− + −⎣ ⎦

44

?כיצד האלגוריתמים יחפשו את נקודת המינימום . נבנה אלגוריתמים איטרטיבים כך שבכל צעד יתקרבו לנקודת המינימום ויקטינו את ערך הפונקציה

,האלגוריתמים יפעלו באופן הבא

בחרו כיוון kdהתקדמות

)כולל סימן(

הציעו נקודת מינימום

0xכלשהי

חשבו את גודל kαהצעד

האופטימלי כך שמושגת ירידה

.מרבית

האם מושג תנאי ?עצירה

:סיום

לא

k 1 k k kx x d+ = + α

כן

min k 1x x +=

45

k- לkx- האלגוריתם מתקדם מkבכל איטרציה באופן גרפי 1x , באופן הבא+

k 1 k k kx x d+ = + α

בכל . מימדיות-מפורקת לבעיות מינימיזציה חד, כלומר בעית מינימזציה כללית שבה יש מספר נעלמים ,במינוח מתמטי. אופטימליαמימדי אחר גודל צעד -מבוצע חיפוש חדאיטרציה

opt arg minf (x d) | 0

αα = +α α ≥

,5מימדית הבאה-נגדיר את הפונקציה החדlsf ( ) f (x d)α +α

. αלר קבועים והמשתנה הוא הסקx,dבפונקציה זו הווקטורים .d בכיווןx- רק על הקרן היוצאת מfפונקציה זו היא הפונקציה הרב מימדית

, לפונקציה הזו נקבל בהתאםמפיתוח הנגזרת וההסיאן

Tls (x d)

T 2ls (x d)

f ( ) f d

f ( ) d f d

+α⋅

+α⋅

′ α ∇

′′ α ∇

lsfמהו הקשר בין ( )′ αלבין הנגזרת הכיוונית df (x)′?

, היאניזכר כי הנגזרת הכיווניתT

d (x)f (x) f d′ = ∇

lsfכלומר ( )′ αבנקודה היא למעשה הנגזרת הכיוונית x d+α . בנוסף נשים לב להבדל חשוב בין שתי

lsf והמשתנה של x הוא הוקטור המשתנה של הנגזרת הכיוונית: ל"הפונקציות הנ ( )′ α הוא הסקלר α.

.linesearch היא lsמשמעות הסימון 5

kd

minx

k 1x +

kx

46

unimodalפונקציה

.6 אם יש לה נקודת מינימום יחידהunimodalפונקציה היא

,דוגמא

,עבור פונקציה כזו מתקיים

) 1 (*

*

x x f (x) 0x x f (x) 0

′⎧ < ⇒ <⎪⎨

′> ⇒ >⎪⎩

,מימדית-ים את המינימיזציה החדאנו נבצע שתי הנחות על הפונקציות שעליהן אנו מבצע

.unimodalהפונקציות הן ). 1 .ל"המינימזציה מבוצעת על מקטע סופי והמינימום הבודד נמצא בתוך המקטע הנ). 2

הערות לגבי ההנחות

שבו במקרה . איננה כה מגבילה כפי שאולי ניתן להסיק ממבט ראשוןunimodal -הנחת ה .1במקרה שבו קיימות מספר נקודות . unimodalאז הפונקציה היא בהכרח , הפונקציה היא קמורה

. תבוא עליה) איפשהו( כך שתובטח לנו תחילה ירידה ולאחריה dנבחר את הכיוון , מינימום ישרללא הנחה זו אלגוריתמי חיפוש על. במקרה הגרוע נתקע במינימום לוקלי ולא גלובלי

.קורסיםגישת . נראה בהמשך שיטה אדפטיבית למציאת מקטע סופי שהמינימום הבודד נמצא בתוכו

האלגורתמים המדוייקים היא לצמצם את גודל המקטע שבו אנו בטוחים שנקודת המינימום .לכן חייבים להתחיל ממקטע סופי שהמינימום הבודד נמצא בתוכו. נמצאת בו

.multimodalפונקציה בעלת יותר ממינימום לוקלי יחיד מוגדרת כפונקציה 6

x

x

f (x)′

*x

*x

f(x)

47

Bisection-וריתם האלג

unimodal.של פונקציה ) 1( מנצל את התכונה Bisection-אלגוריתם התנאי העצירה של האלגוריתם הזה הוא גודל המקטע שבו אנו יודעים בוודאות כי נקודת המינימום נמצאת

אלא אם במקרה הוא פגע (האלגוריתם נעצר , י המשתמש"ברגע שגודל זה יורד מתחת לסף שנקבע ע. בו ).בדיוק בנקודת המינימום

הערות .נשים לב כי אלגוריתם זה דורש ידיעת הנגזרת של הפונקציה -

lsכדי ליישם את התנאי , באופן מעשי - kf (m ) 0′ ls צריך להמירו לתנאי = kf (m ) , 1′ ≤ ε ε

. בגלל אי דיוקים נומריים

k: חשבו את נקודת האמצע kk k

b am a2−

= +

lsחשבו את ערך הנגזרת בנקודת האמצע kf (m )′.

ls kf (m ) 0′ =

ls kf (m ) 0′ > ls kf (m ) 0′ <

חשבו את גודל המקטע החדש שבו נמצאת k: נקודת המינימום 1 k 1 k 1b a+ + += −

לא

כן

ls kf (m )′*kmα =

k 1 k

k 1 k

b ma a

+

+

=⎧⎨ =⎩

k 1 k

k 1 k

a mb b

+

+

=⎧⎨ =⎩

האםk 1 min+ <

?

*k 1m +α =

0 קבעו מקטע התחלתי 0[a , b ] .שנקודת המינימום נמצאת בתוכו

48

מציאת מקטע התחלתי שמכיל נקודת מינימום

מתבסס על צימצום המקטע סופי שבו אנו בטוחים כי נקודת מאחר וכל אלגוריתם מדוייק לחיפוש על ישר . המינימום נמצאת בו יש צורך למצוא שיטה למצוא מקטע התחלתי שכזה

אם המקטע קצר מדי אז . ת של אורך המקטע יכולה להביא את האלגוריתמים לשיתוקבחירה לא אדפטיבי

אם נבחר מקטע ארוך מדי נקודת המינימום . נפספס את נקודת המינימום ונאלץ לעשות צעדים נוספים . מוםתהיה קרובה מאד לראשית ונבזבז זמן ומשאבים יקרים בחיפוש במקומות רחוקים מנקודת המיני

וישנם אלגוריתמים ) 1נגזרות מסדר + ערך הפונקציה (1ישנם אלגוריתמים הדורשים ידע מסדר

נציג שתי השיטות למציאת מקטע התחלתי שמכיל נקודת ). ערך הפונקציה (0הדורשים רק ידע מסדר .מינימום בהתאם למידע הנתון

באמצעות נגזרת

aהמטרה היא למצוא שתי נקודות b< שמקימות ls lsf (a) 0, f (b) 0′ ′< >.

הערה

lsמניחים בהתחלה כי הכיוון ההתחלתי הוא כיוון ירידה ולכן 0f (a ) 0′ <.

האם

ls kf (b ) 0′ >?

k 1 k

k 1 k

a bb 2b

+

+

==

lsחשבו k 1f (b )+′

kהמקטע הוא k[a , b ]

כן

לא

0אתחלו 0a 0,b s 0= = >sלמשל ( 1=(

lsחשבו 0f (b )′

49

ללא שימוש בנגזרת

aשלוש נקודות , כלומר. התחלתיתVהמטרה היא למצוא קומבינצית b c< שמקימות >

ls ls lsf (a) f (b) f (c)> < .

הערות

0α-ידוע לנו כי ב • לכן בהנחה . הפונקציה יורדת והחל מנקודה מסויימת היא מתחילה לעלות=b,0]0כי הפונקציה אינה קבועה במקטע lsאז אם , [ ls 0f (0) f (b אז בהכרח היתה עליה ≥(

b,0]0בערך הפונקציה במקטע . ולכן נקודת המינימום שייכת למקטע זה[ אז אנו זקוקים רק לשתי נקודות כדי לדעת אם 1נשים לב כי כאשר נתונות לנו הנגזרות מסדר •

לעומת זאת אם נתון לנו רק ערך הפונקציה אנו זקוקים לשלוש . נקודת מינימוםהמקטע מכיל .נקודות

האםls 0 ls 0f (a ) f (b )≤

? 0המקטע הוא 0[a , b ]

1 0

1 0

1 1

a ab bc 2 b

=== ⋅

lsחשבו 1f (c )

kהמקטע הוא k[a ,c ]

k 1 k

k 1 k ls k 1 ls k

k 1 k

a bb c f (b ) f (c )c 2 c

+

+ +

+

== ⇒ == ⋅

lsחשבו k 1f (c )+

האםls k ls kf (b ) f (c )<

?

לא

כן

לא

כן

0אתחלו 0a 0,b s 0= = >sלמשל ( 1=( lsחשבו 0 ls 0f (a ), f (b )

50

לפונקציה lsfישנה משפחה של אלגוריתמים לחיפוש מינימום על ישר המקרבים את הפונקציה ונקציה גישה אחת היא למדל את הפ. שלה ניתן לחשב את נקודת המינימום בקלות, פשוטה יותר

lsfלפונקציה ריבועית .

אלגוריתם ניוטון

lsf הוא בכל איטרציה לקרב את הפונקציה המקוריתהרעיון הבסיסי של אלגוריתם ניוטון ( )α בפונקציה ,ריבועית כדלהלן

2ls ls k ls k k ls k k

1f ( ) f ( ) f ( )( ) f ( )( )2

′ ′′α = α + α α −α + α α −α

lsfזהו קירוב טיילור מסדר שני של הפונקציה ( )α בנקודה kα . נקודת המינימום המשוערת באיטרציה

,הבאה היא

ls k 1

ls k ls k k 1 k

ls kk 1 k

ls k

f ( ) 0

f ( ) f ( )( ) 0

f ( )f ( )

+

+

+

′ α =

′ ′′α + α α −α =

′ αα = α −

′′ α

f ( )α

f ( )α

51

תרשים זרימה של אלגוריתם ניוטון

הערות .י ערך הפונקציה בנקודה אינו מעורב בקביעת הנקודה הבאה באלגוריתםנשים לב כ - .צריך לחשב את ערך הנגזרת השניה -

בחרו גודל צעד התחלתי אקראי

חשבו את

ls k ls kf ( ), f ( )′ ′′α α

ls kk 1 k

ls k

f ( )f ( )

+

′ αα = α −

′′ α

האם מושג תנאי ?עצירה

*k 1+α = α

כן

לא

52

גישת אינטרפולציה

ועל ידיעת kα נציע אלגוריתם שמתבסס על ידיעת ערך הפונקציה בנקודה באופן דומה לאלגוריתם ניוטון

lsערכי הנגזרות הראשונות בשתי הנקודות האחרונות k ls k 1f ( ), f ( )−′ ′α α . הפונקציה הריבועית אשר

,מקיימת נתונים אלו תהיה

ls

2ls k ls k 1ls ls k ls k k k

k k 1

kf ( )

f ( ) f ( )1f ( ) f ( ) f ( )( ) ( )2

′′ α

′ ′α − α′α = α + α α −α + α −αα −α

lsלמעשה הביטוי k ls k 1

k k 1

f ( ) f ( )−

′ ′α − αα −α

הוא הקירוב הנומרי של הנגזרת מסדר שני ועבור פונקציה

.7בועית הקירוב הוא שוויוןרי

,נוסחת הקידום תהיה

( )k k 1 ls kls kk 1 k k

ls k ls k 1 ls k ls k 1

k k 1

f ( )f ( )f ( ) f ( ) f ( ) f ( )

−+

− −

′′ α −α ααα = α − = α −

′ ′ ′ ′α − α α − αα −α

.3.1הוכחה בנספח 7

53

אינטרפולציה ריבועית

.באותו אופן ניתן לוותר גם על הנגזרת הראשונה ולהשתמש בערכי הפונקציה בלבדaנמדוד את ערך הפונקציה בשלוש נקודות b c< ,8 ונקבל>

2 2 2 2 2 2

ls ls ls

ls ls ls

f (a)(c b ) f (b)(a c ) f (c)(b a )12 f (a)(c b) f (b)(a c) f (c)(b a)

− + − + −α =

− + − + −

,בעיה

lsfבדוגמא זו למרות שהפונקציה ( )α היא unimodal , קירוב הפונקציה לפונקציה ריבועית מניב !פונקציה ריבועית שאין לה מינימום

:הפתרון

aנקודות נבחר את שלושת ה b c< lsיתקיים (V כך שתתקבל קומבינצית > ls lsf (a) f (b) f (c)> < .(]עבור בחירה כזו מובטח כי יתקבל ]a,cα∈.

.האלגוריתם יפעל לצמצם את המקטע שבו מובטח כי נקודת המינימום נמצאת בו

.3.2הוכחה בנספח 8

α

lsf ( )α

a b c

54

קוביתאינטרפולציה

הרעיון . 2י פולינום מסדר "מימדית הנתונה ע-בשלושת האלגוריתמים הקודמים קירבנו את הפונקציה החדאלגוריתם האינטרפולציה . 3 הוא לקרב את הפולינום באמצעות פולינום מסדר של אינטרפולציה קובית

aכאשר (a,b משתמש בידיעת ערך הפונקציה בנקודות הקובית b< ( ועל ידיעת ערכי הנגזרות . ל"הראשונות בשתי הנקודות הנ

ls: כ נתון"סה ls ls lsf (a), f (b), f (a), f (b)′ , ומתקבל′

ls

ls ls

f (b) w zb (b a)f (b) f (a) 2w

′ + −α = − −

′ ′− +

,כאשר

( )ls lsls ls

2ls ls

3 f (a) f (b)z f (a) f (b)

b a

w z f (a)f (b)

− ′ ′= + +−

′ ′= −

טיפ מעשי

לכן גודל . ומצד שני קרוב לקצה המקטע כפי שמתואר בציורα*- קרוב מצד אחד לαיתכן מצב שבו

קרוב מאד לנקודת αוודאות הבא יהיה יקטן רק במעט למרות ששערוך נקודת המינימום -מקטע האיוודאות - אך עדין מאותו צד ולכן גודל מקטע האיα*- יתקרב עוד יותר לαיתכן כי בצעד הבא . המינימום

כך יכול להיווצר מצב שבו ששערוך נקודת המינימום קרוב מאד לנקודת המינימום . יקטן רק במעט שוב. וודאות כמעט ולא מצטמק-ודל מקטע האיאך ג

: הפתרון). מרוחב המקטע10% -למשל ב( הרחק מהקצה הקרוב אליו αלהזיז את , קרוב לקצוותαכאשר

α

lsf ( )α

* bα αa

lsf ( ) 0′ α >

1וודאות -מקטע אי

2ת וודאו-מקטע אי

:הבעיה

55

תרשים זרימה של אינטרפולציה קובית

הערה

הוא שבמקום לחשב את הנגזרת בנקודת Bisection-ל לאלגוריתם ה"ההבדל היחידי בין האלגוריתם הנ .kα, מתאפס3נחשבה בנקודה שבה הקירוב מסדר , km,האמצע

קבעו אינטרוול התחלתי שבו תמצא נקודת

0מינימום 0[a , b ]

kαחשבו את

lsחשבו את kf ( )′ α

ls kf ( )′ α

ls kf ( ) 0′ α >

ls kf ( ) 0′ α =*

kα = α

k 1 k

k 1 k

a ab

+

+

== α

k 1 k

k 1 k

ab b

+

+

= α=

חשבו את גודל המקטע החדש שבו :נמצאת נקודת המינימום

k 1 k 1 k 1b a+ + += −

*kα = α

האם

k 1 min+ <?

ls kf ( ) 0′ α <

56

Golden Sectionאלגוריתם

ללא המטרה באלגוריתם זה היא לצמצם את האינטרוול שבו אנו בטוחים שנמצא את נקודת המינימום .Vהאלטרנטיבה היא מציאת קומבינצית . חישוב הנגזרת

1קודות נ3 היא קומבינציה של Vקומבינצית 2 3x x x< ,מקימותה >

1 2 3f (x ) f (x ) f (x )> < ,גרפיבאופן

1 מובטח כי נקודת המינימום נמצאת במקטע unimodalעבור פונקציה 3[x , x -כמו באלגוריתם ה. [Bisectionמטרתנו היא לצמצם את מקטע האי וודאות שבו נמצאת נקודת המינימום .

k נקודות 4-בכל איטרציה נמדוד את ערך הפונקציה ב k k ka b b a< < < .k k[a , a הוא האינטרוול [

k. שבו נמצאת נקודת המינימום kb , b ל שאנו מודדים את ערך הפונקציה"האינטרוול הנ הן נקודות בתוך . ,הן מחושבות באופן הבא

1עבור 2

τ >,

.) א.2(( )( )

k k k k

k k k k

b a a a

b a a a

⎧ = − τ −⎪⎨

= + τ −⎪⎩

1עבור 2

τ <,

.) ב.2(( )( )

k k k k

k k k k

b a a a

b a a a

⎧ = + τ −⎪⎨

= − τ −⎪⎩

0)1ל המקטע הוא יחס החלוקה שτכאשר 1, )2

< τ < τ ≠.

1x 2x 3x

1f (x )

2f (x )

3f (x )

57

, אפשריותV מקרים שונים ושתי קומבינציות 5כ "ישנם סה lsמתקיים ). 1 k ls kf (b ) f (b )< lsמתקיים ). א k ls kf (a ) f (b )>

ls היא V- קומבינצית ה⇐ k ls k ls kf (a ) f (b ) f (b )> נקודת המינימום נמצאת במקטע במקרה זה . >

k k[a , b ] . kהעדכון יהיה 1 ka b+ k - ו= 1 ka a+ k את שתי הנקודות החדשות חשבו. = 1 k 1b , b+ ) 2( לפי נוסחאות +

ls אתחשבוו k 1 ls k 1f (b ), f (b )+ . בנקודות החדשות+

* יכולה לקיים α*ם לב כי נקודת המינימום נשיkbα >,

*או לקיים kbα <,

ka kb kakb*α α

lsf ( )α

ka kb kakb*α α

lsf ( )α

58

lsמתקיים ). ב k ls kf (a ) f (b )<

, בכללV אין קומבינצית ⇐

kבמקרה זה נקודת המינימום בהכרח במקטע k[a , b ] .

kהעדכון יהיה 1 ka b+ k - ו= 1 ka a+ k את שתי הנקודות החדשות חשבו. = 1 k 1b , b+ ) 2( לפי נוסחאות +ls אתחשבוו k 1 ls k 1f (b ), f (b )+ . בנקודות החדשות+ lsמתקיים ). 2 k ls kf (b ) f (b )> lsמתקיים ). א k ls kf (b ) f (a )<

ls היא V- קומבינצית ה⇐ k ls k ls kf (b ) f (b ) f (a )> ינימום בהכרח במקטע במקרה זה נקודת המ. >

k k[b , a ] . kהעדכון יהיה 1 ka a+ k - ו= 1 ka b+ k את שתי הנקודות החדשות חשבו. = 1 k 1b , b+ ) 2( לפי נוסחאות +

ls אתחשבוו k 1 ls k 1f (b ), f (b )+ . בנקודות החדשות+

* יכולה לקיים α*נקודת המינימום נשים לב כי kbα <,

kakb kakb*α α

lsf ( )α

ka kb kakb*α α

lsf ( )α

59

*או לקיים kbα >,

lsמתקיים ). ב k ls kf (b ) f (a )≥

, בכללVקומבינצית אין ⇐

k במקרה זה נקודת המינימום בהכרח במקטע k[b , a kולכן במקרה זה העדכון יהיה . [ 1 ka a+ - ו=

k 1 ka b+ k את שתי הנקודות החדשות חשבו. = 1 k 1b , b+ חשבו ו) 2( לפי נוסחאות +lsאת k 1 ls k 1f (b ), f (b )+ . בנקודות החדשות+

lsמתקיים ). 3 k ls kf (b ) f (b )= .

kבמקרה זה נקודת המינימום בהכרח במקטע k[b , b kולכן העדכון יהיה . [ 1 ka b+ k - ו= 1 ka b+ = .k את שתי הנקודות החדשות חשבו 1 k 1b , b+ ls אתחשבוו) 2( לפי נוסחאות + k 1 ls k 1f (b ), f (b )+ בנקודות +

.החדשות

kakb kakb*α α

lsf ( )α

kakb kakb*α α

lsf ( )α

kakb kakb *α α

lsf ( )α

60

.חס הזהבהתשובה היא י? הכי כדאי לבחורτכעת נותרה השאלה איזה יחס חלוקה :זהו היחס שעבורו מתקבל. 0.618 - כהיוונים הגדירו את יחס הזהב

ACנניח : המחשה 0.618, AB 1= =

CB AB AC 1 0.618 0.382

CB 0.382 0.618AC 0.618

= − = − =

= =

1: 9באופן מדויק 52

− +τ = 3 5

2⎛ ⎞−τ =⎜ ⎟⎜ ⎟⎝ ⎠

?Golden Sectionלמה יחס זה באמת אופטימלי עבור אלגוריתם

:נמחיש אם דוגמא

ls , הבאהV-נניח כי מתקיימת קומבינציית ה k ls k ls kf (a ) f (b ) f (b )> < kלכן העדכון יהיה 1 ka b 0.618+ = k - ו= 1 ka a 0+ = ,.)א.2(לפי נוסחאות . =

( )( )

k 1 k 1 k 1 k 1

k 1 k 1 k 1 k 1 k

b a a a 0.618 0.618(0.618 0) 0.236

b a a a 0 0.618(0.618 0) 0.382 b+ + + +

+ + + +

= − τ − = − − =

= + τ − = + − = =

.כלומר יש לנו פחות חישוב אחד! כבר חישבנוkb -את ערך הפונקציה ב

9 τ זה פותר את המשוואה ( )2 1τ = − τ ( )( )21τ = − τי' שקשורה לסדרת מספרי פיבונצ.

A C B

AC CBAB AC

=

ka kb kakb

1

0.382

0.618

α

61

ls: הבאהV-נניח כי מתקיימת קומבינציית ה k ls k ls kf (b ) f (b ) f (a )> < kלכן העדכון יהיה 1 ka b 0.382+ = k - ו= 1 ka a 1+ = ,.)א.2(לפי נוסחאות . =

( )( )

k 1 k 1 k 1 k 1 k

k 1 k 1 k 1 k 1

b a a a 1 0.618(0.618 0) 0.236 0.618 b

b a a a 0.382 0.618(1 0.382) 0.764+ + + +

+ + + +

= − τ − = − − = = =

= + τ − = + − =

.כלומר גם כאן יש לנו פחות חישוב אחד! כבר חישבנוkb -את ערך הפונקציה ב

צריך רק לחשב בנקודה , דשותכלומר במקום בכל איטרציה לחשב את ערך הפונקציה בשתי נקודות ח

). Vבתנאי שיש קומבינציית ! (חדשה בודדת

62

Golden Section -סיכום אלגוריתם ה

איתחול

,τקביעת יחס

1 52

− +τ = 3 5

2⎛ ⎞−τ =⎜ ⎟⎜ ⎟⎝ ⎠

0: קביעת מקטע התחלתי 0[a , a ] [0,S]= ,חישוב נקודות האמצע

( )( )

( )( )

0 00 0 0 0

0 0 0

0

0 00

0

0 0

b a a a

b a a

b

a

a a a

b a a a

⎛ ⎞⎧ = +⎧ = − τ −⎪⎨

= +

τ −⎪⎜ ⎟⎨⎜ ⎟= − τ −⎪⎩⎝⎪⎩ ⎠τ −

ls:ל" את ערך הפונקציה בארבעת הנקודות הנחשבו 0 ls 0 ls 0 ls 0f (a ), f (b ), f (b ), f (a ).

kאיטרציה

lsאם k ls kf (b ) f (b , אז>(

lsאם k ls kf (a ) f (b , אז<(

( ) ( )( )

k 1 k ls k 1 ls k

k 1 k ls k 1 ls k

k 1 k ls k 1 ls k

k 1 k 1 k 1 k k1 1 k 1 k 1

a a f (a ) f (a )

a b f (a ) f (b )

b b f (b ) f (b )

b a a a a aa

+ +

+ +

+ +

+ + + + + ++ = +

= ⇒ =

= ⇒ =

= ⇒ =

= −τ τ− −

lsאת ) רק (וחשב k 1f (b )+

lsאם k ls kf (a ) f (b , אז≥(

( )( )

( )( )

k 1 k ls k 1 ls k

k 1 k ls k 1 ls k

k 1 k 1 k 1 k 1k 1 k 1

k 1 k

k 1 k 1

k 1 k 1 k 1 k1 1 1k k 1

a a f (a ) f (a )a b f (a ) f (b )

b a a a

b

b a a a

a b a a aa a+ + + +

+ + +

+ +

+ +

+ + + +

+ + + + +

= ⇒ == ⇒ =

⎧ = − τ −⎪⎨

=

⎛ ⎞⎧ = + τ −⎪⎜ ⎟⎨⎜ ⎟= −+ τ −⎪⎩ τ −⎪⎩⎝ ⎠

ls את חשבו k 1 ls k 1f (b ), f (b )+ +

63

lsאם k ls kf (b ) f (b , אז<(lsאם k ls kf (b ) f (a , אז>(

( ) ( )( )

k 1 k ls k 1 ls k

k 1 k ls k 1 ls k

k 1 k ls k 1 ls k

k 1 k 1 k 1 k k1 1 k 1 k 1

a b f (a ) f (b )a a f (a ) f (a )

b b f (b ) f (b )

b a a a a aa

+ +

+ +

+ +

+ + + + + ++ = −

= ⇒ =

= ⇒ =

= ⇒ =

= −τ τ+ −

lsאת ) רק (חשבו k 1f (b )+

lsאם k ls kf (b ) f (a , אז≤(

( )( )

( )( )

k 1 k ls k 1 ls k

k 1 k ls k 1 ls k

k 1 k 1 k 1 k 1k 1 k 1

k 1 k

k 1 k 1

k 1 k 1 k 1 k1 1 1k k 1

a b f (a ) f (b )a a f (a ) f (a )

b a a a

b

b a a a

a b a a aa a+ + + +

+ + +

+ +

+ +

+ + + +

+ + + + +

= ⇒ == ⇒ =

⎧ = − τ −⎪⎨

=

⎛ ⎞⎧ = + τ −⎪⎜ ⎟⎨⎜ ⎟= −+ τ −⎪⎩ τ −⎪⎩⎝ ⎠

ls את חשבו k 1 ls k 1f (b ), f (b )+ +

lsאם k ls kf (b ) f (b , אז=(

( )( )

( )( )

k 1 k ls k 1 ls k

k 1 k ls k 1 ls k

k 1 k 1 k 1 k 1k 1 k 1

k 1 k

k 1 k 1

k 1 k 1 k 1 k1 1 1k k 1

a b f (a ) f (b )

a b f (a ) f (b )

b a a a

b

b a a a

a b a a aa a+ + + +

+ + +

+ +

+ +

+ + + +

+ + + + +

= ⇒ =

= ⇒ =

⎧ = − τ −⎪⎨

=

⎛ ⎞⎧ = + τ −⎪⎜ ⎟⎨⎜ ⎟= −+ τ −⎪⎩ τ −⎪⎩⎝ ⎠

ls את חשבו k 1 ls k 1f (b ), f (b )+ +

תנאי עצירה k 1 k 1 k 1a a+ + +−

kאם 1 min+ , אז>

min ls k 1 ls k 1 ls k 1 ls k 1f minf (a ), f (a ), f (b ), f (b )+ + + += .minf היא הנקודה שבה מושג α*-ו

64

אלגוריתמים לא מדויקים לחיפוש על הישר

משמעות המונח . באופן מדויקעד כה סקרנו רק אלגוריתמים לחיפוש על ישר שמבצעים את החיפוש גודל צעד . כך שערך הפונקציה על הישר יהיה מינימליαמדויק הוא שהאלגוריתם יחפש את גודל הצעד

,כזה מוגדר כאופטימלי

opt arg minf (x d) | 0α

α = +α α ≥

ניתן לגשת לפתרון בעית optαמאחר ושיטות אלו דורשות מספר חישובים יחסית גבוה כדי למצוא

.מדויקות אך מהירות יותר-מימדית מכיוון של שיטות לא-המינימיזציה החדאלא יסתפק , מדויק הוא שאלגוריתם לא ינסה לחפש את גודל הצעד האופטימלי-משמעות המונח לא

. במציאת גודל צעד שיקטין את ערך הפונקציה

גודל צעד דועך

,זהו הרעיון הכי פשוט ונאיבי

הערותkנזכור כי התנאי הוא למעשה התנאי - m k kf (x d ) f (x )+α < . היא שלמרות שהוא עובד במקרים רבים הוא איננו מבטיח הבעיה עם גודל צעד דועך -

.10התכנסות

.30עמוד , Nonlinear Programming\ Dimitri P. Bertsekas 2nd editionדוגמא למקרה כזה מצויה בספר 10

התחל בגודל צעד mמכסימלי sα =.

האם ?ערך הפונקציה ירד

ls m lsf ( ) f (0)α <

k mα = α

mm sα = β

0כאשר 1< β <0.2βלמשל =

כן

לא

65

Armijoכלל

כך שההתכנסות , משופר לבחירת גודל צעד הוא למעשה אלגוריתם גודל צעד דועךArmijoכלל 0 המקיים β נגדיר סקלר .מובטחת 1< β 0.2βלמשל . > =.

הסבר במילים

lsהתנאי m ls m lsf ( ) f (0) f (0)′α − < σα הביטוי . בערך הפונקציה" ירידה מספיק גדולה" בודק אם היתה

m lsf (0)′σα אם הצעד . בערך הפונקציה" ירידה מספיק גדולה" הוא מדד אדפטיבי המתאר מהי וכך הלאה עד שנמצא βשל האלגוריתם לא מקיים את התנאי אז נקטין את הצעד בפקטור, 0α, ההתחלתי

0αברור כי אם לא קיבלנו כבר את המינימום עבור . את צעד המקיים את התנאי כלומר (=

lsf (0) 0′ . מספיק קטן שיקיים את התנאי בגלל ההנחה כי הפונקציה יורדת בראשיתαאז קיים ) =

אם הצעד ההתחלתי כבר מקיים את התנאי אז עדיף לא להסתפק בצעד ההתחלתי אלא למצוא צעד יותר

1לכן האלגוריתם מגדיל את גודל הצעד כל פעם בפקטור. גדולβ

וא מוצא צעד שלא מקיים את עד שה

.כלומר הצעד הקודם(הצעד שיבחר הוא הצעד הכי גדול שקיים את התנאי . התנאי

התחילו בגודל צעד 0 sα =

האם ls 0 ls

0 ls

f ( ) f (0)

f (0)

α −

′< σα?

k mα = α

m m 1−α = βαכןלא m 1m

−αα =

β

האם ls m ls

m ls

f ( ) f (0)

f (0)

α −

′< σα?

האם ls m ls

m ls

f ( ) f (0)

f (0)

α −

′< σα?

לא כן

k m 1−α = α

לא כן

66

הערותlsהתנאי - m ls m lsf ( ) f (0) f (0)′α − < σαשקול ל - k m k k m d kf (x d ) f (x ) f (x )′+ α − < σα. עת הדרישה היא שערך הפונקציה לא רק הוא שכ לבין גודל צעד דועךArmijoההבדל בין כלל -

.אלא גם יקטן מעבר לסף מסוים, יקטן0הפרמטר - 1< σ 0.3σ -ממומלץ להשתמש ב. > = . 0σעבור - . מתקבל אלגוריתם גודל צעד דועך=lsfהביטוי - (0)′α הוא המשיק לפונקציה ls lsf ( ) f (0)α 0α בנקודה − =.

הסבר גרפי

α

lsf ( )α

lsf (0)

s

s

sβ2sβα

lsf (0)′α

lsf (0)′σα

נסיונות גודל צעד לא מוצלחים

תחומים שבהם גודל הצעד מקיים

Armijoאת כלל

ls lsf ( ) f (0)α −

67

סיכום אלגוריתמים לחיפוש על הישר

,להשתמש באלגוריתמים הבאים) כ"בד(מבין כל האלגוריתמים שהובאו עד כה מומלץ התחילו את . Bisection- ואלגוריתם השילוב של אינטרפולציה קובית: ם מדויקיםאלגוריתמי .1

kאם בצעד מסויים מתקבל . האלגוריתם בשימוש באינטרפולציה קובית 1

k0.7+ התכנסות (<

kהמבטיח ( Bisection-בצעו צעד אחד של אלגוריתם ה, )איטית 1

k0.5+ וחזרו ) =

.לאינטרפולציה הקובית. Armijoכלל : אלגוריתמים לא מדויקים .2

68

69

מימדיים מבוססי גרדיאנט-אלגוריתמי מינימיזציה רב. 4

-מימדיות ובכל בעיה חד-מימדיות היא לחלק אותן להרבה בעיות חד-הגישה לפתרון בעיות מינימזציה רב ,מימדית למצוא כיוון התקדמות וגודל צעד שיקטינו את ערך הפונקציה בצורה המרבית

k 1 k k kx x d+ = + α .

? בכל צעד kdכיצד נבחר את כיוון ההתקדמות

המשמעות הגיאומטרית היא . הכי גדולה הוא הכיוון שבו הנגזרת הכיווניתא כי הגרדיאנט"נזכר מחדוומאחר ומטרתנו היא להקטין את ערך הפונקציה . בו הפונקציה עולה הכי מהרשהגרדיאנט הוא הכיוון ש

כך גם . מממש רעיון זה בדיוקSteepest Decentאלגוריתם . בצורה הכי מהירה רצוי לבחור בכיוון הפוך .אלגוריתמים יותר מתקדמים יתבססו על עקרון זה

תזכורת

,מדיותמי-במעבר לבעיות החד

k k k

k k k

ls k k k k

Tls k (x d ) k

T 2ls k k (x d ) k

f ( ) f (x d )

f ( ) f d

f ( ) d f d

⎧ α +α⎪⎪⎪ ′ α ∇⎨⎪⎪⎪ ′′ α ∇⎩

kd

minx

k 1x +

kx

70

Steepest Descentאלגוריתם

,SDהצעה ראשונית לאלגוריתם k k

k 1 k k

d f (x )

x x f (x )+

= −∇

⇓= −α∇

. קבוע כלשהוαכאשר גודל הצעד

T: ונקציה הריבועיתנבחן את ההצעה הזו על הפ T1f (x) x Qx x b c2

= − מטריצה חיובית Qכאשר (+

). מוגדרת

?למה פונקציה ריבועית

אנו יכולים . הפונקציה הריבועית היא פונקציה קמורה בעלת נקודת מינימום לוקלית יחידה שהיא גלובלית ,יטית את נקודת המינימום שלהלחשב אנל , של הפונקציה הריבועית הואהגרדיאנט

f (x) Qx b∇ = − ,11ולכן נקודת המינימום שלה היא

* 1x Q b−=

ת הפונקציה הריבועית מהווה קירוב טיילור מסדר שני לכל פונקציה חלקה דיה ופונקציות בסביבות נקודולכן נשתמש בפונקציה הריבועית . המינימום שלהן מתנהגות כמו קירוב טיילור מסדר שני של עצמן

.כפונקצית יחוס שעליה ננתח את הביצועים של אלגוריתמים מבוססי גרדיאנט

, המוצע היאSDמשוואת העדכון של אלגוריתם

( ) ( )k 1 k k k k k kx x f (x ) x Qx b x b Qx+ = −α∇ = −α − = +α −

. היא חיובית מוגדרת אז היא גם הפיכהQבגלל שהמטריצה 11

71

4.1תרגיל

? המוצע יתכנס תמיד לפתרון הנכוןSDל אלגוריתם "האם עבור הפונקציה הריבועית הנ

( ) [ ] [ ] [ ]k

k 1 jk 1 k k k 0

j 0x x b Qx I Q x b I Q x I Q b+

+=

= + α − = −α +α = = −α +α −α∑…

b*נשתמש בעובדה כי אנו יודעים את הפתרון המדויק Qx=,

[ ] [ ]k

k 1 j *k 1 0

j 0x I Q x I Q Qx+

+=

= −α +α −α∑

k -תנאי הכרחי כדי ש 1x ] יתכנס לנקודת המינימום נדרוש כי המטריצה + ]k 1I Q +−α הכופלת את תנאי

]ההתחלה תדעך לאפס וכי טור המטריצות ]k

j

j 0I Q

=

−α∑ע של המטריצה "לכן נדרוש שהע. יתכנס

I Q−αיהיו בתוך מעגל היחידה . I של מטריצה ע"הע Q−αהם ,

i iI Q 1 Qλ −α = −αλ

,ולכן הדרישה היא

i

i

imax

1 1 Q 1

Q 0

Q 0 02Q 2

Q

− < −αλ <

>

⎧−αλ < ⇒ α >⎪⎨αλ < ⇒ α <⎪ λ⎩

max

20Q

< α <λ

כלשהו αלא מובטח כי באמצעות גודל צעד קבוע , כלומר קיבלנו כי אפילו עבור פונקציה ריבועית

.נצליח להתכנס לפתרון הנכון

72

4.2תרגיל הכי קטן ל יתכנס עם יחס התכנסות" הנSDמצאו את גודל הצעד הקבוע האופטימלי כך שאלגוריתם ). א ).ולכן ההתכנסות הכי מהירה(

: מוגדריחס התכנסות*

k 1

*k

x x

x x+ −

β−

כך האלגוריתם התקרב יותר לנקודת , יותר קטןβ-ככל ש.

. המינימום

[ ] [ ]

[ ] [ ] [ ]( )

( ) [ ]( )

*

*k 1 k k

* * * * *k 1 k k k

* *k 1 k

b Qx

x I Q x b I Q x Qx

x x I Q x b x I Q x Qx x I Q x x

x x I Q x x

+

+

+

=

= −α +α = −α +α

− = −α +α − = −α +α − = −α −

⇒ − = −α −

,נפעיל נורמה על שני האגפים ונקבל

* *k 1 kx x I Q x x+ − ≤ −α −

)induced normשוויון נובע מההגדרה של -האי(

Iהנורמה על המטריצה Q−αולכן12 היא הרדיוס הספקטרלי ,

*

k 1i i* i i

k

x xI Q max I Q max 1 Q

x x+ −

β = ≤ −α = λ −α = −αλ−

מעתה נסמן בשביל נוחות i iQλ λ .

, מינימלי יש לנו בעית אופטימיזציה מהצורה הבאהת שיתן יחס התכנסוαמאחר ומטרתנו היא למצוא

opt iiarg min max 1

αα = −αλ

,באופן גרפי הבעיה נראית כך

12 A (A)= ρמאחר ו. אנו נעסוק בקורס רק במטריצות סימטריות. רק עבור מטריצות סימטריות-Q סימטרית אז גם

I Q−αסימטרית .

73

iiהפונקציה המסומנת בקו הכחול העבה בגרף היא max 1−αλ . נזכור כי אנו מחפשיםα שיביא

, כזה יקייםαמהגרף ניתן לראות כי . למינימום את הפונקציה הזו

opt min opt max

optmin max

1 1

2

−α λ = α λ −

α =λ + λ

?1 שחישבנו מקיים את תנאי ההתכנסות שחושב בתרגיל optαהאם : בדיקה). ב

, שלה חיוביים ולכןע" אז כל הע מוגדרת היא מטריצה חיוביתQ-מאחר ו

optmin max max

2 20 < α = <λ + λ λ

, האופטימליחשבו את החסם העליון של יחס ההתכנסות). ג

opt opt i opt max opt mini

min max min max minmin

min max min max max min

max 1 Q max 1 , 1

221

β ≤ −α λ = −α λ −α λ =

λ + λ − λ λ −λ= − λ = =

λ + λ λ + λ λ + λ

i1−αλ

α

1

max

1λ i

1λ min

iimax 1−αλ

74

θ condition numberהגדרה max

min

λθ

λ

1θנשים לב כי מההגדרה נובע כי ( ≥.( , ונקבלoptβ -נציב בביטוי ל

opt11

θ−β ≤

θ+

. ך האלגוריתם יתכנס יותר מהר יותר קטן כנזכור כי ככל שיחס ההתכנסות

. קרוב יותר לאפסoptβ כך 1- קרוב לθ - כי ככל שניתן לראות מהחסם על יחס ההתכנסות

1opt

1 01

θ→θ−β ≤ ⎯⎯⎯→

θ+

.נקבל התכנסות מהירה, קרובים אחד לשניע"כלומר במצב שבו כל הע ,המחשה

T

min max

1 01f (x) x x0 1.72

1; 1.7 1.7

⎡ ⎤= ⎢ ⎥

⎣ ⎦⇓λ = λ = ⇒ θ =

לנקודת המינימוםSDהתכנסות אלגוריתם

75

- שואף לoptβ ואז החסם על ill-conditionedהמטריצה נקראת 1θלעומת זאת עבור

opt1 11

θ→∞θ −β ≤ ⎯⎯⎯→

θ+

.נקבל התכנסות איטית, רחוקים האחד מהשניע"כלומר במצב שבו הע

המחשהT

min max

1 01f (x) x x0 42

1; 4 4

⎡ ⎤= ⎢ ⎥

⎣ ⎦⇓λ = λ = ⇒ θ =

לנקודת המינימוםSDהתכנסות אלגוריתם

.זג-ההתכנסות האיטית מבוטאת בתופעת הזיג

הערותk קובע את כיוון ההתקדמות SDאלגוריתמים - kd f (x )= ככל שהשיפוע יותר חד כך . ∇−

לכן עבור אלגוריתמי . יותר גדולה ונקודת המינימום יותר רחוקה ולהיפךהנורמה של הגרדיאנטsימלי התחלתי חיפוש על הישר מומלץ להשתמש בגודל צעד מקס ובכך לתת לאלגוריתם =1

המלצה זו תקפה גם לגבי אלגוריתמים . חיפוש הכיוון לקבוע את גודל הצעד המקסימלי ההתחלתי .אחרים מבוססי גרדיאנט

תהליך זה . של המטריצהע"כדי לחשב את גודל הצעד הקבוע האופטימלי צריך לחשב את הע -b*תר יקר חישובית מאשר לפתור את מערכת המשוואות יו Qx= . לכן זהו איננו אלגוריתם

.מעשי של ע" מחשבים הע,Q של המטריצה ע"עבור הבעיה הלא ריבועית במקום לחשב את הע -

. מטריצת ההסיאן

76

SDתרשים זרימה של אלגוריתם

בחרו נקודת 0xאתחול

בחרו גודל צעד קבוע α כך שהאלגוריתם

.יתכנס

k kd f (x )= −∇

k 1 k kx x d+ = + α

האםkf (x )∇ ≤ ε ?

*kx x= כן

לא

kfחשבו את (x )∇

77

Normalized Steepest Descentאלגוריתם

אלגוריתם . שעבורו האלגוריתם יתכנסα היא בחירת גודל צעד קבוע SDאחת הבעיות של אלגוריתם NSDכלומר בכל איטרציה האלגוריתם יחפש את גודל הצעד כך שימצא . מציע גודל צעד משתנה

T: עבור הבעיה הריבועית. מינימום על הישר T1f (x) x Qx x b c2

= − +) Q מטריצה חיובית

. האופטימליkαכל חתך הוא בצורת פרבולה ולכן ניתן לקבל ביטוי אנליטי עבור ערכו של ). מוגדרת , 13הביטוי שהתקבל

T

k kk k k kT

k k

d d ; d g b Qxd Qd

α = − = −

שתמש באלגוריתמי אופטיזציה על ישר כדי למצוא את גודל נ, ריבועי בהכרח-הלא, עבור המקרה הכללי .הצעד האופטימלי

המחשה

,SD שהוצגה באלגוריתם ill-conditioned -עבור הדוגמא הT

min max

1 01f (x) x x 1; 4 40 42⎡ ⎤

= ⇒ λ = λ = ⇒ θ =⎢ ⎥⎣ ⎦

לנקודת המינימוםNSDהתכנסות אלגוריתם

מתכנס NSD עם גודל צעד קבוע אופטימלי נראה כי אלגוריתם SDצאות של אלגוריתם אם נשווה לתו

בעיה זו נובעת מכך שעבור הבעיה הריבועית . זג-יחד עם זאת עדין נותרה בעית הזיג. לפתרון יותר מהר .ניצבים עוקבים הם כיווני גרדיאנט

.4.1הוכחה בנספח 13

78

הוכחה

[ ] ( ) [ ]

( )

T T T Tk k 1 k k 1 k k k k k k k k

TTk kT T Tk k

k k k k k k kT Tk k k k

d d d b Qx d b Q x d d d Qd

d dd dd d Qd d d d Qd 0

d Qd d Qd

+ + ⎡ ⎤= − = − + α = − α =⎣ ⎦

⎡ ⎤= − = − =⎢ ⎥

⎣ ⎦

:גם עבור בעיות כלליות וחיפוש מדויק על הישר הכיוונים העוקבים הם ניצבים

( ) ( )

k 1

Tls k k k

d

f d f x d 0+−

′ α = ∇ +α =

SDNתרשים זרימה של אלגוריתם

בחרו נקודת 0xאתחול

k kd f (x )= −∇ , לפי חיפוש על הישרkαקבעו את גודל הצעד

( )k k karg min f x dα

α = +α

האםkf (x )∇ ≤ ε ?

*kx x= כן

לא

k 1 k k kx x d+ = + α

kfחשבו את (x )∇

79

PARTRAN (Parallel Tangents)אלגוריתם

ואלו אנכיים זה לזה , נובעת מכך שכיווני החיפוש הם גרדיאנטיםNSDזג באלגוריתם -תופעת הזיג .בשל החיפוש המדויק על הישרבבעיה הריבועית בצעדים עוקבים

ולבצע חיפוש על NSD- מציע לקחת תוצאות של איטרציות עוקבות של הPARTRAN -אלגוריתם ה NSDממנה באיטרצית . 0xהאלגוריתם מתחיל בנקודת איתחול שרירותית . אשר מאחד אותןישר

במקום לקבוע –כעת בא ההבדל . 1y נוסף ונקבל את NSDבאופן דומה נבצע צעד . 1xמקבלים את

2 1x y=כפי שעושה זאת ה - NSD , 2נקבע אתx כנקודה המשיגה את המינימום של הפונקציה על ישר . 1y - ל0xהנמתח בין , kyנקודה יוצר את הNSDצעד , kx ובידינו הנקודה -k-אם נניח כי אנו באיטרציה ה, באופן דומה

kוהנקודה 1x k תתקבל על הישר הקושר את + 1x .ky - ל−

:באופן גרפי

הערה

מכיוון שמוצע חיפוש על הישר הכולל את NSDאלגוריתם זה אינו יכול להיות יותר גרוע מאלגוריתם .NSD-נקבל אותה ונתלכד עם ה, ואם היא הכי נמוכה, NSD-נקודת ה

0x

1x

1y*x

1x

0x1y 2x

2y 3x

3y4x

80

PARTRAN אלגוריתם תרשים זרימה של

בחרו נקודת איתחול - 0xשרירותית

חשבו את הנקודה -1xי " עNSD.

האםkf (x )∇ ≤ ε ?

*k 1x x כן =+

לא

. kxהאלגוריתם נמצא בנקודה .ky וקבל את NSDחשבו צעד

: חשבו את גודל הצעד( )( )k k 1 k k 1arg min f x y x− −

ββ = +β −

( )k 1 k 1 k k k 1x x y x+ − −= +β −

81

אלגוריתם ניוטון

ההבדל הוא שכעת . מימדי למקרה הרב ממדי- זה מרחיב את רעיון אלגוריתם ניוטון החדאלגוריתם ניוטוןכלומר צעד . מחפשים כיוון אופטימלי ומניחים גודל צעד של יחידה, במקום לחפש גודל צעד אופטימלי

,העידכון הואk 1 kx x d+ = + .

. המשמעות היא שהאלגוריתם יקבע את הכיוון והצעד באותו חישוב, מעשית. של הפונקציה2מימדית שהיא טור טיילור מסדר -מקרבים את הפונקציה המקורית בפונקציה ריבועית רב

, הואaניזכר כי טור טיילור של פונקציה במשתנה אחד סביב נקודה

( ) ( ) ( )( ) ( )( )21f x f a f a x a f a x a2

′ ′′= + − + −

,ממדית הנוסחא היא-עבור פונקציה רב

( ) ( ) ( ) ( ) ( ) ( )( )T T 21f x f a x a f a x a f a x a2

= + − ∇ + − ∇ −

kaהנקודה סביבה מחושב טור הטיילור היא x=ו -k 1x x ,מהצבה נקבל. =+

( ) ( ) ( ) ( ) ( ) ( ) ( )T T 2 T Tk 1 k k k k k k k

1 1ˆ ˆf x f x d f x d f x d f x d f x d g x d H(x )d2 2+ = + ≅ + ∇ + ∇ = + +

,כאשר( ) ( )( ) ( )

k k

2k k

g x f x

H x f x

כך שהקירוב הריבועי של הפונקציה בנקודה k היא לבחור את הכיוון באיטרציה ובעית האופטימיזציה

kהבאה 1x , יהיה מינימלי+

( ) ( )

( ) ( ) ( )

( ) ( )

k k 1 kd d

k 1 k k

1k k k

ˆ ˆd arg min f x arg min f x d

f x g x H x d 0

d H x g x

+

+

= = +

∇ = + =

= −

נימום יביא לנקודת המי חיובית מוגדרת אלגוריתם ניוטוןעבור פונקציה ריבועית עם מטריצת הסיאן

אלגוריתם ניוטון יביא , לכן גם עבור פונקציה כללית בקרבת נקודת המינימום(!). באיטרציה אחת .להתכנסות מאד מהירה

, משוואת העדכון תהיהכלומר בצורה הטהורה של אלגוריתם ניוטון

( ) ( )1k 1 k k kx x H x g x−+ = −

חיפוש על הישר כדי למצוא את גודל הצעד האופטימלי באלגוריתם ניוטון הסטנדרטי מקובל לבצע גם

kαומשוואת העדכון תהיה ,

( ) ( )1k 1 k k k kx x H x g x−+ = −α

82

בעיות של אלגוריתם ניוטון )ואז המטריצה ) עבור פונקצית מטרה לא קמורה ממש( לא הפיכה יתכן ומטריצת ההסיאן. 1 ) 1

kH x − .כלל לא קיימת

איננה מבטיחה ירידה בערך הפונקציה מאיטרציה לאיטרציה הצורה הטהורה של אלגוריתם ניוטון. 2באותה מידה " נמשכת"למעשה הצורה הטהורה של אלגוריתם ניוטון . עבור פונקציה לא קמורה

האלגוריתם פשוט מחפש פתרון למערכת המשוואות .למקסימום לוקלי כמו למינימום לוקלי( )kf x 0∇ =.

) היא פעולה חישובית יקרה פעולת הפיכת מטריצה. 3 )3O n.

שיפורים לאלגוריתם ניוטון צריך לבטיח כי הנגזרת הכיווניתk+1יטרציה לאkכדי להבטיח כי ערך הפונקציה ירד מאיטרציה . 1

, תהיה שליליתkdבכיוון ההתקדמות

( ) ( ) ( ) ( )T T 1d k k k k kf g x d g x H x g x 0−′ = = − <

)התנאי הזה יתקיים רק אם )kH x14היא מטריצה חיובית מוגדרת.

איננה מטריצה חיובית אז כדי להבטיח כי האלגוריתם יתקדם בכיוון ירידה לומר אם מטריצת ההסיאןכ ,צריך לאלץ את המטריצה להיות מטריצה חיובית באופן הבא

)כל עוד )kH xה הוסף למטריצ איננה מטריצה חיובית מוגדרת( )kH xמטריצה אלכסונית k∆ עם

) חיוביים עד אשר המטריצה ע"ע )k kH x + . תהיה מטריצה חיובית מוגדרת∆הסיבוכיות ( את המקדם של מספר הפעולות הארתמטיות כדי להקטיןCholeskyמשתמשים בפירוק . 2

)נשארת )3O n .( Hdבאלגוריתם ניוטון אנו פותרים את מערכת המשוואות הלינארית g= באמצעות הפיכת מטריצת −

בעלת צורה האם מערכת המשוואות היית. נתוניםH,g- הוא וקטור הנעלמים וdנשים לב כי . ההסיאן ,משולשת

11 1 1

21 1 22 2 2

31 1 32 2 33 3 3

l y bl y l y bl y l y l y b

=+ =+ + =

וכך 2yלהציב ערך זה במשוואה השניה ולחלץ את , מהמשוואה הראשונה1yאז ניתן בקלות לחלץ את

Lyמטריצי ברישום . הלאה b= , כאשרLמטריצה משולשת תחתונה . על מטריצת ההסיאן 15Choleskyל מבצעים את פירוק "כדי לעבור למערכת משוואות מהצורה הנ

THומתקבלת מטריצה משולשת תחתונה המקיימת LL= .כלומר כעת נותר לפתור, TLL d g= −

. היא מטריצה חיובית מוגדרתהמטריצה ההופכית של מטריצה חיובית מוגדרת 14רצוי להוסיף תוספת חיובית למטריצת ההסיאן כדי להפוך אותה למטריצה חיובית . chol השתמשו בפונקציה Matlab- ב15

).Levenberg-Marquardt(ממש

83

,16י פתירת שתי מערכות משוואות בעלות צורה משולשת"נפתור את מערכת המשוואות הזו ע . א

Ly g= − forward substitution .ב

TL d y= backward substitution

: לב כי פתירת שתי מערכות משוואות אכן מניבה כיוון ניוטוןנשים( )THd L L d g= = −

אם המטריצה איננה . מקבלים אם המטריצה היא חיובית מוגדרתCholeskyכתוצר לוואי של פירוק

.מקבלים גם כמה צריך להוסיף לה כדי שתהפוך למטריצה חיובית מוגדרת, חיובית מוגדרת

Axלמשך פתרון מערכת המשוואות . כדי לפתור מערכת משוואות\ השתמשו באופרטור Matlab- ב16 b=י " ניתן ע

x A \ b=.

84

רימה של אלגוריתם ניוטוןתרשים ז

בחרו נקודת 0xאתחול

,גודל הצעד הוא( )k k karg min f x d

αα = +α

האםkf (x )∇ ≤ ε ?

*kx x= כן

לא

k 1 k k kx x d+ = + α

,kdבו את הכיוון חש ,Choleskeyחשבו את פירוק . 1

k kL chol(H(x ))= ,פתרו את מערכת המשוואות. 2

k k kL y g(x )= − ,פתרו את מערכת המשוואות. 3

Tk k kL d y=

kחשבו את kg(x ),H(x )

85

Conjugate Directionsאלגוריתם

ולהימנע מכמות החישובים SD היא להאיץ את קצב ההתכנסות של אלגוריתם CDהמטרה של אלגוריתם , האלגוריתם תוכנן כך שיפתור את הבעיה הריבועית. המרובה של אלגוריתם ניוטון

T T1min f (x) x Qx x b c2

= − +) Qאו באופן שקול את מערכת ) מטריצה חיובית מוגדרת

Qxהמשוואות b=. CDיפתרו את הבעיה הרבועית ב -n איטרציות לכל היותר .

כיוונים צמודים

,נגדיר מכפלה פנימית( ) T

Qx, y x Qy

. מטריצה חיובית מוגדרתQכאשר דרההג

n] בהינתן מטריצה חיובית מוגדרת n] Q× , 1נגדיר את סט הווקטורים kd , ,d…) שאינם כוללים את ,אם מתקיים) Q-Conjugate Directions (Qככיוונים צמודים ) וקטור האפס

,iלכל j כך ש- i j≠,

( ) Ti j i jQ

d ,d d Qd 0= =

משפט

1אם סט הווקטורים kd , ,d… הוא Qולכן פורס את המרחב (17 צמוד אז הוא גם בלתי תלוי לינארית.(

Q יצירת כיוונים צמודים

0ל "בהינתן סט וקטורים בת k, ,ξ ξ… , ניתן לבנות סט וקטוריםQ 0 צמודים kd , ,d… כך שלכל i 0, , k= , נקבל…

0י "תת המרחב שנפרש ע i, ,ξ ξ… = 0י "תת המרחב שנפרש ע id , ,d…

,תהליך הבניה הזה נקרא תהליך גרם שמידט

( )

0 0

i

i 1 i 1 mi 1 mm 0

d

d c d+ + +=

= ξ

= ξ +∑

)כאשר )i 1 mc i -ים כך ש הם מקדמ+ 1d 0 - לQיהיה צמוד + id , ,d….

.4.2הוכחה בנספח 17

86

?מהם מקדמי תהליך גרם שמידט

jכאשר , מימיןjQd על שני האגפים ונכפיל את שני האגפים בביטוי Tנפעיל אופרטור 0, , i= … ,ונקבל

( )

TiT T

i 1 j i 1 j m ji 1 mm 0

0 d Qd Qd c d Qd+ + +=

⎛ ⎞= = ξ + ⎜ ⎟

⎝ ⎠∑

0 -מאחר ו id , ,d… הם צמודים Q , נקבל כי לכלm j≠ T

m jd Qd , ואז נקבל=0

( )

Ti 1 j

i 1 j Tj j

Qdc , j 0, , i

d Qd+

+

ξ= − = …

,סיכום תהליך גרם שמידט0 0

Tii 1 m

i 1 i 1 mTm 0 m m

d

Qdd dd Qd+

+ +=

= ξ

ξ= ξ −∑

4.3תרגיל

וכיווני החיפוש הם ( מלוכסנת התבנית הריבועיתQי וקטורים צמודים "הוכיחו כי במרחב הנפרש ע ). לאורך הצירים

,נתבונן בפונקציה הריבועית הבאה, לשם פשטות ההוכחהT1f (x) x Qx

2=

] היא מטריצה ריבועית וסימטרית Qכאשר ]n n× .

פתרון

Q 0 וקטורים צמודים nנתונים n 1d , ,d −… . ,ל" הבאה מלכסנת את הפונקציה הריבועית הנTמטריצת הטרספורמציה

[ ]0 n 1T d , ,d −…

xנבצע את הטרנספורמציה Ty=,

( ) ( )T T T1 1f (y) Ty Q Ty y T QTy2 2

= =

TQ חדשה בעלת המטריצה קיבלנו תבנית ריבועית T QT=.

כלומר האיברים היחידים השונים מאפס הם , היא אלכסוניתQנשאר להוכיח כי מטריצה ריבועית .איברים על האלכסוןה

87

,i,iQאיברים על האלכסון

( )Ti,i i i i i Q

Q d Qd d ,d 0= = ≠

,iאיברים מחוץ לאלכסון ji j, Q∀ ≠,

( )Ti, j i j i j Q

Q d Qd d ,d 0= = =

.ל.ש.מ

הופכת כל מימד של Q המשמעות של תרגיל זה היא שטרנספורמציה למערכת צירים של כיוונים צמודיםלכן אם נבצע חיפושים על הישר לאורך הכיוונים הצמודים נצטרך . הבעיה הריבועית לבלתי תלוי בשאר

. איטרציות עד שנגיע לפתרוןnלבצע רק

,באופן גרפי

0d

1d

0d

1d

88

סיכום ביניים

Tכדי לפתור את הבעיה הריבועית T1f (x) x Qx x b c2

= − +) Qתחילה ) מטריצה חיובית מוגדרת

0 כיוונים צמודיםnנבנה n 1d , ,d ,משוואת הקידום תהיה. …−

k 1 k k kx x d , k 0, n 1+ = + α = −…

. משיגים באמצעות אופטימיזציה מדויקת על הישרkα הוא נקודת התחלה שרירותית ואת 0xכאשר ,כלומר

( ) ( )k k 1 k karg min f x arg min f x d+α α

α = = +α

לכן האופטימיזציה על גודל הצעד היא גם עבור . נשים לב כי יתכן והכיוונים הצמודים אינם כיווני ירידה

.ל צעד שליליגוד

, עבור בעיה ריבועית נקבלNSDבאופן דומה לחישוב גודל הצעד האופטימלי באלגוריתם

( )Tk k

k Tk k

d b Qxd Qd

−α =

לכך הסיבה . איטרציותn טעננו כי האלגוריתם מוצא את הפתרון תוך CDבתחילת הדיון באלגורים

,נעוצה בטענה הבאה

18טענה

י הכיוונים "מרחב שנפרש ע-האלגוריתם מוצא את נקודת המינימום שנמצאת בתת) k(בכל איטרציה 0הצמודים kd , ,d… .כלומר,

k

k 1x M

x arg min f (x)+∈

=

,כאשר( )k 0 0 kM x subspace spanned by d , ,d= + …

.nרחב כולו יהיה המn ,kMלכן כאשר נגיע לאיטרציה

הערות . איטרציותn- כאלגוריתם שבונה את הפתרון בCDניתן לחשוב על אלגוריתם -נזכור כי באלגוריתם ניוטון יש צורך רק . נזכור כי אסור להתלהב ממספר איטרציות נמוך -

בכל CDבאלגוריתם . ים בכל איטרציה יהיה נמוךחשוב גם כי מספר החישוב. באיטרציה אחתתהליך חישוב הכיוונים , ככל שמימד הבעיה יותר גדול. איטרציה צריך לבצע תהליך גרם שמידט

. לתוחסרון נוסף הוא שצריך לזכור את כל סט הווקטורים מהתח. הצמודים הופך ליותר מסורבל

.4.3הוכחה בנספח 18

89

Conjugate Gradientsגרדיאנטים צמודים

לכיוונים כאשר מוצע לבצע תהליך גרם שמידטCD הוא מקרה פרטי של אלגוריתם CGאלגוריתם ,כלומר. אנטהפוכים לווקטורי הגרדי

0 0 n 1 n 1g , , g− −ξ = − ξ = −… ,כאשר סימננו

( )k k kg f x Qx b= ∇ = − ,ל"ישנן מספר סיבות לבחירת הוקטורים הנ

kgאם בשלב מסוים נקבל . 1 . אז התהליך יופסק=0אז נוסחת העדכון של תהליך ) בבעיה ריבועית (צבות של וקטורי גרדיאנט הודות לתכונות הניCG -ב. 2

.גרם שמידט מצטמצמת ומקלה מאד על מספר החישוביםעבור כיוונים צמודים . מאחר והכיוונים מבוססים על גרדיאנטים התהליך יתקדם בצורה מהירה. 3

כך גם ניתן לסיים את . במספר הצעדים האחרוניםשרירותיים יתכן מצב שבו רוב ההתקדמות תבוצע רק . איטרציותnהתהליך גם לפני שביצענו

מובטח כי הכיוונים שמבוססים על גרדיאנטים יניבו כיווני ירידה ולכן נוכל להפעיל את אלגוריתמי . 4 .מציאת גודל צעד אופטימלי עבור גודל צעד חיובי בלבד

,כון תהיהבשיטת הגרדיאנטים הצמודים משוואת העד

k 1 k k kx x d+ = + α kαי אופטימזציה על ישר מדויקת" מושג ע .kdמושג בתהליך גרם שמידט ,

0 0

Tk 1k j

k k jTj 0 j j

d g

g Qdd g d

d Qd

=

= −

= − +∑

kgהשיטה עוצרת כאשר 0=.

וצריך , מפושטים בצורה ניכרת היא שמקדמי תהליך גרם שמידטCGהתכונה הכי חשובה באלגוריתם אורתוגנלי עם ( אורתוגונלי kgתכונה זו נובעת מכך שכל גרדיאנט . הקודםלזכור רק את הגרדיאנט

0לגרדיאנטים באיטרציות הקודמות ) רגילהמכפלה פנימית k 1g , ,g −… .

19טענה

,י התהליך הבא" מיוצרים עCGהכיוונים באלגוריתם 0 0

k k k k 1

d g

d g d −

= −

= − +β

,כאשר

Tk k

k Tk 1 k 1

g gg g− −

β =

.4.4הוכחה בנספח 19

90

0 לסט הווקטורים kgות של ניתן לראות כי בגלל האורתוגנלי k 1g , ,g בצורה kβ ניתן לכתוב את …− ,הבאה

( )Tk k k 1

k Tk 1 k 1

g g gg g

− −

−β =

,kβ -שתי הנוסחאות ל

( )Tk k k 1

Tk 1 k 1

k Tk k

Tk 1 k 1

g g gFletcher Reevs

g g

g g Polak Ribiereg g

− −

− −

⎧ −−⎪

⎪β = ⎨⎪ −⎪⎩

ריבועיות -אבל עבור בעיות לא, ל מניבות את אותן הכיוונים"תי הנוסחאות הנעבור הפונקציה הריבועית ש

מניבה תוצאות יותר טובות מאשר Fletcher-Reevsמסתבר כי דווקא הנוסחה של . יש הבדל ביניהןPolak-Ribiere.

הערה

של האלגוריתם) restart(עבור בעיות אופטימיזציה לא ריבועיות מקובל לבצע איתחול מחדש -

. איטרציותnלמשל כל . כל מספר מסויים של איטרציות

CGחסם התכנסות של אלגוריתם

,ללא הגבלת הכלליות ניתן לבצע טרנספורמציה לבעיה הריבועית כך שצורתה תהיה כך

* T *1f (x) (x x ) Q(x x )2

= − −

,באופן הבא מסודרים Q של ע"כמו כן נניח כי העmax 1 2 3 n minλ = λ ≥ λ ≥ λ ≥ λ = λ…

,)ללא הוכחה(מתקבל חסם התכנסות הבא

( ) ( )( ) ( )

2

k mink 1

k min0

Q Qf (x )Q Qf (x )

+⎡ ⎤λ −λ

≤ ⎢ ⎥λ + λ⎢ ⎥⎣ ⎦

-וה, את הערך העצמי הגדול ביותרQהמשמעות היא שבכל איטרציה אנו מורידים בפועל מהמטריצה condition numberיחס זה לפיכך הולך ומשתפר עם התקדמות . ות הנותר מכתיב את יחס ההתכנס

)באיטרציה האחרונה נקבל כי . האיטרציות ) ( )k minQ Qλ = λואז מתקבלת התוצאה המדויקת . זהים אז האלגוריתם מוריד אותם ע"תכונה חשובה נוספת שנובעת מהחסם הזה היא שאם ישנם מספר ע

(!). ת בבת אח

91

לבעיות לא ריבועיותCGתרשים זרימה של אלגוריתם

אתחול בחרו נקודת 0xשרירותית

0 0d f (x )= −∇

,קבעו את הכיוון( )T

k k k 1k T

k 1 k 1

f (x ) f (x ) f (x )f (x ) f (x )

− −

∇ ∇ −∇β =

∇ ∇

k k k k 1d f (x ) d −= −∇ +β

k 1 k k kx x d+ = + α

האםkf (x )∇ ≤ ε ?

*kx x=

, לפי חיפוש על הישרkαקבעו את גודל הצעד

( )k k karg min f x dα

α = +α

, לפי חיפוש על הישר0αקבעו את גודל הצעד

( )0 0 0arg min f x dα

α = +α

1 0 0 0x x d= +α

kfחשבו את (x )∇

כן

לא

92

אשר ) NSD-או ה (SD- ה– באה מההבנה כי יש שתי קצוות של אלגוריתמים CG -המוטיבציה לעסוק ב אשר אלגוריתם ניוטון–ולעומתו , בכל איטרציה מבצע מעט חישובים אבל בעל ביצועי התכנסות ירודים -ואמנם ה, חיפשנו דרך אמצע. בכל איטרציה מבצע הרבה חישובים אך בעלי ביצועי התכנסות מעולים

CG ביצועי התכנסותו טובים יותר מה– מהווה דרך אמצע שכזו - NSD למרות שמורכבותו החישובית .NSD -אינה גבוהה בהרבה מזו של ה

וצא תהיה הפעם נקודת המ. השיטות הניטוניות למחצה הם המשך חיפוש אחר אלגוריתמי אמצע הדרך

ומטרת האלגוריתמים תהיה לעקוף את החישוב היקר של המטריצה ההופכית של ההסיאןאלגוריתם ניוטוןלכן שיטות אלו נקראות . ולשמור עד כמה שאפשר על תכונת ההתכנסות המהירה של אלגוריתם ניוטון

Quasi Newton .במפורשכזית תהיה שבמקום לחשב את המטריצה ההופכית של ההסיאןהגישה המר , . מאיטרציה לאיטרציה בדרך חישובית זולהנבנה מטריצה המתכנסת למטריצה ההופכית של ההסיאן

Quasi Newtonשיטות ניוטוניות למחצה

, מהצורה הבאה הן שיטות אופטימיזציה מבוססות גרדיאנטQuasi Newtonשיטות

( )

k 1 k k k

k k k

x x d

d B f x

+ = + α

= − ∇

) היא מטריצה המקרבת את המטריצה kBכאשר )( ) 11 2k k kB H f x

−−= = ∇.

kBכדי להבטיח כיוון ירידהרת חייבת להיות מטריצה חיובית מוגד ,

( ) ( ) ( ) ( )T Td k k k k k kf x f x d f x B f x 0′ = ∇ = −∇ ∇ <

גישה נאיבית לקירוב ההסיאן

dgנקרב את המשוואה Hdx=.

, נסמן

( ) ( )k k 1 k

k k 1 k

p x xq f x f x

+

+

∇ −∇

,ואז הקירוב יהיה

( ) ( )( ) ( )( )

( )

2k 1 k k 1 k 1 k

2k k 1 k

f x f x f x x x

q f x p

+ + +

+

∇ −∇ ≈ ∇ −

≈ ∇

93

, קירובים כאלה ניתן לרשום אותם באופן הבאnעבור ו

0 1 n 1 0 1 n 1

| | | | | |q q q H p p p| | | | | |

Q P

− −

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥≈⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

… …

הערה

. של פונקציה ריבועיתQלא להתבלבל אם מטריצה

] כי הן 20כעת ניתן להפוך את המטריצות ]n n×ונקבל ,

1

1 1

H QP

B H PQ

− −

. וקטורים וגם צריך לבצע היפוך מטריצהn- צריך לזכור את כל השיטה זו יקרה מבחינה חישובית כי

Quasi-Newton של Broydenמשפחת

עבור . שלהן קבועותשמטריצות ההסיאן) כרגיל(משפחת אלגוריתמים זו פותחה עבור בעיות ריבועיות ,כלומר מתקיים. יקיםל הופכים לשוויונים מדו"בעיות כאלה כל הקירובים הנ

1

1

H QPB PQ

=

=

k תנאי טבעי על הקירובים האיטרטיביים של המטריצה ההופכית של ההסיאן 1B יהיה שיתקיים בכל +

,איטרציה

k 1 i iH p q , i 0,1, , k+ = = … או

k 1 i iB q p , i 0,1, , k+ = = … 1 איטרציות נקבל כי nואז לאחר 2 1

nB PQ f (x )− −= = ∇.

. ה הבא ההופכית באופן המתואר בתרשים הזרימהאלגוריתמים ממשפחה זו בונים את מטריצת ההסיאן

בתנאי ששתי סדרות הוקטורים 20 n n

j jj 1 j 1p , q

= = ).כל סדרה בנפרד( בלתי תלויות לינארית

94

QNתרשים זרימה של אלגוריתם

k k kd B f (x )= − ∇ , לפי חיפוש על הישרkαקבעו את גודל הצעד

( )k k karg min f x dα

α = +α

k 1 k k kx x d+ = + α

האםkf (x )∇ ≤ ε ?

*kx x= כן

לא

( )( )

k 1 k k 1 k 1 k k 1T

k 1 k 1 k 1 k 1

k 1 k 1 k 1k 1 T

k 1 k 1 k 1

TTk 1 k 1 k 1 k 1 Tk 1 k 1

k k 1 k 1 k 1 k 1 k 1Tk 1 k 1 k 1

p x x ; q f (x ) f (x );

q B qp B qv

p q

B q q Bp pB B v vp q

− − − −

− − − −

− − −−

− − −

− − − −− −− − − − −

− − −

= − = ∇ −∇

τ =

= −τ

= + − + ξ ττ

בחר נקודת אתחול 0xשרירותית

קבעו מטריצה חיובית0B כלשהי מוגדרת

0 0 0d B f (x )= − ∇ , לפי חיפוש על הישר0αקבעו את גודל הצעד

( )0 0 0arg min f x dα

α = +α

1 0 0 0x x d= +α

kfחשבו את (x )∇

95

הערה

k0הסקלרים 1≤ ξ kעבור . הם הפרמטרים הקובעים את השיטה≥ 0ξ DFP זוהי שיטת =)Davidson-Fletcher-Powell .(עבור k 1ξ -BFGS) Broyden-Fletcher-Goldfarb זוהי שיטת =

Shanno.(

Broydenתכונות של אלגוריתמים ממשפחת kהאלגוריתמים אכן מקיימים את המשוואות . 1 1 i iB q p , i 0,1, , k+ = = ולכן לאחר , בכל איטרציה…nההפוכהיטרציות משיגים עבור הבעיה הריבועית את מטריצת ההסיאן א . לכן גם . הן מטריצות חיוביות מוגדרותkB הקובע כי תחת הנחה לא קשה המטריצות 21קיים משפט. 2

.יווני ירידה וגם המטריצות יהיו סימטריות כפי שצריך להיות יניבו כמטריצות קירוב ההסיאןהם גם מניבים , nBל בונים את המטריצה ההופכית "בזמן שהאלגוריתמים הנ, עבור הבעיה הריבועית. 3

.Qכיווני צמודים ה זהה לכל משפחת מסלול החיפוש יהי, על הישרמדויקבאמצעות חיפוש , עבור הבעיה הריבועית. 4

Broyden) הכוונה במסלול חיפוש היא לנקודות דרכן האלגוריתם עובר עד אשר הוא מסתיים :0 1 kx , x , , x ,… מסלול , על הישרמדויקבאמצעות חיפוש , גם עבור הבעיה הכללית, באופן מפתיע). …

המקרה היחיד שבו יתקבלו מסלולים שונים יהיה עבור , כלומר. Broydenהחיפוש יהיה זהה לכל משפחת .חיפוש לא מדויק על הישר

נחשב BFGSאלגוריתם . הוא האלגוריתם הראשון שפותחDFP-באופן היסטורי אלגוריתם ה. 5 . הכי טוב כיוםQuasi- Newton-לאלגוריתם ה

4.5המשפט מצורף בנספח 21

96

Truncated Newtonאלגוריתם

,באלגוריתם ניוטון הטהור משוואת העדכון היתה ( ) ( )1

k k kd H x g x−= −

,היה צריך לפתור את מערכת המשוואות, kdכדי למצוא את כיוון ההתקדמות , kכלומר בכל צעד

( ) ( )k k kH x d g x= − 3O(nעיה היתה שפתירת מערכת המשוואות הזו באופן מדויק צורכת הב . פעולות ארתמטיות(

. נסתפק בפתרון מקורב שיחסוך הרבה חישוביםTruncated Newtonבאלגוריתם באלגוריתם ניוטון הטהור קירבנו את הפונקציה הכללית . ניזכר מאיפה באה מערכת המשוואות הזו

,יה ריבועית באופן הבאלפונקצ

( ) ( ) ( ) ( ) ( )

( ) ( )

T T 2k 1 k k k k

T Tk k k

1ˆ ˆf x f x d f x d f x d f x d2

1f x d g x d H(x )d2

+ = + ≅ + ∇ + ∇ =

= + +

, מציע לפתור את בעית האופטימזציה הבאהTruncated Newtonאלגוריתם

( )TTk k k

d

1d arg min d H(x )d g x d2

= +

)בנקודת המינימום של פונקציה זו מתקיים ) ( )k k kH x d g x= −.

ום לחשב את נקודת המינימום של הפונקציה היא שבמקTruncated Newtonהגישה של אלגוריתם

כלומר בכל איטרציה של . לבצע חיפוש איטרטיבי אחר נקודת המינימום הזו, הריבועית הזו באופן מדויקכיוון . מבוצע קירוב של הפונקציה הכללית בפונקציה ריבועיתTruncated Newtonאלגוריתם מופעל על הקירוב kdכדי למצוא את . ל"שיג מינימום של הקירוב הריבועי הנ הוא כזה שמkdההתקדמות

). CGלמשל (הריבועי אלגוריתם אופטימזציה אחר kH(xאם בכל איטרציה שיבחר יהיה כיוון ירידה kd אז מובטח כי הכיוון היא מטריצה חיובית מוגדרת(

).22תכונה זו רצויה עם נוסיף גם חיפוש על הישר(

לכן ניתן לדעת אצ גודל הצעד האופטימלי . בכל איטרציה אנו פותרים בעיה ריבועית, יננה ריבועיתגם אם פונקצית המטרה א 22

).NSDראו אלגוריתם (באופן אנליטי

97

Truncated Newtonתרשים זרימה של אלגוריתם

בחר נקודת איתחול 0xשרירותית

)חשבו את )kg x ,( )kH x ):CGלמשל באמצעות (פתרו את בעית המינימיזציה הבאה

( )TTk k k

d

1d arg min d H(x )d g x d2

= +

האםkf (x )∇ ≤ ε ?

*k 1x x +=

כן

לא

k 1 k kx x d+ = +

98

99

Least Squaresבעיות ריבועים פחותים . 5

היא למצוא LS-מטרת בעיית ה. הן משפחת בעיות מאד פופולרית במגוון רחב של תחומיםLSבעיות g(x) ,זציה הבאה וזה יתקבל כאשר נפתור את בעיית האופטימי=0

L2 2

i2x i 1

1 1minimize f (x) g(x) g (x)2 2 =

= = ∑

,כאשר

n L

ni

n

g :

g :

x

1 שרכיביה הם היא פונקציה וקטוריתgכלומר 2 Lg ,g , ,g….

.מסנן קלמן, רשתות עצביות, התאמת מודל למדידות: דוגמאות

,ירוב פולינמיאלילמשל קנתונות אוסף מדידות L

i i i 1x , y

=ל " העובר הכי קרוב לנקודות הנn והמטרה היא למצוא פולינום מסדר

,LSכאשר נגדיר קריטריון מרחק מהצורה הבאה נקבל תבנית של . במובן מסוים

( ) ( ) ( )( )2L

0 1 n0 1 n i 0 i 1 i n i

i 1

1f (a ,a , , a ) y a x a x a x2

gi

=

⎡ ⎤= − + + +⎢ ⎥⎣ ⎦∑… …

,נבצע הכללה לבעיה יותר כלליתL

ix i 1minimize f (x) (g (x))

=

= ϕ∑

, היא מהצורהϕכאשר

עית בב. סימטרית סביב האפס ונקודת המינימום שלה באפס, היא פונקציה קמורהϕכלומר באופן כללי

LS הפונקציה ϕ 21 היא(t) t2

ϕ =.

t

(t)ϕ

100

f של הפונקציה וההסיאןהגרדיאנט (x)עבור המקרה הכללי ,

2 T 2i i

i

f (x) g(x) (g(x))

f (x) g(x) (g(x)) g(x) (g (x)) g (x)

′∇ = ∇ ϕ⎧⎪⎨ ′′ ′∇ = ∇ Φ ∇ + ϕ ∇⎪⎩

,כאשר

1 m

1 1

m m

| |g(x) g (x) g (x)

| |

(g (x)) (g (x)) 0(g(x)) ; (g(x)) ;

(g (x)) 0 (g (x))

⎡ ⎤⎢ ⎥∇ ∇ ∇⎢ ⎥⎢ ⎥⎣ ⎦

′ ′′ϕ ϕ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥′ ′′ϕ Φ⎢ ⎥ ⎢ ⎥′ ′′⎢ ⎥ ⎢ ⎥ϕ ϕ⎣ ⎦ ⎣ ⎦

, מתקבלLSעבור בעיית 21(t) t ; (t) t; (t) 1

2′ ′′ϕ = ϕ = ϕ =

,ולכן

m2 T 2

i ii 1

f (x) g(x)g(x)

f (x) g(x) g (x) g (x) g (x)=

∇ = ∇⎧⎪⎨∇ = ∇ ∇ + ∇⎪⎩

,נשים לב לגדלים של המטריצות

g(x)∇ היא מטריצה [n L]× g(x) וקטור [L 1]×

ig (x)סקלר 2

ig (x)∇ מטריצה [n n]×

.Gauss-Newton מוצע אלגוריתם הנקרא LSבמיוחד עבור בעיות

101

Gauss-Newtonאלגוריתם

. הוא להזניח את איבר הסכום בחישוב מטריצת ההסיאןGauss-Newtonהרעיון של אלגוריתם

L2 T 2 T

i ii 1

f (x) g(x) g (x) g (x) g (x) g(x) g (x)=

∇ = ∇ ∇ + ∇ ≈ ∇ ∇∑

,כלומר כעת

2 T

f (x) g(x)g(x)f (x) g(x) g (x)

∇ =∇⎧⎨∇ ≅ ∇ ∇⎩

,ישנם שני יתרונות מרכזיים בהזנחה זו

. הוא גדול ולכן איבר הסכום שמוזנח מהווה מעמסה חישובית גדולהLכ מספר המדידות "בד .1 . בכל איטרציה רגיל צריך לחשב את ההסיאןNewtonנזכור כי באלגוריתם

לאחר . כלשהי ולא בהכרח חיובית) ריבועית וסימטרית(איבר הסכום שהוזנח הוא מטריצה .2לכן כדי להבטיח שיווצר לנו . היא לפחות מטריצה חיובית חצי מוגדרתההזנחה מטריצת ההסיאן

הפיכה דרושה רק עוד תוספת קטנה כדי להפוך כיוון ירידה וגם כדי להבטיח כי מטריצת ההסיאן או Choleskyעות פירוק שתי שיטות אפשריות הן באמצ. אותה למטריצה חיובית מוגדרת

.Levenberg- Marquardtבשיטת

,ואז כמו בקידום ניוטון

( ) ( )1 12 Tk 1 k k k kx x f (x ) f (x ) x g(x) g (x) g(x)g(x)

− −

+ = − ∇ ∇ = − ∇ ∇ ∇

?מתי ההזנחה הזו סבירה

igבסביבת נקודת המינימום - (x)ת המינימום נזכור כי בנקוד(כ " קטנים בדg(x) ואז ) =0 .איבר הסכום שמוזנח יחסית קטן

במקרה הלינארי ). או כמעט לינארית( לינארית gמקרה נוסף בו הזנחה כזו יעילה היא כאשר - .הקירוב שלנו יהיה מדויק

הערות .ם מייצר כיווני ירידהגם במקרים שבהם הזנחה זו אינה מוצדקת האלגורית - .הוספת חיפוש על הישר בכל איטרציה משפרת את ביצועי האלגוריתם - היא שבכל נקודה האלגוריתם מבצע Gauss-Newtonדרך נוספת להסתכל על אלגוריתם -

fלינאריזציה לפונקציה (x) 2 ואז הנגזרות מסדר שניig (x)∇מתאפסות .

. LS הכי פופולרי לבעיות Gauss-Newtonאלגוריתם -

102

לינאריתLSפתרון בעית

g(x) לינאריות מהצורה LSנדון בבעיות Y Hx= , ימיזציה הופכת ל ואז בעיית האופט−

( ) ( )2 TT

2x

1 1 1minimize f (x) g(x) g (x)g(x) y Hx y Hx2 2 2

= = = − −

,כאשרy - וקטור [L 1]×

H- מטריצה [L n]× x- וקטור [n 1]×

- וHכלומר נתון 1

L

yy

y

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

. אופטימליx* וצריך למצוא

)הפתרון לבעיה זו הוא ) 1* T Tx H H H y−

האופטימלי צריך לפתור את x*למעשה כדי למצוא את . = ,מערכת המשוואות הבאה

( )T * TH H x H y=

Lכדי לקבל פתרון נדרוש כי n≥בנוסף למען . כלומר שלא יהיה מצב שבו יש פחות משוואות מנעלמים . תהיה מלאהHהפיכות נדרוש כי הדרגה של המטריצה

נשים לב כי הפתרון . אין צורך בכלל בשיטות נומריות למציאת הפתרון עבור הבעיה הזו, למראית עין

)האנליטי ) 1* T Tx H H H y−

עבור מימד בעיה . הטהור הוא שקול לאיטרציה אחת של אלגוריתם ניוטון=(n)אבל למשל עבור למשל . נליטי נמוך ניתן להסתפק בפתרון האn בפתרון האנליטי צריך =10000

10000]להפוך מטריצה בגודל 10000]× !

,הקירוב כעת מדויקGauss-Newton נשים לב כי באלגוריתם

( ) ( )

( ) ( ) ( )

( )

( )

T T

TT T T T

TT T T T T

T

2i i i

2 T T T

1 1f (x) y Hx y Hx g (x)g(x)2 2

df g dg y Hx Hdx y H x H H dx

f (x) y H x H H H y H Hx

g(x) H

g (x) y H(i,:)x g (x) 0

f (x) g(x) g (x) H H H H

= − − =

= = − − = − +

⎧∇ = − + = − +⎪⎨⎪∇ = −⎩

= − ⇒ ∇ =

∇ = ∇ ∇ = − − =

103

נה יחודי לא לינאריות בעלות מבLSבעיות

,נתיחס לבעית האופטימיזציה הבאה( ) ( )T

xminimize f (x) y S(x) y S(x)= − −

אשר מאפשר המרת הבעיה S(x)ישנם שני מקרים שקיים מבנה נוח של . איננה לינאריתS(x)כאשר

.במבנה קל יותר לטיפול

1מקרה

zכי חד ער-נניח כי קיים קשר חד G(x)=כך שיתקבל , 1S(x) S(G (z)) Hz−= =

-בשל המעבר החד. שפתרונה קל מאד, במקרה כזה נוכל להמיר את הבעיה הלא לינארית לבעיה לינארית

x מתוכו מבטיח את מציאת x האופטימלי וחישוב z - מתקבל כי מציאת הz - לxחד ערכי בין . האופטימלי

, הלינארית הבאהLS-כלומר תחילה נפתור את בעית ה

( ) ( ) ( ) ( )T Tf (x) y S(x) y S(x) y Hz y Hz= − − = − −

) מפתרון מערכת המשוואות z*ונמצא את )T * TH H z H y= .ובגלל ש- Gחד ערכית נקבל כי - חד* 1 *x G (z )−=.

104

5.1תרגיל

נניח כי בידנו אוסף הצמדים Li i

i 1x , y

= המהווים דגימה רועשת של האות ההרמוני

( )i0A cos 2 f xπ + φ . 0התדרf ידוע ורצוננו לשערך את האמפליטודה והפאזה של האות הזה מאוסף . הצמדים

,נציע את הקריטריון הבא למינימיזציה

( )2m

i i0

i 1f (A, ) y A cos 2 f x

=

⎡ ⎤φ = − π + φ⎣ ⎦∑

בא המאפשר להמיר את הבעיה הזו לבעיה אבל מתקיים הקשר ה. לא לינאריתLSזוהי בבירור בעית

,לינארית

( ) ( ) ( ) ( ) ( )i i i0 0 0A cos 2 f x A cos cos 2 f x Asin sin 2 f xπ + φ = φ π − φ π

,לכן נציע את צמד הנעלמים הבאים כתחליף

( )( )

( ) ( ) ( )

1

2

i i i0 1 0 2 0

a A cos

a Asin

A cos 2 f x a cos 2 f x a sin 2 f x

⎧ = φ⎪⎨

= φ⎪⎩⇓

π + φ = π − π

105

.ע"הטרנספורמציה היא המעבר מקוארדינטות פולריות לקרטזיות ולכן היא חח

, הבאהLS -מתקבלת בעית ה

( ) ( )( )2L

i i i1 2 1 0 2 0

i 1f (a ,a ) y a cos 2 f x a sin 2 f x

=

⎡ ⎤= − π − π⎣ ⎦∑

,נציג אותה בצורה מטריצית. לינאריתLSוזוהי אכן בעית

( ) ( )

( ) ( )

1 110 0

1

2L L L0 0

cos 2 f x sin 2 f xya

y ; a ; Ha

y cos 2 f x sin 2 f x

⎡ ⎤π − π⎡ ⎤ ⎢ ⎥⎡ ⎤⎢ ⎥= = = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦⎢ ⎥ π − π⎣ ⎦ ⎢ ⎥⎣ ⎦

( ) ( )T1 2f (a ,a ) y Ha y Ha

= − −

)נפתור את מערכת המשוואות )T * TH H a H y= ונקבל את *a.

*כדי לקבל את *A ,φנשתמש בהתמרה מקואורדינטות קרטזיות לפולריות , 2 2

1 2

1 2

1

A a a

atga

⎧ = +⎪⎪⎨ ⎛ ⎞φ =⎪ ⎜ ⎟⎪ ⎝ ⎠⎩

2a

1a

A

φ

( )A cos φ

( )Asin φ

106

2מקרה

, למכפלת שני גורמים מהצורה הבאהS(x)במקרים רבים מתקבל כי ניתן להפריד את

S(x) H( )= α β

היא מטריצה התלויה באופן לא x .H הם וקטורי משתנים המייצגים את משתני הוקטור β- וαכאשר מניחים ( באופן הבא β כזה ניתן לפתור תחילה את הבעיה עבור וקטור הנעלמים במצב. α-לינארי רק ב

,) קבועαכי

( ) ( )Tf ( , ) y H( ) y H( )α β = − α β − α β , נפתור את מערכת המשוואותβ* ריבועית וכדי למצוא את LS זוהי בעית β -ב

( )T * TH ( )H( ) H ( )yα α β = α , פתרון מדויק יניב לנו

( ) 1* T TH ( )H( ) H ( )y−

β = α α α ,נציב חזרה בפונקציה המקורית ונקבל

( ) ( ) ( )( )T 1* * * T T Tf ( , ) y H( ) y H( ) y I H( ) H ( )H( ) H ( ) y−

α β = − α β − α β = − α α α α

,כעת נותר לפתור את בעית המינמיזציה הבאה

( ) 1* T T Targ max y H( ) H ( )H( ) H ( )y−

αα = α α α α

.β -וזאת בעיה שאינה תלויה ב

107

5.2תרגיל

kממדיות -נניח כי נתונה לנו המשפחה הפרמטרית הבאה של פונקציות בסיס חד 1, ,n= … kx(x, ) ek

−αΨ α . של פונקציות בסיס אלהי כצירוף ליניאר רצוננו לייצגהh(x)בהינתן פונקציה . =

,כלומר נחפש ייצוג מהצורה

n n

k k k 1 2 nk 1 k 1

kx x 2 x n xh(x) (x, ) e e e e= =

−α −α − α − α= β Ψ α = β = β +β + +β∑ ∑ …

נניח כי בידנו אוסף הצמדים Li i

i 1x , y

=י פתרון "נציע את איתור פרמטרי הייצוג המוצלחים ביותר ע.

, הבאהLS-בעיית ה

2L n ii

1 2 n ki 1 k 1

kxf ( , , , , ) h(x ) e= =

⎛ ⎞−αα β β β = − β⎜ ⎟⎝ ⎠

∑ ∑…

S(x)ניתן לראות מייד כי המבנה הזה הוא לא לינארי אבל ניתן לכתיבה באופן H( )= α β .

,בצורה מטריצית

1 1 1

11

2 2 222

L L L Ln

x 2 x n xe e eh(x )x 2 x n xh(x ) e e e; y ; H

h(x ) x 2 x n xe e e

⎡ ⎤−α − α − αβ ⎡ ⎤⎡ ⎤ ⎢ ⎥

⎢ ⎥⎢ ⎥ ⎢ ⎥−α − α − αβ ⎢ ⎥⎢ ⎥ ⎢ ⎥β = = =⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥⎢ ⎥ ⎢ ⎥β⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ −α − α − α⎢ ⎥

⎣ ⎦

( ) ( )Tf ( , ) y H( ) y H( )

α β = − α β − α β

,פתרון מדויק של מערכת המשוואות הזו מניבה

( ) 1* T TH ( )H( ) H ( )y−

β = α α α , נותר לפתור את בעית המינמיזציה הבאהכעת

( ) 1* T T Targ max y H( ) H ( )H( ) H ( )y−

αα = α α α α

108

109

)Norm Approximation (קירוב נורמה. 6

, הפשוטה ביותר היא מהצורהבעית קירוב נורמה

xminimize Ax b−

,כאשרA מטריצה [ ]m n×

b וקטור [ ]m 1×

x וקטור הנעלמים [ ]n 1×

Ax נקרא הפתרון המקורב של פתרון בעית קירוב נורמה b≈ בנורמה i .הווקטור,

r Ax b− . של הבעיה) residual(נקרא השארית

mבנוסף נניח כי . ל" הן בתAנניח כי עמודות המטריצה . בעית קירוב הנורמה היא בעיה קמורה n> ,

.23כלומר נניח כי יש יותר משוואות מנעלמים

טענה

bאפס אם ורק אם הערך האופטימלי של בעית קירוב הנורמה הוא (A)∈ℜ24.

הסבר

1 n

| |A a a

| |

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

mכאשר

ia R ,i 1, , n∈ = Axלכן ניתן לרשום את הביטוי . A הם וקטורי העמודה של מטריצה … ,באופן הבא

1 1 n nAx x a x a= + +…

b ואם אכן A היא למעשה קומבינציה לינארית של עמודות המטריצה Axכלומר (A)∈ℜ אז ניתן

.A באמצעות קומבינציה לינארית של עמודות מטריצה bלייצג את

bברוב הבעיות המעשיות (A)∉ℜולכן ערך הפתרון האופטימלי גדול מאפס . כך שהן הכי Aל כמציאת הקומבינציה הלינארית של עמודות מטריצה "רש את בעית הקירוב הנניתן לפ

. של הנורמההקרבה מוגדרת באמצעות פונקצית הקנס. bלווקטור " קרובות"

mאם 23 n= אז הפתרון אז הפתרון האופטימלי הוא * 1x A b−=. .A של מטריצה range- היא הℜ(A)משמעות הסימון 24

110

הוא וקטור פרמטרים של מודל לינארי x. עיית שערוךפרוש נוסף של בעיית קירוב הנורמה הוא ב ,ונתונות מדידות רועשות של מודל זה

y Ax= +η

,כאשרy וקטור [ ]m הוא וקטור המדידות×1

η וקטור [ ]m הוא וקטור רעש המדידות×1

מטרת ). iבמובן הנורמה (אך הוא קטן , איננו ידועηההנחה הבסיסית בבעיית השערוך היא שהרעש , x הוא xלכן אם ננחש כי ערך . yל סמך המדידות עxשל " טוב"בעיית השערוך היא למצוא ניחוש

,בעקיפין אנו קובעים כיˆy Axη = −

,הבעיה יהיה פתרון xהניחוש הכי טוב של , בהסתמך על ההנחה הבסיסית

xx arg min y Ax= −

, סטנדרטיותלהלן מספר בעיות קירוב נורמה

Least Squaresקירוב

סטנדרטית הנורמה השניה LSבבעית . 2lזוהי בעית קירוב הנורמה הכי נפוצה המשתמשת בנורמה , ורישומה הוא)זוהי בעיה שקולה(מועלית בריבוע

2 2 2 2

1 2 m2xminimize Ax b r r r− = + + +…

.25 אשר יביא למינימום את ריבועי השאריותxכלומר המטרה היא למצוא

,לבעיה זו קיים פתרון אנליטי הכרוך בפתירת מערכת המשוואות הלינארית

T TA Ax A b=

,ותחת ההנחות של תחילת הפרק קיים פתרון והוא יחיד

( ) 1T Tx A A A b−

= קירוב סכום ערכים מוחלטים

, מניב את בעית הקירוב הבאה1lשימוש בנורמה

1 2 m1x

minimize Ax b r r r− = + + +…

.הכוונה במינוח שאריות הוא לאיברי וקטור השארית 25

111

minimax או Chebyshevקירוב

, מניב את בעית הקירוב הבאה∞lשימוש בנורמה

1 2 mxminimize Ax b max r , r , , r

∞− = …

. אשר יביא למינימום את הערך המוחלט המקסימלי של השאריותxכלומר המטרה היא למצוא

קירוב פונקציות קנס

ניתן להכליל . המטילות קנס על רכיבי שארית גדוליםעד עתה טיפלנו בבעיות של קירוב נורמה ,φלפונקציות קנס כלליות יותר , מהמפונקציות קנס של נור

( ) ( ) ( )1 2 mx

minimize r r r

s.t.r Ax b

φ + φ + + φ

= −

),שליליות-אי, )סביב האפס כמובן( סימטריות φרצוי לבחור פונקציות קנס )0 0φ וקמורות כדי =

.שבעיית האופטימיזציה תהיה קמורה

,להלן מספר פונקציות קנס נפוצות• ( ) pu uφ p כאשר = במקרה זה קירוב פונקציות הקנס שקול לקירוב הנורמה עם נורמה . ≤1

pl. a בעלת רוחב deadzone-linear פונקצית הקנס • 0>,

( )0, u a

uu a, u a

⎧ ≤⎪φ = ⎨− >⎪⎩

.a-המוחלט מפונקצית זו איננה מטילה קנס על שאריות הקטנות בערכן a בעלת גבול log-barrierפונקצית • 0>,

( )

22 ua log 1 , u a

au

, u a

⎧ ⎛ ⎞⎛ ⎞− − ≤⎪ ⎜ ⎟⎪ ⎜ ⎟⎜ ⎟φ = ⎝ ⎠⎨ ⎝ ⎠⎪∞ >⎪⎩

.a-פונקציה זו מטילה קנס אינסופי על שאריות הגדולות בערכן המוחלט מ

, נשים לב למספר נקודות1קציות הקנס בגרף מהשוואה בין פונ

1בתחום - u 1− ≤ 1 מתקיים ≥ 2u u≥ ובתחום u 1 מתקיים <1 2u u<.

u קרובה מאד לפונקצית הקנס הריבועית עבור log-barrierפונקצית - 0.25a≤ .

112

uפונקציות הקנס עבור : 1גרף u בגרף השמאלי ועבור ≥1 שורטטה deadzone-linearפונקצית . בגרף הימני≥4

aעבור רוחב aטטה עבור שורlog-barrier ופונקצית =0.25 0.75=.

אלא רק על הסקאלה , הכפלת פונקצית המטרה במספר חיובי לא משפיע על פתרון בעית האופטימיזציה מעדיפה הוא הקנס שיתקבל עבור ערך מה שקובע איזה סוג פתרון פונקצית הקנס. של פונקצית המטרה

לכן הכפלה בקבוע חיובי כלשהו איננה משפיעה על היחס . ל עבור ערך אחר לקנס המתקביחסיתמסוים .ולכן איננה משפיעה על סוג הפתרון

). יש השפעה על פתרון בעיית קירוב פונקצית הקנסלעומת זאת לצורה של פונקצית הקנס )uφ קובעת

)לכן אם . uעד כמה איננו רוצים את השארית בעלת ערך )uφ מקבלת ערכים נמוכים עבור ערכים

)אם . משמעותו היא שערכים קטנים של שארית אינם מפריעים לנו, uקטנים של )uφ גדלה במהירות אם פונקצית . דולותאז המשמעות היא שלפונקצית הקנס ישנה נטייה חזקה נגד שאריות ג, גדלu-ככל ש

משמעותו שפונקצית הקנס איננה מאפשרת קבלת ערכים , הקנס מקבלת ערך אינסופי בתחום מסוים .בתחום זה כלל

1נשווה למשל את קירוב הנורמה 2,l l . עבורu ) מתקבל 1 ) ( )1 2u uφ φ ועבור u מתקבל 1

( ) ( )2 1u uφ φ .1 כלומר קירוב נורמהl 2 נותן יותר דגש על שאריות קטנות מאשר קירוב נורמהl , . 2lורמה שם פחות דגש מאשר קירוב נ1lואילו עבור שאריות גדולות קירוב נורמה

נצפה לקבל 1l למשל מפתרון קירוב נורמה. ההבדל במישקול יתבטא בפילוג ערכי השארית של הפתרוןלעומת . 2lלעומת פתרון קירוב נורמה ) או ממש אפסים(מספר גדול יותר של ערכי שארית נמוכים מאד

יניב מספר קטן של שאריות בעלות ערך גבוה לעומת פתרון קירוב 2lזאת נצפה כי פתרון קירוב נורמה .1lנורמה 1נתונות שתי פונקציות קנס : שאלה 2,φ φיתכן מצב שבו עבור האם . בעלות צורות שונותu מסוים )מתקבל ) ( )1 2u uφ > φ , מעדיף את 1אבל פתרון פונקצית קנס u2ל לעומת פתרון פונקצית קנס " הנ?

113

יוצרו . הממחישה את סוגי הפתרונות השונים המתקבלים עבור פונקציות קנס שונות26להלן דוגמא100המטריצה 30A R 100b והווקטור ∋× R∈הפתרונות של בעיות קירוב הנורמה עבור . באופן אקראיp log- וdeadzone ועבור פונקציות הקנס =1,2 barrier−ההיסטוגרמות של מוצגות2בגרף . חושבו

.השאריות לעומת פונקציות הקנס

deadzone aעבור פונקצית : 2גרף log-barrier a ועבור פונקצית =1 1.6=.

, מספר תופעות2ניתן לראות מגרף

כלומר ( מספר רב של שאריות בעלות ערך נמוך מאד או ממש אפסים 1l בפתרון קירוב נורמה - . ישנן שאריות בעלות ערך הכי גבוה1lיחסית בפתרון קירוב נורמה ). י-sparceהתקבל פתרון

מספר רב של שאריות בעלות ערך נמוך ומעט שאריות בעלות ערך 2l בפתרון קירוב נורמה - .גבוה

ישנם מספר גדול של שאריות בקצוות המקטע שבו deadzone בפתרון קירוב פונקצית הקנס - .אין קנס

] אין ערכים מחוץ לתחום log-barrier בפתרון קירוב פונקצית הקנס - ]1.6,1.6−.

".Stephen Boyd" Convex Optimization של ספרו של 2002 בגרסת דצמבר 278-280עמודים 26

114

רגישות לשגיאות

Tמדידה , בהקשר של שיערוך או רגרסיהi i iy a x= +η נקראת outlier אם הרעש iη הוא יחסית

ים יהיו -outlierבכל פתרון של בעיה עם מדידות . כ ממדידה שגויה"ים הוא בד-outlierמקור . גדולים ולסלקן כצעד מקדים או -outlier היינו רוצים לדעת איזה מדידות הן יבאופן אידיאל. שאריות גדולות

. ת גדולהאך אם ניתן משקל נמוך לשאריות גדולות אז נקבל פתרונות בעלי שארי. לתת להן משקל נמוך ,ים הבאה-outlier -למשל הפונקציה הלא רגישה ל, אם ניתן קנס קבוע החל מגודל מסוים

( )2

2

u , u Mu

M , u M

⎧ ≤⎪φ = ⎨>⎪⎩

.3 לא תהיה קמורה כפי שניתן לראות בגרף אז פונקצית הקנס

Mל עבור " הנפונקצית הקנס: 3גרף 1=.

הפונקציות הכי פחות רגישות לשאריות גדולות הן , אם נגביל את עצמנו לפונקציות קנס קמורות

מפני שהן ) robust(פונקציות קנס כאלו נקראות לעיתים רובסטיות . הפונקציות הגדלות באופן לינארי .LSות גדולות מאשר למשל ים ושגיא-outlier -פחות רגישות ל

115

)דוגמאות לפונקציות קנס רובסטיות הן )u uφ ,Huber(27 ( כמובן ופונקצית הקנס של הובר=

( ) ( )

2u , u Mu

M 2 u M , u M

⎧ ≤⎪φ = ⎨− >⎪⎩

.4 משורטטת בגרף פונקצית קנס הובר

M עבור הוברפונקצית קנס של : 4גרף . פונקצית קנס זו עולה בצורה לינארית1-נשים לב כי החל מ. =1

-לפונקציה הלא רגישה ל" קרובה" בתור הפונקציה הקמורה הכי של הוברניתן לחשוב על פונקצית הקנס

outlier-םי.

של התאמת פונקצית פולינום מסדר מוצגת בעיית רגרסיהStephen Boyd28על סמך דוגמא בספרו של 1 ( )f t t= α +βמדידות שמתוכן ברור לעין כי שתיים 30בדוגמא זו נתונות . לנקודות מדידה רועשות

M ( בקו מקווקו ופתרון הוברLeast-Squaresתרון מוצגים פ5בגרף . ים-outlierהן . בקו שלם) =1ים בעוד שפתרון הובר פחות מושפע משתי נקודות מדידה -outlier - מוטה לכיוון הLSברור כי פתרון

.LSמטעות אלו ולכן בדוגמא זו הוא יותר רובסטי מאשר

.robust least squaresס זו גם לעיתים נקראת גם פונקצית קנ 27 .2002 בגרסת דצמבר 282עמוד 28

116

.ר של בעית רגרסיה והובLSפתרון : 5גרף

סיכום

יש להגדיר את מושג הקרבה . b- קרוב לAx- כך שxאין די בקביעה הכללית כי ברצוננו למצוא נות מסוגים שונים בגלל שלכל פונקצית כל פונקצית קנס מייצרת פתרו. באמצעות פונקצית קנס מסויימת

.קנס ישנם דגשים שוניםהסיבות לכך הן . Least-Squaresכלומר בעיית , הכי נפוצה היא הפונקציה הריבועיתפונקצית הקנס

בצורה פשוטה והאפשרות לפיתוח פשוט של ) תחת התנאים המתאימים(קיום פתרון אנליטי שניתן לחשבו אך עצם הבחירה ). Recursive Least Squares(וריתם הפותר את הבעיה באופן רקורסיבי אלג

. 5משמעותו סוג פתרון שאיננו מתאים לכל אפליקציה כפי שניתן לראות בגרף , בפונקצית קנס זו

117

בעיות אופטימיזציה עם אילוצים. 7

. x*כלומר בבעיות שאין כל מגבלות על הפתרון. עד עתה עסקנו בבעיות אופטימיזציה ללא אילוצים ,בעיות אלו נוסחו באופן הבא

x

n

minimize f (x)

s.t.x∈

,נדון באילוצים משני סוגים

ih: אילוצי שוויון .1 (x) 0, i 1, ,m= = …. jg: שוויון-אילוצי אי .2 (x) 0 , j 1, , r≤ = ….

,ואז בעית האופטימזציה מנוסחת באופן הבא

x

i

j

minimize f(x)

s.t.h (x) 0, i 1, ,mg (x) 0, j 1, , r

= =≤ =

……

,כאשרn

ni

nj

f :h :

g :

דוגמא גרפית

f(x)

g(x)h(x)

1x

2x

118

,ניתן לעבור לרישום מטריצי באמצעות הסימונים הבאים

1 1

m r

h (x) g (x)h(x) ; g(x)

h (x) g (x)

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

,ואז בעית האופטימזציה מוגדרת

xminimize f(x)

s.t.h(x) 0g(x) 0

=≤

,כאשרn

n m

n r

f :h :g :

,בנוסף נוח להגדיר את מטריצת גרדיאנט האילוצים באופן הבא

[ ]1 mh(x) h (x), , h (x)∇ ∇ ∇… .כלומר כל עמודה היא וקטור הגרדיאנט של אילוץ אחר

לעת עתה נתמקד רק בבעיות עם אילוצי שוויון ובהמשך הבא נרחיב את הדיון לבעיות אופטימיזציה

. שוויון-הכוללות אילוצי אי

119

בעיות אופטימיזציה עם אילוצי שוויון בלבד7.1

,נדון בבעיות מהסוג

xminimize f(x)

s.t.h(x) 0=

'כופלי לגרנז

1קיימים סקלרים , x* שעבור מינימום לוקלי הוא' הרעיון המרכזי בתורת כופלי לגרנז m, ,λ λ… , ,כך שיתקיים', הנקראים כופלי לגרנז

m* *

i ii 1

f (x ) h (x ) 0=

∇ + λ ∇ =∑

, נדגים את הרעיון עבור אילוץ אחד באופן גרפי

h(x) - ניצב ל∇h(x) קו שווה גובה ולכן גרדיאנט האילוץ ניזכר כי הגרדיאנט ניצב לכל x לכל =0בנקודת המינימום הנגזרת הכיוונית . לאורך האילוץdנדמיין כי אנו מתקדמים בכיוון . x*-ולכן גם ב

,ן מתקייםמתאפסת ולכ* * T

df (x ) f (x ) d 0′ = ∇ =

המסקנה היא שבנקודת המינימום גראדיאנט . כלומר בנקודת המינימום הגרדיאנט ניצב לכיוון החיפושf* הפונקציה (x h(x* וגראדיאנט האילוץ ∇( ) collinearכלומר וקטורים ( נמצאים על אותו הישר ∇(

,כי, מסוים λעבור סקלר , לכן ניתן לכתובו

* *f (x ) h(x ) 0∇ +λ∇ = , אילוצים תקייםm -בקלות ניתן להראות כי הרחבה ל

m

* *i i

i 1f (x ) h (x ) 0

=

∇ + λ ∇ =∑

,ניתן לפרש את המשוואה הזו באופן הבאf* ניתן לייצג את גראדיאנט הפונקציהx*בנקודת המינימום הלוקלית (x כקומבינציה לינארית של ∇(

*הגראדיאנטים של האילוצים *1 mh (x ), , h (x )∇ ∇….

h(x)=0

x*

d*f (x )∇

*h(x )∇

f(x)

120

)תנאים הכרחיים לנקודת מינימום(' משפט כופלי לגראנז ,אם

1. *x היא נקודת מינימום של הפונקציה f תחת האילוץ h(x) 0=. 2. 1f (x), h(x) C∈. *הגראדיאנטים של האילוץ .3 *

1 mh (x ), , h (x )∇ . בלתי תלויים לינארית…∇ ,אזי

] (λ*קיים וקטור יחיד ]T*1 m, ,λ λ λ… ( כך שמתקיים', כופלי הלגראנזהנקרא וקטור,

m

* * *i i

i 1f (x ) h (x ) 0

=

∇ + λ ∇ =∑

2fבנוסף אם מתקיים (x), h(x) C∈ אזי לכל yהמקיים T *h (x )y 0∇ , יתקיים=m

T 2 * * 2 *i i

i 1y f (x ) h (x ) y 0

=

⎛ ⎞∇ + λ ∇ ≥⎜ ⎟⎝ ⎠

הערות∇xכלומר . xהגזירה היא לפי - =∇. *ניתן לכתוב את התנאי - Ty, h(x ) y 0∀ ∇ , באופן שקול=

V(x*המרחב - הנמצא בתתyלכל ,הבא(

* * TiV(x ) y h (x ) y 0, i 1, ,m= ∇ = = …

ריצה חיובית חצי מוגדרת רק ל תהיה מט"משמעות התנאי הזה היא שנדרש כי המטריצה הנ

.בכיוונים שבהם מתקיימים האילוצים

רגולריות: הגדרה

1 היא רגולרית אם מתקיים שהגרדיאנטים של האילוצים xנקודה mh (x), , h (x)∇ בלתי תלויים …∇ . מלאה∇h(x)לינארית או באופן שקול אם דרגת המטריצה

. היא נקודה רגולריתx* שקול לכך שנקודה 3כלומר תנאי

אם נקודת מינימום . ' היא רגולרית אז מובטח כי קיימים כופלי לגרנזx*אם נקודת מינימום לוקלית

.'ז יתכן כי לא קיימים כופלי לגרנז איננה רגולרית אx*לוקלית

121

יאן'פונקצית הלגרנז: הגדרה

, יאן מוגדרת באופן הבא'פונקצית הלגרנזm

Ti i

i 1L(x, ) f (x) h (x) f (x) h(x)

=

λ + λ = + λ∑

,יאן ממירה את הבעיה עם האילוצים לצורה הדומה לבעיה ללא אילוצים'פונקצית הלגרנז

m m

2 2 2x x i x i xx xx i xx i

i 1 i 1

m* * ** *

x i x i* * xi 1* *

*

L(x, ) f (x) h (x) L(x, ) f (x) h (x)

L(x, ) h(x)

f (x ) h (x ) 0L(x , )L(x , )

0L(x , )h(x )

= =

λ

⎧ ⎛ ⎞∇ λ = ∇ + λ ∇ ⇒∇ λ = ∇ + λ ∇⎪ ⎜ ⎟⎨ ⎝ ⎠⎪∇ λ =⎩⇓

⎡ ⎤∇ + λ ∇⎡ ⎤∇ λ ⎡ ⎤⎢ ⎥∇ λ = = =⎢ ⎥ ⎢ ⎥⎢ ⎥∇ λ ⎣ ⎦⎣ ⎦ ⎢ ⎥⎣ ⎦

∑ ∑

,ברישום הבא) תנאים הכרחיים(' שפט כופלי לגרנזלכן ניתן לכתוב את מ

, היא נקודת מינימום לוקלית שהיא רגולרית אז בהכרח מתקייםx*אם

* ** * x

* *

0L(x , )L(x , )

0L(x , )λ

⎡ ⎤∇ λ ⎡ ⎤∇ λ = =⎢ ⎥ ⎢ ⎥∇ λ ⎣ ⎦⎣ ⎦

* המקיים yולכל Th(x ) y 0∇ , מתקיים=T 2 * *

xxy L(x , )y 0∇ λ ≥

)תנאים מספיקים לנקודת מינימום(' משפט כופלי לגרנז

: נגדירm

i ii 1

L(x, ) f (x) h (x)=

λ + λ∑.

*x היא נקודת מינימום של הפונקציה f (x) תחת האילוץ h(x) , אם מתקיימים התנאים הבאים=01. 2f (x), h(x) C∈ 2. * *L(x , ) 0∇ λ = yלכל .3 0≠ * T

xh(x ) y 0∇ T מתקיים = 2 * *xxy L(x , )y 0∇ λ >

3הערות לתנאי

- yרק לאורך קווים שווי גובה של " נע"וקטור כיוון זה . הוא וקטור כיוון h(x) . התנאיT 2 * *

xxy L(x , )y 0∇ λ 2 קובע כי המטריצה < * *xxL(x , )∇ λ תהיה מטריצה חיובית מוגדרת בנקודת

).נשים לב כי הדרישה היא רק על נקודות שמקימות את האילוץ(בכיוונים שלאורך האילוצים , המינימום התנאים המספיקים יכולים להתקיים גם עבור נקודות לא . x* לרגולריות של נשים לב כי אין דרישת-

. אין אף משפט שהוא תנאי מספיק והכרחי. רגולריות

122

7.1.1תרגיל 1 2x

2 21 2

minimize x x

s.t.x x 2

+

+ =

,באופן גרפי הבעיה נראית כך

פתרון

,שום שלנולפי הרי1 22 21 2

f (x) x x

h(x) x x 2

= +

= + −

,יאן הוא'לכן הלגרנז

( )2 21 2 1 2L(x, ) f (x) h(x) x x x x 2λ = + λ = + + λ + −

, התנאים המספיקים3נבדוק את קיום

2fבבירור מתקיים התנאי (x), h(x) C∈.

1 2

11

1 22

2 2 21 2

1 2

L(x , x , )x 1 2 x 0

L(x , x , )L(x, ) 1 2 x 0x

x x 2 0L(x , x , )

∂ λ⎡ ⎤⎢ ⎥∂⎢ ⎥ + λ⎡ ⎤ ⎡ ⎤∂ λ⎢ ⎥ ⎢ ⎥ ⎢ ⎥∇ λ = = + λ =⎢ ⎥ ⎢ ⎥ ⎢ ⎥∂⎢ ⎥ ⎢ ⎥ ⎢ ⎥+ −⎣ ⎦ ⎣ ⎦⎢ ⎥∂ λ⎢ ⎥∂λ⎣ ⎦

0

2

2

1x

2x

h(x)=0

f (x)

123

( ) 01 2 1 2

2 2 21 2 1 1

1

2 x x 0 x x

x x 2 2x 2 0 x 1

1 12x 2

λ≠λ − = ⎯⎯→ =

+ − = − = ⇒ = ±

λ = − = ∓

,לכן ישנם שני פתרונות אפשריים

). א

*1*2*

x 1x 1

1 2

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥=⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥λ −⎣ ⎦⎣ ⎦

).ב

*1*2*

x 1x 1

1 2

⎡ ⎤ −⎡ ⎤⎢ ⎥ ⎢ ⎥= −⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥λ ⎣ ⎦⎣ ⎦

,נבדוק את התנאי השלישי

[ ]

1x

2

1*x

2

1 1* Tx 1 2

2 1

2xh(x)

2x

2x 2h(x )

2x 2

y yh(x ) y 2 2 2y 2y 0 y

y y

⎡ ⎤∇ = ⎢ ⎥

⎣ ⎦

⎡ ⎤ ⎡ ⎤∇ = =⎢ ⎥ ⎢ ⎥

⎣ ⎦⎣ ⎦

⎡ ⎤ ⎡ ⎤∇ = = + = ⇒ =⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦

).א

1x

2

2xx

2 * *xx

12

1 2 xL(x, )

1 2 x

2 0L(x, )

0 2

2 0 1 0L(x , )

0 2 0 1λ=−

+ λ⎡ ⎤∇ λ = ⎢ ⎥+ λ⎣ ⎦

λ⎡ ⎤∇ λ = ⎢ ⎥λ⎣ ⎦

λ −⎡ ⎤ ⎡ ⎤∇ λ = =⎢ ⎥ ⎢ ⎥λ −⎣ ⎦ ⎣ ⎦

124

[ ] [ ]1 1T 2 * *xx 1 1 1 1

1 1

2 2 21 1 1

y y1 0y L(x , )y y y y y

y y0 1

(y y ) 2y 0

− ⎡ ⎤ ⎡ ⎤⎡ ⎤∇ λ = − = − − =⎢ ⎥ ⎢ ⎥⎢ ⎥ − −−⎣ ⎦ ⎣ ⎦ ⎣ ⎦

= − + = − <

y כי הווקטור ≥ולא > הסימן הוא 0≠.

למעשה התנאי השלישי לנקודת מקסימום . התנאי השלישי לנקודת מינימום אינו מתקיים בנקודה זו .מתקיים בנקודה זו

).ב

[ ]

[ ] [ ]

12

1*x

2

1 1* Tx 1 2

2 1

2 * *xx

1 1T 2 * *xx 1 1 1 1

1 1

2 2 21 1 1

2x 2h(x )

2x 2

y yh(x ) y 2 2 2y 2y 0 y

y y

2 0 1 0L(x , )

0 2 0 1

y y1 0y L(x , )y y y y y

y y0 1

(y y ) 2y 0

λ=

−⎡ ⎤ ⎡ ⎤∇ = =⎢ ⎥ ⎢ ⎥−⎣ ⎦⎣ ⎦

⎡ ⎤ ⎡ ⎤∇ = − − = − − = ⇒ =⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦

λ⎡ ⎤ ⎡ ⎤∇ λ = =⎢ ⎥ ⎢ ⎥λ⎣ ⎦ ⎣ ⎦

⎡ ⎤ ⎡ ⎤⎡ ⎤∇ λ = − = − =⎢ ⎥ ⎢ ⎥⎢ ⎥ − −⎣ ⎦ ⎣ ⎦ ⎣ ⎦

= + = >

y כי הווקטור ≤ולא < הסימן הוא 0≠.

.ינימום מתקיים בנקודה זוהתנאי השלישי לנקודת מ

xfבנוסף ניתן לראות כי אכן (x)∇ הוא קומבינציה לינארית של xh(x)∇בנקודת המינימום ,

1x x

2

2x1f (x) ; h(x)

2x1⎡ ⎤⎡ ⎤

∇ = ∇ = ⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

* * *x x

* * *x x

1 2 1f (x ) ; h(x ) ;1 2 2

1 2 01f (x ) h(x )1 2 02

−⎡ ⎤ ⎡ ⎤∇ = ∇ = λ =⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦

−⎡ ⎤ ⎡ ⎤ ⎡ ⎤∇ + λ ∇ = + =⎢ ⎥ ⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦ ⎣ ⎦

,באופן גרפי הפתרון נראה כך

125

0

2

2

1x

2x

h(x)=0

* 2h(x )

2−⎡ ⎤

∇ = ⎢ ⎥−⎣ ⎦

* 1f (x )

1⎡ ⎤

∇ = ⎢ ⎥⎣ ⎦

x*=(-1,-1) f (x)

126

7.1.2תרגיל

( )( )

1 2x

2 21 2

2 21 2

minimize x x

s.t.

x 1 x 1

x 2 x 4

+

− + =

− + =

,באופן גרפי הבעיה נראית כך

פתרון

,לפי הרישום שלנו

( )( )

1 22 2

1 1 2

2 22 1 2

f (x) x x

h (x) x 1 x 1

h (x) x 2 x 4

= +

= − + −

= − + −

,יאן מוגדר בצורה הבאה'לכן הלגרנז

( )( ) ( )( )2

2 22 2i i 1 2 1 1 2 2 1 2

i 1L(x, ) f (x) h (x) x x x 1 x 1 x 2 x 4

=

λ + λ = + + λ − + − + λ − + −∑

, התנאים3קיום נבדוק את

2בבירור מתקיים התנאי 1 2f (x), h (x), h (x) C∈.

4 1x

2x

2h (x) 0=

2

f (x)

1

1h (x) 0=

127

( ) ( )

( )( )

1 2 1 2

1

1 1 2 11 2 1 2

1 2 2 222 2

1 21 2 1 22 21 1 2

1 2 1 2

2

L(x , x , , )x

1 2 x 1 2 x 2L(x , x , , )1 2 x 2 xx

L(x, ) 0x 1 x 1L(x , x , , )

x 2 x 4L(x , x , , )

∂ λ λ⎡ ⎤⎢ ⎥∂⎢ ⎥ ⎡ ⎤+ λ − + λ −∂ λ λ⎢ ⎥ ⎢ ⎥⎢ ⎥ + λ + λ∂ ⎢ ⎥⎢ ⎥∇ λ = = =⎢ ⎥⎢ ⎥ − + −∂ λ λ ⎢ ⎥⎢ ⎥∂λ ⎢ ⎥− + −⎢ ⎥ ⎣ ⎦⎢ ⎥∂ λ λ⎢ ⎥∂λ⎢ ⎥⎣ ⎦

,משתי המשוואות התחתונות נקבל כי

1

2

x 0x 0=⎧

⎨ =⎩

,נציב בשתי המשוואות העליונות ונקבל

1 21 2 4 01 0− λ − λ =⎧

⎨ =⎩

!'זכלומר עבור הבעיה הזו אין כופלי לגרנ

?האם הנקודה רגולרית

( ) ( )1 1x x 1 x 2

2 2

1 2 x 1 2 x 2f (x) ; h (x) ; h (x)

1 2x 2x⎡ ⎤ ⎡ ⎤− −⎡ ⎤

∇ = ∇ = ∇ =⎢ ⎥ ⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦

*ובנקודה 0x

0⎡ ⎤

= ⎢ ⎥⎣ ⎦

,

* * * *

x x 1 x 2 x

1 2 4 2 4f (x ) ; h (x ) ; h (x ) h(x )

1 0 0 0 0− − − −⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤

∇ = ∇ = ∇ = ⇒∇ =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

. איננה נקודה רגולריתx*הגרדיאנטים של האילוצים תלויים לינארית ולכן

לא רגולרית ואי אפשר לבטא את הגרדיאנט של הפונקציה כקומבינציה x*כלומר במקרה זה הנקודה לא רגולרית אבל ניתן לבטא את x*נזכור כי יתכן מצב בו. לינארית של הגרדיאנטים של האילוצים

כי ניתן לפתור כלומר יתכן. הגרדיאנט של הפונקציה כקומבינציה לינארית של הגרדיאנטים של האילוצים,L(xאת מערכת המשוואות ) 0∇ λ . עבור נקודות לא רגולריות=

128

,באופן גרפי הפתרון נראה כך

4 1x

2x

2h (x) 0=

*1

2h (x )

0−⎡ ⎤

∇ = ⎢ ⎥⎣ ⎦ * 1

f (x )1⎡ ⎤

∇ = ⎢ ⎥⎣ ⎦

x*=(0,0) 2

f (x)

1*2

4h (x )

0−⎡ ⎤

∇ = ⎢ ⎥⎣ ⎦

1h (x) 0=

129

7.1.3תרגיל

. בהינתן כי סכום אורכי צלעותיה ידוע29מקסמו את שטח פני התיבה

1 2 1 3 2 3x

1 2 3

maximize x x x x x x

s.t.x x x 3

+ +

+ + =

פתרון

,לפי הרישום שלנו1 2 1 3 2 3

1 2 3

f (x) x x x x x xh(x) x x x 3

= + += + + −

,יאן מוגדר בצורה הבאה'לכן הלגרנז

( )1 2 1 3 2 3 1 2 3L(x, ) f (x) h(x) x x x x x x x x x 3λ = + λ = + + + λ + + −

, התנאים3נבדוק את קיום

2בבירור מתקיים התנאי 1 2f (x), h (x), h (x) C∈.

1 2 3

1

2 31 2 3

1 32

1 21 2 3

1 2 33

1 2 3

L(x , x , x , )x

x xL(x , x , x , )x xxL(x, ) 0x xL(x , x , x , )

x x x 3xL(x , x , x , )

∂ λ⎡ ⎤⎢ ⎥∂⎢ ⎥

+ + λ⎡ ⎤∂ λ⎢ ⎥⎢ ⎥⎢ ⎥ + + λ∂ ⎢ ⎥⎢ ⎥∇ λ = = =⎢ ⎥+ + λ⎢ ⎥∂ λ⎢ ⎥⎢ ⎥ + + −∂ ⎢ ⎥⎣ ⎦⎢ ⎥

⎢ ⎥∂ λ⎢ ⎥⎢ ⎥∂λ⎣ ⎦

,רכת משוואות לינאריתכלומר התקבלה מע

) למעשה שטח פני התיבה הוא 29 )1 2 1 3 2 32 x x x x x x+ אך הכפלת פונקצית המטרה בקבוע חיובי איננה משנה את +

.הפתרון

1x

2x

3x

130

* *1 1* *2 2* *3 3* *

0 1 1 1 0 1x x1 0 1 1 0 1x x1 1 0 1 0 1x x1 1 1 0 3 2

⎡ ⎤ ⎡ ⎤⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥= ⇒ =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥−λ λ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦ ⎣ ⎦

,נבדוק את התנאי השלישי

1 2 3

12 3

1 2 3x 1 3

21 2

1 2 3

3

2xx

L(x , x , x , )x

x xL(x , x , x , )L(x, ) x x

xx x

L(x , x , x , )x

0 1 1L(x, ) 1 0 1

1 1 0

⎡ ⎤∂ λ⎢ ⎥∂⎢ ⎥ + + λ⎡ ⎤⎢ ⎥∂ λ ⎢ ⎥∇ λ = = + + λ⎢ ⎥ ⎢ ⎥∂⎢ ⎥ ⎢ ⎥+ + λ⎣ ⎦⎢ ⎥∂ λ⎢ ⎥

∂⎢ ⎥⎣ ⎦

⎡ ⎤⎢ ⎥∇ λ = ⎢ ⎥⎢ ⎥⎣ ⎦

נזכור כי אנו מחפשים ( ולכן זוהי איננה מטריצה שלילית מוגדרת 1,2-,1-ע של המטריצה הזו הם "הע

טורים הניצבים אבל הדרישה היא שהתבנית הריבועית תהיה שלילית רק עבור וק). מקסימום ,לגראדיאנטים של האילוצים

[ ]1

* T2 1 2 3 3 1 2

3

y0 h(x ) y 1 1 1 y y y y y (y y )

y

⎡ ⎤⎢ ⎥= ∇ = = + + ⇒ = − +⎢ ⎥⎢ ⎥⎣ ⎦

,כלומר הוקטור הכללי המקיים את האילוצים ניתן ליצוג באופן הבא

( )T

1 2 1 2y y y y y⎡ ⎤= − +⎣ ⎦ ,לכן נקבל

( )( )

( )( )

( )

T 2xx

1

1 2 1 2 2

1 2

122 2

1 2 1 2 2 1 2 1 2

1 2

y L(x, )y

0 1 1 yy y y y 1 0 1 y

1 1 0 y y

yy y y y y y y y y 0

y y

∇ λ =

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎡ ⎤= − + =⎣ ⎦ ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥ − +⎣ ⎦ ⎣ ⎦

⎡ ⎤−⎢ ⎥⎡ ⎤= − + − = − − − + <⎣ ⎦ ⎢ ⎥⎢ ⎥+⎣ ⎦

.הי נקודת מקסימוםכלומר בכיוון האילוצים המטריצה היא אכן שלילית מוגדרת ולכן זו

.נתחיל במשפט הרגישות. 'ישנם מספר פירושים לערכי כופלי לגרנז

131

)Sensitivity(רגישות

. כקצבי השינוי של פונקצית המחיר האופטימלית כאשר האילוצים משתנים'ניתן לפרש את כופלי הלגרנז ,הבעיה המקורית היתה

( )1 x

minimize f (x)

s.t.h(x) 0=

) כנקודת המינימום של בעיית האופטימיזציהx*נגדיר את ' כווקטור כופלי לגרנזλ*נגדיר את . 1(

p*כלומר, כפונקצית המחיר המינימליתpנגדיר את . x*המתאים לנקודת המינימום f (x )=.

,נתבונן בבעיה חדשה שבה האילוץ הוא פרמטר

( )2x

minimize f (x)

s.t.h(x) u=

x*נגדיר את (u)זציה כנקודת המינימום של בעית האופטימי( λ(u)*נגדיר את . u - כתלות ב2(

x* המתאים לנקודת המינימום 'כוקטור כופלי לגרנז (u) . נגדיר אתp(u) כפונקצית המחיר המינימלית p(u)*כלומר , u -כתלות ב f (x (u))=.

,קובעת כי) Sensitivity Theorem(אז טענת הרגישות

*up(u) (u)∇ = −λ

הוכחה

, לצורה הסטנדרטית2תחילה נמיר את בעיה

( )2x

minimize f (x)

s.t.

h(x) h(x) u 0= − =

,יאן הוא'לכן הלגרנז

( ) ( )m

T Ti i i

i 1L(x, ) f (x) h(x) f (x) h(x) u f (x) h (x) u

=

λ = + λ = + λ − = + λ −∑

,נקבל) (2)עבור בעית האופטימיזציה (מהתנאים ההכרחיים של נקודת מינימום

m

* * *x i x i

i 1f (x (u)) h (x (u)) 0

=

∇ + λ ∇ =∑

p(u)*נציב את הקשר f (x (u))=ונקבל ,

m* *

x i x ii 1

p(u) h (x (u)) 0=

∇ + λ ∇ =∑

132

, ונקבלdx -ונכפיל מימין בTצע נבm

T * T *x i x i

i 1p (u)dx h (x (u))dx 0

=

∇ + λ ∇ =∑

,נשתמש באופרטור הדיפרנציאל ונקבל את הקשרים הבאים

Tx

* Ti x i

dp p(u) dx

dh h (x (u)) dx

= ∇

= ∇

,ולכן נקבלm

*i i

i 1dp dh 0

=

+ λ =∑

,וברישום וקטורי

( )T*dp dh 0+ λ =

h(x)נשים לב כי מהאילוץ u= נובע כי dh du=ולכן ,

( )

( )

T*

T*

*u

dp du 0

dp du

p(u) (u)

+ λ =

= − λ

∇ = −λ

.ל.ש.מ

133

3נבחן את משפט הרגישות על תרגיל

1 2 1 3 2 3x

1 2 3

maximize x x x x x x

s.t.x x x 3

+ +

+ + =

, קיבלנו כי הפתרון הוא*1*2*3*

1x1x1x2

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥=⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥−λ⎢ ⎥ ⎣ ⎦⎣ ⎦

,דיר את הבעיה הבאהנג

1 2 1 3 2 3x

1 2 3

maximize x x x x x x

s.t.x x x 3 u

+ +

+ + − =

,ממשפט הרגישות נובע כי

*up(0) (0) ( 2) 2∇ = −λ = − − =

,p(0)נחשב את

1 2 3

*1 2 1 3 2 3 x x x 1

p(0) f (x ) x x x x x x 1 1 1 3= = =

= = + + = + + =

,ים קטנים קירוב טיילור מסדר ראשון-uכלומר עבור

T

up(u) p(0) p(0) u 3 2u≈ +∇ = +

כלומר . משמש בהקשר זה כמידת רגישותה של פונקצית המחיר לשינויים באילוצים' כופל הלגרנז-דהיינו .2u- גרמה לערך הפונקציה המקסימלי להשתנות בu -שינוי קטן של רמת האילוץ ב

,י חישוב ישיר"נדגים זאת גם ע

,יאן הוא'לנגרדזה( )1 2 1 3 2 3 1 2 3L(x, ) x x x x x x x x x 3 uλ = + + + λ + + − −

,נקבל את מערכת המשוואות הבאה

* *1 1* *2 2* *3 3* *

u13

0 1 1 1 0x x u11 0 1 1 0x x 3

u1 1 0 1 0x x 131 1 1 0 3 u

u2 13

⎡ ⎤+⎢ ⎥⎢ ⎥⎡ ⎤ ⎡ ⎤⎡ ⎤ ⎡ ⎤ ⎢ ⎥+⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= ⇒ = ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥+⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥+λ λ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦⎣ ⎦ ⎣ ⎦ ⎢ ⎥⎛ ⎞⎢ ⎥− +⎜ ⎟⎢ ⎥⎝ ⎠⎣ ⎦

134

, באופן מדויקp(u)נחשב את . 'קיבלנו כי כל הפתרון משתנה וגם כופל הלגרנז

2 2* * * * * *1 2 1 3 2 3

u 2u up(u) x x x x x x 3 1 3 13 3 9

⎛ ⎞⎛ ⎞= + + = + = + +⎜ ⎟⎜ ⎟⎝ ⎠ ⎝ ⎠

h(x)כלומר עבור אילוץ שקרוב לאילוץ המקורי (ים קטנים -uעבור נזניח את האיבר מסדר שני ) =0 ,ונקבל

2up(u) 3 1 3 2u3

⎛ ⎞≈ + = +⎜ ⎟⎝ ⎠

.בדיוק כמו שקיבלנו באמצעות משפט הרגישות

135

'משמעות נוספת לכופלי לגרנז

fנתבונן במקרה שבו מכפילים את פונקצית המחיר (x) 0 בגורםα ,הבעיה החדשה היא. <

( )1 2 1 3 2 3x

1 2 3

maximize x x x x x x

s.t.x x x 3

α + +

+ + =

,יאן תהיה'פונקצית הלגרנז

( ) ( )1 2 1 3 2 3 1 2 3L(x, ) f (x) h(x) x x x x x x x x x 3λ = α + λ = α + + + λ + + −

1 2 3

1

2 31 2 3

1 32

1 21 2 3

1 2 33

1 2 3

L(x , x , x , )x

x xL(x , x , x , )x xxL(x, ) 0x xL(x , x , x , )

x x x 3xL(x , x , x , )

∂ λ⎡ ⎤⎢ ⎥∂⎢ ⎥

α +α + λ⎡ ⎤∂ λ⎢ ⎥⎢ ⎥⎢ ⎥ α +α + λ∂ ⎢ ⎥⎢ ⎥∇ λ = = =⎢ ⎥α +α +λ⎢ ⎥∂ λ⎢ ⎥⎢ ⎥ α +α +α −∂ ⎢ ⎥⎣ ⎦⎢ ⎥

⎢ ⎥∂ λ⎢ ⎥⎢ ⎥∂λ⎣ ⎦

,כלומר התקבלה מערכת משוואות לינארית

* *1 1* *2 2* *3 3* *

0 1 0 1x x0 1 0 1x x

0 1 0 1x x1 1 1 0 3 2

α α ⎡ ⎤ ⎡ ⎤⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥α α ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥= ⇒ =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥α α⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥− αλ λ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦ ⎣ ⎦

. αהשתנה באותו יחס ' רק כופל הלגרנז, לא השתנהx*התקבל כי הפתרון fיאן כפונקצית מחיר בה יש מרכיב אחד של מחיר הפונקציה 'אנו יכולים להתייחס לפונקצית הלגרנז (x)

גדל גם , כאשר גדל מחיר אחד. קיום האילוצים-כיב שני אשר מתמחר את איומר, שאותו ברצוננו להקציןמשמעות , לכן. ' יחס זה הינו כופל הלגרנז–השני באותו יחס כדי לשמור על היחס האופטימלי ביניהם

.היא יחס אופטימלי בין מחיר הפונקציה ומחיר האילוצים' נוספת אשר נוכל ליחס לכופלי הלגרנז

136

שוויון אילוצי אי7.2

,שוויון-נחזור להגדרה היותר כללית של בעית האופטימיזציה תחת האילוצים הכוללת את אילוצי האי

x

i

j

minimize f(x)

s.t.h (x) 0, i 1, ,mg (x) 0, j 1, , r

= =≤ =

……

,כאשרn

ni

nj

f :h :

g :

x*הטריק המרכזי בפתרון בעיות אופטימיזציה עם אילוצי אי שוויון הוא באבחנה כי בנקודת המינימום

,אילוץ אי שוויון יכול להיות רק באחד משני המצבים הבאים .שוויון ולכן הוא הופך לאילוץ שוויון- נמצאת על אילוץ האיx* נקודת המינימום–פעיל .1לא (ן ולכן האילוץ לא משפיע שוויו- לא נמצאת על אילוץ האיx* נקודת המינימום–לא פעיל .2

.וניתן לבטלו) רלוונטי

,דוגמא גרפית

1gבדוגמא זו האילוץ (x) 2g פעיל והאילוץ ≥0 (x) . לא פעיל≥0

,ן הבאשוויון הפעילים באופ-באופן פורמלי נגדיר את קבוצת אילוצי האי

jA(x) j g (x) 0= = jכלומר משמעות A(x)∉היא שהאילוץ ה -j- י אינו פעיל בנקודהx.

1g (x) 0≤2g (x) 0≤

x*

137

,נשים לב כי בעית האופטימזציה הכוללת אילוצי אי שוויון ניתנת לכתיבה באופן השקול הבא

x

i*

j

minimize f(x)

s.t.h (x) 0, i 1, ,m

g (x) 0, j A(x )

= =

= ∀ ∈

*' קיימים כופלי לגרנז30 רגולריx*לומר עבורכ *

1 m, ,λ λ…ו - * *j , j A(x )µ , כך שמתקיים∋

*

m* * * * *

i i j ji 1 j A(x )

f (x ) h (x ) g (x ) 0= ∈

∇ + λ ∇ + µ ∇ =∑ ∑

,רישום אלטרנטיבי

m r* * * * *

i i j ji 1 j 1

* *j

f (x ) h (x ) g (x ) 0

j A(x ), 0

= =

∇ + λ ∇ + µ ∇ =

∀ ∉ µ =

∑ ∑

.הלא פעיליםשל האילוצים ' כלומר לאפס את כל כופלי הלגראנז

Complementary slacknessעקרון

בנקודת המינימום מתקיים* *j jg (x ) 0, j 1, , rµ = = …

,ובכתיב וקטורי

( )T* *g(x ) 0µ = : משמעות העקרון

*אם האילוץ פעיל אז לפי ההגדרה jg (x ) * ואי אפשר להסיק על ערך =0

jµ.

*אם האילוץ לא פעיל jg (x ) * אז >0

j 0µ = .

הערות*שוויון- של אילוצי האי'תכונה חשובה של כופלי הלגרנז -

jµשליליים- היא שהם אי. ,יאן מוגדרת באופן הבא'פונקצית הלגרנז -

m r

i i j ji 1 j 1

L(x, , ) f (x) h (x) g (x)= =

λ µ + λ + µ∑ ∑

: שוויון-נרחיב כעת את מושג הרגולריות עבור בעית האופטימזציה הכוללת אילוצי אי 30

1נגדיר נקודה רגולריות כנקודה שבה הגראדיאנטים של אילוצי השוויון mh , , h∇ - והגראדיאנטים של אילוצי האי…∇

jgשוויון הפעילים (x), j A(x)∇ גם עבור המקרה המנוון שבו אין אילוצי שוויון ואין . הם בלתי תלויים לינארית∋

. כרגולריתx*שוויון פעילים נגדיר את הנקודה-אילוצי אי

138

Karush-Kuhn-Tuckerתנאים הכרחיים של

,בהינתן*x היא נקודת מינימום של בעיית האופטימיזציה הבאה,

x

i

j

minimize f(x)

s.t.h (x) 0, i 1, ,mg (x) 0, j 1, , r

= =≤ =

……

,וגם1. 1f (x), h(x),g(x) C∈ 2. *xנקודה רגולריות .

,אז

] יחידים ' קיימים וקטורי כופלי לגרנז ]T*1 m, ,λ λ λ…

T* * *1 r, ,⎡ ⎤µ µ µ⎣ , כך ש…⎦

* * *L(x , , ) 0∇ λ µ =

*j

* *j

0, j 1, , r

0, j A(x )

µ ≥ =

µ = ∀ ∉

2fבנוסף בהינתן (x), h(x),g(x) C∈אז מתקיים ,

, שמקייםyלכל וקטור

* Tx

* T *x j

h(x ) y 0

g (x ) y 0, j A(x )

∇ =

∇ = ∀ ∈

,אזT 2 * * *

xxy L(x , , )y 0∇ λ µ ≥

הערות

כדי להשיג את התנאים המספיקים אין צורך בדרישת הרגולריות המורחבת אבל הדרישה על - ,יאן היא'מטריצת הנגזרות השניות של הלנגרדז

T 2 * * *xxy 0, y L(x , , )y 0∀ ≠ ∇ λ µ >

הדרך היחידה למצוא את נקודת . ון פעילים ואיזה לאשווי-אי אפשר לדעת מראש איזה אילוצי אי -

עד שמקבלים פתרון המקיים את כל !) אפשריות 2r(המינימום היא לנסות את כל הקומבינציות .התנאים המספיקים

139

7.2.1תרגיל

21 2 1 2x

2 21 2

1 2

minimize (x x ) 10(x x )

s.t.x x 5 (I)3x x 6 (II)

+ − +

+ ≤+ ≤

פתרון

( )

( )

21 2 1 2 1 2

2 21 1 2 1 2

2 1 2 1 2

f (x , x ) (x x ) 10(x x )

g x , x x x 5

g x , x 3x x 6

= + − +

= + −

= + −

( ) ( )

( ) ( )

1 2 1 2 1 2 1 1 1 2 2 2 1 2

2 2 21 2 1 2 1 1 2 2 1 2

L(x , x , , ) f (x , x ) g x , x g x , x

(x x ) 10(x x ) x x 5 3x x 6

µ µ = +µ +µ =

= + − + +µ + − +µ + −

6

2 5 1x

2x

1g (x) 0≤

2g (x) 0≤

5

5

קווי גובה של פונקציית המטרה

' מינימום של פונ המטרה לאורך ישר

140

xLחייב להתקיים , ללא קשר לאילו אילוצים פעילים 0∇ ל חייבות להתקיים " ולכן המשוואות הנ= ,בנקודת המינימום

1 2 1 1 21

1 2 2 1 22

L 2(x x ) 10 2x 3 0x

(1)L 2(x x ) 10 2x 0x

∂⎧ = + − + µ + µ =⎪∂⎪⎨ ∂⎪ = + − + µ +µ =⎪∂⎩

לכן נעבור על כל הקומבינציות עד , צים פעיליםשוויון אי אפשר לדעת אילו אילו-בגלל שאלו אילוצי אי

,שנמצא פתרון המקיים את כל התנאים המספיקים 1 -נניח כי כל האילוצים לא פעילים ). 1 20; 0µ = µ =,

,נקבל) 1(לאחר הצבה במשוואות

1 2

1 2

1

2

2(x x ) 102(x x ) 10

xx 5

+ =⎧⎨ + =⎩⇓

= α⎧⎨ = −α⎩

.∋αכאשר ,ם שני האילוציםנבדוק את קיו

)II:(

( )1 213x x 3 5 2 5 62

+ = α + −α = α + < ⇒ α <

)I:( ( )

( ) ( )( )

22 2 2 21 2

22

x x 5 2 10 25 5

2 5 10 2 2.5 3.75 0

+ = α + −α = α − α + <

α − α + = α − + <

.לעולם לא מתקיים ולכן זוהי סתירה להנחה) I(תנאי

2 -נניח כי האילוץ הראשון פעיל והאילוץ השני לא פעיל ). 2 0µ =,

,נקבל) 1(לאחר הצבה במשוואות 1 2 1 1

1 2 2 12 2

1 2

2(x x ) 2x 102(x x ) 2x 10

x x 5

⎧ + + µ =⎪

+ + µ =⎨⎪ + =⎩

141

1

2

1

5x25x2

5 2 2 5 1.163 05

⎧=⎪

⎪⎪⎪ =⎨⎪⎪ −µ = ≅ >⎪⎪⎩

,II)(נבדוק את קיום אילוץ

1 25 53x x 3 6.32 62 2

+ = + ≅ >

.כלומר האילוץ השני אינו מתקיים 1 -נניח כי האילוץ הראשון לא פעיל ). 3 0µ , והאילוץ השני פעיל=

,נקבל) 1(לאחר הצבה במשוואות 1 2 2

1 2 2

1 2

1

2

2

2(x x ) 3 102(x x ) 103x x 6

x 0.5x 4.5

0

+ + µ =⎧⎪ + +µ =⎨⎪ + =⎩⇓

=⎧⎪ =⎨⎪µ =⎩

1נשים לב כי 2 0µ = µ .אבל זהו מצב שונה כי כעת האילוץ השני פעיל) 1( כמו במקרה =

הערה

jgאילוץ פעיל מחייב (x) ).כלומר הוא יכול להתאפס(שלילי - יכול לקבל כל ערך איjµאבל , =0

jאילוץ לא פעיל מחייב 0µ jgאבל , = (x) אבל ( יכול לקבל כל ערך שליליjg (x) כי אחרת ≠0 ).האילוץ היה פעיל

,נבדוק את קיום האילוץ הראשון

2 2 2 21 2x x 0.5 4.5 20.5 5+ = + = >

.ושוב קיבלנו סתירה

142

צים פעיליםשני האילו). 4

,נקבל) 1(לאחר הצבה במשוואות

1 2 1 1 2

1 2 2 1 2

2(x x ) 10 2x 3 02(x x ) 10 2x 0

+ − + µ + µ =⎧⎨ + − + µ +µ =⎩

2 2

1 2

1 2

1 1

2 2

x x 53x x 6

x 2.17 x 1.425or

x 0.53 x 1.723

⎧ + =⎪⎨

+ =⎪⎩⇓

= =⎧ ⎧⎨ ⎨= − =⎩ ⎩

,נבדוק את קיום שני האילוצים

1 1

2 2

1.78 0 0.9882or

4.825 0.2945

µ = − < µ =⎧ ⎧⎨ ⎨µ = µ =⎩ ⎩

,כלומר הפתרון היחיד המקיים את התנאים ההכרחיים הוא

1

2

1

2

x 1.425x 1.723

0.98820.2945

=⎧⎪ =⎪⎨µ =⎪⎪µ =⎩

,נאים המספיקיםנמשיך ונבדוק את שאר הת

( ) ( )2 2 21 2 1 2 1 2 1 2 1 1 2 2 1 2

1 2 1 1 2x 1 2 1 2

1 2 2 1 2

12xx 1 2 1 2

1

*2 * * * * 1xx 1 2 1 2 *

1

L(x , x , , ) (x x ) 10(x x ) x x 5 3x x 6

2(x x ) 10 2x 3L(x , x , , )

2(x x ) 10 2x

2 2 2L(x , x , , )

2 2 2

2 2 2L(x , x , , )

2 2 2

µ µ = + − + +µ + − +µ + −

+ − + µ + µ⎡ ⎤∇ µ µ = ⎢ ⎥+ − + µ +µ⎣ ⎦

+ µ⎡ ⎤∇ µ µ = ⎢ ⎥+ µ⎣ ⎦

⎡ ⎤+ µ∇ µ µ = ⎢ ⎥+ µ⎣ ⎦

3.9764 22 3.9764

⎡ ⎤= ⎢ ⎥⎣ ⎦

כלומר המטריצה הזו היא מטריצה חיובית .5.9764, 1.9764: ע הם"לאחר חישוב קצר מקבלים כי הע

). yלכל וקטור (מוגדרת .א אכן נקודת מינימוםל הי" כל התנאים המספיקים מתקיימים ולכן הנקודה הנ⇐

143

אלגורתמים נומרים לפתרון בעיות עם אילוצים7.3

מרכיבים מרכזיים . שוויון-עד עתה הצגנו תוצאות אנליטיות לבעיות אופטימיזציה עם אילוצי שוויון ואימריות לפתרון הן שיטות נוBarrier - וPenaltyשיטות . 'יאן וכופלי הלגרנז'בתוצאות אלו היה הלגרנז

. בעיות אופטימיזציה הכוללות אילוצים הוא להפוך את בעית האופטימיזציה עם אילוצים לסדרת Barrier - וPenaltyהרעיון המרכזי של שיטות

.בסדרת בעיות זו מחיר פתרון שלא מקיים את האילוצים הולך וגובר. בעיות אופטימיזציה ללא אילוצים

Penaltyת שיט7.3.1

,יאן כבעית אופטימיזציה ללא אילוצים המטילה קנס על הפרת האילוצים'ניתן לחשוב על הלנגז

m r

i i j ji 1 j 1

L(x, , ) f (x) h (x) g (x)= =

λ µ = + λ + µ∑ ∑איבר קנס על הפרת איבר קנס על הפרתאילוצי אי שוויון אילוצי שוויון

, באופן הבאPenalty Aggregate מגדירים Penaltyבאופן דומה בשיטת

m r

p p i p ji 1 j 1

F (x) f (x) (h (x)) (g (x))

איבר קנס על הפרת איבר קנס על הפרתאילוצי אי שוויון אילוצי שוויון

= =

= + ψ + ϕ∑ ∑

,פונקציות הקנס יהיו מהצורה

פונקציות קנס של אילוצי שוויון

פונקציות קנס של אילוצי אי שוויון

( ) ( )p p

p p

p pp p

1 1(t) (pt) (t) (pt)p p

(t) (pt) (t) (pt)

0, t 0 0, t 0lim (t) lim (t)

, t 0 , else→∞ →∞

ϕ = ϕ ψ = ψ

′ ′′ ′ϕ = ϕ ψ = ψ

≤ =⎧ ⎧ϕ = ψ =⎨ ⎨∞ > ∞⎩ ⎩

144

pלכן כאשר . פונקציות הקנס יכריחו את הפתרון לקיים את האילוצים לבטח∞→

,אם כן מדוע שלא נפתור את בעיה האופטימיזציה ללא אילוצים הבאה

m r

i ji 1 j 1

F (x) f (x) (h (x)) (g (x))∞ ∞ ∞= =

= + ψ + ϕ∑ ∑

ולכן כל שיטות חיפוש באמצעות ) השוויוןבמיוחד עבור אילוצי (פונקציה זו איננה חלקה : תשובה

).1Cנדרש לפחות (גרדיאנט קורסות

ערך גבוה מאד אבל סופי וכך הפונקציה תהיה חלקה דיה כדי להפעיל את שיטות p -נקבע ל: הצעה .החיפוש מבוססות גרדיאנט

. הבעיה הופכת לקשה יותרpשל הבעיה היא שעבור ערך גבוה

דוגמא

( )2 21 2

x

1

1minimize x x2

s.t.x 1

+

=

1h(x): זוהי בעיית אופטימיזציה עם אילוץ שוויון יחיד x 1= − . (t)2נבחר פונקצית קנס tψ , ולכן=

( ) ( )2 2

2 2p

1 1 p t(t) (pt) pt ptp p p

ψ = ψ = = =

,ולכן

( ) ( )22 2p p 1 2 1

1F (x) f (x) (h(x)) x x p x 12

= +ψ = + + −

t

p=1p=2

p →∞

פונקציות קנס של אילוצי אי שוויון ת קנס של אילוצי שוויוןפונקציו

p=1 p=2p →∞

p (t)ψp (t)ϕ

145

,נחשב את הגרדיאנט וההסיאן שלה. זוהי למעשה בעיית אופטימיזציה ריבועית ללא אילוצים

( )1 1p p

2

2p p

x 2p x 1g (x) F (x)

x

1 2p 0H (x) F (x)

0 1

⎡ ⎤+ −= ∇ = ⎢ ⎥

⎣ ⎦

+⎡ ⎤= ∇ = ⎢ ⎥

⎣ ⎦

1: הוא condition number-לכן ה 2p 1 2p1+

θ = = כך הבעיה , גבוה יותרpכלומר ככל שערך . +

. ולכן קשה יותר לאלגוריתמי חיפוש למצוא את נקודת המינימוםill-conditionedהיא יותר

. מצורפת בדף הבאpהדגמה גרפית של הדוגמא הזו עבור מספר ערכי

:Penaltyנציע מספר סוגים של פונקציות

:עבור אילוצי שוויון2(t) tψ = (1)

:יוןשוו-עבור אילוצי אי

t(t) e 1ϕ = − (2)

2t 1t, t2 2(t)

1 3 1ln( 2t) , t4 8 2

⎧+ ≥ −⎪⎪ϕ = ⎨

⎪− ⋅ − − < −⎪⎩

(3)

).3(שוויון מומלץ להשתמש בפונקציה -עבור אילוצי אי: הערה

146

147

Penaltyסיכום אלגוריתם שיטת

,נפתור סדרת בעיות אופטימיזציה ללא אילוצים

m r

p p i p ji 1 j 1

F (x) f (x) (h (x)) (g (x))= =

= + ψ + ϕ∑ ∑

הפתרון . לפונקצית הקנס על הפרת האילוצים ובאופן הדרגתי נגדיל את המשקל31נתחיל עם משקל נמוך

.של איטרציה מסוימת יהיה נקודת האתחול של האיטרציה הבאה אחריה

:תרשים הזרימה

.י ניסוי וטעיה" מעשית הגודל הזה נקבע ע.הקביעה משקל נמוך הוא תלוי בעיה 31

pחלתי קבעו ערך הת- נמוך דיו כדי שהבעיה לא

ill-conditionedתהיה בחרו פונקציות קנס-0 בחרו נקודת אתחול -

0x

פתרו את בעיית האופטימיזציה הלא מאולצת הבאה kמנקודת האתחול

0x,

k k k

m r

p p i p ji 1 j 1

F (x) f (x) (h (x)) (g (x))= =

= + ψ + ϕ∑ ∑-נסמן את פתרון הבעיה הזו כ

k

*px.

, באופן הבאpהגדילו את k 1 kp p+ = β⋅

,המלצה היוריסטית [ ]4,10β∈

האםהושג תנאי ?העצירה

k

* *px x=

כן

לאk

k *0 px x=

148

דיון בתנאי העצירה

pxטרציה אנו פותרים בעיית אופטימיזציה ללא אילוצים בכל איminimize F (x) . לכל בעיה כזו יש תנאי

pFלמשל (העצירה (x)∇ ≤ ε.(

,תנאי עצירה לאלגוריתם כולו הוא

1 k r k 1 k m k k k 1max g (x ), ,g (x ), h (x ) , , h (x ) , f (x ) f (x )−− ≤ δ… …

,תנאי עצירה זה הוא שילוב של שני אלמנטים שוניםg(x) אם אין הפרת אילוצים אז –וצים קטנה הפרת איל .1 0, h(x) 0≤ =. כאשר האלגוריתם בקרבת המינימום הוא מתקדם בצורה איטית -ירידה קטנה בערך הפונקציה .2

.מאד

הערות

ירה כדי להכריח את האלגוריתם להפסיק גם אם לא הושג תנאי עצpנהוג להגביל את ערכי -maxp אם רכלומר האלגוריתם כולו ייעצ. אחר p>.

,הפרת אילוצים מכסימלית מוגדרת - 1 k r k 1 k m kmax g (x ), ,g (x ), h (x ) , , h (x ) ≤ δ… …

,שוויון בלבד- או במקרה של אילוצי אי 1 k r kmax g (x ), ,g (x ),0 ≤ δ…

).0בשביל זה המקסימום כולל את (להתאפס בתחום הפיזאבילי ביטוי זה צריך

149

Barrier שיטת 7.3.2

-אך מתאימה רק לבעיות בהן יש אילוצי אי, שיטת המחסום היא דומה לשיטת הקנס כפי שנראה מיד .שוויון-בשיטת המחסום אין אפשרות להפר את אילוצי האי. שוויון בלבד

כלומר ההתקרבות לפונקצית קנס אידיאלית מתבצעת באמצעות פונקציות הנותנות קנס סופי על קיום

32להלן המחשה גרפית נוספת עבור האילוצים. האילוצים וקנס אינסופי על אי קיום האילוציםa x b≤ ≤.

).box constraints(אילוצים אלו מכונים אילוצי קופסא 32

t

p=1p=2

p →∞

p (t)ϕ

t

p=1 p=2

p →∞

p (t)ψ

שיטת מחסום שיטת קנס

x

P(x)

x

B(x) p=2

p=1

p=2

p=1

p →∞

p →∞

a a b b

חסוםשיטת מ שיטת קנס

150

pנשים לב כי עבור : הערה .ת מקבלים בשתי השיטות פונקצית קנס אידיאלי∞→

, הןB(x)התכונות של פונקצית מחסום 1 .Bפונקציה רציפה . ,x -שליליות -אי. 2 B(x) 0∀ ≥. g(x)בתחום שבו מתקיים . 3 B(x)מתקיים ) כולל נקודות השפה (≤0 →∞.

,Barrierנציע מספר סוגים של פונקציות (t) ln( t)φ = − −

1(t)t

φ = −

.מומלץ להשתמש בפונקציה הלוגריתמית: הערה

,טת הקנס חוץ מההבדלים הבאיםאלגוריתם שיטת המחסום זהה לאלגוריתם שי

אחרת ערך . שוויון-נקודת האיתחול הראשונית חייבת להיבחר בתחום שמקיים את אילוצי האי. 1ס מידע מוקדם או מהתבוננות "מוטב למצוא נקודה כזו ע. הפונקציה הוא אינסוף ואי אפשר להתקדם

-יאת נקודה המקיימת את אילוצי האיאם אין אפשרות כזו קיימים אלגוריתמים למצ. שוויון-באילוצי האי . שוויון

.שוויון-צריך לבדוק בכל שלב כי הנקודות מקיימות את אילוצי האי. 2בשלב . מימדיות ישנה בעיה עם פונקצית המחסום-בכל האלגוריתמים לפתרון בעית אופטימזציה רב

שוויון אז בנקודה -האיאם הנקודה ההתחלתית נמצאת מחוץ לתחום המקיים את אילוצי , חיפוש על הישרצריך להוסיף תיקון כדי שגודל הצעד המקסימלי . כזו אי אפשר להשתמש בערך הפונקציה והגרדיאנט

.שוויון-עדיין יקיים את אילוצי האי

הערותמשתמשים בשיטת המחסום בעיקר עבור בעיות . כ עדיפה שיטת הקנס על שיטת המחסום"בד -

. פתרון יקיים את אילוצי האי שוויוןבעלות מבנה שבו מאד חשוב לדאוג שהניתן להשתמש בשיטת המחסום עבור אילוצי האי שוויון בשילוב עם שיטת הקנס עבור אילוצי -

.השוויוןבשיטת המחסום הפרת האילוצים המקסימלית היא , בניגוד לדיון בתנאי העצירה של שיטת הקנס -

.תמיד אפס מאחר והקנס אינסופי עבור כל הפרת אילוצים

151

הזרימהתרשים

נמוך דיו כדי p קבעו ערך התחלתי - ill-conditionedהבעיה לא תהיה ש בחרו פונקציות מחסום-0 מצאו נקודת אתחול -

0x המקיימת .שוויון-את אילוצי האי

פתרו את בעיית האופטימיזציה הלא מאולצת מנקודת kהאתחול

0x,

k k

r

p p jj 1

F (x) f (x) (g (x))=

= + φ∑-נסמן את פתרון הבעיה הזו כ

k

*px.

, באופן הבאpהגדילו את k 1 kp p+ = β⋅

,המלצה היוריסטית [ ]4,10β∈

האםהושג תנאי ?העצירה

k

* *px x=

כן

לאk

k *0 px x=

152

Augmented Lagrangian אלגוריתם 7.3.3

. Penaltyהינו אלגוריתם הדומה לאלגוריתם שיטת Augmented Lagrangian -אלגוריתם ה , פתרנו סדרת בעיות אופטימיזציה ללא אילוציםPenalty בשיטת

m r

p p i p ji 1 j 1

F (x) f (x) (h (x)) (g (x))= =

= + ψ + ϕ∑ ∑

,כאשר

הפתרון . המאולצת מוגדל עד שנקבל את הבעיה p נמוך ובאופן הדרגתי pהאלגוריתם מאותחל עבור .של איטרציה מסוימת יהיה נקודת האתחול של האיטרציה הבאה אחריה

היא שלפונקציות הקנס יש כעת שני Augmented Lagrangian לבין שיטת Penaltyההבדל בין שיטת λ,פרמטרים µ והן מהצורה p p(t; ), (t; )ψ λ ϕ µ .התנאי שפונקציות קנס אלו מקיימות הוא,

p

p

(0; )

(0; )

⎧ ′ψ λ = λ⎪⎨

′ϕ µ = µ⎪⎩

,למשלp p

p p

(t; ) (t)

(t; ) (t) t

ϕ µ = µϕ

ψ λ = ψ + λ

, היא Augmented Lagrangianפונקצית

m r

p p i i p j ji 1 j 1

F (x) f (x) (h (x); ) (g (x); )= =

= + ψ λ + ϕ µ∑ ∑

, הוא Augmented Lagrangianצית של פונקהגרדיאנט

m r

x p x p i i x i p j j x ji 1 j 1

F (x) f (x) (h (x); ) h (x) (g (x); ) g (x)= =

′ ′∇ = ∇ + ψ λ ∇ + ϕ µ ∇∑ ∑

t

p=1p=2

p →∞

פונקציות קנס של אילוצי אי שוויון פונקציות קנס של אילוצי שוויון

p=1 p=2p →∞

p (t)ψp (t)ϕ

153

xניתן לחשוב על בעיית האופטימיזציה הזו כחיפוש אחר פתרון של המשוואה pF (x) 0∇ =.

,א של פונקציה זו הוהגרדיאנטm r

* * * *x x i x i j x j

i 1 j 1L(x, , ) f (x) h (x) g (x)

= =

∇ λ µ = ∇ + λ ∇ + µ ∇∑ ∑

* כחיפוש אחר פתרון של המשוואה ניתן לחשוב על פתרון הבעיה הפרימאלית *

xL(x, , ) 0∇ λ µ = .

השוואהm r

x p x p i i x i p j j x ji 1 j 1

m r* * * *

x x i x i j x ji 1 j 1

F (x) f (x) (h (x); ) h (x) (g (x); ) g (x)

L(x, , ) f (x) h (x) g (x)

= =

= =

⎧ ′ ′∇ = ∇ + ψ λ ∇ + ϕ µ ∇⎪⎪⎨⎪∇ λ µ = ∇ + λ ∇ + µ ∇⎪⎩

∑ ∑

∑ ∑

pניתן לחשוב על i i p j j(h (x); ), (g (x); )′ ′ψ λ ϕ µהאופטימליים ' כמשערכים של כופלי הלגרנז

* *i j,λ µ.

מחפשים בו זמנית גם , x* היא שבמקום רק לחפש את Augmented Lagrangianמשמעות אלגוריתם ים נמוכים הצלחנו למצוא את כופלי -pול להיות מצב שגם עבור לכן יכ. האופטימליים'את כופלי הלגרנז

.x* האופטימליים ואז האלגוריתם ימצא בצעד הבא את'לגרנז

הערהעבור כופלי . נועד לייצב את התקדמות האלגוריתם' שלב הגבלת שינוי משערכי כופלי הלגרנז -

במקרה כזה כדאי להגביל את שינויים . אילוצי שוויון קימת אפשרות שסימנם יתהפךשל' לגרנז .רק אם סימנם לא משתנה בין האיטרציות

תזכורת

,יאן הוא'הלגרז

m r

i i j ji 1 j 1

L(x, , ) f (x) h (x) g (x)= =

λ µ + λ + µ∑ ∑

,ימאלית זהה לפתרון של הבעיה הלא מאולצתהפתרון של הבעיה הפר

* *

xminimize L(x, , )λ µ

אז היינו יכולים לפתור את הבעיה , האופטימליים היו ידועים'כלומר אם כופלי לגרנז .יאן'הפרימאלית דרך הלגרנז

154

Augmented Lagrangianתרשים הזרימה של אלגוריתם

p קבעו ערך התחלתי - נמוך דיו

בחרו פונקציות קנס- בחרו נקודת איתחול -0x

פתרו את בעיית האופטימיזציה הלא מאולצת הבאה מנקודת :xהאתחול

m r

p p i i p j ji 1 j 1

F (x) f (x) (h (x); ) (g (x); )= =

= + ψ λ + ϕ µ∑ ∑ .+x-ן את פתרון הבעיה הזו כנסמ

i p i i

j p j j

(h (x ); )

(g (x ); )

+ +

+ +

′λ = ψ λ

′µ = ϕ µ

: באופן הבאpהגדילו את p 3p=

האםהושג תנאי ?העצירה

*x x+=

כן

לא

i i

j j

x x+

+

+

=

λ = λ

µ = µ

jאם j3+µ > µj j3+µ = µ ⇐

jאם j 3+ µ

µ <jj 3+ µ

µ = ⇐

iובדומה עבור +λ .

155

)Linear Programming (יתכנות ליניאר. 8

י מינימיזציה שפונקצית המטרה שלה היא צירוף ליניארת הקנונית מוגדרת כבעייי התכנות הליניארתבעיי ,ברישום מטריצי קנוני. שליליים והאילוצים שלה הם משוואות לינאריות-של מספר נעלמים אי

T

xminimize c x

s.t.Ax bx 0

=≥

,כאשרx- וקטור [ ]n 1×

A- מטריצה [ ]m n×

b- וקטור [ ]m 1×

c-טור וק[ ]n 1×

הדיאטהתבעיי: דוגמא

?כיצד נקבע את הדיאטה הכי זולה שמספקת את דרישות התזונה בשביל בריאות טובה :נניח

.ודגים, ירקות, בשר: סוגי מאכלים3קיימים .חלבון וברזל: רכיבי תזונה התורמים לבריאות טובה2קיימים

,המחירים של המאכלים הם

מחיר אכלמ 10 בשר 2 ירקות 7 דגים

,רכיבי התזונה במאכלים והדרישות על כמות רכיבי המזון

ברזל חלבון

5 8 בשר 7 1 ירקות 3 6 דגים

6 7 דרישה יומית

156

, האופטימיזציה היאתבעיי

דגים ירקות בשר xדגים ירקות בשר ,x ,x

דגים ירקות בשר

דגים ירקות בשר

דגים ירקות בשר

minimize 10x 2x 7x

s.t.8x 1x 6x 75x 7x 3x 6x , x , x 0

+ +

+ + ≥

+ + ≥

A התכנות הליניארי הקנונית ההנחות לגבי האילוצים תבבעיי x b=) m -מספר האילוצים ,n - מספר

:הן) המשתנים

m יתקיים ת תכנות לינארית אופייניתבבעיי n< ,במקרה . כלומר יהיו פחות אילוצים מאשר משתניםבמקרה שבו . אז האילוצים לבדם קובעים את הפתרון) בלתי תלויים לינארית( אילוצים nשבו ישנם

ויתכן , אילוצים יתכן כי חלקם קומבינציה לינארית של אילוצים אחרים ולכן מיותריםn-ישנם יותר מ .שחלקם אף סותרים אחד את השני

כלומר אין אילוצים שמופיעים בסמוי באילוצים אחרים ואין , m היא A לכן נניח כי דרגת המטריצה .סתירה בין אילוצים

bנניח כי .-1 שלילי אז ניתן להכפיל את המשוואה ב bאם אחד מהרכיבים של . ≤0

הקנונית ודרוש לבצע שינויים כדי י התכנות הליניארתלעיתים רבות מתקבלות בעיות הדומות מאד לבעיי ,נבחן שני מקרים. להמירה לבעיה הקנונית

) אילוצי אי שוויון. 1 ,נתונה הבעיה. ≥(

T

xminimize c x

s.t.Ax bx 0

≤≥

1שליליים -אי) slack variables ( משתני דמהmנגדיר my 0, , y 0≥ , ובכתיב מטריצי…≤

1

m

yy 0

y

⎡ ⎤⎢ ⎥ ≥⎢ ⎥⎢ ⎥⎣ ⎦

,בעיית האופטימיזציה השקולה היאT

x,yminimize c x

s.t.Ax y bx 0y 0

+ =≥≥

,כדי להשלים את ההמרה לצורה הקנונית נגדיר

[ ]m mm 1

cxx ; c ; A A I

0y ××

⎡ ⎤⎡ ⎤= ⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

157

, האופטימיזציה הקנונית היאתבעייT

xminimize c x

s.t.

Ax bx 0

=≥

n נעלמים לבעיה חדשה של nכלומר המרנו את הבעיה המקורית בעלת m+ברור כי כאשר . ים נעלמ .שוויון בלבד- לאילוצי האינוסיף משתני דמה, רק חלק מהאילוצים יהיו אילוצי אי שוויון

: נתונה הבעיה. שלילים- להיות איxאין אילוץ על הנעלמים . 2

T

xminimize c x

s.t.Ax b=

] דמהנגדיר שני וקטורי משתני ]n 1× u 0, v 0≥ x - כך ש≤ u v= − , האופטימיזציה השקולה היאתבעיי

( )

( )

T

u,vminimize c u v

s.t.A u v bu 0v 0

− =

≥≥

,כדי להשלים את ההמרה לצורה הקנונית נגדיר

[ ]u cx ; c ; A A A

v c⎡ ⎤ ⎡ ⎤

= −⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦

ופתרונות בסיסיים חוקייםבסיסייםפתרונות

הקנונית ונגדיר שני סוגים של פתרונות י התכנות הליניארת רק לאילוצים של בעייסבחלק זה נתייח ,של האילוצים) הלינארית(למערכת המשוואות

Ax b= ,כאשר

x- וקטור [ ]n 1×

A- מטריצה [ ]m n× בעלת דרגה מלאה m) m n<.(

b- וקטור [ ]m 1×

rank(A)משמעות m= היא שלמטריצה A כל mהשורות בלתי תלויות לינארית וישנן m עמודות n יש Aכלומר למטריצה . בלתי תלויות לינארית m−עמודות תלויות לינארית .

158

פתרון בסיסי

Ax הוא פתרון של מערכת המשוואות פתרון בסיסי b= שבו מאופסים n m− כלומר לכל ( איברים ).ס איברים שונים מאפmהיותר

?כיצד נחשב פתרון בסיסי :מערכת המשוואות היא

1

1m

1 m m 1 nm 1

m

n

x

| | | | bx

Ax a a a ax

| | | | b

x

++

⎡ ⎤⎢ ⎥⎢ ⎥⎡ ⎤ ⎡ ⎤⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

B: בשביל פשטות רישום נקבע כי בסיסי

n m 1

xx

0 − ×

⎡ ⎤= ⎢ ⎥⎣ ⎦

ל מניבה " במערכת המשוואות הנxבסיסיהצבת .

,מערכת משוואות חדשה1

1m

1 m m 1 n 1 m

m

B

x

| | | | | | xx

Ax a a a a a a b0

| | | | | | x

0

+

⎡ ⎤⎢ ⎥⎢ ⎥⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥= ⇒ =⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

1לכן אם ma , ,a…1: כך33ל אז ניתן לחשב את הפתרון הבסיסי" עמודות בתx בסיסי B b−=.

חוקיפתרון בסיסי

כלומר פתרון המקיים גם את . לאפס חוקי הוא פתרון בסיסי אשר כל ערכיו גדולים או שווים פתרון בסיסיxהאילוץ 0≥.

כלומר . וקטורי עמודה בלתי תלויים לינאריתm- מאחר והוא מורכב מm כבסיס למרחב Bניתן לחשוב על 33

1 1 m ma x a x b⋅ + + ⋅ =….

159

8.1תרגיל

, של מערכת האילוצים הבאהחשבו את הפתרונות הבסיסיים

1 2 3

1 2 3

x x x 1x , x , x 0+ + =

,נמיר לרישום מטריצי

[ ]1

2

3

Ax bx 0

xA 1 1 1 ; x x ; b 1

x

=≥

⎡ ⎤⎢ ⎥= = =⎢ ⎥⎢ ⎥⎣ ⎦

n נאפס בסיסיבכל פתרון m 2− ונפתור את מערכת המשוואות הנותרת כדי לקבל x איברים של =

.xאת שאר האיברים של ] יתקבל למשל פתרון בסיסי ]T 1בסיסיx x 0 Ax בסיסינפתור את מערכת המשוואות , =0 b= כדי

,1xלחשב את

[ ]1

1

x1 1 1 0 x 1

0

⎡ ⎤⎢ ⎥ = =⎢ ⎥⎢ ⎥⎣ ⎦

,כלומר קיבלנו

בסיסי

1x 0

0

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

1x

2x

3x

1

1

1

160

, פתרונות בסיסיים3כ נקבל "סה

בסיסי

1 0 0x 0 , 1 , 0

0 0 1

⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥= ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦

נשים לב כי הפתרונות הבסיסים החוקיים התקבלו . הם גם חוקייםושת הפתרונות הבסיסייםבמקרה זה של

.בקדקודי המשולש

8.2תרגיל

,1נוסיף אילוץ למערכת האילוצים בדוגמא

1 2 3

1 2

1 2 3

x x x 12x 2x 1x , x , x 0

+ + =+ =

,נמיר לרישום מטריצי

1

2

3

Ax bx 0

x1 1 1 1

A ; x x ; b2 2 0 1

x

=≥

⎡ ⎤⎡ ⎤ ⎡ ⎤⎢ ⎥= = =⎢ ⎥ ⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦⎢ ⎥⎣ ⎦

,נחפש פתרונות בסיסיים1

1 12

2 2

xx x1 1 1

x x ?x x2 2 1

0

⎡ ⎤⎡ ⎤ ⎡ ⎤⎡ ⎤ ⎡ ⎤⎢ ⎥= ⇒ = ⇒ =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎣ ⎦ ⎣ ⎦⎣ ⎦ ⎣ ⎦⎢ ⎥⎣ ⎦

1x

2x

3x

1

1

1

1 2 3x x x 1+ + =

1 22x 2x 1+ =

161

11 1

3 33

xx x1 1 1 0.5

x 0x x2 0 1 0.5

x

⎡ ⎤⎡ ⎤ ⎡ ⎤⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥= ⇒ = ⇒ =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦ ⎣ ⎦⎢ ⎥⎣ ⎦

2 22

3 33

0x x1 1 1 0.5

x xx x2 0 1 0.5

x

⎡ ⎤⎡ ⎤ ⎡ ⎤⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥= ⇒ = ⇒ =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦ ⎣ ⎦⎢ ⎥⎣ ⎦

, פתרונות בסיסיים2כ קיבלנו "סה0.5 0

x 0 , 0.50.5 0.5

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥= ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

נשים לב כי הפתרונות הבסיסים החוקיים התקבלו . הם גם חוקייםבמקרה זה שני הפתרונות הבסיסיים .בנקודות הקיצוניות של האילוצים

8.3תרגיל

,1נוסיף אילוץ למערכת האילוצים בדוגמא 1 2 3

1 2

1 2 3

x x x 12x x 1x , x , x 0

+ + =+ =

,נמיר לרישום מטריצי

1x

2x

3x

1

1

1

1 2 3x x x 1+ + =

1 22x x 1+ =

162

1

2

3

Ax bx 0

x1 1 1 1

A ; x x ; b2 1 0 1

x

=≥

⎡ ⎤⎡ ⎤ ⎡ ⎤⎢ ⎥= = =⎢ ⎥ ⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦⎢ ⎥⎣ ⎦

,נחפש פתרונות בסיסיים

11 1

22 2

11 1

3 33

2 22

3 33

xx x1 1 1 0

x xx x2 1 1 1

0

xx x1 1 1 0.5

x 0x x2 0 1 0.5

x

0x x1 1 1 1

x xx x1 0 1 0

x

⎡ ⎤⎡ ⎤ ⎡ ⎤⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥= ⇒ = ⇒ =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦ ⎣ ⎦⎢ ⎥⎣ ⎦

⎡ ⎤⎡ ⎤ ⎡ ⎤⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥= ⇒ = ⇒ =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦ ⎣ ⎦⎢ ⎥⎣ ⎦

⎡ ⎤⎡ ⎤ ⎡ ⎤⎡ ⎤ ⎡ ⎤ ⎡⎢ ⎥= ⇒ = ⇒ =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎣ ⎦ ⎣ ⎦⎣ ⎦ ⎣ ⎦⎢ ⎥⎣ ⎦

⎤⎢ ⎥⎣ ⎦

. השלישי הראשון מתלכד עם הפתרון הבסיסיקיבלנו כי הפתרון הבסיסי

, פתרונות בסיסיים2כ קיבלנו "סה0.5 0

x 0 , 10.5 0

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥= ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

נשים לב כי הפתרונות הבסיסים החוקיים התקבלו . הם גם חוקייםבמקרה זה שני הפתרונות הבסיסיים .בנקודות הקיצוניות של האילוצים

163

8.4תרגיל

,1נוסיף אילוץ למערכת האילוצים בדוגמא

1 2 3

1 2

1 2 3

x x x 12x 3x 1x , x , x 0

+ + =+ =

,לרישום מטריצינמיר

1

2

3

Ax bx 0

x1 1 1 1

A ; x x ; b2 3 0 1

x

=≥

⎡ ⎤⎡ ⎤ ⎡ ⎤⎢ ⎥= = =⎢ ⎥ ⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦⎢ ⎥⎣ ⎦

,נחפש פתרונות בסיסיים1

1 12

2 2

xx x1 1 1 2

x xx x2 3 1 1

0

⎡ ⎤⎡ ⎤ ⎡ ⎤⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥= ⇒ = ⇒ =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ −⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦ ⎣ ⎦⎢ ⎥⎣ ⎦

11 1

3 33

xx x1 1 1 0.5

x 0x x2 0 1 0.5

x

⎡ ⎤⎡ ⎤ ⎡ ⎤⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥= ⇒ = ⇒ =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦ ⎣ ⎦⎢ ⎥⎣ ⎦

1x

2x

3x

1

1

1

1 2 3x x x 1+ + =

1 22x 3x 1+ =

164

2 22

3 33

0x x1 1 1 1 3

x xx x3 0 1 2 3

x

⎡ ⎤⎡ ⎤ ⎡ ⎤⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥= ⇒ = ⇒ =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦ ⎣ ⎦⎢ ⎥⎣ ⎦

.וקיים הראשון איננו חוקי ואילו שאר הפתרונות חקיבלנו כי הפתרון הבסיסי

, פתרונות בסיסיים3כ קיבלנו "סה

2 0.5 0x 1 , 0 , 1 3

0 0.5 2 3

⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥= −⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦

.נשים לב כי הפתרונות הבסיסים החוקיים התקבלו בנקודות הקיצוניות של האילוצים

נקודות קיצון

- השייכות ל1x 2x אם אין שתי נקודות שונות Cת נקודת קיצון של נקראC בקבוצה קמורה xנקודה Cכך ש - ( )1 2x x 1 x= α + −α, עבורα 0 כלשהו המקיים 1< α < .

1משפט

נקודות הקיצון של האילוצים Ax bx 0

=⎧⎨ ≥⎩

. חוקיים הם פתרונות בסיסיים

2משפט

. תכנות לינארית תמיד תהיה נקודת קיצוןתהפתרון של בעיי

1x1x

2x

2xx

x

נקודת קיצון לא נקודת קיצון

C

165

8.5תרגיל

1 ית בעלת פונקצית המטרה התכנות הלינארתנתונה בעיי 2f (x) 2x x= − , והאילוצים הבאים−

1 2 1 2 3

1 2 1 2 4

1 51

1 2 3 4 51 2

8 8

3 3x x 4 x x x 4

x x 2 x x x 22x x 32x 3x , x , x , x , x 0x , x 0

⎧ ⎧+ ≤ + + =⎪ ⎪⎪ ⎪⎪ ⎪+ ≤ + + =⇒⎨ ⎨⎪ ⎪ + =≤⎪ ⎪

≥≥ ⎪⎪ ⎩⎩

צורך כלומר אין . חוקי תכנות לינארית יהיה פתרון בסיסית נקבל כי הפתרון של בעיי2- ו1ממשפט אלא רק לבדוק , לחפש בכל המרחב הפיזאבילי את הפתרון ואפילו אין צורך לחפש לכל אורך האילוצים

. החוקייםאת נקודות הקיצון שהן הפתרונות הבסיסיים

גישה זו עדיין איננה יעילה מאחר והיא מחייבת בדיקת ( )

n n!m m! n m !⎛ ⎞

=⎜ ⎟ −⎝ ⎠ . חוקיים פתרונות בסיסיים

1

2

1 2

1x 0=

2x 0=

3x 0=

4x 0=

5x 0=

*

1x

2x התחום הפיזאבילי

fקווי גובה של (x) * נקודת המינימום

166

Simplex -אלגוריתם ה

, הואSimplex-הרעיון המרכזי של אלגוריתם ה

,למערכת המשוואות הקנונית הבאה) באמצעות פעולות שורה(נמיר את מערכת המשוואות

1

m1 m m 1 n

1

mm 1 n

x

| | | |x

a a a a b0

| | | |

0

x

1 0 | |x

a a b0

0 1 | |

0

+

+

⎡ ⎤⎢ ⎥⎢ ⎥⎡ ⎤⎢ ⎥⎢ ⎥ =⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

⎡ ⎤⎢ ⎥⎢ ⎥⎡ ⎤⎢ ⎥⎢ ⎥ =⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

, יהיהואז הפתרון הבסיסי

B בסיסי

1 n m 1 n m

x bx0 0× − × −

⎡ ⎤⎡ ⎤= = ⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

הערות1המשתנים , ל" הנגבייצו - mx , , x… יקראו המשתנים הבסיסיים ושאר המשתנים יקראו

.בסיסיים-המשתנים הלא . נהמערכת המשוואות מוגדרת קנונית גם כאשר סדר עמודות היחידה שו -b נשים לב כי כדי שפתרון בסיסי יהיה גם חוקי צריך לבדוק כי - 0≥.

אתחל בפתרון בסיסי חוקי כלשהו

:עבור לפתרון חדש שיהיה בסיסי. 1 חוקי. 2ל ערך נמוך יותרבע.3

1בעיה

2בעיה

3בעיה

4בעיה

167

,ל בצורת טבלה"מקובל לרשום את מערכת המשוואות הנ

1 m m 1 n

1,m 1 1,n 1

m,m 1 m,n m

x x x x1 0 a a b

0 1 a a b

+

+

+

1בעיה

?כיצד עוברים לפתרון בסיסי סמוך, אחדבהינתן פתרון בסיסי

נבצע פעולות שורה כך שהעמודה של המשתנה , qx במשתנה בסיסי pxלהפוך משתנה לא בסיסי כדי

px תהפוך לעמודה של המשתנה qx) לפני השינויים .(

לאחד ולאפס את שאר 34לנרמל אותו, באמצעות פעולות שורה, והמטרה היאpivot i,paבוחרים איבר : pהאיברים בעמודה

ii

i,p

k i k i k,p i

RRa

R R a R≠ ≠

⎧ →⎪⎨⎪ → −⎩

8.6תרגיל

,נתונה מערכת המשוואות הלינארית הבאה

1 4 5 6

2 4 5 6

3 4 5 6

x 2x x x 4x 2x 3x x 3

x x 2x x 1

+ + − =+ − + =− + − =

, הואנתון כי הפתרון הבסיסי1

2

3

x 4x 3x 1

x0 00 00 0

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥

= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

,ורוצים לעבור לפתרון הבסיסי

. מפני שאי אפשר לנרמל אותו לאחדpivot-נשים לב כי אי אפשר לבחור ערך אפס כ 34

168

2

3

4

0xx

xx00

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥

= ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

.1x במשתנה בסיסי 4x בסיסי -כלומר להפוך משתנה לא , הבאpivotבוחרים באיבר

11

RR2

→,

2 2 1R R 2R→ −,

3 3 1R R R→ +,

, החדש הואהפתרון הבסיסי

1 2 3 4 5 6x x x x x x0.5 0 0 1 0.5 0.5 2

1 1 0 0 4 2 10 0 1 1 2 1 1

−− − −

− −

1 2 3 4 5 6x x x x x x0.5 0 0 1 0.5 0.5 20 1 0 2 3 1 30 0 1 1 2 1 1

−−

− −

1 2 3 4 5 6x x x x x x1 0 0 2 1 1 40 1 0 2 3 1 30 0 1 1 2 1 1

−−

− −

1 2 3 4 5 6x x x x x x0.5 0 0 1 0.5 0.5 2

1 1 0 0 4 2 10.5 0 1 0 2.5 1.5 3

−− − −

169

1

2

3

4

5

6

x 0x 1x 3

xx 2x 0x 0

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥−⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥

= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥

⎢ ⎥⎢ ⎥ ⎣ ⎦⎣ ⎦

. אך לא חוקיקיבלנו פתרון בסיסי

.2x במשתנה בסיסי 4x בסיסי -נמיר משתנה לא , אחרpivotנבחר

2

2RR2

→,

1 1 2R R 2R→ −,

3 3 2R R R→ +,

, החדש הואהפתרון הבסיסי

1 2 3 4 5 6x x x x x x1 0 0 2 1 1 40 1 0 2 3 1 30 0 1 1 2 1 1

−−

− −

1 2 3 4 5 6x x x x x x1 1 0 0 4 2 10 0.5 0 1 1.5 0.5 1.50 0 1 1 2 1 1

− −−

− −

1 2 3 4 5 6x x x x x x1 1 0 0 4 2 10 0.5 0 1 1.5 0.5 1.50 0.5 1 0 0.5 0.5 2.5

− −−

1 2 3 4 5 6x x x x x x1 0 0 2 1 1 40 0.5 0 1 1.5 0.5 1.50 0 1 1 2 1 1

−−

− −

170

1

2

3

4

5

6

x 1x 0x 2.5

xx 1.5x 0x 0

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥

= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥

⎢ ⎥⎢ ⎥ ⎣ ⎦⎣ ⎦

. וגם חוקיקיבלנו פתרון בסיסי

.3x במשתנה בסיסי 4x בסיסי -נמיר משתנה לא

, אחרpivotנבחר

3 3R R→−,

2 2 3R R 2R→ −,

1 1 3R R 2R→ −,

, החדש הואהפתרון הבסיסי

1

2

3

4

5

6

x 6x 5x 0

xx 1x 0x 0

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥

= =⎢ ⎥ ⎢ ⎥−⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥

⎢ ⎥⎢ ⎥ ⎣ ⎦⎣ ⎦

. אך לא חוקיקיבלנו פתרון בסיסי

1 2 3 4 5 6x x x x x x1 0 0 2 1 1 40 1 0 2 3 1 30 0 1 1 2 1 1

−−

− −

1 2 3 4 5 6x x x x x x1 0 0 2 1 1 40 1 0 2 3 1 30 0 1 1 2 1 1

−−

− − −

1 2 3 4 5 6x x x x x x1 0 0 2 1 1 40 1 2 0 1 1 50 0 1 1 2 1 1

−−

− − −

1 2 3 4 5 6x x x x x x1 0 2 0 5 3 60 1 2 0 1 1 50 0 1 1 2 1 1

−−

− − −

171

2בעיה

? החדש יהיה חוקיהבסיסיכיצד נבטיח כי הפתרון , ידועה1בהינתן כי התשובה לבעיה

כדי שהפתרון החדש . חיוביתהנניח כי הפתרון הקודם היה בסיסי חוקי ולכן העמודה הימנית ביותר היית ,הפעולות המבוצעות הן. חיוביתרל תישא"גם כן יהיה חוקי דרוש כי העמודה הנ

ii

i,p

k i k i k,p i

RRa

R R a R≠ ≠

⎧ →⎪⎨⎪ → −⎩

,b שורה אלו על העמודה הימנית נבחן את השפעת פעולות

ii

i,p

i,kk i k i i

i,p

bba

ab b b

a≠ ≠

⎧ =⎪⎪⎨⎪ = −⎪⎩

-לכן היחס הבא חייב להתקיים בשורת ה. תהיה חיוביתbנזכור כי התנאי הוא שהעמודה הימנית החדשה

pivot :ii

i,p

bb 0a

= kף חייב להתקיים בנוס . ≤ ib 0≠ , ולכן≤

i,kk i i

i,p

i k i

i,p i,k

ab b 0

a

b ba a

− ≥

,כ חייב להתקיים"לכן סהi k i

i,p i,k

b b0a a

≠≤ ≤

. חוקי החיובי הכי קטן יניב פתרון בסיסיpivot-כלומר היחס בשורת איבר ה

8.6המשך דוגמא

1

1,p

2:,p

2,p

3

3,p

b 4a 22 4 2b 3a 2 ; b 3 1.5a 2

1 1 11b1a

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥⎢ ⎥= = ⇒ = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥− −⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎢ ⎥⎢ ⎥⎢ ⎥ ⎢ ⎥−⎣ ⎦⎢ ⎥⎣ ⎦

החדש האמצעי קיבלנו כי הפתרון הבסיסיpivot-היחס החיובי הכי קטן הוא האמצעי ואכן רק עבור ה .הוא חוקי

172

3בעיה

איזה פתרון יתן את הירידה הכי) ללא חיפוש מלא(כיצד נחליט , ידועות1,2בהינתן כי התשובות לבעיות ?גדולה בערך הפונקציה

. באמצעות המשתנים הלא בסיסייםנבצע מספר פעולות ארתמטיות כדי לבטא את פונקצית המטרה

,לשם פשטות רישום נניח כי מערכת המשוואות היא בצורה הקנונית

1

mm 1 n

m 1

n

x

1 0 | |x

a a bx

0 1 | |

x

++

⎡ ⎤⎢ ⎥⎢ ⎥⎡ ⎤⎢ ⎥⎢ ⎥ =⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

n m n

k k k k k kk 1 k 1 k m 1

m n

k k k kk 1 k m 1

x a x e x a b

x e b x a

= = = +

= = +

= + =

= −

∑ ∑ ∑

∑ ∑

)האגפים בווקטור נכפיל את שני )TT

B 1 2 mc c c cונקבל ,

m nT T T

k B k B k B kk 1 k m 1

m nT T

k k B k B kk 1 k m 1

x c e c b x c a

x c c b x c a

= = +

= = +

= −

= −

∑ ∑

∑ ∑

נוסיף את הגורם n

k kk m 1

x c= + ,לשני האגפים ונקבל∑

( )n n

T T Tk k B k B k k

k 1 k m 1x c c x c b c c a x

= = +

= = + −∑ ∑

,למען פשטות רישום נגדירT

k k B kr c c a= − , באופן הבאניתן לרשום את פונקצית המטרה

nT T

B k kk m 1

f (x) c x c b r x= +

= = + ∑

] עבור הפתרון הבסיסי ]Tb 1 mx x x 0 , היא פונקצית המטרה=0

173

nT T

b B k Bk m 1

f (x ) c b r 0 c b= +

= + ⋅ =∑

עוד גורם שתלוי + ל " הנה עבור הפתרון הבסיסי כפונקצית המטרלכן ניתן לרשום את פונקצית המטרה

,רק במשתנים הלא בסיסייםn

b k kk m 1

f (x) f (x ) r x= +

= + ∑

kxלכל פתרון חוקי חייב להתקיים כי kr ולכן עם ישנו גורם ≤0 מאפס kx אז ניתן להגדיל את >0

צריך להפוך את המשתנים לכן כדי להקטין את פונקצית המטרה. ובכך להקטין את ערך פונקצית המטרהkrהלא בסיסיים שעבורם . למשתנים בסיסיים>0

שליליים היא שהגענו לפתרון - של המשתנים הלא בסיסיים הם איkrבנוסף נובע מכך כי המשמעות שכל . האופטימלי וניתן לעצור את האלגוריתם

krהאלגוריתם מחשב את . מנצל תכונה זו כדי לקבוע איזה עמודה תשולב בפתרוןSimplex-אלגוריתם ה

. שלה שייך הערך השלילי הכי נמוך מוחלפתלכל העמודות והעמודה .האלגוריתם עוצר, שליליים-ים אי-kr-אם כל ה

,מקובל לכתוב מחדש

1,m 1 1,n 1

2,m 1 2,n 2

m,m 1 m,n m

m 1 n

1 0 a a b1 a a b

0 1 a a b0 0 0 r r

+

+

+

+

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

174

4בעיה

? חוקי התחלתיכיצד נמצא פתרון בסיסי ,נגדיר משתנים מלאכותיים

1

m

yy

y

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

, עזרתנפתור בעייT

x,yminimize 1 y

s.t.Ax y bx 0y 0

+ =≥≥

yהפתרון של בעיה זו הוא , ואז האילוצים של הבעיה המקורית מתקיימים=0Ax bx 0

=≥

,נכתוב את האילוצים מחדשx

x 0y

A [A I]

Ax b

⎧ ⎡ ⎤= ≥⎪ ⎢ ⎥

⎨ ⎣ ⎦⎪ =⎩⇓

=

] הוא Aבבעיה זו ממד ]m n× , כאשרn n m= ,בפתרון בסיסי יאופסו. +

n m n m m n− = + − = nמשתנים מתוך n m= + .

: ל עם הפתרון הבא" העזר הנתנאתחל את בעייx 0

xy b⎡ ⎤ ⎡ ⎤

= =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

b ונתון כי nוא מספר האפסים ה. 0≥

. העזרת חוקי של בעייולכן זהו פתרון בסיסי

בסיסי: החוקי הבא ימצא את הפתרון הבסיסיSimplex-אלגוריתם הmin

x xx

y 0⎡ ⎤ ⎡ ⎤

= =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

נשים לב כי .

n יהיו עוד xבסיסיולכן בווקטור , אפסיםm מניב yאיפוס וקטור m−אפסים ו -m איברים גדולים .קי של הבעיה המקורית חווזוהי בדיוק ההגדרה של פתרון בסיסי, מאפס

175

8.7תרגיל

, חוקי לאילוצים הבאיםמצא פתרון בסיסי1 2 3

1 2 3

1 2 3

2x x 2x 43x 3x x 3x 0, x 0, x 0

+ + =+ + =

≥ ≥ ≥

4נציג שני משתנים מלאכותיים 5x 0, x 0≥ , הבאהי תכנות הליניארת ונפתור את בעיי≤

4 5x,y

minimimze x x

s.t.Ax y bx 0y 0

+

+ =≥≥

,הטבלה תהיה1 2 3 4 5x x x x x b

2 1 2 1 0 43 3 1 0 1 35 4 3 0 0 7− − − −

. יהיה בעמודה זוpivot- בעל הערך השלילי הכי נמוך ולכן ה1rניתן לראות כי

1

1,1

2

2,1

b 4 2a 2b 3 1a 3

= =

= =

, הואpivot -לכן איבר ה

2לאחר פעולות השורה 2R R 3→ ,1 1 2R R 2R→ , נקבל− , שלילי3rכעת רק

,נקבל

1 2 3 4 5x x x x x b2 1 2 1 0 43 3 1 0 1 35 4 3 0 0 7− − − −

1 2 3 4 5x x x x x b0 1 4 3 1 2 3 21 1 1 3 0 1 3 10 1 4 3 0 5 3 2

− −

− −

176

1 2 3 4 5x x x x x b0 3 4 1 3 4 1 2 3 21 5 4 0 1 4 1 2 1 20 0 0 1 1 0

− −−

, חוקי וקיבלנו פתרון בסיסי הוא אפסערך פונקצית המטרה, חיובייםkr -כעת כל ה

1 2 3x 1 2, x 0, x 3 2= = =

,)two-phase method( בשיטת שני השלבים יפותרים בעיית תכנות ליניאר

. חוקיפתור את בעיית העזר וקבל פתרון בסיסי: Iשלב .I החוקי שקיבלת בשלב ורית באמצעות הפתרון הבסיסיפתור את הבעיה המק: IIשלב

,המשך דוגמא1 2 3x

1 2 3

1 2 3

1 2 3

minimize 4x x x

s.t.2x x 2x 43x 3x x 3x 0, x 0, x 0

+ +

+ + =

+ + =≥ ≥ ≥

,את השלב הראשון כבר ביצענו ולכן

,ולכן הפתרון האופטימלי הוא

1 2 3x 0, x 2 5, x 9 5= = =

1 2 3x x x b0 3 4 1 3 21 5 4 0 1 20 13 4 0 7 2

− −

1 2 3x x x b3 5 0 1 9 54 5 1 0 2 5

13 5 0 0 11 5−

177

Simplex-תרשים זרימה של אלגוריתם ה

. העזרתי באמצעות בעימצאו פתרון בסיסי חוקי התחלת

, באופן הבאSimplex-בנו את טבלת ה

T

A bc z⎡ ⎤⎢ ⎥−⎣ ⎦

. הוא ערך פונקצית המטרה בפתרון המוצעzכאשר

להביא את העמודות של בצעו פעולות שורה כדיהשורה האחרונה (הפתרון הבסיסי למבנה הקנוני

).עוברת אותן המניפולציות ללא הבדל

. הנמוך ביותרkrבחרו את העמודה בעלת ערך

האםkminr 0>?

iחשבו את היחס

i,k

bi 1, , ma

∀ = … .

כאיבר שעבורו pivot-בחרו את איבר ה . ל הוא החיובי המינימלי"היחס הנ

באמצעות pivot-בצעו את פעולות ה ). כולל השורה האחרונה(פעולות שורה

לא

כן

minx b=

178

179

דואליות. 9

.' שבה המשתנים הם כופלי הלגרנזלבעיית אופטימיזציה אפשר להגדיר בעיה דואלית

הגדרה .שוויון- הוא התחום שבו מתקיימים אילוצי השוויון והאיFהתחום הפיזאבילי

של דואליותMin-Maxהשקפת

שעבורן ערך הפונקציה הפרימאלית בפתרון ) ראשוניות(עד עתה עסקנו בבעיות אופטימיזציה פרימאליות ,p*היה

xp min f (x)

s.t.x F

∗ =

טענה

x F x 0p min f (x) min max L(x, , )∗

∈ µ≥λ

= = λ µ

הוכחה

m r

i i j j0 0 i 1 j 1

f (x), x Fmax L(x, , ) max f (x) h (x) g (x)µ≥ µ≥ = =λ λ

∈⎧λ µ = + λ + µ =⎨∞⎩

∑ ∑

Tg(x) מתאפס ומתקיים h(x)בתחום הפיזאבילי 0µ 0µ 'לכן עבור בחירת כופלי הלגרנז. ≥ = ,

. בתחום הפיזאבילי יהיה מקסימלייאן'הלגרזלמשל עם . ל ישאף לאינסוף" כך שהביטוי הנ'שר לבחור את כופלי לגרנזבתחום הלא פיזאבילי אפ

jgמתקיים (x) jµ אז נבחר <0 →∞.

*

x x x F0

f (x), x Fmin max L(x, , ) min min f (x) p

∈µ≥λ

∈⎧λ µ = = =⎨∞⎩

.ל.ש.מ

הגדרות

,הפונקציה הדואלית היא

x( , ) min L(x, , )η λ µ λ µ

, הדואלית היאהבעיה

0maximize ( , )

µ≥λ

η λ µ

,והערך בנקודת האופטימום של הבעיה הדואלית הוא*

0d max ( , )

µ≥λ

= η λ µ

,השוואה בין הבעיה הפרימאלית והדואלית

180

x x F0

*

x0 0

p min max L(x, , ) min f (x)

d max min L(x, , ) max ( , )

∈µ≥λ

µ≥ µ≥λ λ

= λ µ =

= λ µ = η λ µ

והמקסימיזציה לפי xדר המינימיזציה לפי והדואלית הוא סכלומר ההבדל בין פתרון הבעיה הפרימאלית

0,µ ≥ λ.

*הדואליות החלשה מוגדרת כאשר מתקיים *d p≤ ודואליות חזקה מוגדרת כאשר * *d p=. ,ל נובעת הדואליות החלשה" ישירות מרישום הנ

*

x x0 0d max min L(x, , ) min max L(x, , ) p∗

µ≥ µ≥λ λ

= λ µ ≤ λ µ =

: נוכיח עבור מקרה כללי כי מתקיים

x X x Xy Y y Ymax min (x, y) min max (x, y)

∈ ∈∈ ∈Φ ≤ Φ

הוכחה

yלכל Y∈מתקיים ,

x X x X y Ymin (x, y) min max (x, y)∈ ∈ ∈

Φ ≤ Φ

yומאחר ואי שוויון זה מתקיים לכל Y∈גם ל אז הוא מתקיים -y שממקסם את הפונקציה

x Xmin (x, y)∈

Φ ,כלומר גם ל- x Xy Y

max min (x, y)∈∈

Φ .

:לכן מתקיים

x X x Xy Y y Ymax min (x, y) min max (x, y)

∈ ∈∈ ∈Φ ≤ Φל.ש. מ.

. יאן'ת הלגרנז תמיד מתקיימת כי אי שוויון זה אינו תלוי בפונקציהדואליות החלשה

µ,0 והמקסימיזציה לפי x היא שסדר המינימיזציה לפי משמעות הדואליות החזקה ≥ λ יכול להתחלף .ללא השפעה על התוצאה

משפט

, נתונה בעיית אופטימיזציה פרימאלית קמורה

x

j

minimize f(x)

s.t.g (x) 0, j 1, , r

Ax b

≤ =

=

1כלומר rf (x),g (x), g (x)…אם קיימת נקודה . ם הן פונקציות קמורות ואילוצי השוויון הם ליניאריי

strictly feasible ,כלומר המקיימת, jg (x) 0, j 1, , r

Ax b

< =

=

.35אז קיימת דואליות חזקה

jg- מספיק שםשוויון ליניאריי-עבור אילוצי אי 35 (x) 0≤.

181

9.1תרגיל

,נתון

( )( )

2

xminimize x 1

s.t.x 2 x 4 0

+

− − ≤

?מהו התחום הפיזאבילי. א

התחום הפיזאבילי הוא F x 2 x 4= ≤ ≤ ?מהו פתרון הבעיה הפרימאלית. ב

, היאהפונקציה הפרימאלית2f (x) x 1= +

, הואיאן'הלגרנז( )( )( ) ( )2 2 2L(x, ) x 1 x 2 x 4 x 1 x 6x 8µ = + +µ − − = + +µ − +

0µנניח כי האילוץ פאסיבי ולכן =,

( )2

*

L(x, ) x 1 2x 0x x

x 0

∂ µ ∂= + = =

∂ ∂⇓

=

).כלומר אינו מקיים את אילוצי האי שוויון(פתרון זה פסול מאחר והוא איננו בתחום הפיזאבילי

g(x)נניח כי האילוץ אקטיבי ולכן 0=,

( )( )( )( )

2 2L(x, ) x 1 x 6x 8 2x 2x 6 0(1)x x

(2) x 2 x 4 0

∂ µ ∂⎧ = + +µ − + = + µ − µ =⎪ ∂ ∂⎨⎪ − − =⎩

,נקבל שני פתרונות אפשריים) 2(ממשוואה

*x 2,4= ,ונקבל בהתאם) 1(נציב פתרונות אלה במשוואה

* 2, 4µ = −

הפתרון ולכן , שלילי- חייב להיות אי של אילוץ אי שוויון'הפתרון השני פסול מפני שכופל הלגרנז ,האפשרי היחיד הוא

*

*

x 22

⎧ =⎪⎨µ =⎪⎩

182

,נבדוק את שאר התנאים המספיקים

( )2

2

2 * *

2

L(x, ) 2x 2x 6 2 2x x

L(x , ) 2 2 2 6 0x

∂ µ ∂= + µ − µ = + µ

∂ ∂

∂ µ= + ⋅ = >

.לכן זוהי אכן נקודת מינימום

, הואp* בנקודת המינימום ערך הפונקציה הפרימאלית* * 2p f (x ) 2 1 5= = + =

f בגרף משורטטת הפונקציה הפרימאלית (x)0 עבור מספר ערכי יאן' לעומת הלגרזµ ≥ .

:נשים לב כי מתקיים בדוגמא זו

0

f (x), x Fmax L(x, , )µ≥λ

∈⎧λ µ = ⎨∞⎩

,כיםכפי שניתן לראות מגרף החת

,L(xניתן לראות כי מתקיים כי ) f (x)µ ,L(xאחרת , בתחום הפיזאבילי≥ ) f (x)µ >.

,להלן גרף תלת ממדי הממחיש תכונה זו

183

.חשבו את הפונקציה הדואלית. ג

, היאהפונקציה הדואלית( )

( )

2 2

x x

*

2

2

( ) min L(x, ) min x 1 x 6x 8

L(x, ) 2x 2x 6 0x

3x 0 11

L(x, ) 2 2 0x

0

η µ = µ = + +µ − +

∂ µ= + µ − µ =

∂⇓

µ= µ ≥ → µ ≠ −

∂ µ= + µ >

∂↑

∀µ ≥

, שקיבלנוxנציב את

( ) *

2 23x

1

9( ) x 1 x 6x 8 101µ

=+µ

η µ = + +µ − + = − −µ +µ +

184

. ופתרו אותההציגו את הבעיה הדואלית. ד9maximize ( ) 10

1s.t.

0

µη µ = − −µ +

µ +

µ ≥

,פתרון הבעיה הדואלית( )( )

( )2

*

4 2( ) 01

2, 4

µ + µ −∂η µ= − =

∂µ µ +

µ = −

*פתרון ה 4 0µ = − * הוא לא חוקי ולכן נבדוק רק את הפתרון > 2µ =,

( )

2

32

2

22

( ) 181

( ) 18 027

µ=

∂ η µ= −

∂µ µ +

∂ η µ= − <

∂µ

*לכן 2µ . היא אכן נקודת מקסימום=

, הואd* בנקודת המקסימום ערך הפונקציה הדואלית*

02

9d max ( ) 10 51µ≥

µ=

= η µ = − −µ + =µ +

* *d p= . חזקהכלומר קיבלנו דואליות, ⇐

) בגרף משורטטת הפונקציה הדואלית )η µעבור מספר ערכי יאן' לעומת הלגרז x F∈ . ,נשים לב כי מתקיים

x( , ) min L(x, , ) L(x, , )η λ µ = λ µ ≤ λ µ

185

,L(xנשים לב כי הפס האדום מציין את הקו שבו ) ( )µ = η µ ואין תחום שבו L(x, ) ( )µ < η µ.

186

?מה עושים עם פתרון הבעיה הדואלית

* האופטימליים ' את כופלי לגרנזיאן'מציבים בלגרז, x*כדי למצוא את *,λ µ ופותרים את בעיית ,האופטימיזציה ללא האילוצים הבאה

* *

xmin L(x, , )λ µ

,בדוגמא שלנו

( ) ( )* 2 * 2 2 2 2L(x, ) x 1 x 6x 8 x 1 2 x 6x 8 3x 12x 17µ = + +µ − + = + + − + = − +

**

2 *

2

L(x, ) 6x 12 0 x 2x

L(x, ) 6 0x

∂ µ= − = ⇒ =

∂ µ= >

הערות סיכום

f כ ראינו כי הפונקציה הפרימאלית"סה - (x)בתחום ( מלמעלה יאן' חוסמת את פונקצית הלגרז)והפונקציה הדואלית ) הפיזאבילי , )η λ µחזקה כאשר דואליות. מלמטהיאן'רז חוסמת את הלג )בנקודת האופטימום , מתקיימת )* * *x , ,λ µל מקבלות ערכים זהים" שלושת הפונקציות הנ.

א מנסה בכל איטרציה הו. פועל על עקרון זה בדיוקAugmented Lagrangianאלגוריתם -) ובמקביל את x*למצוא את )* *,λ µ.

*ניתן לראות מהגרף הבא כי בנקודה - *(x , ) (2,2)µ . ערך שלושת הפונקציות שווה=

187

האם תמיד כאשר קיימת דואליות חזקה נצליח לקבל מפתרון הבעיה הדואלית את פתרון הבעיה - !התשובה היא לא? ימאליתהפר

כדי לקבל מפתרון הבעיה הדואלית את פתרון הבעיה הפרימאלית חייב להיות רק צמד נקודות )יחיד )* * *x , ,λ µ שבו מתקיים * *d p=.

פונקצית המטרה היא קמורה ולא קמורה ממש יתכן מקרה מנוון שבו Slaterבגלל שבתנאי

,הבאה) הקמורה (י התכנות הליניארתלדוגמא בעיי. תרון של הבעיה הפרימאלית איננו יחידהפ

1 2xminimize x x

s.t.Ax bx 0

+

≤≥

,באופן גרפי יכול להיווצר המצב הבא

1x

2x

כלומר אין פתרון . p*כל פתרון לאורך הסוגריים המסולסלות הוא בעל ערך פונקצית מטרה *יחיד לבעיה הפרימאלית ולכן אין נקודה אחת שבה *d p= . כדי שניתן יהיה לקבל מהפתרון

ל או שפונקצית המטרה תהיה קמורה "הדואלי את הפתרון הפרימאלי או שלא יתקיים הניוון הנ .ממש

188

9.2תרגיל

,נתוןT

x

2i

minimize x Wx

s.t.x 1, i 1, , n= = …

nWכאשר S∈ . כלומרWזוהי בעיית . לא בהכרח מטריצה חיובית מוגדרת, מטריצה סימטרית

לעומת זאת ידוע כי בעיית האופטימיזציה . אופטימיזציה לא קמורה גם בגלל שאילוצי השוויון לא קמורים נותן לפחות חסם תחתון על d*לכן פתרון בעיית האופטימיזציה הקמורה. תמיד בעיה קמורההדואלית היא

.p*פתרון הבעיה הפרימאלית

. ה מינימלי איברים לשתי קבוצות כך שמחיר חלוקה זו יהיnמשמעות הבעיה היא למצוא חלוקה של 1למשל משמעות 2 3x 1, x 1, x 1= = = יהיה בקבוצה 3 יהיו בקבוצה אחת ואיבר 1,2 היא שאיברים −

.נפרדת

,נבחן את פונקצית המחירn n n n n

T 2ij i j ij i j ii i ij i j ii

i, j 1 i, j 1 i 1 i, j 1 i 1i j i j

x Wx w x x w x x w x w x x w= = = = =

≠ ≠

= = + = +∑ ∑ ∑ ∑ ∑

i כאשר ijwמשמעות j≠ היא המחיר שרכיבים i, jנמצאים באותה קבוצה .

. ניתן לראות כי רכיבי האלכסון של המטריצה אינם משפיעים ולכן נאפס אותם

מאחר ומספר . זוהי בעיית אופטימיזציה דיסקרטית ופתרון אפשרי שלה הוא לנסות את כל הקומבינציותnהקומבינציות הוא 12 . מהר מאד גישה זו הופכת לבלתי מעשית, −

:של הבעיה הזו" מעשית"המחשה

הם החליטו לקבוע מי יהיה יחד עם מי על . יוסי ומוטי נקלעו לאי בודד המורכב משני איים קטנים, רותי . סמך קריטריון מינימום סבל לכולם

:נגדיר רותי – 1 יוסי– 2 מוטי– 3

1

2 3

בקבוצה א קבוצה

189

12תי ויוסי מסתדרים ביחד היטב ולכן נקבע את מדד הסבל שיהיו ביחד נתון כי רו 21w w 3= = רותי . −13ומוטי מסתדרים פחות טוב ולכן מדד הסבל שהם יהיו ביחד הוא 31w w 0.5= = יוסי ומוטי ממש . −

23יסבלו אם הם יהיו ביחד ולכן נגדיר 32w w 1= =. ,"מטריצת הסבל"לכן

0 3 0.5W 3 0 1

0.5 1 0

− −⎡ ⎤⎢ ⎥= −⎢ ⎥⎢ ⎥−⎣ ⎦

3ישנן 12 4− , אפשריות=

3x2x1x משמעות מדד הסבל 1 1 1 כולם 5--1-1 1 מוטי לבד, יוסי+רותי 7--1 1-1 לבדיוסי , מוטי+רותי 3-1 1 1 רותי לבד, מוטי+יוסי 9

.לכן הבחירה שתניב הכי פחות סבל היא שרותי ויוסי יהיו ביחד ואילו מוטי ישאר לבד

. ונסחו את הבעיה הדואליתחשבו את הפונקציה הדואלית

.nאחדים באורך כוקטור 1נגדיר

, יהיהיאן'הלגרז

( )

( )

n n nT 2 T 2

i i i i ii 1 i 1 i 1

TT

L(x, ) x Wx x 1 x Wx x

x W diag( ) x 1

= = =

λ = + λ − = + λ − λ =

= + λ − λ

∑ ∑ ∑

,הפונקציה הדואלית

( )T

TT

x x

1 , W diag( ) 0( ) min L(x, ) min x W diag( ) x 1, אחרת

⎧− λ + λ ≥⎪η λ = λ = + λ − λ = ⎨−∞⎪⎩

פס כאשר המטריצה היא חיובית הוא אנשים לב כי השתמשנו בתכונה כי המינימום של תבנית ריבועית

. אחרת∞− -חצי מוגדרת ו

,הבעיה הדואליתTmaximize 1

s.t.W diag( ) 0

λ− λ

+ λ ≥

190

9.3תרגיל

, קמורה מוגדרת באופן הבאQCQP (Quadratically Constrained Quadratic Program)בעיית

T T0 0 0x

T Tj j j

minimize x P x 2q x r

s.t.x P x 2q x r 0, j 1, , r

+ +

+ + ≤ = …

r

j j 0P

=] מטריצות ריבועיות ]n n×.

r

j j 0q

=] וקטורי עמודה ]n 1×.

r

j j 1r

= . סקלרים

jP 0, j 0,1, , r≥ = …

.מצאו את הבעיה הדואלית

,יאן'הלגרנז

( )r

T T T T0 0 0 j j j j

j 1

Tr r r

T0 j j 0 j j 0 j j

j 1 j 1 j 1

L(x, ) x P x 2q x r x P x 2q x r

x P P x 2 q q x r r

=

= = =

µ = + + + µ + + =

⎛ ⎞ ⎛ ⎞ ⎛ ⎞= + µ + + µ + + µ⎜ ⎟ ⎜ ⎟ ⎜ ⎟

⎝ ⎠ ⎝ ⎠ ⎝ ⎠

∑ ∑ ∑

,נגדיר

r r r

0 j j 0 j j 0 j jj 1 j 1 j 1

P( ) P P ; q( ) q q ; r( ) r r= = =

µ + µ µ + µ µ + µ∑ ∑ ∑

, ונקבליאן'נציב בביטוי הלגרז

T TL(x, ) x P( )x 2q ( )x r( )µ = µ + µ + µ

)Pהמטריצה , iµשבו אין מגבלה על , במקרה הכללי. כלומר קיבלנו מבנה של בעיה ריבועית )µ היא לא . ולכן למצוא מינימום של בעיה ריבועית זו אינו עניין פשוטבהכרח מטריצה חיובית מוגדרת

iאך נזכור כי בבעיה הדואלית 0µ )P ולכן המטריצה ≤ )µהיא מטריצה חיובית מוגדרת ,

הוכחהr

T T T0 j j

j 10 0 0

v P( )v v P v v P v 0=> ≥ ≥

µ = + µ >∑

,חישוב הפונקציה הדואלית

T T

x x( ) min L(x, ) min x P( )x 2q ( )x r( )η µ = µ = µ + µ + µ

191

x

1

2xx

L(x, ) 2P( )x 2q( ) 0

x P ( )q( )

L(x, ) 2P( ) 0

∇ µ = µ + µ =

= − µ µ

∇ µ = µ >

, ונקבלנציב חזרה בביטוי של הפונקציה הדואלית

( ) ( ) ( )

1x P ( )q( )

T1 1 T 1

T T 1 T 1

I

T 1 T 1

T 1

( ) L(x, )

P ( )q( ) P( ) P ( )q( ) 2q ( ) P ( )q( ) r( )

q ( )P ( ) P( )P ( )q( ) 2q ( )P ( )q( ) r( )

q ( )P ( )q( ) 2q ( )P ( )q( ) r( )

q ( )P ( )q( ) r( )

−=− µ µ

− − −

− − −

− −

η µ = µ =

= − µ µ µ − µ µ + µ − µ µ + µ =

= µ µ µ µ µ − µ µ µ + µ =

= µ µ µ − µ µ µ + µ =

= − µ µ µ + µ

, היאלכן הבעיה הדואליתT 1maximize ( ) q ( )P ( )q( ) r( )

s.t.0

µη µ = − µ µ µ + µ

µ ≥

192

9.4תרגיל

אנטרופיה מוגדרת . בעיית מקסימיזציה של אנטרופיהn

i ii 1

p log(p )=

ε = −∑.

,בעיית האופטימיזציה הפרימאלית היאn

i ip i 1

n

ii 1

i

minimize p log(p )

s.t.Ap b 0

p 1

p 0, i 1, , n

=

=

− ≤

=

≥ ∀ =

∑…

,כאשר1

n

pp

p

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

בצורה מטריציתיאן'כתבו את פונקצית הלגרנז. א

,נגדיר

1

n

1 log(p )1 ; log(p) ;

1 log(p )

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

,בנוסף

1µהקשור לאילוצי אי השוויון' וקטור כופלי לגרנז Ap b 0− ≤.

2µהקשור לאילוצי אי השוויון' וקטור כופלי לגרנז ip 0≥.

µ1 השוויון - הקשור לכל אילוצי האי' וקטור כופלי לגרנז

2

µ⎡ ⎤µ = ⎢ ⎥µ⎣ ⎦

λהקשור לאילוץ השוויון ) סקלר (' כופל לגרנזn

ii 1

p 1=

=∑

. בצורה מטריציתיאן'כתוב את הלגרז. א

( )

( ) ( )

( )

n nT T

i i i 1 2i 1 i 1

TT T T1 2

TT T T T1 2 1

L(p, , ) p log(p ) p 1 Ap b ( p)

p log(p) 1 p 1 Ap b p

p log(p) 1 A p b

= =

⎛ ⎞λ µ = + λ − +µ − +µ − =⎜ ⎟

⎝ ⎠

= + λ − +µ − −µ =

= + λ +µ −µ −λ −µ

∑ ∑

193

p לפי יאן' של הלגרז וההסיאןו את הגרדיאנטחשב. ב

,נגדיר

1

1 1

n

nn

log(p ) 10 0p p

log (p)log(p ) 100

pp

∂⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥∂⎢ ⎥ ⎢ ⎥

′ =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥∂⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥∂ ⎣ ⎦⎣ ⎦

( )

( )

( )

TT T T T1 2

TT T T T1 2

TTT T T T

p 1 2

T1 2

dL dp log(p) p log (p)dp 1 A dp

log(p) p log (p) 1 A dp

L log(p) p log (p) 1 A

log(p) log (p)p 1 A

′= + + λ +µ −µ =

′= + + λ +µ −µ

′∇ = + + λ +µ −µ =

′= + + λ + µ −µ

,נשים לב לצמצום הבא

1 1

n

n

1 0p p 1

log (p)p 11 p 10p

⎡ ⎤⎢ ⎥ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥′ = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦⎢ ⎥⎢ ⎥⎣ ⎦

,יאן' של הלגרזנטנציב חזרה בביטוי של הגרדיא

( )

Tp 1 2

T T1 2 1 2

L log(p) log (p)p 1 A

log(p) 1 1 A log(p) 1 1 A

′∇ = + + λ + µ −µ =

= + + λ + µ −µ = + λ + + µ −µ

,p לפי יאן' של הלגרזחישוב ההסיאן

( ) ( )pd L d log(p) log (p)dp′∇ = =

194

12pp

n

1 0p

L log (p)10p

⎡ ⎤⎢ ⎥⎢ ⎥

′∇ = = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

חיוביים ולכן המטריצה הזו חיובית ע" וההסתבריות הן חיוביות אז כל העתמאחר וזוהי מטריצה אלכסוני

. ששוות לאפס ניתן לנפות אותן בשלב מקדיםipאם ישנן הסתבריות . pמוגדרת לכל נסחו את הבעיה הדואלית. ג

( )

( )

TT T T T1 2 1p p

TT T1 2 1p

( , ) min L(p, , ) min p log(p) 1 A p b

min log(p) 1 A p b

η λ µ = λ µ = + λ +µ −µ −λ −µ =

= + λ + µ −µ −λ −µ

pL אז הנקודה שבה p לכל היא מטריצה חיובית מוגדרתp לפי יאן' של הלגרזמאחר וההסיאן 0∇ =

,תהיה נקודת מינימום

( )

( )( )

Tp 1 2

T1 2

L log(p) 1 1 A 0

p exp 1 1 A

∇ = + λ + + µ −µ =

= − λ + − µ +µ

,יאן כדי לקבל את הפונקציה הדואלית'נציב ביטוי זה בלנגרז

( )( )( )( ) ( )( )

( )( ) ( )( )

( )( ) ( )

TT T T

1 2 1 2 1 2

T1

TT T T T1 2 1 2 1 2 1

T TT T 1 T T1 2 1 1 2 1

( , ) log exp 1 1 A 1 A exp 1 1 A

b

1 1 A 1 A exp 1 1 A b

1 exp 1 1 A b e 1 exp A b−λ−

η λ µ = − λ + − µ +µ + λ + µ −µ − λ + − µ +µ

−λ −µ =

= − λ + − µ +µ + λ + µ −µ − λ + − µ +µ −λ −µ =

= − − λ + − µ +µ −λ −µ = − − µ +µ −λ −µ

, היאלכן הבעיה הדואלית

( )T1 T T1 2 1,

maximize ( , ) e 1 exp A b

s.t.0

−λ−

λ µη λ µ = − − µ +µ −λ −µ

µ ≥

λי מקסימיזציה על פני המשתנה הדואלי " עניתן לפשט את הבעיה הדואלית. הסתייםאך מסענו עדין לא

.באופן אנליטי

195

,לשם פשטות החישוב נגדיר( )T T 1 T

1 2 1c 1 exp A ( , ) ce b−λ−− µ +µ ⇒ η λ µ = − −λ −µ

. 36 חיובי מפני שהוא סכום של אקספוננטים שהם חיוביםc. הוא סקלר חיוביcנשים לב כי

( )

( )

( )

( )

*

1 T1

1 1

1

*

*

( , ) ce b

ce 1 1 ce 1 0

1ec

11 log log cc

log c 1

−λ−

−λ− −λ−

−λ −

∂η λ µ ∂= − −λ −µ =

∂λ ∂λ

= − − − = − =

=

⎛ ⎞−λ − = = −⎜ ⎟⎝ ⎠

λ = −

,נוודא שזוהי אכן נקודת מקסימום

( )

*

21 1

2

2

2

( , ) ce 1 ce

( , ) 1c 1 0c

−λ− −λ−

λ=λ

∂ η λ µ ∂= − = −

∂λ ∂λ

∂ η λ µ= − = − <

∂λ

, בפונקציה הדואלית ונקבלλ*נציב את

( )( ) ( )

( )( )

1 T1

* T T1 1

T T T1 2 1

( , ) ce b

1( , ) c log c 1 b 1 log c 1 bc

log 1 exp A b

−λ−η λ µ = − −λ −µ

η λ µ = − − − −µ = − − + −µ =

= − − µ +µ −µ

, היאיתהבעיה הדואל

( )( )T T T1 2 1maximize log 1 exp A b

s.t.0

µ− − µ +µ −µ

µ ≥

36 xe יתאפס רק כאשר x . סופייםA,µ אבל במקרה שלנו מניחים כי כל איברי ∞−→

196

דולים של וקטור האיברים הכי גr סכום -9.5תרגיל

, ∋nx: נתון 1, 2, ,r n∈ …. ]: נסמן ] [ ] [ ]1 2 nx x x≥ ≥ ≥….

) האיברים הכי גדולים של וקטור הוא rלכן סכום ) [ ]1

r

ii

f x x=

= ∑.

)בטאו את האילוץ )f x α≤ יעילה" בצורה."

פתרון )ים לב כי הפונקציהנש )f xהסבר! היא פונקציה קמורה:

( ) 1 1 2max |1ri i rf x x x i i i n= + + ≤ < < ≤… …

)כלומר הפונקציה )f x היא מכסימום של כל הקומבינציות האפשריות שלr איברים שונים של וקטור x . .ורהפונקציה שהיא מכסימום של פונקציות קמורות היא גם קמ

!הבעיה היא שצריך לבדוק !( )!

nr n r−

לכן יש צורך במציאת צורה יותר יעילה כדי לייצג . קומבינציות

)את האילוץ )f x α≤.

.לשם כך נעזר בטענה הבאה

טענה

. הוא וקטור נתון וקבוע∋nxנניח כי ( ) max

. .0 11

T

T

f x x ys t

yy r

=

≤ ≤

=

.∋nyכאשר המשתנה הוא

1rנניח כי: אינטואיציה :ל הוא" שיביא למכסימום את פונקצית המטרה תחת האילוצים הנy-ה. =

1, max0,

ii

x xy

else⎧ =⎪= ⎨⎪⎩

ערך פונקצית המטרה במקרה זה הוא [ ]1max x x=.

2rניח כעת כינ 1yאילולא ההגבלה כי . = אז הפתרון היה≥

2, max0,

ii

x xy

else⎧ =⎪= ⎨⎪⎩

:מאחר ואין זה המקרה הפתרון יהיה

197

[ ] [ ]1 21,

0,i i

i

x x or x xy

else

= =⎧⎪= ⎨⎪⎩

]ערך פונקצית המטרה במקרה זה הוא ] [ ]1 2x x+ .המעבר ל- 1, 2, ,r n∈ . ברור…

)כדי לייצג את האילוץ . ∋nxנקודה חשובה היא שהטענה נתונה לוקטור קבוע )f x α≤אז x צריך

ימיזציה בטענה אז נקבל כי פונקצית המטרה איננה כמשתנה בבעית האופטx-אם נתיחס ל. להיות משתנה .קמורה

טענת עזר

)הפונקציה )1 2 1 2,f x x x x=איננה קמורה או קעורה .

הוכחה

)הגרדיאנט של הפונקציה )1 2 1 2,f x x x x= 2 הוא

1

xf

x⎡ ⎤

∇ = ⎢ ⎥⎣ ⎦

וההסיאן של הפונקציה הוא

2 0 11 0

f⎡ ⎤

∇ = ⎢ ⎥⎣ ⎦

ע של המטריצה הם "הע. .ל.ש.מ. −1,1

נשים לב כי בעיית , לפני שנתחיל. כדי להימנע מפונקציות לא קמורות נחשב את הבעיה הדואליות

כל ההנחות שלנו התבססו על כך שהבעיה פרימאלית . האופטימיזציה הפרימאלית היא בעית מקסימיזציה : כדי להתגבר על העיה הזו נשים לב לקשרים הבאים.היא בעיית מינימזציה

( ) ( )

( ) ( ) arg min arg max

min max

f x f x

f x f x

= −

= − −

:ובאופן גרפי

:לכן כדי לחשב את הבעיה הדואלית של בעית המקסימיזציה נהפוך אותה לבעית המינימיזציה הבאה

min. .

0 11

T

T

x ys t

yy r

≤ ≤

=

*x x

( )f x

( )f x−

( )*f x

( )*f x−

198

,' כופלי הלגרנז ,ns tµ ∈ העליונים ואילוץ השוויון , מתאימים לאילוצי הקופסא התחתונים∋

:יאן היא'פונקצית הלגרנז. בהתאם

( ) ( ) ( ) ( ); , , 1 1 1 1TT T T T TL y s t x y y s y t y r x s t y s trµ µ µ= − − + − + − = − − + + − −

:הפונקציה הדואלית היא( ) ( ) ( ), , min ; , , min 1 1

1 , 1 0,

T T

y y

T

s t L y s t x s t y s tr

s tr x s telse

η µ µ µ

µ

= = − − + + − − =

⎧− − − − + + == ⎨

−∞⎩

)נזכור כי (כדי לתקן את המינוס ) ( ) min maxf x f x= − :ית היאהבעיה הדואל) −

( )min , ,. .

, 0

s ts t

s

η µ

µ

,כלומרmin1. .

1 0, 0

T s trs t

x s tsµ

µ

+

− − + + =≥

: מופיעים רק באילוצי השוויון וכמשתנים אי שליליים אז הבעיה הבאה שקולהµמאחר והמשתנים

min1. .

10

T s trs t

s t xs

+

+ ≥≥

לכן ! מקבוע למשתנה אז הבעיה הדואלית היא בעית תכנות לינאריxכעת ברור כי אם נהפוך את

)מדואליות חזקה של בעיות תכנות לינארי כדי שהאילוץ )f x α≤נדרוש כי יתקיים :

110

T s trs t xs

α⎧ + ≤⎪ + ≤⎨⎪ ≥⎩

!-כדי להימנע מ, לסיכום!( )!

nr n r−

2 משתנים נגדיר n- אילוצים ב 1n ללא . משתנים2n- אילוצים ב+

)השימוש ברעיון הדואליות אילוץ מהסוג )f x α≤לא היה מעשי .

199

שוויונים מוכללים ובעיות קוניות-אי. 10

,a 37שוויון הסקלרי-ניתן להרחיב את מושג האי b a b∈ generalized (שוויונים מוכללים- לאי≤inequalities .(התכונות הבאותשוויונים המקיימים את - מוגדרים כאישוויונים מוכללים-אי,

Reflexive :(a (רפלקסביות. 1 a≺.

אם ): Anti-symmetric (סימטריות-אנטי. 2a b

a bb a⎧⎪= ⇐ ⎨⎪⎩

≺.

): Transitive (טרנזטיביות. 3a b

a cb c⎧⎪⇐ ⎨⎪⎩

.

): Additive (אדטיביות. 4a b

a c b dc d⎧⎪+ + ⇐ ⎨⎪⎩

.

אם מתקיים ∋Homogeneous :(∀λ (הומוגניות. 5a b

a b0

⎧λ λ ⇐ ⎨λ ≥⎩

.

שליליות - כקבוצה של כל הנקודות האיKמגדירים את הקון . שוויון מוכלל באמצעות קון-ניתן לאפיין אי

,כלומר הקבוצה המקיימת. Kשוויון -תחת ההגדרה של האי KK x x 0=

, בדרכים הבאותשוויון המוכלל-לכן ניתן לרשום את האי

K

K

b a

b a 0

b a K

− ∈

,38מוגדרים כקונים המקיימים את התכונות הבאות) proper cone(' טובים 'קונים

1 .Kקבוצה קמורה . 2 .Kקבוצה סגורה . 3 .Kלא קבוצה ריקה . ,aם א. 4 a K− a אז ∋ 0=.

≥,שוויון סקלרי מוגדר -בפרק זה רק אי 37 .≻,שוויונים מוגדרים - וכל שאר האי≤ .הגדרה יותר מפורטת ניתנה בשקפים של ההרצאות 38

200

שלילי - האישוויון וקטורי וקון האורטנט-אי ,naכלומר צמד וקטורים . איבר-שוויון איבר-שוויון וקטורי הוא אי-אי b∈ יקיים nRb a

+ם " אם

,יתקיים

1 1

2 2

n n

b ab a

b a

≥⎧⎪ ≥⎪⎨⎪⎪ ≥⎩

שליליים ולכן הקון -הוא וקטור שכל איבריו הם אי, שוויון וקטורי-במובן של אי, שלילי-וקטור אי

,שלילי- האישוויון הוקטורי הוא האורטנט-המאפיין את האי

n n1 2 nK x x 0, x 0, , x 0 += ∈ ≥ ≥ ≥ =…

,מימדי נגדיר שתי נקודות-עבור המקרה הדו

1 1

2 2

a ba ; b

a b⎡ ⎤ ⎡ ⎤

= =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

,שלילי הוא- האיהאורטנט

2 21 2K x x 0, x 0+= = ∈ ≥ ≥

2Rbשוויון -המשמעות של האי a

+ , היא

1 1

2 2

b ab a≥⎧

⎨ ≥⎩

,למשל3 1

b ; a4 2⎡ ⎤ ⎡ ⎤

= =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

2Rbאי השוויון a+

, מתקיים כי מתקיים3 14 2≥⎧

⎨ ≥⎩

2R+

1x

2x

201

2Rbשוויון הוקטורי היא שאם -המשמעות הגיאומטרית של האי a+

ומימין היא מעל b אז הנקודה .aלנקודה

Error!

2Rbכדי שיתקיים a+

b אז ההפרש a− 2 חייב להיות בתוךR+.

23 1 2b a

4 2 2 +

⎡ ⎤ ⎡ ⎤ ⎡ ⎤− = − = ∈⎢ ⎥ ⎢ ⎥ ⎢ ⎥

⎣ ⎦ ⎣ ⎦ ⎣ ⎦

חשבהנקודה למ

Kbשוויון מוכלל לא חייב להתקיים כי לכל שתי נקודות מתקיים -באי a או Kb a≺) כפי שמתקיים. מנקודה אחרת" גדולה"או " קטנה"כלומר לא תמיד אפשר לקבוע כי נקודה היא ). שוויון הסקלרי-באי

,ל"תי הנקודות הנלמשל עבור אי השוויון הוקטורי וש5 3

b ; a2 4

5 32 4

⎡ ⎤ ⎡ ⎤= =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

≥⎧⎨ ≤⎩

?אבל מי גדול ממי

1a

2⎡ ⎤

• = ⎢ ⎥⎣ ⎦

3b

4⎡ ⎤

• = ⎢ ⎥⎣ ⎦

1x

2x

202

החיובי חצי מוגדר והקוןשוויון מטריצי-אי

KBשוויון -משמעות האי A , כאשרA,B מטריצות [ ]n n× היא שהמטריצה KB A היא −0 , הוא הקון החיובי החצי מוגדרשוויון המטריצי-לכן הקון המאפיין את האי. מטריצה חיובית חצי מוגדרת

n n n K X S X מטריצה חיובית חצי מוגדרת S×

+= ∈ =

?וגדראיך נראה הקון החיובי חצי מ ,x מגדירים פונקציה של וקטור המשתנים Semi Definite Programming -ב

n

i i 1 1 2 2 n ni 1

A(x) x A B x A x A x A B=

= − = + + + −∑ …

,כאשר1

2 m m1, 2 n

n

xx

x ; A A , , A , B S

x

×

⎡ ⎤⎢ ⎥⎢ ⎥= ∈⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

,39דוגמא

3

2 1

S1 2 1 2

2

2 1

2 1

2

1 0 0 1 0 0 x x 0 0A(x) 0 1 0 x 0 1 0 x 0 x x 0 0

0 0 0 0 0 1 0 0 x

x xx xx 0

+

− −⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥= + = +⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦

≥⎧⎪ ≥ −⎨⎪ ≥⎩

,הקון החיובי חצי מוגדר בדוגמא זו נראה כך

.האי שוויונים הסקלריים קובע את מספר אילוצי A(x)נשים לב כי מימד המטריצה 39

1x

2x

3S+

2 1x x=2 1x x= −

203

,)Icecream Coneנקרא גם (nL לורנץקון

[ ]n 1

Tn 21 n 1 n n i

i 1

L x x x x x x−

−=

⎧ ⎫⎪ ⎪= = ≥⎨ ⎬⎪ ⎪⎩ ⎭

, מימדים3למשל עבור

[ ] T3 2 21 2 3 3 1 2L x x x x x x x= = ≥ +

3L

1x

2x

3x

204

דואלייםקונים

,K לקון הקון הדואליהקבוצה הבאה מוגדרת *K y x, y 0, x K= ≥ ∀ ∈

הערותK* מתקיים Kאם לקון - K= אז הקון נקרא דואלי עצמי )self dual.( K**מתקיים ) proper cones(לקונים טובים - K=. אז הקונים האלו 090 של הקון היא של ת הזווי האי שלילי ובקון לורנץמאחר ובקון האורטנט -

.הם דואליים עצמיים

K*K

205

10.1תרגיל

.הוכיחו כי הקון החיובי חצי מוגדר הוא דואלי עצמי

פתרון

nעבור מטריצות סימטריות nS ,כלומר. Traceנשתמש במכפלה הפנימית של , × ( )A, B Tr AB=

, שמקיימותהיחידות Bצריך להוכיח כי המטריצות )1 (( )nSA 0, Tr AB 0

+∀ ≥

,הן המטריצותnSB 0+

כדי להוכיח את הטענה נראה . נחלק את מרחב המטריצות למטריצות חיוביות חצי מוגדרות וכאלה שלא

יובית חצי ואם היא ח) 1( איננה חיובית חצי מוגדרת אז לא מתקיים התנאי Bתחילה כי אם המטריצה ).1(מוגדרת אז כן מתקיים התנאי

1כיוון

Tq שעבורו מתקיים ∋nq אז קיים וקטור איננה מטריצה חיובית חצי מוגדרתB-מאחר ו Bq 0< . Tq-בגלל ש Bqהוא סקלר אז מתקיים ,

T TTr q Bq Tr q q B 0⎛ ⎞ ⎛ ⎞

= <⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠

TAנגדיר qq=כלומר קיימת לפחות מטריצה אחת . וזוהי מטריצה חיובית חצי מוגדרתnSA 0

+

)שעבורה )Tr AB )קובע כי ) 1(אבל התנאי . >0 )Tr AB . מטריצה חיובית חצי מוגדרתלכל ≤0 . איננה חיובית חצי מוגדרת אז לא מתקיים התנאיB אם המטריצה⇐

2כיוון

ולכן ניתן לבטא אותה באופן אז היא גם מטריצה סימטריתחצי מוגדרת היא מטריצה חיובית A-מאחר ו ,הבא

n

Ti i i

i 1A v v

=

= λ∑

iכאשר 0λ .A המטריצה שלע" הוiv- וע" הם הע≤

( ) ( )

( )

nT

i i ii 1

n n n nT T T T

i i i i i i i i i i i ii 1 i 1 i 1 i 1 0 0

Tr AB Tr BA Tr B v v

Tr Bv v Tr Bv v Tr v Bv v Bv 0

=

= = = = ≥ ≥

⎛ ⎞= = λ⎜ ⎟

⎝ ⎠⎛ ⎞⎛ ⎞

= λ = λ = λ = λ ≥⎜ ⎟⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠

∑ ∑ ∑ ∑

.ל.ש.מ

206

בעיות אופטימיזציה עם אילוצי אי שוויון מוכללים

,ניתן להכליל את אילוצי האי שוויון כך שבעיית האופטימיזציה המאולצת תהיה מהצורה

x

K

minimize f(x)

s.t.h(x) 0g(x) 0

=≺

,שרכאn

ni

nj

f :h :

g :

).proper cone( טוב הוא קוןKכאשר

, הואיאן'נזכיר כי הלגרז

m r

i i j ji 1 j 1

L(x, , ) f (x) h (x) g (x)= =

λ µ + λ + µ∑ ∑

כלומר עם אילוצי אי שוויון(ופן כמו עבור הבעיה הסטנדרטית מוגדרת בדיוק באותו אהפונקציה הדואלית

,)'רגילים'

x( , ) min L(x, , )η λ µ λ µ

jבבעיה הסטנדרטית דרשנו שיתקיים 0µ jלכל ≤ 1, , r= mRכלומר , … 0

+µ .וויון מוכלל ש-עבור אי

K*נדרוש שיתקיים 0µ .מדוע?

י הפונקציה "הייתה חסומה מלמעלה ע) בתחום הפיזאבילי (בבעיה הסטנדרטית הפונקציה הדואלית ,הפרימאלית

m r

i i j jx i 1 j 1( , ) min L(x, , ) min f (x) h (x) g (x)

= =

η λ µ = λ µ = + λ + µ∑ ∑

xבתחום הפיזאבילי F∈ מתקיים i jh (x) 0, g (x) 0= j -ומהדרישה ש, ≥ 0µ קיבלנו כי ≤

rT

j jj 1

g (x) g(x) 0=

µ = µ , בתחום הפיזאבילי ולכן∑≥

m r

i i j jx i 1 j 1( , ) min f (x) h (x) g (x) f (x)

x F

= =

η λ µ = + λ + µ ≤

↑∈

∑ ∑

207

,Complementary Slackness-כלומר כל פיתוח הדואליות מסתמך על עקרון הg(x), :בתחום הפיזאבילי מתקיים 0µ ≤.

xבתחום , מוכלליםבבעיית האופטימיזציה הפרימאלית עם אילוצי אי שוויון F∈ מתקיים Kg(x) 0≺ .

jהאם דרישה של 0µ mRכלומר , ≤ 0+

µ תקיים את עקרון complementary slackness?

.התשובה היא לא

דוגמא

xנניח כי בנקודה פיזאבילית F∈מתקיים ,

3R

1 1g(x) 1 ; 1 0

2 0.1+

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥= µ =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦

עבור הוקטור 1

g(x) 12

−⎡ ⎤⎢ ⎥− = −⎢ ⎥⎢ ⎥⎣ ⎦

, מתקיים

( ) ( )2 22 1 1 2≥ − + − = ,ולכן

3L

1g(x) 1 0

2

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥−⎣ ⎦

Tg(x)האם מתקיים 0µ ≤?

[ ]T

1g(x) 1 1 0.1 1 1.8 0

2

⎡ ⎤⎢ ⎥µ = = >⎢ ⎥⎢ ⎥−⎣ ⎦

?Complementary Slackness תקיים את עקרון µשליליות על -איזה דרישת אי, אם כן

K*: התשובה 0µ

, הוגדרניזכר כי הקון הדואלי

*K y x, y 0, x K= ≥ ∀ ∈

. יליתשל- תהיה איK* עם כל נקודה בקון Kבקון ) שהיא וקטור(כלומר המכפלה הפנימית בין כל נקודה ,במקרה שלנו

*

*K

K K

0 Kg(x) 0 g(x) 0 g(x) K⎧µ ⇔ µ∈⎨

⇔− ⇔− ∈⎩ ≺

לכן המכפלה הפנימית בין שני הנקודות . µ היא K* והנקודה בקון −g(x) היא Kכלומר הנקודה בקון

:שלילית-האלו היא אי

208

, g(x) 0

,g(x) 0

µ − ≥

µ ≤

K* מתקיים רק כאשר נדרוש complementary slacknessכלומר עקרון 0µ . זוהי הסיבה להגדרה

. זהים לבעיה הסטנדרטית דואלי ומכאן כל שאר הניתוחים לגבי דואליותשל קון

,זציה הדואלית היאלכן בעיית האופטימי

*

,

K

maximize ( , )

s.t.0

λ µη λ µ

µ

209

10.2תרגיל

. של בעיית תכנות קוניתמהי הבעיה הדואלית

T

x

K

minimize c x

s.t.Ax b

,כאשר

A - מטריצה [ ]m n×.

b -ר וקטו[ ]m 1×.

c - וקטור [ ]n 1×.

יהיה אי שלילי 'נדרוש כי וקטור כופלי הלגרנז. ∋mµ הקשור לאי שוויון 'נגדיר וקטור כופלי לגרנזK*במובן הבא 0µ.

, הואיאן'הלגרז

( ) ( )T T T T TL(x, ) c x Ax b x c A bµ = −µ − = − µ +µ

, היאהפונקציה הדואלית( )T T T

x x

T T

( ) min L(x, ) min x c A b

b, c A 0, else

η µ = µ = − µ +µ =

⎧µ − µ == ⎨

−∞⎩

, היאלכן הבעיה הדואלית

*

T

T

K

maximize b

s.t.A c

0

µµ

µ =µ

,פער הדואליות , פיזאבילית בבעיה הדואלית מתקייםµ פיזאבילית בבעיה הפרימאלית ולכל נקודה xלכל נקודה

f (x) ( )≥ η µ

,פער הדואליות מוגדרT TDualityGap(x, ) f (x) ( ) c x b 0µ = −η µ = − µ ≥

* חזקה אז בפתרון אם קיימת דואליות *x ,µפער הדואליות הוא אפס .

210

10.3תרגיל

?Semidefinite Programming של מהי הבעיה הדואלית

, היאהבעיה הפרימאלית

m

T

x

S1 1 n n

minimize c x

s.t.A(x) x A x A B 0

++ + −…

,כאשר

m m1 nA , ,A ,B S ] מטריצות …∋× ]m m×סימטריות .

x - וקטור [ ]n 1×

c - וקטור [ ]n 1×

] מוגדר כמטריצה Z 'כופל הלגרנז ]m m×סימטרית . , הואיאן'הלגרז

( )( )

( ) ( ) ( )

( )( ) ( )

T1 1 n n

n

i i 1 1 n ni 1

n

i i ii 1

x סקלר לא תלוי ב x סקלר לא תלוי ב

L(x, Z) f (x) Z, A(x) c x Tr Z x A x A B

x c x Tr Z A x Tr Z A Tr ZB

x c Tr ZA Tr ZB

=

=

= + − = − + + − =

⎡ ⎤= − ⋅ + + ⋅ + =⎣ ⎦

= − +

, היאהפונקציה הדואלית

( ) ( )i i

x אחרת

Tr ZB , c Tr ZA 0, i 1, , n(Z) min L(x, Z)

,⎧ − = =⎪η = = ⎨−∞⎪⎩

, היאהבעיה הדואלית( )

( )m

Z

i i

S

maximize Tr ZB

s.t.Tr ZA c , i 1, , nZ 0

+

= = …

mSZנשים לב כי התקבל 0

+ ). self dual( עצמי כי הקון החיובי חצי מוגדר הוא קון

211

Semidefinite Programming

בעיית מינימיזציה של ערך עצמי מקסימלי: 10.4תרגיל

,נתוןn

i i 1 1 2 2 n ni 1

A(x) x A B x A x A x A B=

= − = + + + −∑ …

nכאשר 1 nA , ,A ,B S∈…) כלומר מטריצות סימטריות.(

,בעיית האופטימיזציה היא

maxxminimize A(x)λ

, באופן הבאSDPניתן להמיר בעיה זו לבעיית ונביא למינימום את A(x)ל המטריצה ש שיהווה חסם עליון על הערכים העצמייםtמגדירים סקלר ,כלומר בעיית האופטימיזציה היא. tהחסם העליון

x,tminimize t

s.t.A(x) tI 0− ≺

טענה ,40 סימטריתAעבור מטריצה

A tI 0− ≺ -שקול ל

ii 1, ,nt max

=≥ λ

.Aע של מטריצה " הם העiλכאשר

הוכחה

ע "לכן ניתן לייצגה באמצעות הע. ע שלה ממשיים"היא גם לכסינה והע, היא סימטריתAמאחר ומטריצה ,ע"והו

1A V V−= Λ

ע " היא מטריצה אלכסונית של העΛ- וAע של מטריצה " היא מטריצה שעמודותיה הם העVכאשר )i , i 1, , nλ = Aע של המטריצה "נחשב את הע. Aשל מטריצה ) … tI−,

( ) ( ) [ ]1 1 1 1 1 1 1A tI V V tI V V VV tI VV V tV IV V V tI V− − − − − − −⎡ ⎤− = Λ − = Λ − = Λ − = Λ −⎣ ⎦

Aע של המטריצה "כלומר הע tI− הם i t, i 1, , nλ − = Aש המטריצי "לכן האי. … tI 0− - שקול ל≻

i ii 1, ,ri, t 0 t max

=∀ λ − ≤ ⇔ ≥ λ

.ל.ש.מ

] בשביל הוכחה למטריצה כללית 10.1ראו נספח 40 ]2 . לא בהכרח סימטרית×2

212

Schur Complements

מאי שוויונים אחרים ) Linear Matrix Inequalities(דרך נפוצה מאד לעבור לאי שוויונים מטריצים .Schur complementהיא באמצעות

, הבאה המורכבת מבלוקיםנתונה המטריצה הסימטריתT

T

A BX X

B C⎡ ⎤

= = ⎢ ⎥⎣ ⎦

T מוגדר Schur Complementל"עבור המטריצה הנ 1S C B A B−−) בהנחה כיAרק ). הפיכה

A,Cחייבות להיות מטריצות ריבועיות .

טענה

A אם S אז 0 0 X 0⇔.

הוכחה

Aנניח כי 0 . Xש "האי ,u וקטורים לכל ם" מתקיים אם0 v) בגדלים מתאימים(,

T

T

u A B u0

v B C v⎡ ⎤ ⎡ ⎤ ⎡ ⎤

≥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦

,uתנאי שקול הוא שבמקום לכל וקטורים v לוקטורים , ש מתקיים"האיu, v המביאים את התבנית

,לכן התנאי הבא שקול. ל למינימום"הריבועית הנ ,vלכל וקטור

T

Tu

u A B umin f (u) 0

v B C v⎡ ⎤ ⎡ ⎤ ⎡ ⎤

= ≥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦

,)לשהו הוא קבוע כvכעת (נפתור את בעיית האופטימיזציה הזו

umin f (u)

fתחילה נכתוב מחדש את (u),

TT T T T T

T

T T T T T T T T T

u A B u uf (u) u A v B u B v C

v B C v v

u Au v B u u Bv v Cv u Au 2v B u v Cv

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎡ ⎤= = + + =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

= + + + = + +

213

fקיבלנו כי (u)היא בעיה ריבועית ב -u .שלה וההסיאןנחשב את הגרדיאנט ,

( ) ( )

( )

T

T T T T T T T

TT T Tu

u

A 0 A A

df du Au u Adu 2v B du 2u Adu 2v B du

f 2 u A v B 2 Au Bv

d f 2A 0

⇒ =

= + + = +

∇ = + = +

∇ =

,לכן נקודת המינימום מקיימתu

*

*

* 1

f 0

Au Bv 0

Au Bv

u A Bv−

∇ =

+ =

= −

= −

. הן תמיד הפיכותהשלב האחרון אפשרי כי מטריצות חיוביות מוגדרות

f* חזרה בפונקציה u*-נציב את הביטוי ל (u , ונקבל(

( ) ( )

( ) ( )

* *T * T T * T *T T T * T

T T T * T T T 1 T T 1 T

f (u ) u Au 2v B u v Cv u Bv 2v B u v Cv

v Cv v B u v Cv v B A Bv v C B A B v v Sv− −

= + + = − + + =

= + = + − = − =

, מתקייםvנזכור כי קבענו שלכל וקטור

umin f (u) 0≥

Tv מתקיים vולכן זה שקול לכך שלכל Sv S כלומר ≤0 0.

סיכום הוכחת הטענה

A-הוכחנו שאם X אז0 0 ⇔S .ל.ש.מ. 0

המרה בכיוון הפוך

,י המשפט"ניתן לעבור מאי שוויון מטריצי לאי שוויון אחר ע

X 0⇔A 0S 0⎧⎨⎩

214

)LMI(המרת אי שוויון ריבועי לאי שוויון מטריצי : 10.5תרגיל

,אי השוויון הריבועי הוא

( ) ( )T TAx b Ax b c x d 0+ + − − ≤

Schur Complement, -כדי לעבור לאי שוויון מטריצי נשתמש ב

,נבטא את האי שוויון הריבועי T 1S C B A B 0−= −

Aורק נותר לקבוע את 0,B,C .

,נקבע

T

A I 0

B Ax bC c x d

=⎧⎪

= +⎨⎪ = +⎩

,ונקבל

( ) ( ) ( )

( ) ( )

TT 1 T 1

TT

S C B A B c x d Ax b I Ax b

c x d Ax b Ax b 0

− −= − = + − + + =

= + − + + ≥

,אהזהו בדיוק האי שוויון הריבועי ולכן ניתן לרשום את האי שוויון הריבועי בצורה הב

( )T T

I Ax bX 0

Ax b c x d

⎡ ⎤+⎢ ⎥=⎢ ⎥+ +⎣ ⎦

?SDPכיצד נרשום את האי שוויון המטריצי בצורה הסטנדרטית של

( )n

Ti i 1 1 2 2 n n Ti 1

T

n n ii T

i i

I Ax bA(x) x A B x A x A x A B

Ax b c x d

I bB

b d

0 aA , i 1, , n

a c

=

×

⎡ ⎤+⎢ ⎥= − = + + + − =⎢ ⎥+ +⎣ ⎦

⎧ − −⎡ ⎤=⎪ ⎢ ⎥− −⎣ ⎦⎪⎪

⎨⎪ ⎡ ⎤⎪ = =⎢ ⎥⎪ ⎣ ⎦⎩

∑ …

,כאשר

1 n

| |A a a

| |

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

215

SDP לבעיית QCQPהמרת בעיית : 10.6תרגיל

ופונקצית מטרה ) Quadratically Constrained( היא בעיה בעלת אילוצים ריבועיים QCQPבעיית ).Quadratic Program(ריבועית

0x

i

minimize f (x)

s.t.f (x) 0, i 1, , r≤ = …

,כאשר( ) ( )T T

i i i i if (x) A x b A x b c x d ,i 0,1, , r+ + − − = …

,יון מטריצי כפי שראינו בתרגיל הקודםאילוצי האי שוויון הריבועים ניתנים לרישום כאי שוו

( )i i

T Ti i i i

I A x b0 ,i 1, , r

A x b c x d

+⎡ ⎤=⎢ ⎥

+ +⎢ ⎥⎣ ⎦…

המהווה חסם על פונקצית t הריבועית ללינארית נגדיר שוב משתנה עזר כדי להמיר את פונקצית המטרה

,כלומר. המטרה

( ) ( )

( ) ( )

0

T T0 0 0 0 0

TT0 0 0 0

f (x) t

f (x) A x b A x b c x d t

c x d t A x b A x b 0

= + + − − ≤

+ + − + + ≥

נבטא את האי שוויון Schur Complement.-כדי להמיר אי שוויון זה לאי שוויון מטריצי נשתמש ב

,הריבועי T 1S C B A B−= −

Aורק נותר לקבוע את 0,B,C,

0T

0 0

A I 0B A x b

C c x d t

⎧ =⎪

= +⎨⎪ = + +⎩

,כלומר נקבל( ) ( )TT 1 T 1

0 0 0 0S C B A B c x d t A x b I A x b 0− −= − = + + − + + ≥ .וזהו אכן האי שוויון המקורי

, באופן הבאSDP ניתנת לרישום כבעיות QCQPולסיכום בעיית

( ) ( )

x,t

0 i iT TT T

0 0 0 i i i i

minimize t

s.t.I A x b I A x b

0, 0 ,i 1, , rA x b c x d t A x b c x d

+ +⎡ ⎤ ⎡ ⎤=⎢ ⎥ ⎢ ⎥

+ + + + +⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦…

216

10.7תרגיל

, בעל פונקצית מטרה לינאריתSDPנמיר את בעיית האופטימיזציה הלא לינארית הבאה לבעיית

( )2T

Tx

c xminimize

d x

Tdנניח כי תמיד מתקיים x 0>.

,הבעיה השקולה היא

( )

x,t

2T

T

minimize t

s.t.

c xt

d x≥

,נרשום את האי שוויון מחדש

( )

( ) ( ) ( )

2T

T

T 1T T T

c xt

d x

t c x d x c x 0−

− ≥

Schur Complement ,-שוויון מטריצי נשתמש בכדי להמיר אי שוויון זה לאי

T 1S C B A B−= −

Aורק נותר לקבוע את 0,B,C,

T

T

A d x 0B c xC t

⎧ =⎪

=⎨⎪ =⎩

, השקולה היאSDP-לכן בעיית ה

x,t

T T

T

minimize t

s.t.

d x c x0

c x t⎡ ⎤⎢ ⎥⎣ ⎦

217

10.8תרגיל

,מינימיזציה של הנורמה הבאה של מטריצה

xminimize A(x)

,כאשר

( )( )n1 2T

max i i 1 1 2 2 n ni 1

A A A A(x) x A B x A x A x A B=

λ = − = + + + −∑ …

, על פונקצית המטרהtשוב נגדיר חסם עליון

( )( )1 2Tmaxt A(x) A(x)≥ λ

הערה

aאם t אז האי שוויון ≤0 a≥41 שקול לאי השוויונים :2 2t a

t 0⎧ ≥⎨≥⎩

.

TA(x)העובדה כי + ל "מההערה הנ A(x)ולכן היא מטריצה חיובית חצי מוגדרת

( )( )1 2Tmax A(x) A(x) 0λ ,ל כי נקב≤

( )( )

( )

1 2Tmax

2 Tmax

t A(x) A(x)

t A(x) A(x)

t 0

≥ λ

⎧ ≥ λ⎪⎨≥⎪⎩

, המקסימלי מניב את האי שוויון הבאע"ראינו כי חסם על הע

( )

2 T T T 1

1T

t I A(x) A(x) A(x) IA(x) A(x) I A(x)t 0

tI A(x) tI A(x) 0t 0

⎧ ≥ = =⎨≥⎩

⎧ − ≥⎪⎨≥⎪⎩

,לכן נקבעA tI 0B A(x)C tI

=⎧⎪ =⎨⎪ =⎩

, היאSDP-בעיית האופטימיזציה ברישום מחדש כ

.10.2הוכחה בנספח 41

218

x,tminimize t

s.t.tI A(x)

0A(x) tI

t 0

⎡ ⎤⎢ ⎥⎣ ⎦≥

10.9תרגיל

, לאי שוויון מטריציהמרת אי שוויון לורנץ

n n 2 2n 1 n 1L x x x x −= ∈ ≥ + +…

,נגדיר1

n 1

xx

x −

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

,נמיר את האי שוויון2 2

n 1 n 1

2 2 2 T Tn 1 n 1 n 1 n 1

n

x x x

x x x x x x I xx 0

− − × −

≥ + +

⎧ ≥ + + = =⎪⎨

≥⎪⎩

nxכעת כינניח ונקבל nx-נחלק את שני האגפים בו <0

( ) 1Tn n n 1 n 1

n

x x x I x 0x 0

−− × −

⎧ − ≥⎪⎨

>⎪⎩

,לכןn n 1 n 1

1

n 1

n

A x I 0x

B xx

C x

− × −

=⎧⎪

⎡ ⎤⎪⎪ ⎢ ⎥= =⎨ ⎢ ⎥⎪ ⎢ ⎥⎣ ⎦⎪⎪ =⎩

,X המטריצה

n 1

n 2

3n n 1 n 1TT

nn

n n 1

1 2 3 n 1 n

x 0 xx x

xx I xA BX 0xx xB C

0 x x

x x x x x

− × −

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎡ ⎤⎡ ⎤ ⎢ ⎥= = =⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

nxלב כי אםנשים x אז =0 nxוהנקודה ר מאח .=0 0 L= אז כדי שההוכחה תושלם עלינו לראות ∋

Xל מקיימת"שהנקודה הנ xעבור ,כןא. 0 .ש המטריצי מתקיים בשוויון" האי=0

219

Robust Linear Programming

,ינבחן בעיית תכנות ליניארT

x

Ti i

minimize c x

s.t.a x b , i 1, , m≤ = …

iשבה קיימת אי וודאות בפרמטרים ic,a , b42 . במקרה שבו למען פשטות הדיון נדוןic, b ידועים בוודאות

, ידוע כי נמצא בתוך אליפסהia -ו

i i i i 2a a Pu u 1∈ε = + ≤

.מטריצות חיוביות חצי מוגדרות iP כאשר

הערה

iPמשמעות . ידועים בוודאותia- היא ש=0

, ממדית-המחשה דו

,כלומר. יקיים את אילוצי האי שוויון) worst case(בבעיה זו נדרוש כי המקרה הכי גרוע

T

x

Ti i i i

minimize c x

s.t.a x b , for all a , i 1, , m≤ ∈ε = …

,תנאי זה על האילוצים משמעותו

Ti i i imax a x a b∈ε ≤

42 n

ia R∈ו -ib ,c סקלרים לכל i 1, ,m= ….

2

4 :נתון

i

i

3a

3

2 0P

0 1

⎡ ⎤= ⎢ ⎥⎣ ⎦⎡ ⎤

= ⎢ ⎥⎣ ⎦

3

3 ia

220

,ר את בעיית האופטימיזציה הבאהנפתו

( )T

u

2

maximize a Pu x

s.t.u 1

+

:הפעם נפתור את הבעיה מכיוון שונה

נשים לב כי T

a xאינו תלוי ב -u ולכן נותר לנו למקסם את הביטוי ( )Tu Px תחת האילוץ 2

u 1≤ .Pxל משמעותו" הוא וקטור והביטוי הנ,

המקיים uעבור איזה וקטור 2

u ) נקבל את המכפלה הפנימית הכי גדולה ≥1 )u, Px? uהתשובה היא כאשר Px= α) 0α ל תהיה "כך המכפלה הפנימית הנ, יהיה יותר גדולα-ככל ש). <

יותר גדולה ולכן האילוץ 2

u : כלומר. הוא אקטיבי≥12

PxuPx

=.

,לכן מתקיים

( )T

T T T TT2

2

Pxa Pu x a x u Px a x Px a x PxPx

⎛ ⎞+ = + = + = +⎜ ⎟⎜ ⎟

⎝ ⎠

סיכום

, הרובסטי היאיבעיית התכנות הליניאר

T

x

T

i2

minimize c x

s.t.

a x Px b , i 1, ,m+ ≤ = …

. תכנות קוני עם קון לורנץתבעיה זו ניתנת לרישום כבעיי

המשמעות של האיבר 2

Px כלומר הוא מגביל את , "איבר רגרלרוזציה" היא שלx בכיוונים שבהם .האי וודאות גדולה

המחשה

1

2

xx

x

1 0P

0 1000

⎧ ⎡ ⎤=⎪ ⎢ ⎥

⎪ ⎣ ⎦⎨

⎡ ⎤⎪ = ⎢ ⎥⎪ ⎣ ⎦⎩

. היא גבוהה2x-כלומר אי הוודאות ב

1 1 2 6 21 22

2 22 2

x x1 0Px x 10 x

x 1000x0 1000⎡ ⎤ ⎡ ⎤⎡ ⎤

= = = + ⋅⎢ ⎥ ⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦

ולכן כדי לקיים את האילוץ

T

i2a x Px b+ .בעלי ערך נמוךים -2x אז חייבים לבחור ≥

221

SVM אלגוריתם -דוגמא מסכמת. 11

זיהוי תבניות: מבוא

תחום זיהוי התבניות עוסק בבעיות שבהן צריך לסווג אובייקטים לקטגוריות שונות על סמך לימוד בשלב אימון . זהות אותיות היא היכולת של ילדים ללמוד לדוגמא טבעית של זיהוי תבניות. ממדידות

הילדים לבסוף מזהים . מראים לילדים דוגמאות רבות של אותיות ומדריכים אותם איזה אותיות הם רואים . את הצורות של האותיות וכאשר יראו דוגמאות חדשות הם יוכלו לזהות את האותיות

למשל רופא הנדרש לקבוע אם . מידי בשביל אדם שהן מסובכות קיימות בעיות רבות של זיהוי תבניותהרופא צריך להתבסס על מספר רב של מאפיינים כמו לחץ . לשלוח אדם לבדיקות יקרות לגילוי מחלה

. 'היסטוריה של מחלות במשפחה וכו, כמות כדוריות דם אדומות, דם . גיע להחלטהבבעיות מעשיות רבות מגיעים לעשרות ומאות מאפיינים שבהסתמך עליהם צריך לה

הסכמה הכללית של זיהוי תבניות

דוגמא

?כיצד מחשב יוכל לזהות את אוסמא בין לאדןותמונות רבות של ', 1'בשלב האימון ניתן למחשב תמונות רבות של אוסמא שנתייג אותן כקטגוריה

בשלב מיצוי המאפיינים נבחר מאפיינים שקשה לזייף כמו . '-1'ן כקטגוריה אנשים אחרים שנתייג אות . המרחק בין העיניים והמרחק בין קצות השפתיים

הוצאת מאפיינים

שלב האימון

מדידות אימון

אימון על המדידות המביא

למינימום קריטריון סיווג עתידי שגוי

שמירת הפרמטרים המביאים למינימום

מדידות חדשות

ס "סיווג עהפרמטרים

שנקבעו באימון

תוצאות הסיווג

שלב סיווג מדידות חדשות

222

:מסווג המדידות החדשות יהיה . זהו אוסמא-' 1'אם המדידה החדשה בתוך האליפסה הסגולה אז החלט

. זהו איננו אוסמא-' -1'יפסה הסגולה אז החלט אם המדידה החדשה מחוץ לאל

מאפיינים מיצוי

x –1' - מדידות של אוסמא' o –1 '- מדידות של לא אוסמא- '

223

43 בין שתי קטגוריות מחפש פונקצית הפרדהSVM-אלגוריתם ה . על סמך מדידות אימון−1,1 :באופן פורמלי

,נתון סט מדידות אימון

( ) ( ) 1 1 L L nD x , y , , x , y , x , y 1,1= ∈ ∈ −…

.Dס המדידות " האימון הפרמטרים נקבעים עבשלב

f: קיימת פונקצית הפרדה (x,parameters). , באופן הבאxהמסווג יסווג מדידה חדשה

if f (x,parameters) 0 '1'if f (x,parameters) 0 ' 1'

≥ ⇒< ⇒ −

,משתמש בפונקצית הפרדה לינארית SVM-אלגוריתם ה

Tf (x) w x b= + ,והפרמטרים הם

w- וקטור [n 1]× b-סקלר

, לינארית חוצה את מרחב המאפיינים לשני חצאיםפונקצית הפרדה

,המסווג של מדידות חדשות יהיהTsign(w x b)+

: מקרים3- לSVMנחלק את פיתוח אלגוריתם להפרדה בצורה לינארית ללא שגיאות אימוןתמדידות אימון ניתנו. 1 ימוןללא שגיאות א להפרדה בצורה לינאריתתמדידות אימון אינן ניתנו. 2 יהרחבה למקרה לא ליניאר. 3

. בדיון זה נתמקד רק בסיווג בין שתי קטגוריות אך קימות הרחבות לסיווג בין יותר משתי קטגוריות 43

x

x

x

x

x

x

o

o o

o

o

1x

2x

Tw x b 0+ ≥

Tw x b 0+ <Tw x b 0+ =

w

224

מדידות אימון ניתנות להפרדה בצורה לינארית ללא שגיאות אימון. 1

ממדית כי קיימים אינסוף קווי הפרדה אשר יסווגו את מדידות האימון ללא -ניתן לראות מהדוגמא הדוג מדידות חדשות כלומר הוא יסוו, אך המטרה היא למצוא קו הפרדה המבצע הכללה הכי טובה. טעויות

. בצורה הכי טובה

עדיף ) סגול(מבין שלושת קווי ההפרדה המתוארים בגרף אינטואיטיבית ברור לנו כי קו ההפרדה העבה א מישור המבי-ההפרדה האופטימלי כעל) hyper-plane (מישור-נגדיר את על. על קווי ההפרדה האחרים

למעשה ברור כי בהינתן . ל לבין נקודת המדידה הכי קרובה"מישור הנ-למקסימום את המרחק בין העל .על מישור ההפרדה יעבור באמצע, הכי קרובות לעל המישור אז, מקטגוריות שונות, שתי נקודות מדידה

,מישור היא-משוואת העלTw x b 0+ =

,מישור ההפרדה הוא- מעלxהמרחק של נקודה Tw x b

d(w,b, x)w+

=

-מישור מאחר ואפשר לכפול בקבוע שונה מאפס ולקבל את אותו על-קיימת יתירות בהגדרת משוואת העל

. מישור

xx

xx x

xo

o

o

o

o

1x

2x

x

x x

x xx

oo

o o

o

2x

1x

225

:מל באופן הבאמישור המנור-מישור קנוני הוא על-לכן נקבע כי עלT i

imin w x b 1+ =

ההפרדה לבין נקודת המדידה הקרובה ביותר אליו מישור-ל הוא שהמרחק בין על"משמעות הנרמול הנ

1 -תהיה שווה לw

נרמול זה עדיף על אלטרנטיבות אחרות מפני שהוא יקל על ניסוח בעיית .

.ימיזציההאופט

,על מישור קנוני המצליח להפריד בצורה מושלמת חייב לקיים את האילוצים הבאים

( )i T iy w x b 1, i 1, ,L+ ≥ = … הסבר

iyבגלל שההפרדה היא ללא שגיאות אז עבור ) נקבל =1 )T iw x b 0+ בגלל הנרמול . <

( )T iw x b 1+ ): ולכן מתקיים ≤ )i T iy w x b 1+ ≥.

iy בגלל שההפרדה היא ללא שגיאות אז עבור 1= ) נקבל − )T iw x b 0+ בגלל הנרמול . >

( )T iw x b 1+ ≤ ): ולכן מתקיים− )i T iy w x b 1+ ≥.

)לכן משמעות קיום האילוצים )i T iy w x b 1, i 1, ,L+ ≥ = היא שהמידע ניתן להפרדה ללא שגיאות … . וגם מתקיים הנרמול שקבענו

2x

x

x

x x x

x

o

o o

o o

1x

Tw x b 1+ ≤ −

Tw x b 1+ ≥

Tw x b 0+ =

1w

1w

x

226

, מוגדר באופן הבאmargin (ρ(המרווח

i i i i

i i

x :y 1 x :y 1

2(x, w, b) min d(w, b, x ) min d(w, b, x )w=− =

ρ = + =

, מכסימליρנימיזציה שלה מביאה למרווח נגדיר בעיית אופטימיזציה פרימאלית שמי

( )

2

2w,b

i T i

1minimize w2

s.t.

y w x b 1, i 1, ,L+ ≥ = …

. םזוהי בעיה ריבועית עם אילוצים ליניאריי

nנשים לב כי מספר המשתנים הוא הוא כמספר כלומר מספר המשתנים. L ומספר האילוצים הוא +1 . ומספר האילוצים הוא כמספר המדידות1+ המאפיינים

,נעבור לרישום מטריצי

1 11

1 LL

L LL

| | y y 0 1X x x ; y ; Y ; ; 1

| | y 0 y 1

⎡ ⎤ ⎡ ⎤ ⎫µ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎪⎢ ⎥ ⎢ ⎥ ⎢ ⎥µ ⎬⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥

⎪⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥µ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎭⎣ ⎦ ⎣ ⎦

,ממדים

w - וקטור [ ]n 1×

X - מטריצה [ ]n L×

y - וקטור [ ]L 1×

Y -מטריצה אלכסונית [ ]L L×

µ -וקטור כופלי לגרנז ' [ ]L 1×

] וקטור המורכב מאחדים - 1 ]L 1×

, ברישום מטריציהבעיה הפרימאלית

( )

T

w,b

T

1minimize w w2

s.t.

Y X w b1 1+ ≥

*בהינתן פתרון בעיה זו *w ,bהמסווג יהיה :*T *sign(w x b )+.

227

בעיה הדואליתה

. וננסח את המסווג באמצעות פתרון הבעיה הדואליתנפתח את הבעיה הדואלית

,יאן'הלגרז

( )( )T T T1L(w,b, ) w w Y X w b1 12

µ = −µ + −

,הפונקציה הדואלית

( )( )T T T

w,b w,b

T T T T T

w,bb -תלוי רק ב

w -תלוי רק ב

1( ) min L(w, b, ) min w w Y X w b1 12

11 min w w YX w Yb12

η µ = µ = −µ + − =

= µ + −µ − µ

,wתחילה נבצע מינימיזציה לפי

( )

( )

T T T T T T

TT T Tw

2ww

w

dL w dw YX dw w YX dw

L w YX w XY

L I 0

L 0

w XY

= −µ = −µ

∇ = −µ = − µ

∇ = >

∇ =

⇓= µ

w חיובי מוגדר אז מאחר וההסיאן XY= µיאן ונקבל כי הביטוי 'נציב חזרה בלנגרז. אכן נקודת מינימום

,לפונקציה הדואלית כעת הוא

( ) ( ) ( )TT T T T

bb -תלוי רק ב

yTT T T

bb -תלוי רק ב

TT T T

1( ) 1 min XY XY YX XY Yb12

1 YX XY 1 min b Y12

1 YX XY 1 , y 02,otherwise

η µ = µ + µ µ −µ µ − µ =

= − µ µ + µ + − µ + =

⎧− µ µ + µ µ =⎪= ⎨⎪−∞⎩

228

, היאלכן הבעיה הדואליתTT T

T

1minimize YX XY 12

s.t.y 0

0

µµ µ − µ

µ =µ ≥

סיכום הבעיה הדואלית

. ם ואי שוויון ליניארייקיבלנו בעיה ריבועית חדשה בעלת אילוצי שוויון

L ומספר האילוצים הוא L בבעיה הדואלית מספר הנעלמים הוא כ מספר המדידות גדול בהרבה "בד. +1 .ממספר המאפיינים ולכן בשלב זה עדיף לפתור את הבעיה הפרימאלית

, בל כי לכל הנקודות שעבורן אילוצי האי שוויון אקטיביים נקcomplementary slacknessמעיקרון )כלומר )i T iy w x b 1+ נקודות מדידה אלו נקראות . שלהם אינם מתאפסים'אז כופלי הלגרנז, =

Support Vectors .נקודות אלו הן הנקודות הנמצאות על גבול המרווח ולכן מספר ה-SVק כ הוא ר" בדכלומר . ההפרדהמישור-המשמעות היא שרק חלק קטן מהמדידות קובע את על. חלק קטן ממספר המדידות

. היינו מקבלים את אותה התוצאהSVאם היינו מסירים את כל נקודות המדידה שאינן

? כדי להגדיר את המסווגµ*כיצד נשתמש בפתרון ,תנאים מסדר ראשון לנקודת אופטימוםנשתמש ב

wL 0 w XY∇ = ⇒ = µ ,ולכן

* *w XY= µ

, מהמשוואהb* האילוץ הוא אקטיבי ולכן נחלץ את Support Vector שהיא ixעבור נקודת מדידה

( )i *T iy w x b 1+ =

229

ללא שגיאות אימון מדידות אימון אינן ניתנות להפרדה בצורה לינארית. 2

): כעת אי אפשר לקיים את האילוצים )i T iy w x b 1+ מפני שמשמעות אילוץ זה היא שמדידות ≤ .ללא שגיאות אימון להפרדה בצורה לינאריתתהאימון ניתנו

.אבל רק כאשר חייבים, ל"את האילוצים הנ" להגמיש"דרך הטיפול במקרה זה היא slack variables( i(לכן נגדיר משתני דמה 0, i 1, ,Lξ ≥ = , והאילוצים המוגמשים הם…

( )i T i

iy w x b 1+ ≥ −ξ ,כלומרiyעבור 1=:

T iiw x b 1+ ≥ −ξ

iyעבור 1= −: T i

iw x b 1+ ≤ − + ξ

משמעות ההגמשה הזו היא שאנו נותנים לחלק מהנקודות להפר את אילוצי ההפרדה הקשוחים ולכן נוכל . ההפרדה וגם נקודות בתוך המרווחמישור-למצוא נקודות בצד הלא נכון של על

. רצוי שבעיית האופטימיזציה תוגדר כך שמספר הנקודות האלה יהיה מינימלי

x

x

x x x

x

o

o o

o o

1x

2x

Tw x b 1+ ≤ −

Tw x b 1+ ≥

Tw x b 0+ =

x

o

230

, מקרים3ישנם ? iξמהי המשמעות הגיאומטרית של 1.i 0ξ מישור-ו בצד הנכון של עלא) עיגול מקוקו שחור(נקודת המדידה נמצאת על השוליים : =

.ההפרדה 2.i0 1< ξ ).עיגול מקוקו סגול(נקודת המדידה נמצאת בתוך המרווח אבל עדיין בצד הנכון : ≥3.i 1ξ ). ל מקוקו כחולעיגו( ההפרדה מישור-נקודת המדידה נמצאת בצד הלא נכון של על: <

iיהיו טעויות בסיווג כאשר 1ξ ,לכן מספר טעויות הסיווג באימון הוא. <

( )L

ii 1

#errors I 1=

= ξ >∑

הצעה ראשונית

, הבאהנבצע מינימיזציה על הפונקציה הפרימאלית

( )

( )

L2

i2w,b, i 1מספר שגיאות אימון קטן הפרדה מקסימלית

i T ii

i

1minimize w C I 12

s.t.

y w x b 1 , i 1, ,L

0, i 1, ,L

ξ =

+ ξ >

+ ≥ −ξ =

ξ ≥ =

גדול יהיה חשוב שהפתרון יניב מספר Cלמשל עבור . הוא המשקל שניתן לשגיאות אימוןCכאשר

. מועט של שגיאות אימון וזאת גם על חשבון ההפרדה

!לא קמורההבעיה היא שפונקצית המטרה

2x

x

x

x x x

x

o

o o

o o

1x

Tw x b 1+ ≤ −

Tw x b 1+ ≥

Tw x b 0+ =

x

o

o x

231

הצעה שניה )י להפוך את הבעיה לקמורה נחליף את כד )iI 1ξ ,iξ בחסם עליון שלו <

,היא) והקמורה( החדשה הבעיה הפרימאלית

( )

L2

i2w,b, i 1

i T ii

i

1minimize w C2

s.t.

y w x b 1 , i 1, ,L

0, i 1, ,L

ξ =

+ ξ

+ ≥ −ξ =

ξ ≥ =

nנשים לב כי מספר המשתנים הוא 1 L+ .2L ומספר האילוצים הוא +

,ברישום מטריצי

1 1

1 1 11 L

L

L LL L L

| | y y 0 1X x x ; y ; Y ; ; ; ; 1

| | y 0 y 1

⎡ ⎤ ⎡ ⎤ ⎫µ λ ξ⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎪⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥µ = λ = ξ = = ⎬⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥

⎪⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥µ λ ξ⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎭⎣ ⎦ ⎣ ⎦

,ממדים

X - מטריצה [ ]n L×

y - וקטור [ ]L 1×

Y -מטריצה אלכסונית [ ]L L×

µ -וקטור כופלי לגרנז ' [ ]L ) של האילוצים ×1 )i T iiy w x b 1+ ≥ −ξ.

λ -וקטור כופלי לגרנז ' [ ]L i של האילוצים ×1 0ξ ≥.

] וקטור המורכב מאחדים - 1 ]L 1×

1

( )iI 1ξ >

1

232

, ברישום מטריציהבעיה הפרימאלית

( )

TT

w,b,

T

1minimize w w C12

s.t.

Y X w b1 1

0

ξ+ ξ

+ ≥ −ξ

ξ ≥

,יאן'הלגרנז

( )( )

( )

TT T T T

T TT T T T T T

b -תלוי רק ב- תלוי רק ב w -תלוי רק ב

1L(w, b, , , ) w w C1 Y X w b1 12

11 w w YX w Yb1 C12

ξ

ξ µ λ = + ξ −µ + − + ξ −λ ξ =

= µ + −µ − µ + −µ −λ ξ

של הבעיה הניתנת להפרדה לינארית הוא שכעת נוסף איבר יאן'יאן לעומת הלגרנז'ההבדל היחידי בלנגרז

,הפונקציה הדואלית. ξהתלוי בוקטור המשתנים

( )

w,b,

T TT T T T T T

w,b,b -תלוי רק ב- תלוי רק ב w -תלוי רק ב

( , ) min L(w, b, , , )

11 min w w YX w b Y1 C12

ξ

ξ

ξ

η µ λ = ξ µ λ =

= µ + −µ − µ + −µ −λ ξ =

( )T T T TTT T

T TT T T T T

C1 , y 01 YX XY 1 min2 ,otherwise

1 YX XY 1 , y 0 and C1 02,otherwise

ξ

⎧ −µ −λ ξ µ =⎪= − µ µ + µ + =⎨−∞⎪⎩

⎧− µ µ + µ µ = −µ −λ =⎪= ⎨⎪−∞⎩

, היאלכן הבעיה הדואלית

TT T

,

T

1minimize YX XY 12

s.t.y 0

C1 000

µ λµ µ − µ

µ =−µ −λ =

µ ≥λ ≥

לכן הבעיה . ק בשני אילוצים שאותם ניתן לאחד איננו מופיע בפונקצית המטרה אלא רλנשים לב כי

,הבאה היא שקולה

נשתמש בתוצאות שקיבלנו עבור הבעיה הניתנת להפרדה לינארית

233

TT T

T

1minimize YX XY 12

s.t.y 0

C1 00

µµ µ − µ

µ =−µ ≥

µ ≥

,ברישום יותר נוח

TT T

T

1minimize YX XY 12

s.t.y 0

0 C

µµ µ − µ

µ =≤ µ ≤

ם מלמעלה מוגבלי' הזו לקודמת הוא שכעת כופלי הלגרנזקיבלנו כי ההבדל היחידי בין הבעיה הדואלית

2L ומספר האילוצים הוא Lנשים לב כי מספר המשתנים הוא . Cי "ע . n-כלומר אין תלות ב, +1Lבבעיה הפרימאלית מספר המשתנים הוא n 1+ ל "ולכן עבור המקרה הנ, 2Lספר האילוצים הוא ומ+

.רצוי לפתור את הבעיה הדואלית

?ס פתרון הבעיה הדואלית במקרה זה"מהו המסווג ע

נקבל את) complementary slacknessכולל עיקרון(מתנאים מסדר ראשון על נקודת אופטימום , המשוואות הבאות

( )( )i i

i T ii i

i i

w

0 (1)

y w x b 1 0 (2)

C (3)L 0 (4)

λ ξ =⎧⎪µ + − + ξ =⎪⎨µ + λ =⎪⎪∇ =⎩

* לא השתנתה ולכן עדיין מתקיים w- ביאן'התלות של הלגרנז *

wL 0 w XY∇ = ⇒ = µ.

בבעיה הדואלית לכן נבחר iµם לב כי נתון לנו רק את תחילה נשי(2) ממשוואה bכדי לחלץ את iנקודות מדידה שעבורן נדע כי בוודאות מתקיים 0ξ iאך כיצד נדע איזה נקודות מקיימות . = 0ξ אם =

iנקודות שעבורן לכל ה-? iµרק נתון לנו Cµ i מתקיים > 0ξ =.

הוכחה

i i i

(3) (1)C 0 0µ < ⇒ λ > ⇒ ξ =

i נדרוש כי (2) ממשוואה bבנוסף ברור כי כדי לחלץ את 0µ ודת מדידה שעבורה ולכן אם ניקח נק<

i0 C< µ ,44 מהמשוואהb* אז ניתן לחלץ את >

( )i T i * i *T iy w x b 1 0 b y w x+ − = ⇒ = −

i0בפועל מקובל לבצע מיצוע על כל הנקודות המקיימות 44 C< µ . דיוקים נומריים- בגלל אי>

234

יהרחבה למקרה לא ליניאר. 3

לכן תחילה נבצע . כדי להניב תוצאות טובותיבמציאות רוב הבעיות חייבות מסווג לא ליניאר . יהיה מתאיםיארית לממדים יותר גבוהים שבהם המסווג הליניארטרנספורמציה לא לינ

דוגמא

, לאחר הטרנספורמציה הלא לינארית היאהבעיה הפרימאלית

( )

L2

i2w,b, i 1

i T ii

i

1minimize w C2

s.t.

y w (x ) b 1 , i 1, ,L

0, i 1, ,L

ξ =

+ ξ

Φ + ≥ −ξ =

ξ ≥ =

, היא45 בצורה של סכומיםהבעיה הדואלית

L L L

i j i ji j i

i 1 j 1 i 1

Li

ii 1

i

1minimize y y x , x2

s.t.

y 0

0 C,i 1, ,L

µ = = =

=

µ µ − µ

µ =

≤ µ ≤ =

∑∑ ∑

∑…

.α-וחלף ב מµבמאמרים רבים המשתנה 45

o o

o o

o o

o

o

x x x

x x

x x

x x

x

x

x x

x x

(x)Φ⇒

x

xx

x

x x x x

x x

xx

o o

o o

o o

2 3

211

12 1 2

2 23 2

:

xzx

z 2x xx

z x

Φ →

⎡ ⎤⎡ ⎤ ⎢ ⎥⎡ ⎤ ⎢ ⎥→ = ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎢ ⎥⎢ ⎥⎣ ⎦ ⎢ ⎥⎣ ⎦

1x

2x1z

2z

3z

235

, לאחר הטרנספורמציה הלא לינאריתהבעיה הדואלית

L L Li j i j

i j ii 1 j 1 i 1

Li

ii 1

i

1minimize y y (x ), (x )2

s.t.

y 0

0 C,i 1, ,L

µ = = =

=

µ µ Φ Φ − µ

µ =

≤ µ ≤ =

∑∑ ∑

∑…

כ ממד זה גדול בהרבה "בד. Φ(x) שווה לממד של wנשים לב כי בבעיה הפרימאלית ממד המשתנה בבעיה הדואלית ). מספר הדוגמאות (Lוגם מממד ) מספר המאפיינים (xדרי גודל מאשר מממד של ס

2L(וגם מספר האילוצים ) L(מספר המשתנים ניתן לפתור , לכן מעשית. Φ(x)איננו תלוי בממד) +1 .רק את הבעיה הדואלית

i בין שני וקטורים ארוכים מאד בבעיה הדואלית עדין צריך לבצע מכפלה פנימית j(x ), (x )Φ Φ . כדי .11.1המפורט בנספח ) Kernel (להתגבר על בעיה זו משתמשים במושג הגרעין

236

נספחים

הוכחת נוסחת הקירוב של פונקציה ריבועית עבור אלגוריתם : 3.1נספח גישת האינטרפולציה

( ) ( )

( )

( )

2k k k

k

k k

k 1 k 1

k k 1 k k 1 k k 1

k k 1

k k 1

k k 1 k k 1k

k k 1 k k 1

f ( ) a b c

f ( ) 2a

f ( ) 2a bf ( ) 2a b

f ( ) f ( ) 2a b 2a b 2a

f ( ) f ( )a2

f ( ) f ( ) f ( ) f ( )f ( ) 2a 22

− −

− − −

− −

− −

α = α + α +

⇓′′ α =

′ α = α +⎧⎨ ′ α = α +⎩⇓′ ′α − α = α + − α + = α −α

⇓′ ′α − α

=α −α

⎛ ⎞′ ′ ′ ′α − α α − α′′⇒ α = = =⎜ ⎟⎜ ⎟α −α α −α⎝ ⎠

238

הוכחת נוסחת הקידום של אלגוריתם ההתאמה הריבועית: 3.2נספח

1דות נמדוד את ערך הפונקציה בשלוש נקו 2 3α < α < α ) במקוםa b c< ,a- בגלל ש> b,c הם משוואות כאשר שלושת הנעלמים הם מקדמי הפולינום 3ונקבל ) השמות של המקדמים של הפולינום

(a, b,c),

( )( )( )

21 1 1

22 2 2

23 3 3

f ( ) a b c 1

f ( ) a b c 2

f ( ) a b c 3

⎧ α = α + α +⎪⎪ α = α + α +⎨⎪

α = α + α +⎪⎩

)*נימום של פונקציה ריבועית נקודת המי )αהיא ,

( )

*

*

f ( ) 2a b 0

b a 02a

′ α = α + =

⇒ α = − ≠

,cניפטר מהמשתנה

( ) ( ) ( )( ) ( ) ( )

2 23 2 3 2 3 2

2 23 1 3 1 3 1

3 2 f ( ) f ( ) a( ) b( ) 4

3 1 f ( ) f ( ) a( ) b( ) 5

− ⇒ α − α = α −α + α −α

− ⇒ α − α = α −α + α −α

,aנחלץ את

,bנחלץ את

( )

( )

( )

( )( ) ( )

3 1

3 2

2 23 2 3 1 3 2 3 1 3 2 3 1

2 23 1 3 2 3 1 3 2 3 1 3 2

2 2 2 23 2 3 1 3 1 3 2 3 2 3 1 3 1 3 2

4 ( )

5 ( )

f ( ) f ( ) ( ) a( )( ) b( x )( )

f ( ) f ( ) ( ) a( )( ) b( )( )

f ( ) f ( ) ( ) f ( ) f ( ) ( ) a ( )( ) ( )( )

⋅ α −α

⋅ α −α

α − α α −α = α −α α −α + α − α −α

α − α α −α = α −α α −α + α −α α −α

⎡ ⎤α − α α −α − α − α α −α = α −α α −α − α −α α −α⎣

( ) ( )3 2 3 1 3 1 3 22 2 2 2

3 2 3 1 3 1 3 2

f ( ) f ( ) ( ) f ( ) f ( ) ( )a

( )( ) ( )( )

⎦⇓

α − α α −α − α − α α −α=

α −α α −α − α −α α −α

239

,α*-נציב בביטוי ל

( ) ( )( ) ( )

[ ]

*

2 2 2 23 2 3 1 3 1 3 2

3 2 3 1 3 1 3 2

2 2 2 2 2 2 2 21 3 2 2 1 3 3 3 1 3 2

1 3 2 2 1 3 3 3 1 3 2

b2a

f ( ) f ( ) ( ) f ( ) f ( ) ( )12 f ( ) f ( ) ( ) f ( ) f ( ) ( )

f ( )( ) f ( )( ) f ( ) ( ) ( )12 f ( )( ) f ( )( ) f ( ) ( ) ( )

1

α = − =

α − α α −α − α − α α −α= =

α − α α −α − α − α α −α

⎡ ⎤α α −α + α α −α + α α −α − α −α⎣ ⎦= =α α −α + α α −α + α α −α − α −α

=2 2 2 2 2 2

1 3 2 2 1 3 3 2 1

1 3 2 2 1 3 3 2 1

f ( )( ) f ( )( ) f ( )( )2 f ( )( ) f ( )( ) f ( )( )

α α −α + α α −α + α α −αα α −α + α α −α + α α −α

.ל.ש.מ

( )

( )

( )

( )( ) ( )

2 23 1

2 23 2

2 2 2 2 2 2 2 23 2 3 1 3 2 3 1 3 2 3 1

2 2 2 2 2 2 2 23 1 3 2 3 1 3 2 3 1 3 2

2 2 2 2 2 23 2 3 1 3 1 3 2 3 2 3 1

4 ( )

5 ( )

f ( ) f ( ) ( ) a( )( ) b( )( )

f ( ) f ( ) ( ) a( )( ) b( )( )

f ( ) f ( ) ( ) f ( ) f ( ) ( ) b ( )( )

⋅ α −α

⋅ α −α

α − α α −α = α −α α −α + α −α α −α

α − α α −α = α −α α −α + α −α α −α

α − α α −α − α − α α −α = α −α α −α

( ) ( )

2 23 1 3 2

2 2 2 23 2 3 1 3 1 3 2

2 2 2 23 2 3 1 3 1 3 2

( )( )

f ( ) f ( ) ( ) f ( ) f ( ) ( )b

( )( ) ( )( )

⎡ ⎤− α −α α −α⎣ ⎦⇓

α − α α −α − α − α α −α=

α −α α −α − α −α α −α

240

4.1 נספח ,הוא גודל הצעד האופטימלי :.ל.צ

T* k k

k k k kTk k

d d ; d g b Qxd Qd

α = = − = −

הוכחה

,נזכור כי נוסחת העדכון היא

( )k 1 k k k

k 1 k k k

x x b Qx

x x d

+

+

= + α −

⇓= +α

): כלומר בעית האופטימיזציה היא ) k

*k k 1arg min f x +

αα =

( )

( ) ( ) ( )

( ) ( ) ( ) ( ) ( )

( )

( ) ( )

T Tk 1 k 1 k 1 k 1

T Tk k k k k k k k k

T

T T Tk 1 k k k k k k k k k k k k

T Tk k k k k k

TT T T Tk k k k k k k k k k

T Tk k k k k k

1f x x Qx x b c2

1 x d Q x d x d b c2

Q Q

1df x d d Q x d x d Q d d b d d2

x d Qd b d d

g x d Qd b d d Q x d d b 0

d Qx d Qd d

+ + + +

+

= − + =

= +α +α − +α +

=

⎡ ⎤= α +α + +α α − α =⎣ ⎦

⎡ ⎤= + α − α⎣ ⎦⇓

⎡ ⎤= +α − = +α − =⎣ ⎦

+α −

( ) ( )

T

T T Tk k k k k k k

b 0

d Qd d b Qd d d

=

α = − =

Tהביטוי

k kd Qdשל המטריצה ועית הוא התבנית הריב Q . אם הוקטורkd * - זה אומר ש =0kx x= .

kdלכן עבור T אז היא מטריצה חיובית מוגדרתQ - ומאחר ו≠0k kd Qd ן ניתן לחלק את שני לכ. <0

,האגפים ולקבלT

* k kk T

k k

d dd Qd

α =

241

,הראות כי זוהי אכן נקודת מינימוםכעת נותר ל

k

Tk k k k

H

Tk k k

dg d Qd

H d Qd 0

= α

= >

.ל.ש.מ

4.2נספח

משפט1אם סט הווקטורים kd , ,d… הוא Qצמוד אז הוא גם בלתי תלוי לינארית .

הוכחה

,מבינציה לינארית של שאר הוקטורים כקוkdנניח בשלילה כי ניתן לבטא את הוקטור

k 1 1 k 1 k 1d d d− −= α + +α…

T נכפיל את שני האגפים ביטוי

kd Q ונשתמש בצימודQ של kdו - jd עבורj 1, , k 1= −…,

T T Tk k 1 k 1 k 1 k k 1d Qd d Qd d Qd− −= α + +α…

kd -אבל תוצאה זו איננה אפשרית מאחר ו .קיבלנו סתירה. היא מטריצה חיובית מוגדרתQ- ו≠0 .ל.ש.מ

242

4.3נספח

טענה

י הכיוונים "מרחב שנפרש ע-האלגוריתם מוצא את נקודת המינימום שנמצאת בתת) k(בכל איטרציה 0הצמודים kd , ,d… .כלומר,

k

k 1x M

x arg min f (x)+∈

=

:כאשר( )k 0 0 kM x subspace spanned by d , ,d= + …

.n כולו יהיה המרחבn ,kMלכן כאשר נגיע לאיטרציה

הוכחת הטענה

: בחירת גודל הצעד האופטימלי משמעותה שהנגזרת הכיוונית מתאפסת

( ) ( ) ( ) ( )Ti id i 1 d i i i 1 i

f x df x f x d f x d 0+ +

∂ + α′ ′= +α = = ∇ =∂α

iלכל , ועבור הבעיה הריבועית 0, , k 1= −…,

( )TTk 1 i k 1 if (x ) d Qx b d+ +∇ = −

,משוואת הקידום הרקורסיבית מתקייםניזכר כי מk

k 1 k k k i 1 j jj i 1

x x d x d+ += +

= + α = = + α∑…

,יטוי הזה ונקבלנציב את הב( ) ( )

( )

( )

T T T Tk 1 i k 1 i k 1 i i

Tk

Ti 1 j j i i

j i 1

TkT T T T

i 1 i j j i i i 1 ij i 1

Ti 1 i

0 f x d Qx b d x Qd b d

x d Qd b d

x Qd d Qd b d x Q b d

f x d

+ + +

+= +

+ += +

+

= ∇ = − = − =

⎛ ⎞= + α − =⎜ ⎟⎝ ⎠

= + α − = − =

= ∇

iכלומר קיבלנו כי לכל 0, , k= …,

( ) ( )T 0 0 0 k kk 1 i

i

f x d df x d 0 0, i 0, , k+

∂ + α + +α∇ = ⇒ = =

∂α…

.ל.ש.מ

243

4.4 נספח

טענה

,י התהליך הבא" מיוצרים עCGהכיוונים באלגוריתם 0 0

k k k k 1

d g

d g d −

= −

= − +β

,כאשרT

k kk T

k 1 k 1

g gg g− −

β =

הוכחה

,ל" הם בתkgתחילה נוכיח כי הכיוונים iקיבלנו מקודם כי לכל 0, , k= …,

( )Tk 1 if x d 0+∇ =

iלכן מידית נובע כי לכל 0, , k 1= , מתקיים…−T

k i k ig d g ,d 0= =

הערה אם מתקבל באלגוריתם וקטור . שמתקבלים שונים מאפסנניח לאורך הפיתוח כי כל וקטורי הגרדיאנט

.גרדיאנט אפס אז האלגוריתם מצא את נקודת המינימום ומופסק

0 אורתוגונלי לסט הווקטורים kgכלומר k 1d , ,d 0י "ומאחר ותת המרחב שנפרש ע. …− k 1d , ,d ותת …−0י "המרחב הנפרש ע k 1g , ,g kg: אז) תכונה של תהליך גרם שמידט(מרחב - הוא אותו תת…−

0אורתוגונלי גם לסט הווקטורים k 1g , ,g .ל.ש.מ. …−

.כעת נשתמש בתכונת האורתוגונליות של הגרדיאנטים כדי להוכיח את הטענה

( ) ( )

( )

j 1 j j 1 j j 1 j

j j j j j j

g g Qx b Qx b Q x x

Q x d x Qd

+ + +− = − − − = − =

= +α − = α

הערה

j 0α j כי אם ≠ 0α j אז = 1 jg g+ jg ואז בגלל האורתוגונליות של סט הגרדיאנטים = וזה =0

.בסתירה להערה הקודמתT - ונכפיל את שני האגפים משמאל בjα -נחלק את שני האגפים ב

ig,

( )T TTi j i j 1 j

i ijj

0 if j 0, , i 21 1g Qd g g g g g if j i 1+

= −⎧⎪= − = ⎨ = −α ⎪α⎩

244

T -משמאל ב ונכפיל את שני האגפים jα -נחלק את שני האגפים בjd,

( )T Tj j j j 1 j

j

1d Qd d g g+= −α

,לבסוף נציב חזרה בתהליך גרם שמידט

( )

( ) ( )k

Tk 1k j

k k jTj 0 j j

Tk kk 1

jk j

Tj 0j j 1 j

j

Tk k T

k 1 k kk k 1 k k 1T

T k 1 k k 1k 1 k k 1

k 1

g Qdd g d

d Qd

0 if j 0, , k 21 g g if j k 1

g d1 d g g

1 g gg gg d g d1 d g gd g g

=

=+

−− −

− −− −

β−

= − + =

= −⎧⎪⎨ = −⎪α⎩= − + =

−α

α= − + = − +

−−α

,כלומר כעת התקבל כי

( )T

k kk T

k 1 k k 1

g gd g g− −

β =−

kמהמשוואה k k k 1d g d −= − +β נקבל כי k 1 k 1 k 1 k 2d g d− − − −= − +β .נציב בביטוי ל- kβונקבל ,

( ) ( ) ( )

( )

T Tk k k k

k TTk 1 k k 1 k 1 k 1 k 2 k k 1

Tk k

T T T Tk 1 k k 1 k 1 k 1 k 2 k k 2 k 1

Tk k

Tk 1 k 1

g g g gd g g g d g g

g gg g g g d g d g

g gg g

− − − − − −

− − − − − − −

− −

β = = =− − +β −

= =− + +β −

=

0 לסט הווקטורים kgהשתמשנו באורתוגונליות של k 1d , ,d 0 ולסט הווקטורים …− k 1g , ,g .ל.ש.מ. …−

245

4.5נספח

משפט

k - נבחר כך שkα וגודל הצעד היא מטריצה חיובית מוגדרתkBאם 1x , מקיים+

T Tk k k 1 kf (x ) d f (x ) d+∇ < ∇

kאז 1B .היא מטריצה חיובית מוגדרת) ון המטריצהלפי משוואת עדכ (+

Tההנחה כי T

k k k 1 kf (x ) d f (x ) d+∇ < נבחרים ככיווני ירידה ולכן kd מתקיימת מפני שהכיוונים ∇T

k kf (x ) d 0∇ T ובגלל שמבוצעת מינימזציה על הישר יקבל כי >k 1 kf (x ) d 0+∇ ואז ההנחה =

.תתקיים

.הוכחת המשפט היא באמצעות אינדוקציה

246

10.1נספח

טענה

2עבור מטריצה 2A ,)לא בהכרח סימטרית( כללית ∋×A tI 0− ≺

-שקול ל ii 1, ,n

t max=

≥ λ…

.Aע של מטריצה " הם העiλכאשר

הוכחה

, כלליתAנגדיר מטריצה a c

Ad b⎡ ⎤⎢ ⎥⎣ ⎦

,ע של מטריצה זו הם"הע

( )( ) ( )

( ) ( ) ( ) ( ) ( )

2

2 2

12

a ca b cd a b ab cd 0

d b

a b a b 4 1 ab cd a b a b 4cd2 2

−λ= −λ −λ − = λ −λ + + − =

−λ

+ ± + − ⋅ ⋅ − + ± − +λ = =

c(נשים לב כי רק עבור מטריצה סימטרית d= (ע בהכרח ממשיים"הע.

Aהמטריצה tI−היא , a t c

A tId b t−⎡ ⎤

− = ⎢ ⎥−⎣ ⎦

Aע של המטריצה "לכן הע tI−י הצבת " מתקבלים עa a t, b b t→ − → ע של מטריצה " בביטוי לע−

A,

( ) ( ) ( ) ( )2 2

12 12

a t b t a t b t 4cd a b a b 4cdt t

2 2− + − ± − − + + + ± − +

λ = = − + = − + λ

Aש המטריצי "לכן האי tI 0− - שקול ל≻

1 1ii 1, ,2

2 2

t 0 tt max

t 0 t =

− + λ ≤ ≥ λ⎧ ⎧⇒ ⇒ ≥ λ⎨ ⎨− + λ ≤ ≥ λ⎩ ⎩ …

.ל.ש.מ

247

10.2נספח

טענה

aבהינתן tהאי שוויון , ≤0 a≥שקול לאי שוויונים , 2 2t a

t 0⎧ ≥⎨≥⎩

הוכחה

,שני האי שוויונים האלו שקולים

2 2

t aort at aa 0

a 0

⎧ ≥⎧⎪⎪⎧ ≥ ⎪⎨⇔⎨ ⎨⎪ ≤ −≥ ⎩⎩ ⎪⎪ ≥⎩

tולכן אם בנוסף גם האי שוויון , מתקיים אז≤0

2 2

t aor

t at a

a 0 t a 0t 0

a 0t 0

⎧ ≥⎧⎪⎪⎨⎪⎧ ≥ ⎪⎪ ≤ −⎪ ⎪⎩≥ ⇔ ⇔ ≥ ≥⎨ ⎨

⎪ ⎪≥⎩ ⎪ ≥⎪≥⎪⎩

.ל.ש.מ

248

מושג הגרעין: 11.1נספח

בין שני וקטורים בבעיה הדואלית בשלב האימון ובשלב הסיווג מופיעים רק ביטויים של מכפלה פנימיתx, y . את המכפלה הפנימית במקום לחשב(x), (y)Φ Φ שעושה זאת" גרעין" ניתן להמציא .

:3בדוגמא בתחילת חלק

( )

21

2 21 1 2 2 1 2

22

2T1 12 2 2 2

1 1 1 2 1 2 2 22 2

2T

y

(x), (y) x 2x x x 2y yy

x yx y 2x x y y x y

x y

K(x, y) x y

⎡ ⎤⎢ ⎥

⎡ ⎤Φ Φ = =⎢ ⎥⎣ ⎦⎢ ⎥⎢ ⎥⎣ ⎦

⎛ ⎞⎡ ⎤ ⎡ ⎤⎜ ⎟= + + = ⎢ ⎥ ⎢ ⎥⎜ ⎟⎣ ⎦ ⎣ ⎦⎝ ⎠

=

,(x)ניתן לראות כי במקום מכפלה סקלרית בין שני וקטורים ארוכים (y)Φ Φביצענו באמצעות הגרעין

,xרק מכפלה סקלרית בין שני וקטורים y.

דוגמאות של גרעינים

): פולינומיגרעין )dTK(x, y) x y 1= +

: גאוסיגרעין2

22

x yK(x, y) exp

2

⎛ ⎞−⎜ ⎟= −⎜ ⎟σ⎝ ⎠

2: ראדיאליגרעין

x yK(x, y) exp

2⎛ ⎞−

= −⎜ ⎟σ⎝ ⎠

המחשה מספרית

הוא Φ(x) כי ממד הטרנספורמציה 46 פולינומי ידועעבור גרעיןn p 1

p+ −⎛ ⎞

⎜ ⎟⎝ ⎠

הוא מספר n כאשר

אז ממד 5 ודרגת הפולינום היא 256ינים הוא לכן עם מספר המאפי. הוא דרגת הפולינוםp -המאפיינים ו

10256: הואΦ(x)הטרנספורמציה 5 110

5+ −⎛ ⎞

≈⎜ ⎟⎝ ⎠

ברור כי אין כל סיכוי לפתור לא את הבעיה .

. ללא שימוש בגרעין ולא את הבעיה הדואליתהפרימאלית

.A Tutorial on Support Vector Machines for Pattern Recognition, Christopher J.Cחה נמצאת במאמר ההוכ 46

Burges,pg.27.

249

250

רשימת מקורות

1. )D. Bertsekas, Nonlinear Programming, 2nd edition (1999 2. Stephen Boyd & Lieven Vandenberghe, Convex Optimization, December

2001 3. Luenberger, Linear and Nonlinear Programming, 1984 1997מהדורה שניה , שיטות חישוביות באופטימיזציה, מיכאל אלעד .4 1996, 1א "חדו, ציון קון וסמי זעפרני-בן .5 1996 ',ב+ ' חלק א2א "חדו, ציון קון-בן .6 1999מהדורה שניה , אלגברה לינארית תיאוריה ותרגילים, ציון קון-אברהם ברמן ובן .7

251

252

רשימת מונחיםA

Armijo ,63 ,65 Augmented Lagrangian ,153 ,154 ,156 ,190

B Barrier ,6 ,144 ,150 ,151 BFGS ,95

Bisection ,44 ,53 ,54 ,64 Broyden ,93 ,95

C Chebyshev ,110

Complementary slackness ,212 ,213 ,237 ,243 Condition number ,71 ,90

Conjugate Directions ,84 ,86 ,87 ,88 Conjugate Gradients ,88 ,90 ,91 ,92 ,96 ,254

D deadzone ,110 ,112 ,114

DFP ,95

G Gauss Newton ,101 ,102

Golden Section, 54 ,58 ,60

H Huber ,116

I Ill-conditioned ,72 ,75 Induced norm ,69

K Karush-Kuhn-Tucker ,6 ,139

L Least Squares ,99 ,100 ,101 ,102 ,103 ,104 ,105 ,

106 ,107 Levenberg- Marquardt ,102

Linear Matrix inequality ,220 log-barrier ,110 ,111 ,112 ,114

M Margin ,235

Min-Max ,182

N Norm Approximation ,6 ,108

O outlier ,115 ,116

P PARTAN ,77 ,78 ,79

Penalty ,153 Pivot ,169 ,170 ,171 ,172 ,173 ,174 ,178

Proper cone ,203 ,208 ,211

Q QCQP ,195 ,222

Quasi Newton ,92

R range ,108

residual ,108 robust ,115 ,116

Robust Linear Programming ,227

S Schur complement ,217 ,220 ,222 ,224

Semidefinite Programming ,215 ,216 ,220 ,222 ,224 ,225

Sensitivity ,6 ,132 Simplex ,168 ,176

Slack variables ,158 ,159 ,238 Steepest Descent ,66 ,67 ,69 ,71 ,72 ,74 ,75 ,76 ,77 ,

78 ,84 ,87 ,92 SVM, 229 ,231

T Truncated Newton ,96

U Unimodal ,43 ,44 ,51 ,54

א 203, אדטיביות 208, 204, אורטנט

211, 203, אי שוויון מוכלל 212, 211, 197, 185, 158, אילוצי אי שוויון 237, אילוצי שוויון

64, 53, 52, אינטרפולציה קובית 51, אינטרפולציה ריבועית

203, שוויון מוכלל-אי 206, שוויון מטריצי-יא

203, סימטריות-אנטי 197, אנטרופיה

ב, 201, 200, 196, 195, 194, 190, 188, 182, בעיה דואלית

214 ,215 ,236 ,237 ,242 ,243 ,245 ,246 ,260

253

, 241, 237, 235, 215, 185, 183, 154, בעיה פרימאלית242 ,245 ,260

ג 63, 62, גודל צעד דועך

248, 50, הגישת אינטרפולצי, 76, 72, 67, 66, 40, 25, 24, 22, 20, 19, 17, 15, גרדיאנט88 ,92 ,101 ,153 ,154 ,199 ,218 ,254 260, 246, גרעין

ד 214, 213, 190, 188, 182, דואליות

183, דואליות חזקה 183, דואליות חלשה

22, 20, 17, 16, דיפרנציאל 20, דיפרנציאלים חלקיים

ה 116, הובר 203, וגניותהומ

, 92, 81, 80, 73, 42, 33, 29, 25, 24, 19, 17, 16, הסיאן93 ,95 ,101 ,102 ,199 ,200 ,218 ,236

81, 12, הפיכת מטריצה 249, התאמה הריבועית

ו 209, 11, 9, ע"ו

ז 229, זיהוי תבניות

ח 78, 46, 43, חיפוש על ישר

ט 203, טרנזטיביות

י 58, יחס הזהב

90, 71, 70, 69, יחס התכנסות

כ, 241, 237, 235, 214, 197, 190, 182, 154', כופלי לגרנז

243

ל, 197, 195, 194, 190, 188, 186, 185, 183, 182, יאן'לגרז

199 ,200 ,211 ,214 ,215 ,236 ,242 ,243 226, 208, 207, לורנץ

12, 11, לכסון מטריצה

מ 241, 235, 200, 81, מטריצה אלכסונית

225, 209, 206, 102, 29, 12, חיובית חצי מוגדרתמטריצה, 84, 81, 75, 70, 67, 35, 33, 12, מטריצה חיובית מוגדרת

87 ,92 ,95 ,96 ,195 ,200 ,218 ,251 ,252 ,256 209, 193, 16, 12, מטריצה סימטרית

13, מטריצה שלילית חצי מוגדרת 13, מטריצה שלילית מוגדרת

260, 246, 88, 84, 22, מכפלה פנימית

נ 81, 66, 42, 15, נגזרת כיוונית

103, 92, 84, 83, 81, 80, 50, 48, ניוטון

ע, 209, 200, 90, 81, 73, 72, 71, 70, 68, 12, 11, 9, ע"ע

216 ,225 239, 238, 237, 234, 233, 232, מישור-על

פ 9, פולינום האופיני, 211, 200, 196, 195, 194, 188, 187, פונקציה דואלית

214 ,215 ,236 ,242 99, 22, 20, פונקציה וקטורית

239, 211, 190, 186, 185, פונקציה פרימאלית 29, 26, פונקציה קמורה 231, פונקצית הפרדה 117, 116, 115, 114, 112, 110, 108, 37, פונקצית הקנס 225, 222, 179, 176, 175, 167, פונקצית מטרה

58, י'פיבונצ Cholesky ,81 ,102פירוק

, 166, 165, 164, 163, 162, 161, 160, 159, פתרון בסיסי167 ,168 ,169 ,170 ,171 ,172 ,173 ,174 ,176 ,177 ,178 ,179

ק V ,46 ,51 ,54 ,56 ,57קומבינצית

215, 213, 211, 208, 207, 206, 203, 27, 17, 16, קון 215, 212, 208, קון דואלי

114, 112, 110, 109, 108, 6, קירוב נורמה

ר 117, 116, 115, רגרסיה

69, 12, רדיוס ספקטרלי 203, רפלקסביות

20, רשת ניורונים

ת 251, 194, 85, 35, 12, תבנית ריבועית

255, 88, 87, 85, 84, תהליך גרם שמידט 228, 227, 179, 159, 158, 157, תכנות לינארי