Di erentialrechnung mehrerer Ver...

Post on 04-Jan-2020

4 views 0 download

Transcript of Di erentialrechnung mehrerer Ver...

Differentialrechnung mehrerer Veranderlicher

Das Handout ist Bestandteil der Vortragsfolien zur Hoheren Mathematik; siehe die Hinweise auf der Internetseite

vhm.mathematik.uni-stuttgart.de fur Erlauterungen zur Nutzung und zum Copyright.

Differentialrechnung mehrerer Veranderlicher 1-1

Umgebung

Als ε-Umgebung eines Punktes x ∈ Rn bezeichnet man die offene Kugel

Bε(x) = {y : |y − x | < ε} .

U

Allgemein ist eine Umgebung U von x eine Menge, die eine ε-Umgebungenthalt.

Topologie von Mengen Umgebung 1-1

Offene Menge

Eine Menge D ⊆ Rn heißt offen, wenn jeder Punkt x ∈ D eine Umgebungbesitzt, die ganz in D enthalten ist. Insbesondere sind Rn und die leereMenge ∅ offen.

xU

D

Fur eine beliebige Menge D bezeichnet◦D ⊆ D das Innere von D, d.h, die

Menge aller Punkte mit einer Umgebung in D.

Topologie von Mengen Offene Menge 2-1

Abgeschlossene Menge

Eine Menge D ⊆ Rn heißt abgeschlossen, wenn jede konvergente Folgevon Punkten xk ∈ D gegen einen Grenzwert in D strebt. Insbesondere sindRn und die leere Menge ∅ abgeschlossen.Fur eine beliebige Menge D bezeichnet D ⊇ D den Abschluß von D, d.h.die Menge aller Grenzwerte von Folgen in D.

Topologie von Mengen Abgeschlossene Menge 3-1

Rand einer Menge

Der Rand ∂D einer Menge D ⊆ Rn besteht aus allen Punkten x die keineUmgebung U besitzen, die entweder ganz in D oder im Komplement vonD liegt.

xU

D

∂D

Alternativ kann der Rand als Differenz von Abschluß und Inneren,

∂D = D \◦D

definiert werden.Topologie von Mengen Rand einer Menge 4-1

Kompakte Menge

Eine beschrankte und abgeschlossene Menge D ⊆ Rn bezeichnet man alskompakt.

Aquivalent dazu sind folgende Charakterisierungen:

Jede Folge in D besitzt eine konvergente Teilfolge mit Grenzwert in D.

Jede Uberdeckung von D mit offenen Mengen besitzt eine endlicheTeiluberdeckung.

Topologie von Mengen Kompakte Menge 5-1

Beispiel:

Halfte einer Kreisscheibe:

D : x2 + y2 < 1 ∧ y > 0

offen wegen strikter Ungleichungen

x

y

0 1

1

D

Topologie von Mengen Kompakte Menge 6-1

Rand ∂D von D: Halbkreis

H : x2 + y2 = 1 ∧ y ≥ 0

und GeradensegmentS : (−1, 1)× {0}

H abgeschlossen:Relationen =, ≥ und ≤ bleiben bei Grenzwertbildung erhalten

S weder offen noch abgeschlossen:Produkt einer offenen und abgeschlossenen Menge

D, ∂D = H ∪ S kompakt:abgeschlossen und beschrankt

Topologie von Mengen Kompakte Menge 6-2

Multivariate Funktionen

Eine reelle multivariate Funktion (auch als Funktion von mehrerenVeranderlichen bezeichnet)

f : Rn ⊇ D → Rm, x 7→ f (x) ,

ordnet einem Vektor x = (x1, . . . , xn)t aus dem Definitionsbereich D einenVektor f (x) = f (x1, . . . , xn) = (f1(x), . . . , fm(x))t aus dem Bildbereichf (D) zu.Je nach der Dimension m unterscheidet man zwischen skalaren (m = 1)und vektorwertigen (m > 1) Funktionen. Ist n = 1 (und f stetig), so nenntman f eine Parametrisierung einer Kurve.Fur m, n ≤ 3 verwendet man meist keine Indizes und bezeichnet dieVariablen mit x , y und z . Beispielsweise schreibt man fur m = n = 2(

xy

)7→(

f (x , y)g(x , y)

).

Funktionen Multivariate Funktionen 7-1

Wie in der Abbildung illustriert ist, konnen zur Visualisierung skalarerFunktionen der Graph

{(x , f (x)) : x ∈ D}und die Niveaumengen

{x ∈ D : f (x) = c}

benutzt werden.

Funktionen Multivariate Funktionen 7-2

Multivariate Polynome

Ein Polynom p in n Variablen x1, . . . , xn ist eine Linearkombination vonMonomen:

p(x) =∑α

aαxα, xα = xα1

1 · · · xαnn ,

mit αi ∈ N0.Je nach Summationsbereich unterscheidet man zwischen

totalem Grad ≤ m:∑α = α1 + · · ·+ αn ≤ m;

maximalem Grad ≤ m: maxα = maxi αi ≤ m.

Funktionen Multivariate Polynome 8-1

Man bezeichnet ein n-variates Polynom als homogen vom Grad k , wenndie Linearkombination nur Monome mit

∑α = k enthalt. Die Anzahl

solcher homogenen Monome ist(k+n−1

n−1

). Folglich ist die Dimension der

Polynome vom totalen Grad ≤ m gleich(m + n

n

)=

m∑k=0

(k + n − 1

n − 1

).

Die Dimension der n-variaten Polynome vom maximalen Grad ≤ m ist

(m + 1)n .

Funktionen Multivariate Polynome 8-2

Beweis:

(i) bivariate Polynome (n = 2):Auflistung der homogenen Monome

k = 0 : 1k = 1 : x , yk = 2 : x2, xy , y2

k = 3 : x3, x2y , y2x , y3

. . . ,

Anzahl k + 1 =(k+2−1

2−1

)fur Grad k

Dimension der bivariaten Polynome vom totalen Grad ≤ m:

1 + 2 + · · ·+ (m + 1) =(m + 2)(m + 1)

2=

(m + 2

2

)(m + 1)2 Monome vom maximalen Grad ≤ m

x iy j , i , j ≤ m

Funktionen Multivariate Polynome 9-1

(ii) n-variate Polynome:identifiziere den Exponent

(α1, . . . , αn),∑

α = m

mit einer strikt monotonen Folge

β1 = α1 + 1β2 = α1 + α2 + 2. . .

βn−1 = α1 + · · ·+ αn−1 + (n − 1)

aus {1, . . . ,m + n − 1}

αi = βi − βi−1 − 1

mit β0 = 0, βn = m + n

(m+n−1n−1

)Moglichkeiten

Funktionen Multivariate Polynome 9-2

(iii) n-variate Monome vom totalen Grad ≤ m:←→ (n + 1)-variate homogene Monome vom Grad m:

xα11 · · · xαn

n ⇐⇒ xα11 · · · xαn

n xm−∑αi

n+1

(Letzter Exponent liegt fest.) Dimension (

m + (n + 1)− 1

(n + 1)− 1

)Dimension der n-variaten Polynome vom maximalen Grad ≤ m:Analog zum bivariaten Fall existieren (m + 1)n Monome.

Funktionen Multivariate Polynome 9-3

Beispiel:

(i) Polynom mit totalen Grad ≤ 3 in 2 Variablen:

p(x , y) = a0,0 + (a1,0x + a0,1y) + (a2,0x2 + a1,1xy + a0,2y

2)

+(a3,0x3 + a2,1x

2y + a1,2xy2 + a0,3y

3)

spezielles homogenes bivariates Polynom vom Grad 5:

7x5 − 9x3y2 + 8xy4

(ii) Polynom mit maximalem Grad ≤ 1 in drei Variablen:

p(x , y , z) = (a0,0,0 + a1,0,0x) + (a0,1,0y + a1,1,0xy)

+(a0,0,1z + a1,0,1xz) + (a0,1,1yz + a1,1,1xyz)

Funktionen Multivariate Polynome 10-1

Stetigkeit multivariater Funktionen

Eine Funktion f ist in einem Punkt x des Definitionsbereichs D stetig,wenn

D 3 xk → x =⇒ limk→∞

f (xk) = f (x) .

Gilt dies fur alle x ∈ D, so ist f stetig auf D.

Existiert der Grenzwert fur Punkte x auf dem Rand ∂D desDefinitionsbereichs, so lasst sich f stetig fortsetzen.

Fur die Verknupfung stetiger Funktionen mehrerer Veranderlicher geltendie gleichen Regeln wie fur univariate Funktionen.

Funktionen Stetigkeit multivariater Funktionen 11-1

Beispiel:

nicht-konstante bivariate Funktion f (ϕ), die nur vom Winkel und nichtvom Radius r =

√x2 + y2 abhangt, z.B. mit x = r cosϕ, y = r sinϕ

f (x , y) =xy

x2 + y2= cosϕ sinϕ

unstetig im Ursprung

Funktionen Stetigkeit multivariater Funktionen 12-1

Einschrankung auf Gerade durch den Ursprung

g : y = mx bzw. g : ϕ = c

konstanter Funktionswert:

f (x ,mx) =mx2

x2 + (mx)2=

m

1 + m2= cm bzw. f (ϕ) = cosϕ sinϕ = cϕ

nicht stetig fortsetzbar fur (x , y)→ (0, 0):

limx→0

f (x ,mx) = limx→0

m

1 + m2=

m

1 + m2,

d.h. der Grenzwert ist fur jede Ursprungsgerade verschieden

Funktionen Stetigkeit multivariater Funktionen 12-2

Extremwerte stetiger Funktionen

Eine stetige Funktion besitzt auf einer kompakten Menge sowohl einMinimum als auch ein Maximum.

Auf dem links abgebildeten Funktionsgraphen sind Minimum undMaximum markiert. Bei den Niveaulinien erkennt man Extremstellen durchgeschlossene Kurven, die diese Punkte einschließen.

Funktionen Extremwerte stetiger Funktionen 13-1

Aquivalenz von Vektornormen

Jede Vektornorm ‖ · ‖ im Rn ist zur euklidischen Norm | · | aquivalent, d.h.es gibt positive Konstanten ci mit

c1‖x‖ ≤ |x | ≤ c2‖x‖

fur alle x ∈ Rn.

Funktionen Extremwerte stetiger Funktionen 14-1

Beweis:

Die Ungleichungen sind skalierungsinvariant, d.h. invariant unter derSubstitution x → λx . betrachte nur Vektoren x auf der Einheitssphare

S : |x | = 1

‖x‖ 6= 0 fur x ∈ S =⇒ Stetigkeit der Funktion

x 7→ |x |‖x‖

S kompakt =⇒ Existenz eines positiven Minimums c1 und einesMaximums c2

Funktionen Extremwerte stetiger Funktionen 15-1

Details:Beweis der Stetigkeit der Norm mit Hilfe der Dreiecksungleichung:

‖x‖ ≤ ‖x − y‖+ ‖y‖‖y‖ ≤ ‖y − x‖+ ‖x‖

=⇒|‖x‖ − ‖y‖ | ≤ ‖x − y‖ ,

d.h. ‖ ‖ ist Lipschitz-stetig mit Konstante 1

Funktionen Extremwerte stetiger Funktionen 15-2

Lipschitz-Stetigkeit

Eine Funktion f heißt Lipschitz-stetig auf einer Menge D, wenn eineLipschitz-Konstante c existiert, so dass

||f (x)− f (y)|| ≤ c ||x − y ||

fur alle x , y ∈ D.Ist f stetig differenzierbar und D konvex, so kann die Lipschitz-Konstantemit Hilfe der Norm der Jacobi-Matrix abgeschatzt werden:

c ≤ supx∈D|| f ′(x)︸ ︷︷ ︸

J

||

mit ‖J‖ = max‖z‖=1 ‖Jz‖.

Funktionen Lipschitz-Stetigkeit 16-1

Beispiel:

radiale Funktion

f (x) = rα, r = |x | =√

x21 + · · ·+ x2

n ,

α = 1 α = 2

α = 0.5 α = −1

Funktionen Lipschitz-Stetigkeit 17-1

(i) α = 1:f ist global Lipschitz-stetig, denn

|r − r ′| = ||x | − |x ′|| ≤ |x − x ′| ,

d.h. c = 1 ist Lipschitz-Konstante fur D = Rn

(ii) α > 1:f ist Lipschitz-stetig auf beschrankten Mengen DMittelwertsatz =⇒

|rα − (r ′)α| = αsα−1|r − r ′|

mit s zwischen r und r ′

Lipschitz-Konstante

c = maxx∈D

α|x |α−1

Funktionen Lipschitz-Stetigkeit 17-2

(iii) 0 < α < 1:f ist stetig aber nicht Lipschitz-stetig in einer Umgebung von 0, denn dieUngleichung

|rα − 0α| ≤ c |r − 0|ist fur r → 0 nicht erfullbar(iv) α < 0:f ist unstetig bei 0, denn

limr→0

rα =∞

Funktionen Lipschitz-Stetigkeit 17-3

Konvergenz einer Vektor-Folge

Eine Folge von Vektoren xk ∈ Rn konvergiert gegen einen Vektor x ,

limk→∞

xk = x bzw. xk → x fur k →∞,

wenn fur alle ε > 0 ein Index kε existiert mit

|xk − x | < ε fur k > kε.

Mit anderen Worten enthalt jede ε-Umgebung

Bε(x) = {y : |y − x | < ε}

alle bis auf endlich viele Folgenelemente.Aquivalent zur Konvergenz von (xk) ist die Konvergenz allerKomponenten, d.h. es konnen eindimensionale Konvergenzkriterienherangezogen werden.

Konvergenz Konvergenz von Vektoren 18-1

Beispiel:

alternierende Projektion auf zwei Geraden Konvergenz der Folge (xk , yk)t gegen den Schnittpunkt

PSfrag repla ements xy y = xy = 1

(xkyk

):

(00

),

(01

),

(1212

),

(121

), . . .→

(11

)Konvergenz Konvergenz von Vektoren 19-1

Konvergenz der ersten Komponente:

x2k = x2k+1 = 1− (1/2)k → 1

denn ∣∣∣∣∣1− 1 +

(1

2

)k∣∣∣∣∣ =

(1

2

)k

< ε

fur k > kε = − ld ε

Konvergenz Konvergenz von Vektoren 19-2

Cauchy-Kriterium fur Vektor-Folgen

Eine Folge von Vektoren xk ∈ Rn konvergiert genau dann, wenn sie eineCauchy-Folge ist, d. h. wenn fur alle ε > 0 ein kε existiert mit

|x` − xk | < ε fur `, k > kε .

Dies ist gleichbedeutend damit, dass jede der n Komponenten von (xk)eine Cauchy-Folge ist.

Konvergenz Cauchy-Kriterium fur Vektoren 20-1

Beispiel:

binarer Baum:PSfrag repla ements x0x1 x2 x3 x4x5neue Segmente jeweils um den Faktor λ (0 < λ < 1) verkurzt und im45◦-Winkel angefugt geometrische Konvergenz sukzessiver Verzweigungspunkte xk :

|xk+1 − xk | = cλk

Konvergenz Cauchy-Kriterium fur Vektoren 21-1

Cauchy-Folge, denn

|x` − xk | = |x` − x`−1 + x`−1 − x`−2 + · · ·+ xk+2 − xk+1 + xk+1 − xk |≤ |x` − x`−1|+ |x`−1 − x`−2|+ · · ·+ |xk+2 − xk+1|+ |xk+1 − xk |≤ c λ`−1 + c λ`−2 + · · ·+ cλk+1 + c λk

= c λk (1 + λ+ λ2 + · · · ) ≤ c

1− λ︸ ︷︷ ︸c ′

λk = c ′ λk

< ε

fur ` > k > kε =ln(ε/c ′)

lnλ

Konvergenz Cauchy-Kriterium fur Vektoren 21-2

Kontrahierende Abbildung

Eine Abbildungg : D → D

ist kontrahierend, wenn in einer geeigneten Norm

‖g(x)− g(y)‖ ≤ c ‖x − y‖, x , y ∈ D ,

mit c < 1 gilt. Dabei ist c die sogenannte Kontraktionskonstante von g .Sie kann fur eine konvexe Menge D mit Hilfe der Jacobi-Matrix durch

supx∈D||g ′(x)||

abgeschatzt werden.

Konvergenz Kontrahierende Abbildung 22-1

Beispiel:

Richardson-Iteration zur Losung eines linearen Gleichungssystems Ax = bfur eine symmetrische positiv definite Matrix A mit Eigenwerten λi

g(x) = x − ω(Ax − b)

kontrahierend, falls ω genugend klein gewahlt wirdBegrundung:

g(x)− g(y) = Q(x − y), Q = E − ωA

Eigenwerte von Q:%i = 1− ωλi , λi > 0

ω = 1/maxi λi =⇒ %i ≥ 0 und

c = ‖Q‖ = maxi%i = 1− (min

iλi )/(max

iλi ) < 1

bei Verwendung der euklidischen NormKonvergenz Kontrahierende Abbildung 23-1

Banachscher Fixpunktsatz

Ist g eine kontrahierende Abbildung, die eine nichtleere, abgeschlosseneMenge D ⊂ Rn in sich abbildet, d.h. gilt

D = D

x ∈ D =⇒ g(x) ∈ D

‖g(x)− g(y)‖ ≤ c‖x − y‖ ∀x , y ∈ D

mit c < 1, dann besitzt g einen eindeutigen Fixpunkt x∗ = g(x∗) ∈ D.

Ausgehend von einem beliebigen Startpunkt x0 ∈ D kann x∗ durch dieIterationsfolge

x0, x1 = g(x0), x2 = g(x1), . . .

approximiert werden.

Konvergenz Banachscher Fixpunktsatz 24-1

Fur den Fehler gilt

‖x∗ − x`‖ ≤c`

1− c‖x1 − x0‖

d.h. die Iterationsfolge konvergiert fur jeden Startpunkt linear.Der Fixpunktsatz gilt allgemeiner in vollstandigen metrischen Raumen. Dadie Translationsinvarianz und Homogenitat der Norm nicht benotigt wird,kann man ‖x − y‖ durch eine allgemeine Abstandsfunktion d(x , y)ersetzen.

Konvergenz Banachscher Fixpunktsatz 24-2

Beweis:

(i) g(D) ⊆ D ⇒ x` ∈ D fur alle ` > 0(ii) Kontraktionsbedingung =⇒

‖x`+1 − x`‖ = ‖g(x`)− g(x`−1)‖ ≤ c ‖x` − x`−1‖

Iteration ‖x`+1 − x`‖ ≤ c` ‖x1 − x0‖

(iii) Dreiecksungleichung =⇒

‖xj − x`‖ ≤ ‖xj − xj−1‖+ ‖xj−1 − xj−2‖+ · · ·+ ‖x`+1 − x`‖≤ (c j−1 + · · ·+ c`)‖x1 − x0‖ = c j−c`

c−1 ‖x1 − x0‖≤ c`

1−c ‖x1 − x0‖

Cauchy-Konvergenz der Folge x` gegen einen Grenzwert x∗

Konvergenz Banachscher Fixpunktsatz 25-1

(iv) Kontraktionsbedingung =⇒

‖g(x∗)− x∗‖ ≤ ‖g(x∗)− g(xj)‖+ ‖g(xj)− x∗‖ ≤ c ‖x∗− xj‖+ ‖xj+1− x∗‖

Grenzwert j →∞ =⇒ x∗ Fixpunkt(v) x∗ eindeutig, da

‖x∗ − x∗‖ = ‖g(x∗)− g(x∗)‖ ≤ c‖x∗ − x∗‖

mit c < 1(vi) Abschatzung fur den Fehler ⇐= Bilden des Grenzwerts furj →∞ in der Ungleichung (iii) fur ‖xj − x`‖

Konvergenz Banachscher Fixpunktsatz 25-2

Beispiel:

gestortes lineares System:

Ax + εf (x) = b

mit einer quadratischen invertierbaren Matrix A und Lipschitz-stetigerFunktion f (Konstante cf )Losung mit Hilfe der Iteration

x ← g(x) = A−1(b − εf (x))

prufe die Voraussetzungen des Banachschen Fixpunktsatzes fur dieabgeschlossene Menge

D = {y : ‖y − p‖ ≤ r}, p = A−1b

Konvergenz Banachscher Fixpunktsatz 26-1

(i) g(D) ⊂ D:fur x ∈ D

‖g(x)− p‖ = ε‖A−1f (x)‖ ≤ ε‖A−1‖maxy∈D‖f (y)‖

g(x) ∈ D (Abstand zu p ≤ r), falls

ε ≤ r

‖A−1‖maxy∈D ‖f (y)‖

(ii) Kontraktionsbedingung:

‖g(x)− g(y)‖ = ε‖A−1(f (x)− f (y)‖ ≤ ε‖A−1‖cf︸ ︷︷ ︸c

‖x − y‖

mit c < 1, falls

ε <1

‖A−1‖cfBedingungen fur hinreichend kleines ε erfullt

Konvergenz Banachscher Fixpunktsatz 26-2

Partielle Ableitungen

Die partielle Ableitung ∂i f einer Funktion f nach der i-ten Variablen xi istdie Ableitung der univariaten Funktion

xi 7→ f (x1, . . . , xi , . . . , xn) ,

bei der die Variablen xj , j 6= i , als Konstanten betrachtet werden. Manschreibt auch

∂i f = fxi =∂f

∂xi.

Gemaß der Definition der univariaten Ableitung gilt

∂i f (x) = limh→0

f (. . . , xi + h, . . .)− f (. . . , xi , . . .)

h.

Partielle Ableitungen Partielle Ableitungen 27-1

Partielle Ableitungen sind sowohl fur skalare als auch fur vektorwertigereelle Funktionen definiert. In beiden Fallen bleibt der Funktionstyp beimpartiellen Ableiten erhalten. Definitionsgemaß gilt

∂i

f1...fn

=

∂i f1...

∂i fn

.

Die partielle Ableitung wird simultan in den Komponenten gebildet.

Die ubliche Konvention ist, sowohl fur die Variable x als auch fur dieFunktion f Spaltenvektoren zu verwenden (wichtig bei der Definition dertotalen Ableitung bzw. der linearen Approximation).

Partielle Ableitungen Partielle Ableitungen 27-2

Beispiel:

(i) Skalare Funktion: x1

x2

x3

7→ f (x1, x2, x3) = x21x2 + 5x2x3

skalare partielle Ableitungen

∂1f = 2x1x2

∂2f = x21 + 5x3

∂3f = 5x2

Partielle Ableitungen Partielle Ableitungen 28-1

(ii) Vektorwertige Funktion: x1

x2

x3

7→ f1(x1, x2, x3)

f2(x1, x2, x3)f3(x1, x2, x3)

=

x32x3

x1x2x3

x1 + x3

partielle Ableitungen mit gleicher Komponentenanzahl

∂1f =

∂1f1∂1f2∂1f3

=

0x2x3

1

∂2f =

∂2f1∂2f2∂2f3

=

3x22x3

x1x3

0

∂3f =

∂3f1∂3f2∂3f3

=

x32

x1x2

1

Partielle Ableitungen Partielle Ableitungen 28-2

Mehrfache partielle Ableitungen

Zweifache (hintereinander ausgefuhrte) partielle Ableitungen werden mit

∂i∂j f = fxjxi =∂2f

∂xi∂xj

bezeichnet. Analog schreibt man ∂i∂j∂k . . . f fur partielle Ableitungenhoherer Ordnung.Alternativ kann man die Multiindex-Notation

∂αf = ∂α11 · · · ∂αn

n f , α = (α1, . . . , αn) ,

verwenden, wobei der Index αi ∈ N0 die Anzahl der partiellen Ableitungennach der i-ten Variablen bezeichnet. Die Summe |α| = α1 + · · ·+ αn heißtOrdnung der partiellen Ableitung.

Partielle Ableitungen Mehrfache partielle Ableitungen 29-1

Beispiel:

ebene Welle:

f (x) = exp(ix ty) = exp(i(x1y1 + ...+ xnyn))

mit y ∈ Rn fest gewahltKettenregel

∂k f (x) = iyk exp(ix ty)

∂`∂k f (x) = (iy`)(iyk) exp(ix ty)

und somit∂αf (x) = (iy)α exp(ix ty) = i|α|yα exp(ix ty)

mit α = (α1, ..., αn) und yα = yα11 . . . yαn

n

z.B. (n = 2):

∂(3,4)f = i7︸︷︷︸−i

y31 y

42 exp(i(x1y1 + x2y2))

Partielle Ableitungen Mehrfache partielle Ableitungen 30-1

Partielle Ableitungen von multivariaten Polynomen

Die partielle Ableitung

∂αxβ = ∂α11 . . . ∂αn

n

(xβ1

1 . . . xβnn

)eines Monoms ist nur dann ungleich Null, wenn

α ≤ β ⇔ αi ≤ βi ∀i ,

und in diesem Fall gleich

cxβ−α, c =∏i

βi (βi − 1) · · · (βi − αi + 1) .

Partielle Ableitungen Partielle Ableitungen von multivariaten Polynomen 31-1

Insbesondere ist

∂αxβ|x=0 = α!δαβ mit α! =∏k

αk ! .

Gilt fur ein Polynom p(x) =∑

β xβ

∂αp = 0, |α| = α1 + · · ·+ αn = m ,

so hat p totalen Grad < m.

Partielle Ableitungen Partielle Ableitungen von multivariaten Polynomen 31-2

Beweis:

(i) Beweisidee fur n = 2 und |α| = 3:

0 = pxxx = pxxy = pxyy = pyyy , p(x , y) =∑j ,k

cj ,kxjyk

=⇒ Grad p ≤ 2cj ,k = 0, j + k > 2

Summand (beispielsweise c2,1x2y) ungleich Null =⇒

Existenz einer partiellen Ableitung dritter Ordnung (im Beispiel pxxy ), diediesen Term nicht annulliert(ii) allgemeiner Fall:

∀|β| ≥ m ∃γ : |γ| = m, ∂γxβ 6= 0

z.B. fur n = 3, m = 4 und β = (1, 2, 3),

γ = (1, 2, 1), (1, 1, 2), (1, 0, 3), (0, 2, 2), (0, 1, 3)

Partielle Ableitungen Partielle Ableitungen von multivariaten Polynomen 32-1

Vertauschbarkeit partieller Ableitungen

Sind die ersten und zweiten partiellen Ableitungen einer Funktion f stetig,so gilt

∂i∂j f = ∂j∂i f .

Fur hinreichend glatte Funktionen ist also die Reihenfolge partiellerAbleitungen vertauschbar. Insbesondere rechtfertigt dies dieMultiindex-Schreibweise.

Partielle Ableitungen Vertauschbarkeit partieller Ableitungen einer Funktion 33-1

Beweis:

Variablen xk , k 6= i , j , irrelevant fur partielle Ableitungen ∂i , ∂j betrachte o.B.d.A. eine bivariate Funktion f (x , y)bezeichne mit

g(x) = f (x ,B)− f (x ,A), h(y) = f (b, y)− f (a, y)

die Differenzen in y - bzw. x-RichtungPSfrag repla ementsx

y

a bABCC?

?Partielle Ableitungen Vertauschbarkeit partieller Ableitungen einer Funktion 34-1

berechneQ = f (b,B)− f (b,A)− f (a,B) + f (a,A)

mit Hilfe des eindimensionalen Mittelwertsatzes auf zwei verschiedeneArten:

Q = [f (b,B)− f (b,A)]− [f (a,B)− f (a,A)]

= g(b)− g(a)Mittelwertsatz

= (b − a)gx(c)

= (b − a)[fx(c,B)− fx(c ,A)]Mittelwertsatz

= (b − a)(B − A)fxy (c,C )

mit a ≤ c ≤ b und A ≤ C ≤ B

Partielle Ableitungen Vertauschbarkeit partieller Ableitungen einer Funktion 34-2

und

Q = [f (b,B)− f (a,B)]− [f (b,A)− f (a,A)]

= h(B)− h(A)MWS

= (B − A)hy (C ?)

= (B − A)[fy (b,C ?)− fy (a,C ?)]

MWS= (B − A)(b − a)fyx(c?,C ?)

mit a ≤ c? ≤ b und A ≤ C ? ≤ BGleichsetzen =⇒

fxy (c ,C ) = fyx(c?,C ?)

Verkleinerung des Rechtecks durch Grenzubergang, (b → a, B → A)=⇒

fxy (a,A) = fyx(a,A)

aufgrund der Stetigkeit der gemischten zweiten Ableitungen

Partielle Ableitungen Vertauschbarkeit partieller Ableitungen einer Funktion 34-3

Totale Ableitung und Jacobi-Matrix

Eine reelle Funktion f : Rn → Rm ist in einem Punkt x differenzierbar,wenn

f (x + h) = f (x) + f ′(x)h + o(|h|)fur |h| → 0.Die totale Ableitung f ′ ist die Jacobi-Matrix der partiellen Ableitungen:

f ′ =

∂1f1 . . . ∂nf1...

...∂1fm . . . ∂nfm

.

Alternative gebrauchliche Schreibweisen sind

f ′ = J f =∂(f1, . . . , fn)

∂(x1, . . . , xn)= (∂1f , . . . , ∂nf ) .

Partielle Ableitungen Totale Ableitung und Jacobi-Matrix 35-1

Fur eine skalare Funktion (m = 1) bezeichnet man die Ableitung alsGradient,

f ′ = (grad f )t ,

und fur die Parametrisierung einer Kurve (n = 1) als Tangentenvektor.Um die lineare Approximation kleiner Anderungen (|h| → 0)hervorzuheben, schreibt man

df =∂f

∂x1dx1 + · · ·+ ∂f

∂xndxn

mit sogenannten Differentialen df und dxi .Hinreichend fur die Existenz der totalen Ableitung f ′(x) ist die Stetigkeitder partiellen Ableitungen in einer Umgebung von x .

Partielle Ableitungen Totale Ableitung und Jacobi-Matrix 35-2

Beweis:

betrachte bivariate Funktionen (analoge Argumentation im multivariatenFall)(i) zeige: Existenz von f ′ =⇒ totale Ableitung enthalt die partiellenAbleitungenFur eine bivariate Funktion f (x , y) und h = (s, 0)t gilt

f (x + s, y) = f (x , y) + f ′(x , y) (s, 0)t + o(|(s, 0)|)= f (x , y) + (J f )1 s + o(|s|) ,

wobei (J f )1 die erste Spalte von J f bezeichnet.Division durch s und s → 0

(J f )1 = lims→0

f (x + s, y)− f (x , y)

s= ∂1f (x , y)

analoge Argumentation fur (J f )2

Partielle Ableitungen Totale Ableitung und Jacobi-Matrix 36-1

(ii) zeige: Stetigkeit der partiellen Ableitungen =⇒ Existenz dertotalen Ableitungbetrachte eine skalare Funktion f (x , y)Mittelwertsatz =⇒

f (x + s, y + t) = f (x + s, y)− f (x , y) + f (x + s, y + t)

−f (x + s, y) + f (x , y)

= s fx(ξ, y) + t fy (x + s, η) + f (x , y) ,

mit ξ ∈ (x , x + s), η ∈ (y , y + t)Stetigkeit von fx und fy =⇒

fx(ξ, y)→ fx(x , y) , fy (x + s, η)→ fy (x , y)

fur | (s, t)︸ ︷︷ ︸h

| → 0 und damit die totale Differenzierbarkeit der Funktion f :

f (x + s, y + t) = f (x , y) + sfx(x , y) + tfy (x , y) + o(|h|)

separates Betrachten der Komponenten vektorwertiger FallPartielle Ableitungen Totale Ableitung und Jacobi-Matrix 36-2

Beispiel:

f (x , y) =xy

x2 + y2

(i) Unstetigkeit im Ursprung:

limx→0

f (x , x) =x2

x2 + x2=

1

26= −1

2= lim

x→0f (x ,−x)

=⇒ f nicht stetig und damit auch nicht differenzierbar bei (0, 0)(ii) Existenz der partiellen Ableitungen:

f (x , 0) = f (0, y) = 0

=⇒fx(0, 0) = fy (0, 0) = 0

Partielle Ableitungen Totale Ableitung und Jacobi-Matrix 37-1

(iii) Unstetigkeit beider partieller Ableitungen im Ursprung:bestimme den Grenzwert der partiellen Ableitung

fx(x , y) =y3 − x2y

(x2 + y2)2

fur (x , y)→ (0, 0) entlang verschiedener Kurven:

y = x limx→0

fx(x , x) = limx→0

0

(x2 + y2)2= 0

und

y = x2 limx→0

fx(x , x2) = limx→0

x2 − 1

(1 + x2)2= −1

Die Unstetigkeit der partiellen Ableitung fy im Ursprung folgt analog.Beispiel =⇒Die Existenz partieller Ableitungen ist nicht ausreichend furDifferenzierbarkeit.

Partielle Ableitungen Totale Ableitung und Jacobi-Matrix 37-2

Beispiel:

f (x , y) =

x + 2yxy

3x2 + y2

Uberprufe die Definition der totalen Ableitung

f ′(x , y) =

1 2y x

6x 2y

, f (x + s, y + t) =

(x + s) + 2(y + t)(x + s)(y + t)

3(x + s)2 + (y + t)2

=⇒

f (x + s, y + t)− f (x , y)− f ′(x , y) (s, t)t = (0, st, 3s2 + t2)t = o(|(s, t)|) ,

d.h. jede Komponente strebt fur (s, t)→ (0, 0) schneller gegen 0 als|h| = |(s, t)|

Partielle Ableitungen Totale Ableitung und Jacobi-Matrix 38-1

Beispiel:

(i) Gradient der skalaren Funktion f (x , y) = r =√

x2 + y2:

grad f (x , y) =

(∂1f∂2f

)=

(x/ry/r

)(ii) Tangentenvektor, der durch

f (t) = (cos t, sin t, t)t

parametrisierten Kurve:

f ′(t) = (− sin t, cos t, 1)t

Partielle Ableitungen Totale Ableitung und Jacobi-Matrix 39-1

(iii) Jacobi-Matrix, der durch xyz

=

r sinϑ cosϕr sinϑ sinϕr cosϑ

definierten Kugelkoordinaten:

f ′(r , ϑ, ϕ) =∂(x , y , z)

∂(r , ϑ, ϕ)=

sinϑ cosϕ r cosϑ cosϕ −r sinϑ sinϕsinϑ sinϕ r cosϑ sinϕ r sinϑ cosϕ

cosϑ −r sinϑ 0

Partielle Ableitungen Totale Ableitung und Jacobi-Matrix 39-2

Multivariate Kettenregel

Fur die Hintereinanderschaltung

h = g ◦ f : x 7→ y = f (x) 7→ z = g(y) ,

stetig differenzierbarer Funktionen f : Rm → R` und g : R` → Rn gilt

h′(x) = g ′(y)f ′(x) ,

d.h. die Jacobi-Matrix von h ist das Produkt der Jacobi-Matrizen von fund g . Die einzelnen Eintrage von h′ ergeben sich durchMatrixmultiplikation:

∂hi∂xk

=∑j

∂gi∂yj

∂fj∂xk

.

Ableitungsregeln Multivariate Kettenregel 40-1

Insbesondere hat die Kettenregel fur den Spezialfall m = n = 1 (d.h. f isteine parametrisierte Kurve und g eine skalare Funktion von `Veranderlichen) die Form

d h

d x= (grad g)t f ′(x) .

Ableitungsregeln Multivariate Kettenregel 40-2

Beweis:

Definition der totalen Ableitung:

ϕ(x + h) = ϕ(x) + ϕ′(x)h + o(|h|)

Existenz der Ableitungen f ′(x) und g ′(y) =⇒

g(f (x + h)) = g(f (x) + f ′(x)h + o(|h|)︸ ︷︷ ︸h

) = g(y) + [g ′(y) h] + o(|h|)

Formel fur die Jacobi-Matrix von g ◦ f , da

[g ′(y) h] = g ′(y)f ′(x)h + o(|h|)

und |h| = O(|h|)

Ableitungsregeln Multivariate Kettenregel 41-1

Beispiel:

Funktionen

y = f (x) =

(x3 sin(x1)ex2/x3

), g(y) =

y1

y1 + ln(y2)0

y2 cos(y1)

Jacobi-Matrix von h = g ◦ f in p = (π, 0, 1)t :

f ′(x)|x=p =

(x3 cos(x1) 0 sin(x1)

0 ex2/x3 −ex2/x23

)|x=p

=

(−1 0 00 1 −1

)

Ableitungsregeln Multivariate Kettenregel 42-1

und

g ′(y)|y=f (p) =

1 01 1/y2

0 0−y2 sin(y1) cos(y1)

|y=(0, 1)

=

1 01 10 00 1

h′(π, 0, 1) =

1 01 10 00 1

(−1 0 00 1 −1

)=

−1 0 0−1 1 −10 0 00 1 −1

Ableitungsregeln Multivariate Kettenregel 42-2

Beispiel:

Kettenregel fur eine skalare Funktion f (x , y) entlang einer Kurvet 7→ (x(t), y(t))t:

d

dtf = fxx

′ + fyy′

z.B.f (x , y) =

√x2 + y2 , x = sin t , y = cos t

fx = (1/2)(x2 + y2)−1/2(2x), fy = y(x2 + y2)−1/2 und x ′ = cos t,y ′ = − sin t

d

dtf (x(t), y(t)) =

x√x2 + y2

cos t +y√

x2 + y2(− sin t)

=sin t cos t − cos t sin t

1= 0

Ableitungsregeln Multivariate Kettenregel 43-1

identisch zur direkten Ableitung der zusammengesetzten Funktion

f (x(t), y(t)) =√

sin2 t + cos2 t = 1

Ableitungsregeln Multivariate Kettenregel 43-2

Beispiel:

Kettenregel fur eine vektorwertige Funktion

(u(x , y , z), v(x , y , z),w(x , y , z))t

auf einer durch(x(s, t), y(s, t), z(s, t))t

parametrisierten Flache:

∂(u, v ,w)

∂(s, t)=

ux uy uzvx vy vzwx wy wz

xs xtys ytzs zt

Ableitungsregeln Multivariate Kettenregel 44-1

z.B. radiale Funktion

(u, v ,w) = (x , y , z)/r , r =√x2 + y2 + z2

auf dem durch

(x , y , z) = (cosϕ, sinϕ, z) , ϕ ∈ (−π, π] , z ∈ R

parametrisierten Zylindermantel:

∂(u, v ,w)

∂(x , y , z)= r−3

r2 − x2 −xy −xz−xy r2 − y2 −yz−xz −yz r2 − z2

∂(x , y , z)

∂(ϕ, z)=

− sinϕ 0cosϕ 0

0 1

Ableitungsregeln Multivariate Kettenregel 44-2

s = sinϕ, c = cosϕ und r =√

1 + z2

∂(u, v ,w)

∂(ϕ, z)= r−3

r2 − c2 −cs −cz−cs r2 − s2 −sz−cz −sz r2 − z2

−s 0c 00 1

= r−3

−sr2 −czcr2 −sz0 1

Ableitungsregeln Multivariate Kettenregel 44-3

Beispiel:

Berechnung des Gradienten von h = g ◦ f fur

f (u, v) =

u + vu − v

u2 + v2 − 1

, g(x , y , z) = x2 + y2 + z2

Jacobi-Matrix von f

f ′ = (fu, fv ) =

1 11 −1

2u 2v

Gradient von g

grad g =

2x2y2z

= 2

u + vu − v

u2 + v2 − 1

Ableitungsregeln Multivariate Kettenregel 45-1

Kettenregel unter Berucksichtigung von gradϕ = ϕt fur eine skalareFunktion ϕ =⇒

(grad h)t = (grad g)t f ′

= 2

(u + v + u − v + 2u(u2 + v2 − 1)u + v − u + v + 2v(u2 + v2 − 1)

)t

und nach Vereinfachung

operatornamegradh = 4(u2 + v2)

(uv

)

Ableitungsregeln Multivariate Kettenregel 45-2

Beispiel:

affine Abbildung eines Referenzdreiecks

D∗ : x1 + x2 ≤ 1, xi ≥ 0 ,

auf ein Dreieck D mit den Eckpunkten P, Q und R:

y = ϕ(x) = p + (q − p)x1 + (r − p)x2

PQ

R

(0, 0) (1, 0)

(0, 1)

ϕ

x ∈ D∗

y ∈ D

Ableitungsregeln Multivariate Kettenregel 46-1

Jacobi-Matrix∂(y1, y2)

∂(x1, x2)= (q − p, r − p)

Kettenregel =⇒

(grad h(x))t = (grad g(y))t(

q1 − p1 r1 − p1

q2 − p2 r2 − p2

), h(x) = g(ϕ(x))

fur eine sklalare Funktion ϕ

Anwendung:Aufstellen von Steifigkeitsmatrizen bei Finite-Elemente-Verfahren

Ableitungsregeln Multivariate Kettenregel 46-2

Richtungsableitung

Die Ableitung einer Funktion f in Richtung eines Vektors v ist

∂v f (x) = limt→0

f (x + tv)− f (x)

t.

Aufgrund der Kettenregel kann sie mit Hilfe der Jacobi-Matrix f ′ durch(d

dtf (x + tv)

)t=0

= f ′(x)v

berechnet werden. Speziell ist ∂eν f mit eν dem ν-ten Einheitsvektor diepartielle Ableitung bzgl. der ν-ten Koordinate.

Ableitungsregeln Richtungsableitung 47-1

xv

grad f

∂vf(x)

Ableitungsregeln Richtungsableitung 47-2

Fur eine skalare Funktion ist

∂v f = (grad f (x))t v .

Wie in der Abbildung illustriert ist, gibt die Richtungsableitung in diesemFall den Anstieg von f in Richtung v an. Die lokale Anderung wirdmaximal fur v ‖ grad f (x).

Ableitungsregeln Richtungsableitung 47-3

Beispiel:

Berechnung der Richtungsableitung der Funktion

f (x , y) = x2y3

im Punkt (x , y) = (2,−1)allgemeine Form des Gradienten

grad f (x , y) =

(2xy3

3x2y2

)Einsetzen der konkreten Koordinaten

∂v f (2,−1) = (−4, 12)

(v1

v2

)= −4v1 + 12v2

Ableitungsregeln Richtungsableitung 48-1

Richtungsableitung maximal fur

v ‖(−412

)also z.B. fur v = (−1, 3)großter lokaler Anstieg von f

f (2− t,−1 + 3t) = f (2,−1) + t∂v f (2,−1)

= −4 + t(−4, 12)

(−13

)= −4 + 40t

fur kleine Werte von t

Ableitungsregeln Richtungsableitung 48-2

Tangente

Der Tangentenvektor einer mit einer stetig differenzierbaren Funktion

f : t 7→ (f1(t), . . . , fn(t))t

parametrisierten Kurve im Punkt f (t0) ist die Ableitung f ′(t0) , fallsmindestens eine der Komponenten f ′i (t0) ungleich Null ist. Die Tangenteist die durch

f (t0) + f ′(t0)(t − t0) , t ∈ R ,

parametrisierte Gerade.

Lineare Approximation und Taylor-Entwicklung Tangente 49-1

xi

f ′i(t0)

f ′(t0)f(t0)

f(t0) + f ′(t0)(t− t0)

Ist f ′(t0) der Nullvektor, so ist die Parametrisierung bei t0 singular. EinTangentenvektor muss nicht existieren; die Tangentenrichtung kann sichim Punkt f (t0) abrupt andern.

Lineare Approximation und Taylor-Entwicklung Tangente 49-2

Beispiel:

Schraubenlinie

t 7→ f (t) =

sin tcos tt

Tangentenvektor

f ′(t) = (cos t,− sin t, 1)t

−10

1

−1

0

10

10

20

30

Lineare Approximation und Taylor-Entwicklung Tangente 50-1

Parametrisierung der Tangente im Punkt f (3π) = (0,−1, 3π)

t 7→

0−13π

+

−101

(t − 3π)

Lineare Approximation und Taylor-Entwicklung Tangente 50-2

Beispiel:

(i)

t 7→ f (t) =

(t3

t2

)abrupte Richtungsanderung fur t0 = 0 von (0,−1)t nach (0, 1)t

moglich, da f ′(t) = (0, 0)t

x

y

0

f(t) = (t3, t2)t

1

1

Lineare Approximation und Taylor-Entwicklung Tangente 51-1

(ii)t 7→= (t3, t4)t

stetige Tangentenanderung trotz f ′(0) = (0, 0)t

Umparametrisierung

s = t3, f (t) = q(s) =

(s

s4/3

)=⇒ q′(s) = (1, 4s1/3/3)t stetig bei s = 0

x

y

f(t) = (t3, t4)t

10

1

Lineare Approximation und Taylor-Entwicklung Tangente 51-2

Tangentialebene einer implizit definierten Flache

Sei f eine stetig differenzierbare Funktion und p = (p1, . . . , pn) dieKoordinaten eines Punktes P auf der durch

f (x1, . . . , xn) = c

implizit definierten Flache.

Ist grad f (p) 6= 0 , so hat die Tangentialebene im Punkt P die Gleichung

E : (grad f (p))t (x − p) = 0 .

Der Normalenvektor ist also parallel zu grad f .

Lineare Approximation und Taylor-Entwicklung Tangentialebene 52-1

P

x

grad f(p)

Lineare Approximation und Taylor-Entwicklung Tangentialebene 52-2

Speziell ist fur den Graph einer Funktion x 7→ y = g (x1 , . . . , xn−1)

E : y − g(q) =n−1∑i=1

∂ig(q) (xi − qi )

die Gleichung der Tangentialebene im Punkt (qi , . . . , qn−1 , g(q))t. Diepartielle Ableitung ∂ig entspricht somit der Steigung der Tangentialebenein Richtung der i-ten Koordinatenachse.

Lineare Approximation und Taylor-Entwicklung Tangentialebene 52-3

Beweis:

(i) Implizite Darstellung einer Flache durch f (x1, . . . , xn) = c :Definition der totalen Ableitung f ′ = (grad f )t =⇒

f (x) = f (p) + (grad f )t(x − p) + o(|x − p|)

Vernachlassigung des Terms o(|x − p|), f (x) = f (p) = c Gleichung der Tangentialebene(ii) Darstellung einer Flache als Funktionsgraph y = g (x1, . . . , xn−1):

∆y =n−1∑i=1

∂ig(q)(∆xi ) + o(|∆x |)

mit ∆y = y − g(q) und ∆x = x − qVernachlassigung des Restgliedes Darstellung der Tangentialebene

Lineare Approximation und Taylor-Entwicklung Tangentialebene 53-1

Beispiel:

KegelK : f (x , y , z) = x2 + y2 − z2 = 0

grad f (x , y , z) = (2x , 2y ,−2z)t Tangentialebene im Punkt(x0, y0, z0)

E : 2x(x − x0) + 2y(y − y0)− 2z0(z − z0) = 0

Lineare Approximation und Taylor-Entwicklung Tangentialebene 54-1

Tangentialebene im Punkt P = (3, 4, 5)

E : −10z + 8y + 6x = 0

grad f (p) = (0, 0, 0) fur p = (0, 0, 0) keine Tangentialebene an der Spitze des Kegels

Lineare Approximation und Taylor-Entwicklung Tangentialebene 54-2

Beispiel:

Potential eines Dipols mit Ladungen in den Punkten −P und P (mitKoordinaten ±p = ±(p1, p2))

g(x) = |x − p|−1 − |x + p|−1 , x = (x1, x2)

∂ν(x21 + x2

2 )−1/2 = (−1/2)(x21 + x2

2 )−3/2(2xν) Gradient

grad g(x) =(x + p)

|x + p|3 −(x − p)

|x − p|3

Tangentialebene im Punkt A mit Koordinaten a = (a1, a2)

x3 = g(a) + (grad g(a))t (x − a)

z.B. fur a = (0, 0)x3 = 0 + (2pr/|p|3)(x1, x2)t

Lineare Approximation und Taylor-Entwicklung Tangentialebene 55-1

Tangentialebene verlauft durch den Ursprung und enthalt die Geradesenkrecht zu P.

keine Tangentialebenen in den Singularitaten P und −P

Lineare Approximation und Taylor-Entwicklung Tangentialebene 55-2

Tangentialebene einer parametrisierten Flache

Durch eine stetig differenzierbare Abbildung s1...

sn−1

7→ f1(s

...fn(s)

wird eine (n − 1)-dimensionale Flache S ⊂ Rn definiert. Sind die partiellenAbleitungen ∂k f (s) linear unabhangig, so spannen diese Vektoren dieTangentialebene im Punkt p = f (s) auf:

E : p +n−1∑k=1

λk∂k f (s), λk ∈ R .

Lineare Approximation und Taylor-Entwicklung Tangentialebene 56-1

Multivariate Taylor-Approximation

Eine in einer Umgebung eines Punktes a = (a1, . . . , am) skalare (n+ 1)-malstetig differenzierbare Funktion f von m Veranderlichen xi kann durch einTaylor-Polynom vom totalen Grad ≤ n approximiert werden:

f (x) =∑|α|≤n

1

α!∂αf (a)(x − a)α + R

mit α! = α1! · · ·αm! und dem Restglied

R =∑|α|=n+1

1

α!∂αf (u)(x − a)α , u = a + θ(x − a) ,

fur ein θ ∈ [0, 1] .Fur x → a strebt der Fehler mit der Ordnung n + 1 gegen Null:

R = O(|x − a|n+1) .

Lineare Approximation und Taylor-Entwicklung Taylor-Approximation 57-1

Beweis:

Zuruckfuhrung auf den univariaten Fall (o.B.d.A. a = 0):setze

f (x1, ..., xm) = f (tx1, ..., txm)|t=1 = g(t)|t=1

Taylor-Entwicklung der univariaten Funktion g(t) im Nullpunkt

g(t) = g(0) + g ′(0) t + · · ·+ 1

n!g (n)(0)tn + R

mit

R =1

(n + 1)!g (n+1)(θt)tn+1

fur ein θ ∈ [0, 1]

Lineare Approximation und Taylor-Entwicklung Taylor-Approximation 58-1

Kettenregel =⇒

g(0) = f (0, . . . , 0)

g ′(0) =∑j

∂j f (tx1, . . . , txm)xj

∣∣∣∣∣∣t=0

=∑j

(∂j f (0))xj

g ′′(0) =∑i

∑j

(∂i∂j f (0))xixj

...

mk Terme bei k-ter AbleitungZusammenfassen gleicher partieller Ableitungen Koeffizienten derEntwicklungz.B. fur m = 2, k = 5, Zusammenfassen von

∂1∂1∂1∂2∂2, ∂1∂1∂2∂1∂2, ∂1∂1∂2∂2∂1, . . .

∂α, α = (3, 2) (5

3

)= 5!/(3! 2!) Terme

Lineare Approximation und Taylor-Entwicklung Taylor-Approximation 58-2

allgemein(k

α1

)·(k − α1

α2

)· · ·(k − α1 − . . .− αm−1

αm

)=

k!

α1!(k − α1)!

(k − α1)!

α2!(k − α1 − α2)!

(k − α1 − α2)!

α3!(k − α1 − α2 − α3)!· · ·

= k!/(α1! . . . αm!)

Terme, wenn nach der ν-ten Komponente jeweils αν-mal abgeleitet wirdEinsetzen der Ableitungen in die Funktion g(t), Kurzen des Faktors k! Entwicklung von f

Lineare Approximation und Taylor-Entwicklung Taylor-Approximation 58-3

Beispiel:

Taylor-Entwicklung einer Funktion von zwei Variablen:

f (x , y) = f + fx (x − x0) + fy (y − y0)

+fxx2

(x − x0)2 + fxy (x − x0) (y − y0) +fyy2

(y − y0)2

+fxxx

6(x − x0)3 +

fxxy2

(x − x0)2 (y − y0)

+fxyy

2(x − x0) (y − y0)2 +

fyyy6

(y − y0)3 + R ,

wobei f und samtliche partielle Ableitungen im Punkt (x0, y0) ausgewertetwerdenEntwickeln von

f (x , y) = sin(x − ωy)

im Punkt (x0, y0) = (0, 0)

Lineare Approximation und Taylor-Entwicklung Taylor-Approximation 59-1

sin(1) = cos, sin(2) = − sin, sin(3) = − cos, . . . und

∂αx ∂βy f (0, 0) = sin(α+β)(0) (−ω)β

Approximation

sin(x − ωy) = x − ωy − 1

6(x3 − 3ωx2y + 3ω2xy2 − ω3y3)︸ ︷︷ ︸

(x−ωy)3

+R

mit dem Restglied

R =1

4!(fxxxxx

4 + 4fxxxyx3y + 6fxxyyx

2y2 + 4fxyyyxy3 + fyyyyy

4)

und Auswertung der Ableitungen an der Stelle (θx , θy) fur ein θ ∈ [0, 1]fxxxx = sin(θx − ωθy), fxxxy = sin(θx − ωθy)(−ω), . . .

R =1

4!(x4 + 4x3(−ω)y + 6x2ω2y2 + 4x(−ω3)y3 + ω4y4)

=1

4!sin(θ(x − ωy))(x − ωy)4

Lineare Approximation und Taylor-Entwicklung Taylor-Approximation 59-2

Alternative Berechnung des Taylor-Polynoms durch Einsetzen vont = x − ωy in die eindimensionale Reihendarstellung der Sinusfunktion:

sin(t) = t − t3

3!+ · · ·

t = x − ωy

f (x , y) = (x − ωy)− 1

3!(x − ωy)3 +

1

4!sin(θt)(x − ωy)5

fur ein θ ∈ [0, 1] (univariates Restglied)vierte Ableitung des Sinus am Entwicklungspunkt Null kleineresRestglied

R =1

5!cos(θt)(x − ωy)5

Lineare Approximation und Taylor-Entwicklung Taylor-Approximation 59-3

Beispiel:

Entwicklung des Polynoms

f (x , y , z) = z2 − xy

an der Stelle (0,−2, 1)von Null verschiedene Ableitungen

fx = −y , fy = −x , fz = 2z , fxy = −1 , fzz = 2

Auswerten am Entwicklungspunkt Taylor-Darstellung (1 + 5Terme)

1 + 2x + (−0)(y + 2) + 2(z − 1) + (−1)x(y + 2) +1

22(z − 1)2 = z2 − xy

alternativ: Entwicklung durch UmformungSubstitution

y + 2 = η , z − 1 = ζ

f (x , y , z) = (ζ + 1)2 − x(η − 2) = ζ2 + 2ζ + 1− xη + 2x

Lineare Approximation und Taylor-Entwicklung Taylor-Approximation 60-1

Hesse-Matrix

Die quadratische Taylor-Approximation einer skalaren Funktion f in einemPunkt a = (a1, . . . , an) lasst sich in der Form

f (x1, . . . , xn) = f (a) + (grad f (a))t (x − a)

+1

2(x − a)t H f (a)(x − a) + O(|(x − a)|3)

schreiben, wobei die symmetrische Hesse-Matrix

H f (a) =

∂1∂1f (a) · · · ∂1∂nf (a)...

...∂n∂1f (a) · · · ∂n∂nf (a)

die zweiten Ableitungen enthalt.

Lineare Approximation und Taylor-Entwicklung Hesse-Matrix 61-1

Beweis:

Umschreiben der quadratischen Terme der Taylor-Entwicklung (n = 2)

f (x , y) = f + fx (x − x0) + fy (y − y0)

+1

2!(fxx (x − x0)2 + 2fxy (x − x0) (y − y0) + fyy (y − y0)2) + R

= f + fx (x − x0) + fy (y − y0)

+1

2!((x − x0) , (y − y0))

(fxx fxyfxy fyy

)((x − x0)(y − y0)

)+ R ,

wobei f und samtliche partiellen Ableitungen im Punkt (x0, y0)ausgewertet werdenanaloger Beweis im allgemeinen Fall (n ≥ 2)

Lineare Approximation und Taylor-Entwicklung Hesse-Matrix 62-1

Beispiel:

f (x , y) = ln(x + 1/y)

partielle Ableitungen

fx =1

x + 1/y, fy = − 1

xy2 + y,

fxx = − 1

(x + 1/y)2, fxy =

1

(xy + 1)2, fyy =

2xy + 1

(xy2 + y)2

Gradient und Hesse-Matrix im Punkt (0, 1):

grad f (0, 1) =

(1−1

), H f (0, 1) =

(−1 1

1 1

)

Lineare Approximation und Taylor-Entwicklung Hesse-Matrix 63-1

quadratische Taylor-Entwicklung im Punkt (0, 0)

f (x , y) = (1,−1)

(x

y − 1

)+

1

2(x , y − 1)

(−1 1

1 1

)(x

y − 1

)+ O(|(x , y)|3)

= x − y + 1 +1

2

(−x2 + 2x(y − 1) + (y − 1)2

)+ O(|(x , y − 1)|3)

Lineare Approximation und Taylor-Entwicklung Hesse-Matrix 63-2

Beispiel:

quadratische Taylor-Entwicklung von

f (x , y , z) = (xy)z

im Punkt (1, 1, 1)Regeln fur die Differentiation von Potenzen,

d

dt(at)b = ab(at)b−1,

d

dtat = ln a at

partielle Ableitungen

fx = yz(xy)z−1, fz = ln(xy)(xy)z ,

fxx = y2z(z − 1)(xy)z−2, fzz = (ln(xy))2(xy)z ,

fxy = z(xy)z−1 + xyz(z − 1)(xy)z−2, fxz = y(xy)z−1 + yz ln(xy)(xy)z−1

(fy , fyy und fyz durch Vertauschen der Variablen)

Lineare Approximation und Taylor-Entwicklung Hesse-Matrix 64-1

Gradient und Hesse-Matrix

grad f (1, 1, 1) =

110

, H f (1, 1, 1) =

0 1 11 0 11 1 0

quadratische Taylor-Entwicklung

f (x , y , z) = 1 + (1, 1, 0)

x − 1y − 1z − 1

+

1

2(x − 1, y − 1, z − 1)

0 1 11 0 11 1 0

x − 1y − 1z − 1

+ O(|(x − 1, y − 1, z − 1)|3)

= 1 + (x − 1) + (y − 1)

+(x − 1)(y − 1) + (x − 1)(z − 1) + (y − 1)(z − 1)

+ O(|(x − 1, y − 1, z − 1)|3)

Lineare Approximation und Taylor-Entwicklung Hesse-Matrix 64-2

Multivariater Mittelwertsatz

Fur eine stetig differenzierbare Funktionf : x = (x1, . . . , xn)t 7→ (f1(x), . . . , fm(x))t gilt

f (y)− f (x) =

∫ 1

0f ′((1− t)x + ty)(y − x) dt .

Dies folgt aus∫ 1

0 ϕ′(t) dt = ϕ(1)− ϕ(0) mit ϕ(t) = f ((1− t)x + ty) und

der Kettenregel.Durch Anwendung des Mittelwertsatzes der Integralrechnung auf dieeinzelnen Komponenten erhalt man

fk(y)− fk(x) = grad fk((1− tk)x + tky)t(y − x) .

Dabei ist zu beachten, dass die Parameter t1, . . . , tm ∈ [0, 1] imallgemeinen verschieden sind.

Anwendungen Umkehrfunktion 65-1

Aus der Integraldarstellung kann man ebenfalls die Abschatzung

‖f (y)− f (x)‖ ≤ maxz∈[x ,y ]

‖f ′(z)‖‖y − z‖

gewinnen.

Anwendungen Umkehrfunktion 65-2

Umkehrfunktion

Ist fur eine stetig differenzierbare n-variate Funktion f : D → Rn dieJacobi-Matrix f ′(x∗) fur einen Punkt x∗ im Innern des DefinitionsbereichesD ⊆ Rn nicht singular, so ist f lokal invertierbar, d.h. f bildet eineUmgebung U von x∗ bijektiv auf eine Umgebung V von y∗ = f (x∗) ab. DieUmkehrfunktion g = f −1 ist auf V stetig differenzierbar, und es gilt

g ′(y) = f ′(x)−1, x = g(y) ,

fur alle y ∈ V .Man beachte, dass im Gegensatz zu einer univariaten Funktion aus derInvertierbarkeit von f ′(x) fur alle x aus einer zusammenhangenden MengeD nicht notwendig die Injektivitat auf dem gesamten Definitionsbereichfolgt; eine globale Umkehrfunktion muss nicht existieren.

Anwendungen Umkehrfunktion 66-1

Beweis:

(i) Wahlt man o.B.d.A. die Umgebung U von x∗ als eine offene Teilmengevon D, auf der f ′ nicht singular ist (moglich aufgrund der Stetigkeit vondet f ′), so genugt es, neben der lokalen Injektivitat von f (Existenz vong = f −1) die Differenzierbarkeit von g nur im Punkt y∗ zu zeigen.Begrundung:Existenz von g ′(y∗)=⇒ Stetigkeit von g im Punkt y∗

Anwendung des Resultates fur beliebige Punkte x ∈ U an Stelle von x∗=⇒ Differenzierbarkeit von g an allen Punkten y ∈ V = f (U)=⇒ Stetigkeit von g auf V

Stetigkeit und Invertierbarkeit von f ′ auf U, Stetigkeit von g auf V=⇒ Stetigkeit von g ′ : y 7→ f ′(g(y))−1

Anwendungen Umkehrfunktion 67-1

(ii) Invarianz des Resultates unter affinen Transformationen Betrachtung von

p(x) = f ′(x∗)−1(f (x∗ + x)− y∗)

an Stelle von f vereinfachte Voraussetzungen:

p(0n) = 0n, d.h. x∗, y∗ → 0n = (0, . . . , 0), p′(0n) = E

mit E der EinheitsmatrixStetigkeit und Differenzierbarkeit im Punkt 0n =⇒(1) ‖p′(x)− E‖ ≤ ϕ(‖x‖),(2) p(x) = x + R(x), ‖R(x)‖ ≤ ‖x‖ϕ(‖x‖)mit ϕ(t)↘ 0 fur t → 0( 0 ≤ ‖R(x)‖ ≤ ϕ(‖x‖) ⇔ ‖R(x)‖ = o(1) fur ‖x‖ → 0; verschiedeneFunktionen ϕ in den Ungleichungen (1) und (2) konnen durch ihrMaximum, also eine gemeinsame Funktion, ersetzt werden )

Anwendungen Umkehrfunktion 67-2

(iii) Injektivitat von p auf der Kugel U : ‖x‖ < δ:wahle δ so, dass ϕ(δ) < 1/2x , x ∈ U, p(x) = p(x), multivariater Mittelwertsatz =⇒

0 = u(x)− u(x) =

∫ 1

0p′((1− t)x + tx)︸ ︷︷ ︸

(E+p′(xt)−E)

(x − x) dt

= (x − x) +

∫ 1

0(p′(xt)− E )(x − x) dt

und‖x − x‖ ≤ ‖p′(xt)− E‖‖x − x‖ =

(1)ϕ(‖xt‖)‖x − x‖

xt ∈ U =⇒ ϕ(‖xt‖) < ϕ(δ) < 1/2 =⇒ x = x

Anwendungen Umkehrfunktion 67-3

(iv) V = p(U) enthalt die Kugel B : ‖y‖ < δ/4, ist also eine Umgebungvon 0n:zeige dazu mit Hilfe des Banachschen Fixpunktsatzes, dass die Abbildung

S : x 7→ x − p(x) + y

einen eindeutigen Fixpunkt in der Kugel B : ‖x‖ ≤ δ/2 besitzt, d.h. ∃xmit y = p(x)verifiziere die notwendigen Voraussetzungen:

S(B) ⊆ B:

‖S(x)‖ =(2)‖x − (x + R(x)︸ ︷︷ ︸

p(x)

) + y‖ ≤ ‖x‖ϕ(‖x‖) + ‖y‖

≤ (δ/2) ϕ(δ/2)︸ ︷︷ ︸≤ϕ(δ)<1/2

+δ/4 = δ/2

‖S(x)− S(x)‖ ≤ c‖x − x‖ mit c < 1:Abschatzung der Kontraktionskonstante durch c = maxx∈B ‖S ′‖

S ′(x) = E − p′(x) =⇒(1)

c = 1/2

Anwendungen Umkehrfunktion 67-4

(v) q′(0n) = E , q = p−1:zu zeigen:

q(y) = q(0n)︸ ︷︷ ︸0n

+y + R(y)

mit ‖R(y)‖ = o(‖y‖) fur ‖y‖ → 0y = p(x)

R(y) = q(y)− y = x − p(x) =(2)−R(x) = o(‖x‖)

noch ‖x‖ durch ‖y‖ abzuschatzen:

‖y‖ = ‖p(x)‖ =(2)‖x + R(x)‖ ≥ ‖x‖ − ‖x‖ϕ(‖x‖) ≥ (1− 1/2)‖x‖

fur y ∈ B, x ∈ B

Anwendungen Umkehrfunktion 67-5

Beispiel:

prufe die lokale Invertierbarkeit der Funktion

f :

(xy

)7→(

uv

)=

(xyx/y

)im Punkt (x , y) = (2, 1) :Jacobi-Matrix

f ′(x , y) =

(y x

1/y −x/y2

)Einsetzen der konkreten Koordinaten

J f = f ′(2, 1) =

(1 21 −2

)det J = −4 6= 0 =⇒ ∃ Umkehrfunktion g in Umgebung von(

u∗v∗

)= f (x , y) =

(22

)Anwendungen Umkehrfunktion 68-1

Jacobi-Matrix im Punkt (u∗, v∗)

g ′(2, 2) = (J f )−1 =1

4

(2 21 −1

)explizite Bestimmung von g durch Auflosen der Ausdrucke fur u und vnach x und y : (

xy

)= g(u, v) =

( √uv√u/v

) Uberprufung der Formel fur g ′(2, 2) auf direktem Weg

g ′(u, v) =1

2

( √v/u

√u/v

1/√uv −

√u/v3

)Ubereinstimmung fur (u, v) = (2, 2)

Anwendungen Umkehrfunktion 68-2

Beispiel:

komplexe Exponentialfunktion

z = x + iy 7→ ez = u + iv ,

reelle Darstellung:

f (x , y) =

(uv

)=

(ex cos yex sin y

)mit der Jacobi-Matrix

f ′(x , y) = ex(

cos y − sin ysin y cos y

)

Anwendungen Umkehrfunktion 69-1

det f ′(x , y) = e2x > 0 =⇒lokale Existenz einer Umkehrfunktion g (ein Zweig des komplexenLogarithmus) mit der Ableitung

g ′(u, v) =(f ′(x , y)

)−1= e−x

(cos y sin y− sin y cos y

)keine globale Umkehrfunktion wegen

f (x , y + 2πk) = f (x , y), k ∈ Z

Periodizitat =⇒ unendlich viele Urbilder fur jeden Punkt(u, v) 6= (0, 0)

Anwendungen Umkehrfunktion 69-2

Beispiel:

Polarkoordinaten

x = r cosϕ, y = r sinϕ, r =√x2 + y2

partielle Ableitung des Radius’ nach der Koordinate x :

∂r

∂x=

∂x

√x2 + y2 =

x√x2 + y2

=x

r= cosϕ

Paradox:

r = x/ cos(ϕ) =⇒ ∂r

∂x=

1

cos(ϕ)

Grund: Bei den Berechnungen der partiellen Ableitungen werden nicht diegleichen Variablen konstant gehalten: In der ersten Gleichung ist ykonstant und bei der zweiten ϕ

Anwendungen Umkehrfunktion 70-1

skalare Ableitungsregeldy

dx=

(dx

dy

)−1

i.A. falsch fur partielle Ableitungen:

xu 6= (ux)−1

korrekte Berechnung fur eine Bijektion (x , y)↔ (u, v) mit Hilfe derJacobi-Matrix:

∂(u, v)

∂(x , y)=

(ux uyvx vy

),

∂(x , y)

∂(u, v)=

(xu xvyu yv

)=

(ux uyvx vy

)−1

Anwendungen Umkehrfunktion 70-2

im betrachteten Beispiel

∂(x , y)

∂(r , ϕ)=

(cosϕ −r sinϕsinϕ r cosϕ

)Inverse partielle Ableitungen nach x und y :(

cosϕ sinϕ−1

r sinϕ 1r cosϕ

)=∂(r , ϕ)

∂(x , y)=

(rx ryϕx ϕy

)insbesondere: rx = cosϕ

Anwendungen Umkehrfunktion 70-3

Implizite Funktionen

Ist fur eine stetig differenzierbare Funktion f : Rn × Rm → Rn

f (x∗, y∗) = (0, . . . , 0)t, det fx(x∗, y∗) 6= 0 ,

so lasst sich das Gleichungssystem

fk(x1, . . . , xn, y1, . . . , ym) = 0 , k = 1, . . . , n ,

in einer Umgebung von (x∗, y∗) nach x auflosen:

x = ϕ(y) .

Anwendungen Implizite Funktionen 71-1

Die implizit definierte Funktion ϕ ist in einer Umgebung von y∗ stetigdifferenzierbar und besitzt die Jacobi-Matrix

ϕ′ = −(fx)−1fy .

Ein entsprechendes Resultat gilt nach Permutation der Variablen, d.h. mankann nach xk1 , . . . , xkn auflosen, wenn die Spalten k1, . . . , kn derJacobi-Matrix f ′ linear unabhangig sind. Insbesondere ist die Gleichungf (x) = 0 fur eine skalare Funktion f in einer Umgebung von x∗ nach xkauflosbar, wenn ∂k f (x∗) 6= 0.

Anwendungen Implizite Funktionen 71-2

Beweis:

betrachte die Abbildung

(x , y) 7→ u(x , y) = (f (x , y), y)

von Rn+m nach Rn+m in einer Umgebung von (x∗, y∗)

invertierbare Jacobi Matrix

u′(x∗, y∗) =

(fx fy0 E

)|(x∗,y∗)

E : m ×m Einheitsmatrix

=⇒ lokale Existenz einer Umkehrfunktion

u−1 = (v1, . . . , vn+m)

Anwendungen Implizite Funktionen 72-1

u(x , y) = (f (x , y), y) = (0, y) ⇔ (x , y) = v(0, y) ,

d.h. ϕ(y) = (v1(0, y), . . . , vn(0, y))

Differenzieren von0 = f (ϕ(y), y)

nach y =⇒0 = fxϕ

′ + fy ,

d.h. die explizite Formel fur die Jacobi-Matrix ϕ′

Anwendungen Implizite Funktionen 72-2

Beispiel:

Vivianische Kurve: Schnitt der Einheitssphare mit einem Zylinder

C : t 7→

sin t cos tsin2 tcos t

, t ∈ [0, 2π)

x y

z

Anwendungen Implizite Funktionen 73-1

implizite Form

f (x , y , z) = x2 + y2 + z2 − 1 = 0

g(x , y , z) = x2 +

(y − 1

2

)2

− 1

4= 0

Jacobi-Matrix (fx fy fzgx gy gz

)=

(2x 2y 2z2x 2y − 1 0

)Satz uber implizite Funktion =⇒Bedingung fur eine Parametrisierung durch eine der Koordinaten x , y , z

Anwendungen Implizite Funktionen 73-2

(i) Parametrisierung bezuglich x , d.h. auflosen nach y und z :hinreichende Bedingung: Invertierbarkeit von

∂(f , g)

∂(y , z)=

(2y 2z

2y − 1 0

)erfullt fur z 6= 0 und y 6= 1/2g = x2 + (y − 1/2)2 − 1/4 = 0, f − g = z2 − 1 + y = 0

y(x) =1

2+ δ

√1

4− x2, z(x) = δ′

√1

2− δ

√1

4− x2

wobei die Vorzeichen δ, δ′ ∈ {−1, 1} entsprechend den einzelnen Zweigengewahlt werden mussen

Parametrisierungen singular in den Punkten (0, 1, 0)t ,(±1/2, 1/2,±

√2/2)t und (±1/2, 1/2,∓

√2/2)t

geometrisch notwendig: Tangentenrichtung nicht orthogonal zu (1, 0, 0)t,d.h. mit nichtrivialer Komponente in x-Richtung

Anwendungen Implizite Funktionen 73-3

(ii) Parametrisierung bezuglich y und z :hinreichende Bedingungen

det

(2x 2z2x 0

)= −4xz 6= 0 , det

(2x 2y2x 2y − 1

)= −2x 6= 0

keine lokale Parametrisierung (weder nach x , y oder z) im Punkt (0, 1, 0)t

Jacobi-Matrix∂(f , g)

∂(x , y , z)|(0,1,0) =

(0 0 00 −1 1

)Rang der Jacobi-Matrix gleich 1 Doppelpunkt der Kurve

Anwendungen Implizite Funktionen 73-4

Beispiel:

skalare Funktionf (x , y , z) = xey − yz = 0

nach einer Variablen auflosbar, falls die entsprechende partielle Ableitungnicht verschwindetGradient

(fx , fy , fz)t = (ey , xey − z ,−y)t

(i) fx > 0 =⇒ f = 0 fur alle (x , y , z) nach x auflosbar:

x = yze−y

(ii) Auflosen nach z fur y 6= 0 moglich (fz 6= 0):

z = xey/y

Anwendungen Implizite Funktionen 74-1

(iii) Keine elementare Auflosbarkeit nach y :Satz uber implizite Funktionen =⇒ Auflosbarkeit in einer Umgebungvon (x∗, y∗, z∗), falls

fy (x∗, y∗, z∗) = x∗ey∗ − z∗ 6= 0

z.B. erfullt fur die Losung (0, 0, 1) der Gleichung: fy (0, 0, 1) = −1 =⇒∃ϕ : f (x , y , z) = 0⇔ y = ϕ(x , z), (x , y , z) ≈ (0, 0, 1)

Die Funktion ϕ ist nicht explizit angebbar; aber der Gradient ϕ′ kannbestimmt werden:

0 = f (x , ϕ(x , z), z) =⇒ 0 = fx + fyϕx , 0 = fz + fyϕz

Auflosen nach den partiellen Ableitungen von ϕ im Punkt (x∗, y∗, z∗)

ϕx(0, 1) =−fx(0, 0, 1)

fy (0, 0, 1)=

1

−1= −1

ϕz(0, 1) =−fz(0, 0, 1)

fy (0, 0, 1)=

0

−1= 0

Anwendungen Implizite Funktionen 74-2

Beispiel:

algebraische Kurve, definiert durch ein bivariates Polynom p

C : p(x , y) = 0

grad p 6= (0, 0)t =⇒Darstellbarkeit als Funktion von x oder ygrad p = (0, 0)t =⇒Moglichkeit einer Singularitat

x

y

1

0.5

Anwendungen Implizite Funktionen 75-1

Lemniskate

C : p(x , y) = x4 − x2 + y2 = 0, grad p = (−2x + 4x3, 2y)t

Doppelpunkt bei (0, 0), keine eindeutige Auflosbarkeit nach x oder y(i) Vertikale Tangente bei (±1, 0):grad p ‖ (1, 0)t, lokale Auflosung nach x (Parametrisierung bzgl. y)moglich

x = σ

√1

2+

√1

4− y2

mit σ = 1 fur x ≈ 1 und σ = −1 fur x ≈ −1(ii) Waagerechte Tangente bei (σ1

√2/2, σ2/2) mit σk ∈ {−1, 1}:

grad p ‖ (0, 1)t, d.h. y = ϕ(x)Auflosen von p = 0 nach y

y = σ2

√x2 − x4

Anwendungen Implizite Funktionen 75-2

(iii) Punkte (x0, y0) mit weder vertikaler noch horizontaler Tangente:Auflosbarkeit sowohl nach x oder yBei Auflosung nach y folgt aus

0 =d

dxp(x , y(x)) = px + py

dy

dx

dassdy

dx= −p−1

y px =4x3 − 2x

2y

Gleichung der Tangente im Punkt (x0, y0)

y − y0 =4x3

0 − 2x0

2y0(x − x0)

Anwendungen Implizite Funktionen 75-3

Fehlerfortpflanzung bei multivariaten Funktionen

Fur eine stetig differenzierbare Funktion x 7→ y = f (x) lassen sich dieAuswirkungen von inakuraten Argumenten x + ∆x ≈ x mit Hilfe derpartiellen Ableitungen von f beschreiben. Fur den absoluten Fehler gilt beiVernachlassigung von Termen der Ordnung o (|∆x |)

∆y = f (x + ∆x)− f (x) ≈ fx1(x)∆x1 + · · ·+ fxn(x)∆xn .

Ist |xi |, |y | 6= 0 , so folgt fur den relativen Fehler

∆y

|y | ≈ c1∆x1

|x1|+ · · ·+ cn

∆xn|xn|

mit den Konditionszahlen

ci =∂y

∂xi

|xi ||y | .

Anwendungen Fehlerfortpflanzung bei multivariaten Funktionen 76-1

Beispiel:

Berechnung des Winkels ϕ von Polarkoordinaten aus kartesischenKoordinaten

ϕ = f (x , y) = arctan(y/x)

(i) Absoluter Fehler:

∆ϕ ≈ fx(x , y)∆x + fy (x , y)∆y = − y∆x

x2 + y2+

x∆y

x2 + y2

|x |, |y | ≤√x2 + y2 =⇒ mogliche Vergroßerung des absoluten

Fehlers um einen Faktor proportional zu 1/r

Anwendungen Fehlerfortpflanzung bei multivariaten Funktionen 77-1

(ii) Relativer Fehler:

∆ϕ

|ϕ| ≈ −y |x |

(x2 + y2)|ϕ|∆x

|x | +x |y |

(x2 + y2)|ϕ|∆y

|y |x = r cosϕ, y = r sinϕ und | sinϕ/ϕ| ≤ 1 =⇒ Betrag der rechtenSeite

≤∣∣∣∣cosϕ sinϕ

ϕ

∣∣∣∣ ( |∆x ||x | +

|∆y ||y |

)≤ 2 max

( |∆x ||x | ,

|∆y ||y |

)Verstarkung des relativen Fehlers hochstens um einen Faktor 2

Anwendungen Fehlerfortpflanzung bei multivariaten Funktionen 77-2

Steilster Abstieg

Die Methode des steilsten Abstiegs dient zur Minimierung multivariaterFunktionen f (x1, . . . , xn). Zur Durchfuhrung eines Iterationsschrittesx → y wird zunachst der negative Gradient

d = − grad f (x)

als lokal beste Abstiegsrichtung berechnet.Dann wird y als eine Minimalstelle von f in Richtung von d bestimmt:

f (y) = mint≥0

f (x + td) .

Anwendungen Methode des steilsten Abstiegs 78-1

x

y

d

Anwendungen Methode des steilsten Abstiegs 78-2

Wie in der Abbildung illustriert, ist die Suchrichtung orthogonal zu derNiveaumenge durch x und beruhrt eine Niveaumenge zu einem kleinerenFunktionswert in y .

Die Konvergenz der durch die Methode des steilsten Abstiegs erzeugtenFolge x0, x1, . . . kann unter sehr allgemeinen Voraussetzungen gezeigtwerden. Hinreichend ist, dass f nach unten beschrankt ist und grad f ineiner Umgebung U der Menge {x : f (x) ≤ f (x0)} Lipschitz-stetig ist, d.h.

‖ grad f (x)− grad f (x)‖ ≤ L‖x − x‖, x , x ∈ U .

Dann gilt∞∑`=0

‖ grad f (x`)‖2 <∞ ;

insbesondere ist ‖ grad f (x`)‖ eine Nullfolge.

Anwendungen Methode des steilsten Abstiegs 78-3

Dies impliziert insbesondere, dass jeder Haufungspunkt der Folge x0, x1, . . .ein kritischer Punkt von f ist. Dass es sich um ein lokales Minimumhandelt ist statistisch gesehen fast sicher, kann jedoch nicht zwingendgefolgert werden.

In dem Algorithmus braucht die eindimensionale Minimierung nurnaherungsweise durchgefuhrt werden. Die Suchrichtung d muss nicht alsder negative Gradient gewahlt, und eine globale Minimalstelle y nichtbestimmt werden. Entscheidend fur die Konvergenz ist lediglich, dass injedem Iterationsschritt eine Reduktion des Funktionswertes proportional zu‖ grad f (x)‖2 erreicht wird.

Anwendungen Methode des steilsten Abstiegs 78-4

Beispiel:

steilster Abstieg fur eine quadratische Funktion

f (x) =1

2x tAx − btx

mit einer symmetrischen positiv definiten Matrix AIterationsschritt x → y

y = x + td , d = − grad f (x) = b − Ax

eindimensionale Minimierung explizit durchfuhrbar:

f (x + td) =1

2(x + td)tA(x + td)− bt(x + td)

=1

2d tAd t2 + (x tAd − btd) t +

1

2(x tAx − 2btx)

Nullsetzen der Ableitung nach t Formel fur denHalbgeradenparameter t

0 = d tAd t − (b − Ax)td = d tAd t − d td =⇒ t =d td

d tAdAnwendungen Methode des steilsten Abstiegs 79-1

x0

x∗x1

unerwunschte Oszillationen bei Eigenwerten stark unterschiedlicherGroßenordnung von A, z.B. fur

A =

(1 00 100

), b =

(00

)x = (c, 1)t

d = −(

c100

), Ad = −

(c

104

)Anwendungen Methode des steilsten Abstiegs 79-2

und

d td = c2 + 104, d tAd = c2 + 106, t =d td

d tAd=

c2 + 104

c2 + 106

sowie

y = x + td =

(c1

)− c2 + 104

c2 + 106

(c

100

)=

99c2

c2 + 106

(104/c−1

)fur c = 100 Verbesserung um weniger als 1%

y =99

101

(x1

−x2

)

Anwendungen Methode des steilsten Abstiegs 79-3

Multivariates Newton-Verfahren

Die Losung x∗ ∈ Rn eines nichtlinearen Gleichungssystems

f1(x∗) = · · · = fn(x∗) = 0

kann mit der durch

xneu = xalt −∆x , f ′(xalt)∆x = f (xalt)

definierten Newton-Iteration bestimmt werden.Ist f zweimal stetig differenzierbar und die Jacobi-Matrix f ′(x∗)invertierbar, so konvergiert das Verfahren lokal quadratisch:

|xneu − x∗| ≤ c |xalt − x∗|2

fur Starwerte in einer Umgebung U von x∗. Insbesondere ist det f ′(x) 6= 0fur x ∈ U, so dass das lineare Gleichungssystem fur ∆x eindeutig losbar ist.

Anwendungen Newton-Verfahren 80-1

Beweis:

(i) Beschreibung der Iteration:lineare Approximation von f =⇒

0 = f (x∗) = f (xalt) + f ′(xalt)(x∗ − xalt) + R ,

R =1

2(x∗ − xalt)

t H f (x)(x∗ − xalt)

mit H f der Hesse-Matrix und x einem Punkte auf dem Segment zwischenx∗ und xalt

Auflosen nach x∗ und Vernachlassigen des Restglieds verbesserteNaherung xneu ≈ x∗

xneu = xalt − f ′(xalt)−1f (xalt)

Auflosen der ersten Gleichung nach f (xalt) =⇒f (xalt) = −f ′(xalt)(x∗ − xalt)− R ,

und nach Einsetzen in die Iterationsvorschrift

xneu = x∗ + f ′(xalt)−1R

Anwendungen Newton-Verfahren 81-1

(ii) Abschatzung des Fehlers:setze C = max(‖f ′(x∗)−1‖, ‖H f (x∗)‖) und wahle ein positivesδ < 1/(4C 2), so dass

‖x − x∗‖ < δ =⇒ ‖f ′(x)−1‖, ‖H f (x)‖ ≤ 2C

moglich aufgrund der Stetigkeit der beteiligten Funktionen‖xalt − x∗‖ < δ =⇒

‖xneu − x∗‖ ≤ ‖f ′(xalt)−1‖‖R‖

≤ (2C )1

2(2C )︸ ︷︷ ︸

c

‖xalt − x∗‖2 ,

und nach Wahl von δ < 1/(4C 2) ebenfalls

‖xalt − x∗‖ <1

2‖xalt − x∗‖

=⇒ δ-Umgebung von x∗ enthalt auch xneu

=⇒ Anwendbarkeit der Abschatzungen fur alle generiertenApproximationen

Anwendungen Newton-Verfahren 81-2

Beispiel:

vereinfachte RobotersteuerungPSfrag repla ements�

� #0 a

b PRoboterarm mit drei DrehgelenkenPosition P und die Orientierung ϑ des Endeffektors als nichtlineareFunktion q = (p1, p2, ϑ)t der Gelenkwinkel α, β, γ

Anwendungen Newton-Verfahren 82-1

q1(α, β, γ) = a cos(α) + b cos(α + β − π) + c cos(α + β + γ − 2π)q2(α, β, γ) = a sin(α) + b sin(α + β − π) + c sin(α + β + γ − 2π)q3(α, β, γ) = α + β + γ − 2π.

a = 3, b = 2, c = 1 und Substitution von

β′ = α + β, ϑ = q3 = α + β + γ − 2π

nichtlineares System

0 = f1(α, β′) = p1 − 3 cosα + 2 cosβ′ − cosϑ0 = f2(α, β′) = p2 − 3 sinα + 2 sinβ′ − sinϑ

Anwendungen Newton-Verfahren 82-2

Ruhelage des Roboterarms: p = (2, 2)t, ϑ = −π/2←→ Losung α0 = π/2, β′0 = π (α = β = γ = π/2) mit Jacobi-Matrix

f ′(α0, β′0) =

[3 sinα0 −2 sinβ′0−3 cosα0 2 cosβ′0

]=

[3 00 −2

]erster Schritt des Newton-Verfahrens zur Erreichung der benachbartenPosition p = (2, 3)t, ϑ = −π/4[

3 00 −2

] [∆α∆β′

]=

[−√

2/2√2/2

]=⇒ ∆α = −

√2/6 , ∆β′ = −

√2/4 und(

α1

β′1

)=

(α0

β0

)−(

∆α∆β′

)=

(π/2 +

√2/6

π +√

2/4

)Fehler zur Position p

f (α1, β′1) ≈ (0.1172, 0.0976)

Anwendungen Newton-Verfahren 82-3

Kritischer Punkt

Fur eine skalare Funktion f bezeichnet man x als kritischen Punkt, wenngrad f (x) = (0, . . . , 0)textt. Ist f zweimal stetig differenzierbar, so wirdder Typ des kritischen Punktes, d.h. die Form des Funktionsgraphen ineiner Umgebung von x , durch die Vorzeichen der Eigenwerte λi derHesse-Matrix H f (x) bestimmt:

Flachpunkt: Alle Eigenwerte λi sind Null.

elliptischer Punkt: Alle Eigenwerte λi sind ungleich Null und habendas gleiche Vorzeichen. Die Funktion f hat in diesem Fall ein lokalesExtremum bei x .

hyperbolischer Punkt: Es gibt Eigenwerte λi mit verschiedenemVorzeichen. Man bezeichnet x auch als Sattelpunkt.

parabolischer Punkt: Mindestens ein Eigenwert λi ist Null, und alleanderen Eigenwerte haben das gleiche Vorzeichen.

Die Motivation fur die Bezeichnungen ist die Form der Hohenlinien imbivariaten Fall.

Extremwerte Kritischer Punkt 83-1

elliptischer Punkt hyperbolischer Punkt parabolischer Punkt

Bei Funktionen in zwei Veranderlichen kann der Typ anhand derDeterminante der Hesse-Matrix klassifiziert werden. Ist det(H f ) > 0(< 0), so handelt es sich um ein Extremum (einen Sattelpunkt).

Fur ein Minimum bzw. ein Maximum ist Spur(H f ) > 0 bzw. < 0 .Verschwindet die Determinante und ist die Hesse-Matrix nicht Null, so istder Punkt parabolisch.

Extremwerte Kritischer Punkt 83-2

Beispiel:

kritische Punkte der Funktion

f (x , y) = y(1− x2 − y2)

Gradient und Hesse-Matrix

grad f =

(−2xy

1− x2 − 3y2

), H f =

(−2y −2x−2x −6y

)grad f = (0, 0)t ⇔

xy = 0 ∧ x2 = 1− 3y2

kritische Punkte (0,±1/

√3), (±1, 0)

entsprechende Hesse-Matrizen(∓2/√

3 0

0 ∓6/√

3

),

(0 ∓2∓2 0

)Extremwerte Kritischer Punkt 84-1

Punkt (x , y) =(0,±1/

√3):

det(H f ) = 4 > 0 und Spur(H f ) = ∓8/√

3

=⇒ lokales Minimum bei (0,−1/√

3) und lokales Maximum bei(0, 1/

√3)

Punkt (x , y) = (±1, 0)det(H f ) = −4 < 0

Sattelpunktealternativ:Typbestimmung anhand der Nullstellenmenge und der sich darausergebenden Vorzeichenverteilung von f

f (x , y) = 0 ⇐⇒ y = 0 ∨ x2 + y2 = 1

Extremwerte Kritischer Punkt 84-2

(−1, 0)

(0, −1/√3)

(1, 0)

(0, 1/√3)

Sattelpunkte an Schnittpunkten mit Vorzeichenwechsellokale Extrema in den von der Nullstellenmenge eingeschlossenenbeschrankten Bereichen

Extremwerte Kritischer Punkt 84-3

Beispiel:

f (x , y) = (y − x + x2)y , grad f = (−1 + 2x)y , 2y − x + x2)t

kritische Punkte (0, 0), (1, 0) und (1/2, 1/8)(i) Typbestimmung anhand der Vorzeichenverteilung von f :

+

+

− −

(1/2, 1/8)(0, 0) (1, 0)

Sattelpunkte an den Schnittpunkten, denn in jeder Umgebung existierensowohl positive als auch negative Wertelokales Minimum im grauen Bereich; f ist im Innern negativ und Null aufdem Rand

Extremwerte Kritischer Punkt 85-1

(ii) Typbestimmung mit Hilfe der Hesse-Matrix:

H f =

(2y 2x − 1

2x − 1 2

)Einsetzen der kritischen Punkte

H f (0, 0) =

(0 −1−1 2

)H f (1, 0) =

(0 11 2

)H f (1/2, 1/8) =

(1/4 0

0 2

)Sattelpunkte bei (0, 0) und (1, 0), da det(H f ) < 0lokales Minumum bei (1/2, 1/8), da det(H f ) > 0 und Spur(H f ) > 0

Extremwerte Kritischer Punkt 85-2

Extrema multivariater Funktionen

Ist f (x∗) ein Minimum (Maximum) einer stetig differenzierbaren skalarenFunktion f auf einer Umgebung U von x∗, so gilt

grad f (x∗) = (0, . . . , 0)t .

Eine hinreichende Bedingung ist, dass ebenfalls die zweiten partiellenAbleitungen in U stetig sind und alle Eigenwerte der Hesse-Matrix imkritischen Punkt x∗ positiv (negativ) sind.Gibt es Eigenwerte mit verschiedenen Vorzeichen, so handelt es sich umeinen Sattelpunkt, also kein lokales Extremum. Ist mindestens einEigenwert Null bei gleichen Vorzeichen der von Null verschiedenenEigenwerte, so kann der Typ des kritischen Punktes x∗ anhand der zweitenAbleitungen nicht klassifiziert werden.

Extremwerte Extrema multivariater Funktionen 86-1

Lokale Minima (Maxima) konnen auch an Randpunkten desDefinitionsbereichs D auftreten. In diesen Fall muss die Richtungsableitung∂v f (x∗) fur jede ins Innere von D zeigende Richtung ≥ 0 (≤ 0) sein.Eine globale Extremstelle einer skalaren Funktion f auf einer Menge D istentweder ein kritischer Punkt (d.h. grad f = 0), ein Randpunkt, oder, fallsf nicht uberall stetig differenzierbar ist, eine Unstetigkeitsstelle einerpartiellen Ableitung. Die globalen Minima und Maxima lassen sich alsodurch Vergleich der Funktionswerte an diesen Punkten ermitteln.

Extremwerte Extrema multivariater Funktionen 86-2

Die Abbildung illustriert die verschiedenen Moglichkeiten. Dabei sind lokaleExtrema durch Kreise und globale Extrema durch Punkte gekennzeichnet.

Extremwerte Extrema multivariater Funktionen 86-3

Beweis:

betrachte die n-variate Funktion f entlang von Geraden, d.h. fur einenbeliebigen Vektor v mit |v | = 1 die univariate Funktion

g(t) = f (x∗ + tv), t ∈ R

Kettenregel =⇒

g ′(t) =n∑

k=1

∂k f (x∗ + tv)vk = grad f (x∗ + tv)tv

g ′′(t) =n∑

j=1

n∑k=1

∂j∂k f (x∗ + tv)vjvk = v t H f (x∗ + tv)v

Extremwerte Extrema multivariater Funktionen 87-1

(i) Notwendige Bedingung fur Extrema:x∗ lokale Extremstelle von f =⇒ t = 0 lokale Extremstelle von gund folglich

0 = g ′(0) = grad f (x∗))tv = ∂v f (x∗)

Richtung v beliebig =⇒ grad f (x∗) = (0, . . . , 0)t

Fur ein lokales Minimum x∗ am Rand folgt aus g ′(0) ≥ 0 fur jede insInnere von D zeigende Richtung v , dass ∂v f (x∗) ≥ 0analoges Argument fur ein lokales Maximum am Rand

Extremwerte Extrema multivariater Funktionen 87-2

(ii) Hinreichende Bedingung:Eigenwerte von H f (x∗) positiv ⇔ H f (x∗) positiv definit ⇔

v t H f (x∗)v ≥ c > 0

Stetigkeit =⇒Die Ungleichung bleibt fur H f (x) und x = x∗ + tv in einer UmgebungU : t < δ erhalten mit der kleineren Konstanten c/2 an Stelle von c .Taylor-Approximation fur x ∈ U =⇒

f (x) = g(t) = g(0) + g ′(0)︸ ︷︷ ︸0

t +1

2g ′′( s︸︷︷︸∈[0,δ)

) t2

= f (x∗) +1

2v t H f (x + sv︸ ︷︷ ︸

∈U

)v t2 ≥ f (x∗) +1

2t2 c

2> f (x∗)

=⇒ x∗ lokale Minimalstelle von f in Uanaloges Argument fur ein lokales Maximum im Innern

Extremwerte Extrema multivariater Funktionen 87-3

Beispiel:

quadratische Funktion

f (x) =1

2x tAx − x tb + c , A = At

Gradient und Hesse-Matrix

grad f = Ax − b, H f = A

kritische Punkte x∗: Losungen von Ax = bEigenwerte von A ausschließlich positiv oder negativ =⇒ detA 6= 0und Ax = b eindeutig losbar genau ein lokales und damit ebenfalls globales Extremum von f

Extremwerte Extrema multivariater Funktionen 88-1

z.B.

f (x , y) =3

2x2 + 2xy +

3

2y2 + x + 4y − 3, A =

(3 22 3

), b =

(−1−4

)grad f = (0, 0)t (

3 22 3

)(xy

)=

(−1−4

)mit der Losung (x∗, y∗) = (1,−2)detA = 5 und SpurA = 6 positiv=⇒ Eigenwerte von A positiv=⇒ (1,−2) ist das globale Minimum von f

Extremwerte Extrema multivariater Funktionen 88-2

Beispiel:

Bestimmung der globalen Extrema der Funktion

f (x , y) = cos x + cos y + cos(x + y)

f ist 2π-periodisch bezuglich x und y und f (y , x) = f (x , y) = f (−x ,−y)=⇒ Es genugt, den Bereich

D = (−π, π]× [0, π]

zu untersuchen.keine Randpunkte und Unstetigkeitstellen von partiellen Ableitungen nur kritische Punkte relevant

grad f =

(− sin x − sin(x + y)− sin y − sin(x + y)

)=

(00

)⇔

sin x = − sin(x + y) = sin y

Extremwerte Extrema multivariater Funktionen 89-1

sin x = sin y mit 0 ≤ y ≤ π und −π < x ≤ π zwei mogliche Falle

x = y ∨ y = π − x

betrachte fur beide Falle die zweite Gleichung sin x = − sin(x + y)(i) x = y :

sin x = − sin(2x) = −2 sin x cos x ⇔ (1/2 + cos x) sin x = 0

kritische Punkte (0, 0), (π, π) und (2π/3, 2π/3) im betrachtetenBereich(ii) y = π − x :

sin(x) = − sin(π) = 0

kritische Punkte (0, π) und (π, 0) im betrachteten Bereich

Extremwerte Extrema multivariater Funktionen 89-2

−1

−1

0

1

2

replacemen

−π −π/2 0 π/2 π−π

−π/2

0

π/2

π

−π0

π

−π0π

−2

0

2

4

Vergleich der Funktionswerte =⇒globales Maximum mit Wert f (0, 0) = 3 bei (0, 0)globales Minimum mit Wert f (2π/3, 2π/3) = −3/2 bei (2π/3, 2π/3)

Extremwerte Extrema multivariater Funktionen 89-3

Typbestimmung der anderen kritischen Punkte mit Hilfe der Hesse Matrix

H f =

(− cos x − cos(x + y) − cos(x + y)− cos(x + y) − cos y − cos(x + y)

)Sattelpunkt bei (π, π), da

H f (π, π) =

(0 −1−1 0

), det H f = −1 < 0

Sattelpunkte bei (π, 0) und (0, π) (symmetrische Lage), da

H f (π, 0) =

(2 11 0

), H f (0, π) =

(0 11 2

), det H f = −1 < 0

Punktsymmetrie bzgl. (0, 0) weitere kritische Punkte in D:globales Minimum bei (−2π/3,−2π/2), Sattelpunkt bei (0,−π)Periodizitat globale Maxima bei (2kπ, 2`π),globale Minima bei (2π/3 + 2kπ, 2π/3 + 2`π),(−2π/3 + 2kπ,−2π/3 + 2`π),Sattelpunkte bei (kπ, `π),jeweils mit k , ` ∈ Z

Extremwerte Extrema multivariater Funktionen 89-4

Beispiel:

Steiners Problem:Bestimme den Punkt Q ∈ R2, so dass die Summe der Abstande zuvorgegebenen Punkten Pi minimal wird.Spezialfall dreier Punkte P1, P2, P3 Q Randpunkt des Dreiecks [P1,P2,P3] oder ^(Pi ,Q,Pj) = 2π/3 ∀i , j

P1

P2

P3

Q

2π3

Extremwerte Extrema multivariater Funktionen 90-1

zeige die Charakterisierung fur einen inneren Punkt:di : Abstand zwischen Q = (x , y) und Pi = (xi , yi ), d.h.

d2i = (x − xi )

2 + (y − yi )2

Kettenregel =⇒2di

∂di∂x

= 2 (x − xi )

bzw.∂di∂x

=x − xidi

und entsprechend ∂di/∂y = (y − yi )/di=⇒

grad di =1

di

(x − xiy − yi

), di =

∣∣∣∣( x − xiy − yi

)∣∣∣∣

Extremwerte Extrema multivariater Funktionen 90-2

Minimum vonf = d1 + d2 + d3

bei innerem Punkt Q =⇒

grad f (Q) =∑i

grad di =∑i

grad di =

(00

),

da f in einer Umgebung von Q stetig differenzierbar ist| grad di | = 1 =⇒Gradienten bilden gleichseitiges Dreieck (Vektorsumme null) Winkel 2π/3 zwischen den Gradientenrichtungen

Extremwerte Extrema multivariater Funktionen 90-3

Lagrange-Multiplikatoren

Ist x∗ eine lokale Extremstelle der skalaren Funktion f unter denNebenbedingungen gi (x) = 0, dann existieren Lagrange-Multiplikatoren λi ,so dass

grad f (x∗) =∑i

λi grad gi (x∗) .

Dabei wird vorausgesetzt, dass f und g in einer Umgebung von x∗ stetigdifferenzierbar sind und dass die Gradienten grad gi (x∗) linear unabhangigsind.Bei nur einer Nebenbedingung hat die Lagrange-Bedingung die einfacheForm

grad f (x∗) ‖ grad g(x∗) ,

falls grad g(x∗) 6= 0, d.h. die Niveauflachen von f und g beruhren sich aneiner Extremstelle.

Extremwerte Lagrange-Multiplikatoren 91-1

Die Lagrange-Bedingung ist nicht hinreichend, um zu entscheiden, ob einlokales Extremum vorliegt und ob es sich um ein Minimum oder einMaximum handelt. Dies lasst sich nur mit Hilfe weiterer Informationenfeststellen.Die globalen Extrema erhalt man durch den Vergleich der Funktionswertean den Punkten, welche die Lagrange-Bedingung erfullen, sowiegegebenenfalls den Randpunkten der zulassigen Menge oder Punkten miteinem Rangverlust von g ′.

Extremwerte Lagrange-Multiplikatoren 91-2

Beweis:

n: Anzahl der Variablen, m: Anzahl der Nebenbedingungen(i) m ≥ n:Der n-Vektor grad f (x∗) ist immer als Linearkombination der, nachVoraussetzung linear unabhangigen Gradienten grad gi (x∗) darstellbar. XGrund: Fur m ≥ n, besteht die zulassige Menge im Allgemeinen bereits ausdiskreten Punkten, die durch die Nebenbedingungen festgelegt sind.(ii) m < n:fasse die Nebenbedingungen gi zu einer Funktion g = (g1, . . . , gm)t

zusammenpartitioniere die Variablen als x = (u, v) ∈ Rm × Rn−m, wobei nacheventueller Permutation die Invertierbarkeit der Jacobi-Matrix(∂g(u, v)/∂u)|(u∗,v∗) = gu(u∗, v∗) vorausgesetzt wirdSatz uber implizite Funktionen =⇒ lokale Auflosbarkeit derNebenbedingungen

g(u, v) = (0, . . . , 0)t ⇐⇒ u = ϕ(v), (u, v) ≈ (u∗, v∗)

Extremwerte Lagrange-Multiplikatoren 92-1

Gradient der Funktion v 7→ h(v) = f (ϕ(v), v) Null an einem Extremum,d.h.

grad h(v∗) = fu(u∗, v∗)ϕ′(v∗) + fv (u∗, v∗) = 0

aufgrund der Kettenregel und mit ϕ′ der Jacobi-Matrix von ϕDifferenzieren der Nebenbedingungen g(ϕ(v), v) = (0, . . . , 0)t =⇒

ϕ′(v) = −gu(u, v)−1gv (u, v)

Setzen von λ = fu(u∗, v∗)gu(u∗, v∗)−1 und Einsetzen des Ausdrucks fur ϕ′

in den Gradienten

fu = λgu, fv = −fu(−g−1u gv ) = λgv

(u- und v -Komponenten der Bedingung f ′ = λg ′ im Punkt (u∗, v∗))

Extremwerte Lagrange-Multiplikatoren 92-2

Beispiel:

minimieref (x , y) = y

unter der Nebenbedinung

g(x , y) = y3 − x2 = 0

Minimum bei (0, 0)

grad f

y = 0(0, 0)

g = y3 − x2 = 0

Extremwerte Lagrange-Multiplikatoren 93-1

Die Lagrange-Bedingung (fx , fy ) = λ(gx , gy ) nicht erfullt:

(0, 1) 6= (0, 0) = λ(−2x∗, 3y2∗ )

Grund: kein maximaler Rang der Jacobi-Matrix g ′(x∗, y∗) = (0, 0)Die Lagrange-Bedingung ist in singularen Punkten nicht anwendbar.

Extremwerte Lagrange-Multiplikatoren 93-2

Beispiel:

Lagrange Bedingung fur die Extremstellen (x∗, y∗) einer bivariatenFunktion f (x , y) unter der Nebenbedingung g(x , y) = 0:

(fx , fy ) = λ(gx , gy ), grad g 6= 0

d.h. grad g ist parallel zu grad fDie Niveaulinien von f im Punkt (x∗, y∗) sind tangential zu der durch gdefinierten Kurve.

Extremwerte Lagrange-Multiplikatoren 94-1

g = 0

f =const

(x∗, y∗)

−2 −1 0 1 2−2

−1

0

1

2

Extremwerte Lagrange-Multiplikatoren 94-2

z.B.:

f (x , y) = (x − 3)(y − 3)→ min , g(x , y) = x2 + y2 − 2 = 0

Langrange-Bedingung

(fx , fy ) = (y − 3, x − 3) = λ(2x , 2y) = λ(gx , gy )

Elimination von λ durch Bilden der Differenz yfx − xfy

y(y − 3)− x(x − 3) = 0 ⇐⇒ (y − x)(y + x − 3) = 0

Berucksichtigung der Nebenbedingung x2 + y2 − 2 = 0 (kein zulassigerPunkt fur y + x − 3 = 0) x = y und (1, 1) sowie (−1,−1) alsmogliche ExtremstellenExistenz von Minimum und Maximum fur eine stetige Funktion auf einerkompakten Menge (Kreis mit Radius

√2) =⇒

f bei (1, 1) minimal und bei (−1,−1) maximal

Extremwerte Lagrange-Multiplikatoren 94-3

Beispiel:

Bestimmung der Extrema von

f (x , y , z) = x + 2y − z

unter den Nebenbedingungen

g1(x , y , z) = x2 + y2 − 8 = 0, g2(x , y , z) = x + z − 4 = 0

(Ellipse: Schnitt eines Zylinders mit einer Ebene)Jacobi-Matrix der Nebenbedingungen

g ′(x , y) =

(2x 2y 01 0 1

)voller Rang fur (x , y) 6= (0, 0); auf zulassiger Menge erfulltLagrange-Bedingung fur Extremstellen (x , y , z)

(1, 2,−1) = (λ1, λ2)

(2x 2y 01 0 1

)Extremwerte Lagrange-Multiplikatoren 95-1

bzw.

1 = 2λ1x + λ2

2 = 2λ1y

−1 = λ2

Einsetzen von λ1 = 1/y und λ2 = −1 in die erste Gleichung =⇒x = yNebenbedingungen mogliche Extrema (2, 2, 2) und (−2,−2, 6)Existenz von Minimum und Maximum auf der Ellipse und Vergleich derFunktionswerte,

f (−2,−2, 6) = −12 < 4 = f (2, 2, 2) ,

=⇒ f ist minimal bei (−2,−2, 6) und maximal bei (2, 2, 2).

Extremwerte Lagrange-Multiplikatoren 95-2

Beispiel:

Gleichgewichtslage einer an zwei Punkten aufgehangten Kette mit 2nKettengliedern der Lange 1

r

x1

x2

potentielle Energie unter Berucksichtigung der Symmetrie

f (x) = −2(x1

2

)− 2

(x1 +

x2

2

)− · · · − 2

(x1 + · · ·+ xn−1 +

xn2

)= −a1x1 − · · · − anxn

mit ai = 2(n − i) + 1Lange der Kette Nebenbedingung

g(x) = r/2−n∑

i=1

√1− x2

i = 0

Extremwerte Lagrange-Multiplikatoren 96-1

Optimierungsproblem

f → min, g = 0

Lagrange-Bedingungen grad f = λ grad g

−ai = λxi√

1− x2i

, i = 1, . . . , n

Quadrieren und Auflosen nach xi =⇒

x2i =

a2i

a2i + λ2

Einsetzen in die Nebenbedingung r/2 =∑

i

√1− x2

i

r

2=

n∑i=1

√λ2

a2i + λ2

Extremwerte Lagrange-Multiplikatoren 96-2

√. . . monotone Funktion von λ einfach zu berechnende numerische Losung λ∗ Bestimmung von xi aus den Lagrange-Bedingungen

Extremwerte Lagrange-Multiplikatoren 96-3

Kuhn-Tucker-Bedingung

Ist x∗ ein lokales Minimum einer skalaren Funktion f unter denNebenbedingungen gi (x) ≥ 0 und sind die Gradienten der aktivenGleichungen gi (x∗) = 0, i ∈ I , linear unabhangig, dann existierenLagrange-Multiplikatoren λi ≥ 0, so dass

grad f (x∗) =∑i∈I

λi grad gi (x∗) .

Fur ein lokales Maximum ist entsprechend λi ≤ 0.Die Indexmenge I lasst sich auch implizit durch die Bedingungen

λigi (x∗) = 0

festlegen. Ist gi (x∗) > 0, so folgt λi = 0, d.h. die nichttrivialenMultiplikatoren entsprechen den aktiven Nebenbedingungen.

Extremwerte Kuhn-Tucker-Bedingungen 97-1

gi = 0grad gi

grad f

Geometrisch bedeutet die Kuhn-Tucker Bedingung fur ein Minimum, dassder Gradient der Zielfunktion f in dem durch die Gradienten der aktivenNebenbedingungen aufgespannten Kegel (gestrichelt) liegt.

Extremwerte Kuhn-Tucker-Bedingungen 97-2

Beweis:

Die inaktiven Nebenbedingungen (gj(x∗) > 0, j /∈ I ) sind irrelevant, da siein der Umgebung von x∗ keine Einschrankung bedeuten. Minimalitat von f ebenfalls auf der kleineren Menge, die durch dieGleichungsbedingungen gi (x) = 0 beschrieben wirdSatz uber Lagrange-Multiplikatoren =⇒ behauptete Identitat mitλi ∈ Rzu zeigen: λi ≥ 0Indirekter Beweis: Annahme λk < 0 fur ein k ∈ Ilineare Unabhangigkeit der Gradienten =⇒

∃v : (grad gk(x∗))t v = 1, (grad gi (x∗))t v = 0, i ∈ I\k ,

d.h. v liegt in der Tangentialebene der durch gi , i 6= k , definierten FlacheS und hat eine nichttriviale Komponente in Richtung der Normalen derFlache Sk : gk(x) = 0

Extremwerte Kuhn-Tucker-Bedingungen 98-1

wahle eine Kurve t 7→ x(t) ∈ S mit Anfangspunkt x(0) = x∗ undAnfangsrichtung x ′(0) = v

gk(x(t)) = gk(x∗) +((grad gk(x∗))t v

)t + O(t2) = 0 + t + O(t2), t → 0

=⇒ x(t) fur hinreichend kleines t > 0 zulassig:

gk(x(t)) ≥ 0, gi (x(t)) = 0, i ∈ I \ k

Konstruktion von v und Identitat fur grad f =⇒

d

dtf (x(t))|t=0 = grad f (x(t))x ′(t)|t=0 = (grad f (x∗))tv

=∑i∈I

λi grad gi (x∗)tv = λk(grad gk(x∗))tv = λk < 0

Abnahme von f entlang der KurveWiderspruch zur Minimalitat von f (x∗)

Extremwerte Kuhn-Tucker-Bedingungen 98-2

Beispiel:

Extrema der Funktionf (x , y) = y2 − x

auf der durch

g1(x , y) = y − x2 ≥ 0, g2(x , y) = 2− x2 − y2 ≥ 0

definierten hellgrauen Menge D

f = 94

f = −344/3

−1 0 10

1

2

Extremwerte Kuhn-Tucker-Bedingungen 99-1

Kuhn-Tucker-Bedingungen

grad f = (−1, 2y)t = λ (−2x , 1)t︸ ︷︷ ︸grad g1

+µ (−2x ,−2y)t︸ ︷︷ ︸grad g2

λ (y − x2)︸ ︷︷ ︸g1

= 0, µ (2− x2 − y2)︸ ︷︷ ︸g2

= 0

mit Lagrange-Multiplikatoren λ und µ gleichen Vorzeichenslineare Unabhangigkeit der Gradienten der aktiven Nebenbedingungen furalle zulassigen Punkte (nicht Null und an den Schnittpunkten derRandkurven nicht parallel)=⇒ Notwendigkeit der Kuhn-Tucker-Bedingung fur alle Extrema

verschiedene Falle je nachdem welche Nebenbedingungen aktiv sind(i) Keine Nebenbedingung aktiv ( =⇒ λ = µ = 0):

(−1, 2y) = (0, 0)

nicht erfullbar, keine Extrema von f im Inneren von D

Extremwerte Kuhn-Tucker-Bedingungen 99-2

(ii) g1(x , y) = y − x2 ≥ 0 aktiv ( =⇒ µ = 0):

(−1, 2y) = λ(−2x , 1), y − x2 = 0

=⇒ λ = 2y = 2x2 ≥ 0 und

−1 = (2x2)(−2x) ⇔ x = 4−1/3, y = 4−2/3

=⇒ Kuhn-Tucker-Bedingung fur ein lokales Minimum(iii) g2(x , y) = 2− x2 − y2 ≥ 0 aktiv ( =⇒ λ = 0):

(−1, 2y) = µ(−2x ,−2y), 2− x2 − y2 = 0

=⇒ µ = −1 < 0 (y = 0 wegen (±√

2, 0) /∈ D nicht moglich) und

x = −1/2, y =√

7/2

=⇒ Kuhn-Tucker-Bedingung fur ein lokales Maximum

Extremwerte Kuhn-Tucker-Bedingungen 99-3

(iv) g1(x , y) = y − x2 ≥ 0 und g2(x , y) = 2− x2 − y2 ≥ 0 aktiv:

y = x2 ∧ x2 + y2 = 2

=⇒ (x , y) = (1, 1) oder (x , y) = (−1, 1)Einsetzen in die Gleichung fur grad f

(−1, 2) = λ(−2, 1) + µ(−2,−2) =⇒ λ = 1, µ = −1/2

bzw.

(−1, 2) = λ(2, 1) + µ(2,−2) =⇒ λ = 1/3, µ = −5/6

keine Extremstellen wegen der verschiedenen Vorzeichen derLagrange-MultiplikatorenExistenz von Extrema auf der kompakten zulassigen Menge =⇒Minimum im Fall (ii) bei (4−1/3, 4−2/3),Maximum im Fall (iii) bei (−1/2,

√7/2)

alternative Typbestimmung durch Vergleich der Funktionswerte

f (4−1/3, 4−2/3) = −33√

2/8 < 9/4 = f (−1/2,√

7/2)

Extremwerte Kuhn-Tucker-Bedingungen 99-4

Beispiel:

f (x)→ min, ai ≤ xi ≤ bi

Kuhn-Tucker-Bedingung fur ein lokales Minimum

grad f (x∗) =∑i

(λi − µi ) ei

λt (x∗ − a) = 0, µt (b − x∗) = 0, λi , µi ≥ 0

mit ei dem i-ten Einheitsvektor±∞ als Intervallgrenzen zugelassenz.B. ai = −∞ =⇒ λi = 0 keine Einschrankung in den Kuhn-Tucker-Bedingungen

Extremwerte Kuhn-Tucker-Bedingungen 100-1

(i) ai < x∗,i < bi :Lagrange-Multiplikatoren λi und µi Null und damit auch die i-teKomponente gi von grad f (x∗)(ii) Eine der Ungleichungen fur xi aktiv: entsprechender Lagrange-Multiplikator bestimmt Vorzeichen von gi :

x∗,i = ai =⇒ gi ≥ 0, x∗,i = bi =⇒ gi ≤ 0

Extremwerte Kuhn-Tucker-Bedingungen 100-2

x1

x2

a1

b1

a2

b2

mogliche Richtungen von grad f (x∗) fur bivariate Zielfunktionen undMinima auf den Seiten und an den Ecken von [a1, b1]× [a2, b2]grad f (x∗) = 0 fur Minima im Inneren

Extremwerte Kuhn-Tucker-Bedingungen 100-3

Beispiel:

Lineares Programm:Minimierung einer linearen Funktion

(c1, . . . , cn)x → min

unter den linearen Nebenbedingungen

Ax ≥ b

mit einer m × n-Matrix AKuhn-Tucker-Bedingungen fur ein lokales Minimum x∗ ∈ Rn

ct = λtA, λt(Ax∗ − b) = 0

mit λi ≥ 0 (entsprechend λi ≤ 0 fur ein Maximum)

Extremwerte Kuhn-Tucker-Bedingungen 101-1

z.B.x + y → min, x ≥ 2, y ≥ 1, x + 2y ≥ 8 ,

d.h.

c =

(11

), A =

1 00 11 2

, b =

218

=⇒ Kuhn-Tucker-Bedingungen

1 = λ1 + λ3, 1 = λ2 + 2λ3, λ1[x − 2] + λ2[y − 1] + λ3[x + 2y − 8] = 0

mit λi , [. . . ] ≥ 0

Extremwerte Kuhn-Tucker-Bedingungen 101-2

Bedingungen =⇒ genau einer der Lagrange-Multiplikatoren gleichnulldrei Falle (jeweils zwei Nebenbedingungen aktiv)(i) λ1 = 0:=⇒ λ3 = 1, λ2 = −1

kein Extremum, da verschiedene Vorzeichen(ii) λ2 = 0:=⇒ λ3 = 1/2, λ1 = 1/2

aktive Nebenbedingungen x = 2, x + 2y = 8 (x , y) = (2, 3)Kuhn-Tucker-Bedingungen fur ein Minimum erfullt(iii) λ3 = 0:aktive Nebenbedingungen x = 2, y = 1 Punkt ausserhalb deszulassigen BereichsBeschrankheit von f nach unten auf dem zulassigem Bereich =⇒globales Minimum bei (2, 3)

Extremwerte Kuhn-Tucker-Bedingungen 101-3

1 2 3 4 5 6 7 8

1

2

3

4

5

x

y

(2, 3)

x+ y = c

geometrische Konstruktion der Losung: Niveaulinie der Zielfunktionberuhrt den zulassigen Bereich in (2, 3)Zielfunktion steigt (fallt), wenn die Niveaugeraden den zugelassenenBereich schneiden (nicht schneiden)

Extremwerte Kuhn-Tucker-Bedingungen 101-4