Download - Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

Transcript
Page 1: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 1

Lernstrategien für Neuronale Netze -Der Backpropagation-Algorithmus

Im Unterschied zu den bisher behandelten NNs mit Schwellwertfunktionen sind die NNs mit stetig differenzierbaren nichtlinearen Aktivierungsfunktionenf(x). Am weitesten verbreitet ist die Sigmoid-Funktion ψ(x):

1( ) ( )1 axf x x

eψ −= =

+

-6 -4 -2 0 2 4 60

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

a

Sie approximiert mit wachsendem adie Sprungfunktion σ(x).

Page 2: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 2

Die Funktion ψ(x) hat einen engen Bezug zur tanh-Funktion. Es gilt für a=1:

2

2tanh( ) 1 2 (2 ) 11 xx x

eψ−= − = −

+Fügt man die zwei Parameter a und b hinzu, so erhält man eine etwas

allgemeinere Form:

( )

1( ) 11g a x bx

eψ − −= −

+

2

1 1 1( 1) (1 ) ( )(1 ( ))(1 ) 1 1

xx x x

d e x xdx e e eψ ψ ψ−

− − −

−= − = − = −

+ + +

wobei mit a die Steilheit und mit b die Position auf der x-Achse beeinflusst werden kann.

Die Nichtlinearität der Aktivierungsfunktion ist entscheidend für die Existenz des Multi-Lagen-Perceptron; ohne diese, würde das mehrschichtige in ein triviales lineares einschichtiges Netzwerk zusammenschrumpfen.

Die Differenzierbarkeit von f(x) erlaubt die Anwendung von notwendigen Bedingungen (∂(·)/∂wi,j) zur Optimierung der Gewichtskoeffizienten wi,j.

Die erste Ableitung der Sigmoid-Funktion kann auf sich selbst zurückgeführt werden:

Page 3: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 3

Eine Schicht des Neuronalen NetzesEine einzige Schicht des NN wird charakterisiert durch die M×NKoeffizienten der Gewichtsmatrix W, den Offset-Vektor b und eine vektorielle Sigmoid-Funktion ψ. Nach einer Erweiterung des Eingangsvektors um eine konstante 1

[ ]

( ) ( ) ( )1

mit: und ,

′ ′= + = =

⎡ ⎤′ ′= =⎢ ⎥⎣ ⎦

y ψ Wx b ψ W x ψ s

x W b Wx

+

+

+

s1 y1

s2 y2

sM yM

1

x2

x1

xN

w1,0

wM,N

1⎡ ⎤′ = ⎢ ⎥⎣ ⎦

xx

ergibt sich eine Schicht in der nebenstehenden Form.

Ihre Funktion lässt sich beschreiben durch eine Matrixmultiplikation, gefolgt von einer nichtlinearen Aktivierungsfunktion, welche in identischer Form auf alle Elemente angewandt wird.

Page 4: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 4

Gestalt der erweiterten Gewichtsmatrix

[ ]

1,0 1 1,1 1,2 1,

2,0 2 2,1 2,2 1,

3,0 3 3,1 3,2 1,

,0 ,1 ,2 ,

,

N

N

N

M M M M M N

w b w w ww b w w ww b w w w

w b w w w

=⎡ ⎤⎢ ⎥=⎢ ⎥⎢ ⎥′ == =⎢ ⎥⎢ ⎥⎢ ⎥=⎣ ⎦

W b W

………

Page 5: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 5

Das Neuronale Netz mit H SchichtenDas mehrlagige NN mit H Schichten hat in jeder Schicht eine eigene

Gewichtsmatrix W´i, jedoch identische Sigmoid-Funktionen:

{ } { }22ˆmin mini i

HJ E E′ ′

= − = −W W

y y y y

W´1 W´2y1W´HyH-1y2 yHx´

2 1( ( ( ) ))H H′ ′ ′ ′=y ψ W ψ W ψ W x… …Das Lernen basiert auf der Anpassung der Gewichtsmatrizen, mit dem Ziel der Minimierung eines Fehlerquadrat-Kriterums zwischen dem Sollwert y und der Approximation ŷ durch das Netz (überwachtes Lernen). Der Erwartungswert ist zu bilden über das zur Verfügung stehende Trainings-Ensemble von {ŷj,xj}:

Anmerkung: Das einschichtige NN und der lineare Polynomklassifikator sind identisch, wenn die Aktivierungsfunktion ψ≡1 gesetzt wird.

Page 6: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 6

Beziehungen zu dem Konzept der Funktionsapproximation durch eine Linearkombination

von BasisfunktionenBei der Approximation z.Bsp. mit Polynomfunktionen sind die Basisfunktionen von vornherein festgelegt. Bei dem NN werden die Basisfunktionen iterativ durch Parametermatrizen aufgebaut. Zudem ist die Linearkombination nicht der letzte Schritt der Approximation; vielmehr geht die Wirkung durch eine nichtlineare Abbildung hervor und der Vorgang wiederholt sich!

+

+

+

1

x2

x1

W´1 +

+

+

W´2

21 1ˆy y=

1

22 2ˆy y=

23 3ˆy y=

1y

Beispiel für ein zweilagiges NN:

Page 7: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 7

Beziehungen zu dem Konzept der Funktionsapproximation durch eine Linearkombination

von Basisfunktionen

Die erste Schicht erzeugt die Basisfunktionen in Form des verdeckten Vektors y1 und die zweite Schicht bildet eine Linearkombination dieser Basisfunktionen.

Deshalb beeinflusst die Koeffizientenmatrix W´1 der ersten Schicht das Aussehen der Basisfunktionen, während die Gewichtmatrix W´2 der zweiten Schicht die Koeffizienten der Linearkombinationen enthält. Diese wird zusätzlich durch die Aktivierungsfunktion gewichtet.

Page 8: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 8

Reaktion eines Neurons mit zwei Eingängen und einer Schwellwertfunktion σ

Page 9: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 9

Reaktion eines Neurons mit zwei Eingängen und einer Sigmoidfunktion ψ

Page 10: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 10

Überlagerung zweier Neuronen mit je zwei Eingängen und einer Sigmoidfunktion

Page 11: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 11

Reaktion eines Neurons in der zweiten Schicht auf zwei Neuronen der ersten Schicht nach der Bewertung durch

die Sigmoidfunktion

Page 12: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 12

Der Backpropagation-Lernalgorithmus• Die Klassenzugehörigkeitsabbildung geschieht durch ein Multilagenperceptron,

dessen i-ter Ausgang eine 1 erzeugt in den Regionen von x, welche durch die Stichproben xi der entsprechenden Bedeutungsklasse bevölkert ist, und sie erzeugt eine 0 in Gebieten, welche durch andere Bedeutungsklassen belegt sind. In den Gebieten dazwischen und außerhalb findet eine Inter- bzw. eine Extrapolation statt.

{ }2ˆ ( , )iJ E ′ ′= −y W x y

• Dieser Ausdruck ist nichtlinear sowohl in den Elementen des Eingangs-vektors x´, als auch in den Gewichtskoeffizienten {w´ij

h}.

• Das Netzwerk wird trainiert auf der Grundlage der Optimierung des quadratischen Gütekriteriums:

Page 13: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 13

• Nach Einsatz der Funktionsabbildung des Multilagenperceptrons erhält man:

2 1

ˆ

2

( ( ( ) ))HJ E⎧ ⎫⎪ ⎪= ⎨ ⎬⎪

′ ′ −

′⎪y

ψ W ψ W ψ W x y… …

• Die Iteration wird beendet, wenn der Gradient bei einem (lokalen oder auch globalen) Minimum verschwindet.

• Eine geeignete Wahl von α ist schwierig. Kleine Werte erhöhen die Anzahl der Iterationen. Größere Werte vermindern zwar die Wahrscheinlichkeit in ein lokales Minimum zu laufen, aber man riskiert, daß das Verfahren divergiert und das Minimum nicht gefunden wird (oder Oszillationen auftauchen).

• Gesucht ist das globale Minimum. Es ist jedoch nicht klar, ob ein solches existiert oder wie viele lokale Minima vorhanden sind.Der Backpropagation Algorithmus löst das Problem iterativ mit einem Gradientenalgorithmus. Iteriert wird gemäß:

{ }1 2 mit: , , ,

und d. Gradienten:

H

hnm

J Jw

α′ ′ ′ ′ ′ ′← − ∇ =

⎧ ⎫∂ ∂∇ = = ⎨ ⎬′ ′∂ ∂⎩ ⎭

W W J W W W W

JW

Page 14: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 14

• Die Iteration hat leider nur eine lineare Konvergenzordnung (Gradienten-algorithmus).

• Der Fehler, verursacht durch eine Stichprobe ergibt sich zu:

2 1( ( ( ) ))ˆ ( ) H′ ′′ ′= ′ψ W ψ Wy ψ W xx … …

2 21 12 2

1

ˆ ˆ( ) ( ( ) ( ))HN

j j j k kk

J y j y j=

= − = −∑y x y

• Der Erwartungswert E{...} des Gradienten muss durch den Mittelwert über alle Stichprobengradienten approximiert werden:

1

1

n

jnj=

∇ = ∇∑J J

• Berechnung des Gradienten:Zur Bestimmung der zusammengesetzten Funktion

• wird die Kettenregel benötigt.

Page 15: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 15

– und dem kumulativen Lernen (batch learnung), aufbauend auf

• Partielle Ableitungen für eine Schicht:Für die r-te Schicht gilt:

1

1

n

jnj=

∇ = ∇∑J J

• Man unterscheidet zwischen– individuellem Lernen aufbauend auf die letzte Stichprobe

,j j j⎡ ⎤ ⇒∇⎣ ⎦x y J

1

0

( ) wobei:

m-ter Eingang von Schicht r

n-ter Ausgang von Schicht r

rNr r r r r rn n nm m m m

m

rm

rn

y s w x x y

x

y

ψ ψ −

=

⎛ ⎞′ ′ ′= = =⎜ ⎟

⎝ ⎠′

Page 16: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 16

Definition der Variablen zweier Schichten für den Backpropagation-Algorithmus

+

+

+

f

f

f +

+

+

f

f

f

1rmy −

Schicht r-1 Schicht r

rnmw′

rns r

ny

1rms −

rnδ

1rmδ−

1rδ

+

1rknw +′ 1r

ks +

Page 17: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 17

1Hm

H HHn nnH H H H

nm n nm nm

y

J J s sw s w w

δ

−=

∂ ∂ ∂ ∂= ⋅ = −

′ ′ ′∂ ∂ ∂ ∂

• Wir berechnen zunächst die Wirkung der letzten verdeckten Schicht auf die Ausgangsschicht r=H. Unter Verwendung der partiellen Ableitungen der Gütefunktion J (eigentlich Jj, aber j wird der Einfachheit halber weggelassen) und unter Anwendung der Kettenregel erhält man:

• und damit schließlich für das Update der Gewichte:

1 1

mit

ˆ( ) ( )

neu alt

H H H H Hnm n m n n n m

Jw w w ww

w y y y f s y

α

αδ α− −

∂= + ∆ ∆ = −

∂′ ′∆ = − = − −

• unter Einführung der Empfindlichkeit von Zelle n

nn

Js

δ ∂= −

• ergibt sich:

212

1

ˆ( ))

ˆ

ˆ ˆ( ) ( )ˆ

HN

k kk

n

HH Hnn n n nH H H

n n n

y y

y

yJ J y y f ss y s

δ

=

⎛ ⎞⎜ ⎟∂ −⎜ ⎟⎜ ⎟⎝ ⎠

∂∂ ∂ ′= − = − ⋅ = −∂ ∂ ∂

Page 18: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 18

• Mit

1

1 1

r rm n

rn

r r rnm n m

sJ Js s sδ δ−

− −

∂∂ ∂=

∂ ∂ ∂∑

• Für alle anderen verdeckten Schichten r <H sind die Überlegungen etwas komplexer. Wegen der Abhängigkeit der Schichten untereinander, beeinflussen die Werte von sm

r-1 alle Elemente snr der nachfolgenden Schicht. Unter Anwendung der

Kettenregel erhält man:

• ergibt sich:

1 1( )r r r rm m nm n

nf s wδ δ− − ⎡ ⎤′ ′= ⎢ ⎥⎣ ⎦

1( )

1

11 1 ( )

rkf s

r rnk k

krr rn

nm mr rm m

w ys w f s

s s

−− −

⎛ ⎞⎜ ⎟′∂ ⎜ ⎟⎜ ⎟∂ ⎝ ⎠ ′ ′= =

∂ ∂

• D.h. die Fehler „backpropagieren“ von der Ausgangs- zu niederen Schichten!

Page 19: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 19

• Mit

• Für alle anderen verdeckten Schichten r <H sind die Überlegungen etwas komplexer. Wegen der Abhängigkeit der Schichten untereinander, beeinflussen die Werte von sm

r-1 alle Elemente snr der nachfolgenden Schicht. Unter Anwendung der

Kettenregel erhält man:

• ergibt sich:

1 1( )r r r rn n kn k

kf s wδ δ+ +⎡ ⎤′ ′= ⎢ ⎥⎣ ⎦

( )

1

11 ( )

rnf s

r rkn n

nrr rk

kn nr rn n

w ys w f ss s

+

++

⎛ ⎞⎜ ⎟′∂⎜ ⎟⎜ ⎟∂ ⎝ ⎠ ′ ′= =

∂ ∂

• D.h. die Fehler „backpropagieren“ von der Ausgangs- zu niederen Schichten!

1r rn m

rn

r r rnm n nm

y

sJ Jw s w

δ −

∂∂ ∂=

′ ′∂ ∂ ∂und weiter:

1

1

1

r rn k

rk

r r rkn k n

J J ss s sδ δ +

+

+

∂ ∂ ∂=

∂ ∂ ∂∑

Page 20: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 20

• Man durchläuft alle Lernstichproben, ohne irgendwelche Veränderungen an den Gewichtskoeffizienten, und man erhält den Gradienten ∇J durch Mittelung über die ∇Jj. Beide Größen können zum Aufdaten der Parametermatrix W´ des Perceptrons verwendet werden:

1

1

individuelles Lernen

kumulatives Lernenk k j

k k

α

α+

+

′ ′= − ∇

′ ′= − ∇

W W J

W W J

• Die Gradienten ∇J und ∇Jj unterscheiden sich. Der zweite ist der Mittelwert des ersten (∇J = E{∇ Jj}), oder: der erste stellt einen zufälligen Wert des zweiten dar.

Page 21: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 21

Die gesamte individuelle Lernprozedur besteht aus den folgenden Verarbeitungsschritten:

• Wähle vorläufige Werte für die Koeffizientenmatrizen W1,W2, ... ,WH aller Schichten

• Eine neue Beobachtung [x´j, ŷj] sei gegeben• Berechne die Diskriminierungsfunktion ŷj aus der gegebenen Beobachtung x´j

und den momentanen Gewichtsmatrizen (Vorwärtsrechnung)• Berechne den Fehler zwischen Schätzung ŷ und Zielvektor y:

∆y= ŷ-y• Berechne den Gradienten ∇J bzgl. aller Perceptron-Gewichte (error

backpropagation). Berechne dazu zuerst δjH der Ausgangsschicht gemäß:

1 1( ) für , 1, , 2r r r rm m nm n

nf s w r H Hδ δ− − ⎡ ⎤′ ′= = −⎢ ⎥⎣ ⎦

∑ …

• und berechne daraus rückwärts alle Werte der niederen Schichten gemäß:

ˆ ˆ( ) ( )ˆ

HH Hnn n n nH H H

n n n

yJ J y y f ss y s

δ ∂∂ ∂ ′= − = − ⋅ = −∂ ∂ ∂

Page 22: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 22

• Korrigiere (parallel) alle Perceptron-Gewichte gemäß:

1

1,2,= für 1, 2,

1, 2,

r r r r r Hnm nm nm n mr

nm H

r HJw w w y n N

wm M

α αδ −

= …∂′ ′ ′← − − = …′∂

= …

• Beim individuellen Lernen werden die Gewichte {w´nmh} mit ∇J für jede

Stichprobe korrigiert, wohingegen beim kumulativen Lernen die gesamte Lernstichprobe durchgearbeitet werden muss, um den gemittelten Gradienten ∇J aus der Sequenz der {∇J} zu ermitteln, bevor die Gewichte korrigiert werden können gemäß:

1

1,2,( ) ( ) für 1, 2,

1, 2,

r r r r Hnm nm n m

i H

r Hw w i y i n N

m Mαδ −

= …′ ′← − = …

= …∑

• unter Beachtung der ersten Ableitung der Sigmoidfunktion f(s)=ψ(s):

( )( ) ( )(1 ( )) (1 )

bzw: ( ) (1 )r r rm m m

d sf s s s y yds

f s y y

ψ ψ ψ′ = = − = −

′ = −

Page 23: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 23

Backpropagation-Algorithmus in Matrixschreibweise• Wähle vorläufige Werte für die Koeffizientenmatrizen W1,W2, ... ,WH aller

Schichten• Eine neue Beobachtung [x´j, ŷj] sei gegeben• Berechne die Diskriminierungsfunktion ŷj aus der gegebenen Beobachtung x´j

und den momentanen Gewichtsmatrizen (Vorwärtsrechnung). Speichere alle Werte von yr und sr in allen Zwischenschichten r = 1,2,…,H.

• Berechne den Fehler zwischen Schätzung ŷ und Zielvektor y am Ausgang:∆y= ŷ-y

• Berechne den Gradienten ∇J bzgl. aller Perceptron-Gewichte (errorbackpropagation). Berechne dazu zuerst δH der Ausgangsschicht gemäß:

ˆ ˆ( ) ( )ˆ

HH H

H H H

J J f∂ ∂ ∂ ′= − = − ⋅ = −∂ ∂ ∂

yδ y y ss y s

• und berechne daraus rückwärts alle Werte der niederen Schichten gemäß:

1 1 1( ) ( ) für , 1, , 2Tr r rf r H H− −′= =′ −δ s δW …

Page 24: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 24

• Individuelles Lernen: Korrigiere (parallel) alle Perceptron-Gewichtsmatrizenmit ∇J für jede Stichprobe gemäß:

( 1)= für 1, 2,Tr r r r r

r

J r Hα α −∂′ ′ ′← − − = …′∂

W W W δ yW

• Kumulatives Lernen: es muss die gesamte Lernstichprobe durchgearbeitet werden , um den gemittelten Gradienten ∇J aus der Sequenz der {∇Jj } zu ermitteln, bevor die Gewichte korrigiert werden können gemäß:

( 1) für 1,2, Tr r r r

j jj

r Hα −′ ′← − = …∑W W δ y

• unter Beachtung der ersten Ableitung der Sigmoidfunktion f(s)=ψ(s):

( )( ) ( )(1 ( )) (1 )

bzw: ( ) (1 )r r rm m m

d sf s s s y yds

f s y y

ψ ψ ψ′ = = − = −

′ = −

Page 25: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 25

Eigenschaften:• Der Backpropagation-Algorithmus ist einfach zu implementieren, aber sehr

rechenaufwendig, insbesondere wenn die Koeffizientenmatrix groß ist, was zur Folge hat, dass auch die Lernstichprobe entsprechend groß sein muss. Nachteilig ist weiterhin die Abhängigkeit des Verfahrens von den Startwerten der Gewichte, dem Korrekturfaktor α und die Reihenfolge, in der die Stichproben abgearbeitet werden.

• Wie beim rekursiven Trainieren des Polynomklassifikators bleiben lineare Abhängigkeiten in den Merkmalen unberücksichtigt.

• Positiv zu vermerken ist, das der Gradientenalgorithmus auch für sehr große Probleme verwendet werden kann.

• Die Dimension der Koeffizientenmatrix W ergibt sich aus den Dimensionen des Eingangsvektors, der verdeckten Schichten, sowie des Ausgangsvektors (N,N 1,..., NH-1,K) zu:

1 0

1

dim( ) ( 1) mit und

dim( ) Merkmalsraumˆdim( ) Anzahl der Klassen

Hh h H

h

T N N N N N K

NK

=

= = + = =

==

∑W

xy

Page 26: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 26

Zur Dimensionierung des Netzes• Die Überlegungen bei dem Entwurf eines mehrschichtigen Perceptrons mit

Schwellwertfunktionen (σ bzw. sign) geben eine gute Vorstellung, wievieleHidden-Layer und wieviele Neuronen man für ein MLPC verwenden sollte für das Backpropagation-Lernen (vorausgestzt, man hat eine gewisse Vorstellung über die Verteilung der Cluster).

• Das Netz sollte so einfach wie nur möglich gewählt werden. Mit höherer Dimension steigt die Gefahr des overfitting, gepaart mit einem Verlust an Generalisierungsfähigkeit und zugleich werden viele Nebenmaxima zugelassen, wo der Algorithmus hängen bleiben kann!

Epochen

Training

TestenFe

hler• Bei einem vorgegebenen Stich-

probenumfang, sollte die Lernphase bei einem bestimmten Punkt abgebrochen werden. Danach wird das Netz zu sehr an die vorhandenen Daten angepasst (overfitting) und verliert an Generalisierungsfähigkeit.

Page 27: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 27

Zur Berechnungskomplexität des Backpropagation-Algorithmus

• Wenn T=dim(W) die Anzahl der Gewichte und Biasterme ist, so läßt sich einfach nachvollziehen, daß O(T) Berechnungsschritte für die Vorwärtssimulation benötigt werden, O(T) für das Backpropagieren des Fehlers und ebenso O(T) Operationen für die Korrektur der Gewichte, also erhält man insgesamt einen lineare Komplexität in der Anzahl der Gewichte: O(T).

• Würde man den Gradienten durch finite Differenzen experimentell bestimmen (dazu ändert man jedes Gewicht inkrementell und ermittelt die Wirkung auf das Gütemaß durch Vorwärtsrechnung) durch Berechnung eines Differenzenquotienten gemäß (d.h. man macht sich nicht die Mühe der analytischen Auswertung):

• so ergäben sich T Vorwärtsrechnungen der Komplexität O(T) und damit insgesamt eine Gesamtkomplexität von: O(T2)

( ) ( )( )

r rji ji

rji

J w J wJ Ow

εε

ε+ −∂

= +∂

Page 28: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 28

Backpropagation zum Trainieren eines zweischichtigen Netzwerks zur Funktionsapproximation

(Matlab-Demo: „Backpropagation Calculation)

1 1 1 1 1 1

1 11,11 1 11 12,1 2

( ) ( ) ( )

mit: und

x

w bw b

′ ′= + = =

⎡ ⎤ ⎡ ⎤= =⎢ ⎥ ⎢ ⎥

⎣ ⎦⎣ ⎦

y ψ W b ψ W x ψ s

W b

2 2 1 2

2 2 21,1 1,2

ˆ ( )

mit:

y y b

w w

= = +

⎡ ⎤= ⎣ ⎦

W y

W

4( ) 1 sin( ) für 2 2y x x xπ= + − ≤ ≤

• Gesucht wird eine Approximation der Funktion

+

+

1x +2 ˆy y=

1

11,1w

12,1w

12s

11s

11y

12y

11b

12b

2b

21,1w

21,2w

2s

1

2δ11δ

12δ

Page 29: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 29

Backpropagation zum Trainieren eines zweischichtigen Netzwerks zur Funktionsapproximation

2 2 1 2 21, und für 1,2j jw y b jαδ αδ∆ = ∆ = =

• Backpropagation: Für die Ausgangsschicht oder zweite Schicht mit linearer Aktivierungsfunktion ergibt sich wegen f ´=1:

2 ˆ( )y yδ = −

• Korrektur der Gewichte in der Ausgangsschicht:

• Backpropagation: Für die erste Schicht mit Sigmoid-Funktion ergibt sich: :

1 1 2 2 1 1 2 21, 1,( ) (1 ) für 1,2j j j j j jf s w y y w jδ δ δ′ ′⎡ ⎤ ⎡ ⎤= = − =⎣ ⎦ ⎣ ⎦

• Korrektur der Gewichte in der Eingangsschicht:

1 1 1 1,1 und für 1,2j j j jw x b jαδ αδ∆ = ∆ = =

Page 30: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 30

Start der Matlab-Demomatlab-BPC.bat

Page 31: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 31

Backpropagation zum Trainieren eines zweischichtigen Netzwerks zur Funktionsapproximation

(Matlab-Demo, other NN, Backpropagation: „Function Approximation)

4( ) 1 sin( ) für 2 2y x i x xπ= + ⋅ − ≤ ≤

• Gesucht wird eine Approximation der Funktion

• Mit zunehmenden Wert von i (difficulty index) steigen die Anforderungen an das MLPC-Netzwerk. Die auf der Sigmoid-Funktion aufbauende Approximation benötigt mehr und mehr Schichten, um mehrere Perioden der Sinus-Funktion darzustellen.

• Problem: Konvergenz zu lokalen Minima, selbst in Fällen, wo das Netzwerk groß genug gewählt wird, um die Funktion– Das Netzwerk wird zu klein gewählt, so dass eine Approximation nur schlecht

gelingt, d.h. es wird zwar das globale Minimum erreicht, aber dieses liefert noch keine gute Approximationsgüte (i=8 und Netzwerk 1-3-1)

– Das Netzwerk wird groß genug gewählt, so dass eine gute Approximation möglich ist, aber es konvergiert nur gegen ein lokales Minimum (i=4 und Netzwerk 1-3-1)

Page 32: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 32

Page 33: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 33

Start der Matlab-Demomatlab-FA.bat

Page 34: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 34

Modell groß genug, aber nur lokales Minimum

Page 35: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 35

Generalisierungsfähigkeit des Netzwerkes

• Wir gehen davon aus, dass das Netzwerk für 11 Abtastpunkte trainiert wird

{ } { } { }1 1 2 2 11 11, , , , ,y x y x y x…

• Die Frage ist nun, wie gut das Netzwerk die Funktion für nicht gelernte Abtastpunkte approximiert in Abhängigkeit von der Komplexität des Netzwerkes

• Regel: Das Netzwerk sollte weniger Parameter haben als die zur Verfügung stehenden Ein-/Ausgangspaare

Start der Matlab-Demo (Hagan 11-21)matlab-GENERAL.bat

Page 36: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 36

Verbesserung der Generalisierungsfähigkeit eines Netzes durch Hinzufügen additiver Störungen

• Stehen nur wenige Stichproben zur Verfügung, so kann die Generalisierungs-fähigkeit eines NN verbessert werden, indem man den Stichprobenumfang durch z.Bsp. normalverteilte Störungen verbreitert. D.h. man fügt weitere Stichproben hinzu, welche mit hoher Wahrscheinlichkeit in der unmittelbaren Nachbarschaft anzutreffen sind.

• Dadurch werden die Intraklassenbereiche verbreitert und die Grenzen zwischen den Klassen schärfer ausgebildet.

Klasse 1

Klasse 2

Page 37: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 37

Interpolation durch Überlagerung von Normalverteilungen

( ) ( )i i iy x f x tα= −∑

-3 -2 -1 0 1 2 30

0.2

0.4

0.6

0.8

1

1.2

1.4W eighted Sum of Radial Basis Transfer Functions

I t

Page 38: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 38

Interpolation durch Überlagerung von Normalverteilungen

Page 39: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 39

Zeichenerkennungsaufgabe für26 Buchstaben der Größe 7×5

• mit graduell ansteigenden additiven Störungen:

Page 40: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 40

y2= ψ(W2 ψ(W1x+b1)+b2)

Zweischichtiges Neuronales Netz für die Zeichenerkennung mit 35 Eingangswerten (Pixel), 10 Neuronen in der

verdeckten Schicht und 26 Neuronen in der Ausgangsschicht

ψ+

W1

b11

xN×1

S1×N=10 ×35

S1×1=10×1

S1×1=10 × 1

s1

y1=f1(W1x+b1)

erste Schicht

N=35

ψ+

W2

b21

y1

S1×1=10 × 1 S2×S1=

26 × 10

S2×1=26 × 1

s2

y2=f2(W2y1+b2)

zweite Schicht

y2

S2×1=26 × 1

S2×1=26 × 1

S2×1=26 × 1

S1×1=10×1

Page 41: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 41

Demo mit MATLAB

• Öffnen von Matlab– Demo in Toolbox Neural Networks– „Character recognition“ (command line)– Es werden zwei Netzwerke trainiert

• Netzwerk 1 ohne Störungen• Netzwerk 2 mit Störungen

– Auf einem unabhängigen Testdatensatz liefert Netzwerk 2 bessere Ergebnisse als Netzwerk 1

Start der Matlab-Demomatlab-CR.bat

Page 42: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 42

Möglichkeiten zur Beschleunigung der Adaption

Es handelt sich bei der Adaption von NN um ein allgemeines Parameteropti-mierungsproblem. Demgemäss können im Prinzip eine Vielzahl weiterer Optimierungsmethoden aus der numerischen Mathematik eingesetzt werden. Dies kann zu erheblichen Verbesserungen führen (Konvergenzgeschwin-digkeit, Konvergenzbereich, Stabilität, Berechnungsaufwand).

I.a. lassen sich jedoch nur sehr schwer allgemeingültige Aussagen machen, da die Ergebnisse von Fall zu Fall sehr verschieden sein können und in der Regel Kompromisse in den Eigenschaften zu akzeptieren sind!

• Heuristische Verbesserungen des Gradientenalgorithmus (Schrittweitenkontrolle)

– Gradientenalgorithmus (Steepest descent) mit Momentum-Term (update der Gewichte nicht nur abhängig vom Gradient, sondern auch vom vorherigen update)

– Verwendung eines adaptiven Lernfaktors

• Konjugierter Gradientenalgorithmus

Page 43: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 43

• Newton und Quasi-Newton-Algorithmen (Verwendung der zweiten Ableitungen der Fehlerfunktion z.B. in Form der Hesse-Matrix oder deren Schätzung)

– Quickprop– Levenberg-Marquardt-Algorithmus

• Pruning-Techniken. Man startet mit einem hinreichend großen Netzwerk und nimmt dann wieder Neuronen aus dem Netz, welche keinen oder nur geringen Einfluß auf die Gütefunktion haben und reduziert damit das Overfitting der Daten.

12

2

Taylorentwicklung der Gütefunktion in :( ) ( ) Terme höherer Ordnung

mit: Gradientenvektor

und: Hesse-Matrix

T T

i j

J JJ

Jw w

+ ∆ = +∇ ∆ + ∆ ∆ +

∂∇ =

∂⎧ ⎫∂⎪ ⎪= ⎨ ⎬∂ ∂⎪ ⎪⎩ ⎭

ww w w J w w H w

Jw

H

Page 44: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 44

Demo mit MATLAB(Demo von Theodoridis)

• C:\...\matlab\PR\startdemo• Example 2 (XOR) mit (2-2-1 und 2-5-1)• Example 3 mit dreischichtigem Netzwerk [5,5]

(3000 Epochen, learning rate 0,7, momentum 0,5)Start der Matlab-Demomatlab-theodoridis.bat

Zwei Lösungen des XOR-Problems:

Konvexes Gebiet realisiert mit einem zweischichtigen Netz (2-2-1). Mögliche Fehlklassifikation bei Varianz:

Vereinigung von 2 konvexen Gebieten reali-siert mit einem dreischichtigen Netz (2-5-5-1). Mögliche Fehlklassifikation bei Varianz:

14 2 0,35> ≈n 0,5>n

2-2-2-1 konvergiert leider nicht!

Page 45: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 45

XOR mit hohem Rauschanteil um zweiteLösung zu provozieren! Mit zwei Geradenschafft mein keine fehlerfreie Konstellation. Der Gradient kann trotzdem verschwindenbei einem von Null verschiedenenFehlermass, d.h. man ist in einemNebenmaximum. Erst die richtige Lösungführt auf einen Fehler Null.

Page 46: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 46

Page 47: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 47

Page 48: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 48

Demo mit MATLAB (Klassifikationgui.m)

• Öffnen von Matlab– zuerst setmypath.m aufrufen, dann– C:\Home\ppt\Lehre\ME_2002\matlab\KlassifikatorEntwurf-

WinXX\Klassifikationgui– Datensatz: Samples/xor2.mat laden

Einstellung: 500 Epochen, Lernrate 0.7– Gewichtsmatrizen laden: models/xor-trivial.mat– Gewichtsmatrizen laden: models/xor-3.mat laden

• Zweiklassenproblem mit Bananenshape eingeben– Datensatz Samples/banana_test_samples.mat laden– Voreinstellungen aus: models/MLP_7_3_2_banana.mat laden

Start der Matlab-Demomatlab-Klassifikation_gui.bat

Page 49: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 49

Lösung des XOR-Problems mit zweischichtigem NN

Page 50: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 50

Lösung des XOR-Problems mit zweischichtigem NN

Page 51: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 51

Lösung des XOR-Problems mit dreischichtigem NN

Page 52: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 52

Lösung des XOR-Problems mit dreischichtigem NN

Page 53: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 53

Durch Normalverteilungen schlecht darstellbare Klassen

+

+

+

+

+++

++ + +

+

++

++ +

++

-

-

-

-

- --

----

-------

-- -

Page 54: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 54

Page 55: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 55

Page 56: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 56

Konvergenzverhalten von Backpropagation-Algorithmen

• Backpropagation mit gewöhnlichem Gradientenabstieg (steepest descent)

Start der Matlab-Demomatlab-BP-gradient.bat

• Backpropagation mit konjugiertem Gradientenabstieg (conjugate gradient) – wesentlich bessere Konvergenz!

Start der Matlab-Demomatlab-BP-CGgradient.bat

Page 57: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 57

NN und deren Eigenschaften• „Quick and Dirty“. Ein NN-Entwurf ist einfach zu realisieren und man erhält

durchaus brauchbare Lösungen (eine suboptimale Lösung ist jedenfalls besser als irgendeine Lösung).

• Es können damit insbesondere auch sehr große Probleme angegangen werden.• Alle Strategien benutzen jedoch nur „lokale“ Optimierungsfunktionen und

erreichen in der Regel kein globales Optimum. Dies ist der gravierende Nachteil für den Einsatz Neuronaler Netze.

Page 58: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 58

Verwendung eines NN zur iterativen Berechnung der Hauptkomponentenanalyse (KLT)

• Anstatt die KLT explizit über ein Eigenwertproblem zu lösen, kann auch ein NN zur iterativen Berechnung herangezogen werden.

• Man verwendet ein zweischichtiges Perceptron. Der Ausgang der verdeckten Schicht w ist der gesuchte Merkmalsvektor.

1

N

1M

1

N

x̂x

TA

w

A

• Die erste Schicht berechnet den Merkmalsvektor zu:T=w A x

Page 59: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 59

• Dabei wird angenommen, dass eine lineare Aktivierungsfunktion zum Ansatz kommt. Die zweite Schicht realisiert die Rekonstruktion von x mit der transponierten Gewichtsmatrix der ersten Schicht

• BM ist eine N× M-Matrix der M dominanten Eigenvektoren von E{xxT} und T eine orthonormale M× M–Matrix, welche eine Rotation des Koordinaten-systems bewirkt, innerhalb eines Raumes, welcher durch die M dominanten Eigenvektoren von E{xxT} aufgespannt wird.

M=A B T

ˆ =x Aw• Das Optimierungsziel ist die Minimierung von:

{ } { } { }22 2ˆ TJ E E E= − = − = −x x Aw x AA x x

• Die folgende Lernregel:

( ) Tα α← − − = − ∇A A Aw x w A J

• führt zu einer Koeffizientenmatrix A, welche als Produkt von zwei Matrizen geschrieben werden kann (ohne Beweis!):

Page 60: Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für Informatik Universität Freiburg ME II Kap 8b 1 Lernstrategien für Neuronale Netze - Der

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 60

• Die Lernstrategie beinhaltet keine Translation. D.h. sie berechnet die Eigenvektoren der Momentenmatrix E{xxT} und nicht der Kovarianzmatrix K = E{(x-µx)(x- µx)T}. Dies kann jedoch realisiert werden, indem man einen rekursiv geschätzten Erwartunghswert µx = E{x} subtrahiert, bevor man die rekursive Schätzung des Merkmalvektors beginnt. Den gleichen Effekt erzielt man dadurch, dass man einen erweiterten Beobachtungsvektor verwendet:

1 anstatt

⎡ ⎤= ⎢ ⎥⎣ ⎦

x xx