Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für...

ME II Kap 8bH Burkhardt Institut für Informatik Universität Freiburg 1

Lernstrategien für Neuronale Netze -Der Backpropagation-Algorithmus

Im Unterschied zu den bisher behandelten NNs mit Schwellwertfunktionen sind die NNs mit stetig differenzierbaren nichtlinearen Aktivierungsfunktionenf(x). Am weitesten verbreitet ist die Sigmoid-Funktion ψ(x):

1( ) ( )1 axf x x

eψ −= =

+

-6 -4 -2 0 2 4 60

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

a

Sie approximiert mit wachsendem adie Sprungfunktion σ(x).


Die Funktion ψ(x) hat einen engen Bezug zur tanh-Funktion. Es gilt für a=1:

2

2tanh( ) 1 2 (2 ) 11 xx x

eψ−= − = −

+Fügt man die zwei Parameter a und b hinzu, so erhält man eine etwas

allgemeinere Form:

( )

1( ) 11g a x bx

eψ − −= −

+

2

1 1 1( 1) (1 ) ( )(1 ( ))(1 ) 1 1

xx x x

d e x xdx e e eψ ψ ψ−

− − −

−= − = − = −

+ + +

wobei mit a die Steilheit und mit b die Position auf der x-Achse beeinflusst werden kann.

Die Nichtlinearität der Aktivierungsfunktion ist entscheidend für die Existenz des Multi-Lagen-Perceptron; ohne diese, würde das mehrschichtige in ein triviales lineares einschichtiges Netzwerk zusammenschrumpfen.

Die Differenzierbarkeit von f(x) erlaubt die Anwendung von notwendigen Bedingungen (∂(·)/∂wi,j) zur Optimierung der Gewichtskoeffizienten wi,j.

Die erste Ableitung der Sigmoid-Funktion kann auf sich selbst zurückgeführt werden:


Eine Schicht des Neuronalen NetzesEine einzige Schicht des NN wird charakterisiert durch die M×NKoeffizienten der Gewichtsmatrix W, den Offset-Vektor b und eine vektorielle Sigmoid-Funktion ψ. Nach einer Erweiterung des Eingangsvektors um eine konstante 1

[ ]

( ) ( ) ( )1

mit: und ,

′ ′= + = =

⎡ ⎤′ ′= =⎢ ⎥⎣ ⎦

y ψ Wx b ψ W x ψ s

x W b Wx

+

+

+

s1 y1

s2 y2

sM yM

1

x2

x1

xN

w1,0

wM,N

1⎡ ⎤′ = ⎢ ⎥⎣ ⎦

xx

ergibt sich eine Schicht in der nebenstehenden Form.

Ihre Funktion lässt sich beschreiben durch eine Matrixmultiplikation, gefolgt von einer nichtlinearen Aktivierungsfunktion, welche in identischer Form auf alle Elemente angewandt wird.


Gestalt der erweiterten Gewichtsmatrix

[ ]

1,0 1 1,1 1,2 1,

2,0 2 2,1 2,2 1,

3,0 3 3,1 3,2 1,

,0 ,1 ,2 ,

,

N

N

N

M M M M M N

w b w w ww b w w ww b w w w

w b w w w

=⎡ ⎤⎢ ⎥=⎢ ⎥⎢ ⎥′ == =⎢ ⎥⎢ ⎥⎢ ⎥=⎣ ⎦

W b W

………

…


Das Neuronale Netz mit H SchichtenDas mehrlagige NN mit H Schichten hat in jeder Schicht eine eigene

Gewichtsmatrix W´i, jedoch identische Sigmoid-Funktionen:

{ } { }22ˆmin mini i

HJ E E′ ′

= − = −W W

y y y y

W´1 W´2y1W´HyH-1y2 yHx´

2 1( ( ( ) ))H H′ ′ ′ ′=y ψ W ψ W ψ W x… …Das Lernen basiert auf der Anpassung der Gewichtsmatrizen, mit dem Ziel der Minimierung eines Fehlerquadrat-Kriterums zwischen dem Sollwert y und der Approximation ŷ durch das Netz (überwachtes Lernen). Der Erwartungswert ist zu bilden über das zur Verfügung stehende Trainings-Ensemble von {ŷj,xj}:

Anmerkung: Das einschichtige NN und der lineare Polynomklassifikator sind identisch, wenn die Aktivierungsfunktion ψ≡1 gesetzt wird.


Beziehungen zu dem Konzept der Funktionsapproximation durch eine Linearkombination

von BasisfunktionenBei der Approximation z.Bsp. mit Polynomfunktionen sind die Basisfunktionen von vornherein festgelegt. Bei dem NN werden die Basisfunktionen iterativ durch Parametermatrizen aufgebaut. Zudem ist die Linearkombination nicht der letzte Schritt der Approximation; vielmehr geht die Wirkung durch eine nichtlineare Abbildung hervor und der Vorgang wiederholt sich!

+

+

+

1

x2

x1

W´1 +

+

+

W´2

21 1ˆy y=

1

22 2ˆy y=

23 3ˆy y=

1y

Beispiel für ein zweilagiges NN:


Beziehungen zu dem Konzept der Funktionsapproximation durch eine Linearkombination

von Basisfunktionen

Die erste Schicht erzeugt die Basisfunktionen in Form des verdeckten Vektors y1 und die zweite Schicht bildet eine Linearkombination dieser Basisfunktionen.

Deshalb beeinflusst die Koeffizientenmatrix W´1 der ersten Schicht das Aussehen der Basisfunktionen, während die Gewichtmatrix W´2 der zweiten Schicht die Koeffizienten der Linearkombinationen enthält. Diese wird zusätzlich durch die Aktivierungsfunktion gewichtet.


Reaktion eines Neurons mit zwei Eingängen und einer Schwellwertfunktion σ


Reaktion eines Neurons mit zwei Eingängen und einer Sigmoidfunktion ψ


Überlagerung zweier Neuronen mit je zwei Eingängen und einer Sigmoidfunktion


Reaktion eines Neurons in der zweiten Schicht auf zwei Neuronen der ersten Schicht nach der Bewertung durch

die Sigmoidfunktion


Der Backpropagation-Lernalgorithmus• Die Klassenzugehörigkeitsabbildung geschieht durch ein Multilagenperceptron,

dessen i-ter Ausgang eine 1 erzeugt in den Regionen von x, welche durch die Stichproben xi der entsprechenden Bedeutungsklasse bevölkert ist, und sie erzeugt eine 0 in Gebieten, welche durch andere Bedeutungsklassen belegt sind. In den Gebieten dazwischen und außerhalb findet eine Inter- bzw. eine Extrapolation statt.

{ }2ˆ ( , )iJ E ′ ′= −y W x y

• Dieser Ausdruck ist nichtlinear sowohl in den Elementen des Eingangs-vektors x´, als auch in den Gewichtskoeffizienten {w´ij

h}.

• Das Netzwerk wird trainiert auf der Grundlage der Optimierung des quadratischen Gütekriteriums:


• Nach Einsatz der Funktionsabbildung des Multilagenperceptrons erhält man:

2 1

ˆ

2

( ( ( ) ))HJ E⎧ ⎫⎪ ⎪= ⎨ ⎬⎪

′

⎩

′ ′ −

⎭

′⎪y

ψ W ψ W ψ W x y… …

• Die Iteration wird beendet, wenn der Gradient bei einem (lokalen oder auch globalen) Minimum verschwindet.

• Eine geeignete Wahl von α ist schwierig. Kleine Werte erhöhen die Anzahl der Iterationen. Größere Werte vermindern zwar die Wahrscheinlichkeit in ein lokales Minimum zu laufen, aber man riskiert, daß das Verfahren divergiert und das Minimum nicht gefunden wird (oder Oszillationen auftauchen).

• Gesucht ist das globale Minimum. Es ist jedoch nicht klar, ob ein solches existiert oder wie viele lokale Minima vorhanden sind.Der Backpropagation Algorithmus löst das Problem iterativ mit einem Gradientenalgorithmus. Iteriert wird gemäß:

{ }1 2 mit: , , ,

und d. Gradienten:

H

hnm

J Jw

α′ ′ ′ ′ ′ ′← − ∇ =

⎧ ⎫∂ ∂∇ = = ⎨ ⎬′ ′∂ ∂⎩ ⎭

W W J W W W W

JW

…


• Die Iteration hat leider nur eine lineare Konvergenzordnung (Gradienten-algorithmus).

• Der Fehler, verursacht durch eine Stichprobe ergibt sich zu:

2 1( ( ( ) ))ˆ ( ) H′ ′′ ′= ′ψ W ψ Wy ψ W xx … …

2 21 12 2

1

ˆ ˆ( ) ( ( ) ( ))HN

j j j k kk

J y j y j=

= − = −∑y x y

• Der Erwartungswert E{...} des Gradienten muss durch den Mittelwert über alle Stichprobengradienten approximiert werden:

1

1

n

jnj=

∇ = ∇∑J J

• Berechnung des Gradienten:Zur Bestimmung der zusammengesetzten Funktion

• wird die Kettenregel benötigt.


– und dem kumulativen Lernen (batch learnung), aufbauend auf

• Partielle Ableitungen für eine Schicht:Für die r-te Schicht gilt:

1

1

n

jnj=

∇ = ∇∑J J

• Man unterscheidet zwischen– individuellem Lernen aufbauend auf die letzte Stichprobe

,j j j⎡ ⎤ ⇒∇⎣ ⎦x y J

1

0

( ) wobei:

m-ter Eingang von Schicht r

n-ter Ausgang von Schicht r

rNr r r r r rn n nm m m m

m

rm

rn

y s w x x y

x

y

ψ ψ −

=

⎛ ⎞′ ′ ′= = =⎜ ⎟

⎝ ⎠′

∑


Definition der Variablen zweier Schichten für den Backpropagation-Algorithmus

+

+

+

f

f

f +

+

+

f

f

f

1rmy −

Schicht r-1 Schicht r

rnmw′

rns r

ny

1rms −

rnδ

1rmδ−

1rδ

+

1rknw +′ 1r

ks +


1Hm

H HHn nnH H H H

nm n nm nm

y

J J s sw s w w

δ

−=

∂ ∂ ∂ ∂= ⋅ = −

′ ′ ′∂ ∂ ∂ ∂

• Wir berechnen zunächst die Wirkung der letzten verdeckten Schicht auf die Ausgangsschicht r=H. Unter Verwendung der partiellen Ableitungen der Gütefunktion J (eigentlich Jj, aber j wird der Einfachheit halber weggelassen) und unter Anwendung der Kettenregel erhält man:

• und damit schließlich für das Update der Gewichte:

1 1

mit

ˆ( ) ( )

neu alt

H H H H Hnm n m n n n m

Jw w w ww

w y y y f s y

α

αδ α− −

∂= + ∆ ∆ = −

∂′ ′∆ = − = − −

• unter Einführung der Empfindlichkeit von Zelle n

nn

Js

δ ∂= −

∂

• ergibt sich:

212

1

ˆ( ))

ˆ

ˆ ˆ( ) ( )ˆ

HN

k kk

n

HH Hnn n n nH H H

n n n

y y

y

yJ J y y f ss y s

δ

=

⎛ ⎞⎜ ⎟∂ −⎜ ⎟⎜ ⎟⎝ ⎠

∂

∂∂ ∂ ′= − = − ⋅ = −∂ ∂ ∂

∑


• Mit

1

1 1

r rm n

rn

r r rnm n m

sJ Js s sδ δ−

− −

∂∂ ∂=

∂ ∂ ∂∑

• Für alle anderen verdeckten Schichten r <H sind die Überlegungen etwas komplexer. Wegen der Abhängigkeit der Schichten untereinander, beeinflussen die Werte von sm

r-1 alle Elemente snr der nachfolgenden Schicht. Unter Anwendung der

Kettenregel erhält man:

• ergibt sich:

1 1( )r r r rm m nm n

nf s wδ δ− − ⎡ ⎤′ ′= ⎢ ⎥⎣ ⎦

∑

1( )

1

11 1 ( )

rkf s

r rnk k

krr rn

nm mr rm m

w ys w f s

s s

−

−

−− −

⎛ ⎞⎜ ⎟′∂ ⎜ ⎟⎜ ⎟∂ ⎝ ⎠ ′ ′= =

∂ ∂

∑

• D.h. die Fehler „backpropagieren“ von der Ausgangs- zu niederen Schichten!


• Mit

• Für alle anderen verdeckten Schichten r <H sind die Überlegungen etwas komplexer. Wegen der Abhängigkeit der Schichten untereinander, beeinflussen die Werte von sm

r-1 alle Elemente snr der nachfolgenden Schicht. Unter Anwendung der

Kettenregel erhält man:

• ergibt sich:

1 1( )r r r rn n kn k

kf s wδ δ+ +⎡ ⎤′ ′= ⎢ ⎥⎣ ⎦

∑

( )

1

11 ( )

rnf s

r rkn n

nrr rk

kn nr rn n

w ys w f ss s

+

++

⎛ ⎞⎜ ⎟′∂⎜ ⎟⎜ ⎟∂ ⎝ ⎠ ′ ′= =

∂ ∂

∑

• D.h. die Fehler „backpropagieren“ von der Ausgangs- zu niederen Schichten!

1r rn m

rn

r r rnm n nm

y

sJ Jw s w

δ −

∂∂ ∂=

′ ′∂ ∂ ∂und weiter:

1

1

1

r rn k

rk

r r rkn k n

J J ss s sδ δ +

+

+

∂ ∂ ∂=

∂ ∂ ∂∑


• Man durchläuft alle Lernstichproben, ohne irgendwelche Veränderungen an den Gewichtskoeffizienten, und man erhält den Gradienten ∇J durch Mittelung über die ∇Jj. Beide Größen können zum Aufdaten der Parametermatrix W´ des Perceptrons verwendet werden:

1

1

individuelles Lernen

kumulatives Lernenk k j

k k

α

α+

+

′ ′= − ∇

′ ′= − ∇

W W J

W W J

• Die Gradienten ∇J und ∇Jj unterscheiden sich. Der zweite ist der Mittelwert des ersten (∇J = E{∇ Jj}), oder: der erste stellt einen zufälligen Wert des zweiten dar.


Die gesamte individuelle Lernprozedur besteht aus den folgenden Verarbeitungsschritten:

• Wähle vorläufige Werte für die Koeffizientenmatrizen W1,W2, ... ,WH aller Schichten

• Eine neue Beobachtung [x´j, ŷj] sei gegeben• Berechne die Diskriminierungsfunktion ŷj aus der gegebenen Beobachtung x´j

und den momentanen Gewichtsmatrizen (Vorwärtsrechnung)• Berechne den Fehler zwischen Schätzung ŷ und Zielvektor y:

∆y= ŷ-y• Berechne den Gradienten ∇J bzgl. aller Perceptron-Gewichte (error

backpropagation). Berechne dazu zuerst δjH der Ausgangsschicht gemäß:

1 1( ) für , 1, , 2r r r rm m nm n

nf s w r H Hδ δ− − ⎡ ⎤′ ′= = −⎢ ⎥⎣ ⎦

∑ …

• und berechne daraus rückwärts alle Werte der niederen Schichten gemäß:

ˆ ˆ( ) ( )ˆ

HH Hnn n n nH H H

n n n

yJ J y y f ss y s

δ ∂∂ ∂ ′= − = − ⋅ = −∂ ∂ ∂


• Korrigiere (parallel) alle Perceptron-Gewichte gemäß:

1

1,2,= für 1, 2,

1, 2,

r r r r r Hnm nm nm n mr

nm H

r HJw w w y n N

wm M

α αδ −

= …∂′ ′ ′← − − = …′∂

= …

• Beim individuellen Lernen werden die Gewichte {w´nmh} mit ∇J für jede

Stichprobe korrigiert, wohingegen beim kumulativen Lernen die gesamte Lernstichprobe durchgearbeitet werden muss, um den gemittelten Gradienten ∇J aus der Sequenz der {∇J} zu ermitteln, bevor die Gewichte korrigiert werden können gemäß:

1

1,2,( ) ( ) für 1, 2,

1, 2,

r r r r Hnm nm n m

i H

r Hw w i y i n N

m Mαδ −

= …′ ′← − = …

= …∑

• unter Beachtung der ersten Ableitung der Sigmoidfunktion f(s)=ψ(s):

( )( ) ( )(1 ( )) (1 )

bzw: ( ) (1 )r r rm m m

d sf s s s y yds

f s y y

ψ ψ ψ′ = = − = −

′ = −


Backpropagation-Algorithmus in Matrixschreibweise• Wähle vorläufige Werte für die Koeffizientenmatrizen W1,W2, ... ,WH aller

Schichten• Eine neue Beobachtung [x´j, ŷj] sei gegeben• Berechne die Diskriminierungsfunktion ŷj aus der gegebenen Beobachtung x´j

und den momentanen Gewichtsmatrizen (Vorwärtsrechnung). Speichere alle Werte von yr und sr in allen Zwischenschichten r = 1,2,…,H.

• Berechne den Fehler zwischen Schätzung ŷ und Zielvektor y am Ausgang:∆y= ŷ-y

• Berechne den Gradienten ∇J bzgl. aller Perceptron-Gewichte (errorbackpropagation). Berechne dazu zuerst δH der Ausgangsschicht gemäß:

ˆ ˆ( ) ( )ˆ

HH H

H H H

J J f∂ ∂ ∂ ′= − = − ⋅ = −∂ ∂ ∂

yδ y y ss y s

• und berechne daraus rückwärts alle Werte der niederen Schichten gemäß:

1 1 1( ) ( ) für , 1, , 2Tr r rf r H H− −′= =′ −δ s δW …


• Individuelles Lernen: Korrigiere (parallel) alle Perceptron-Gewichtsmatrizenmit ∇J für jede Stichprobe gemäß:

( 1)= für 1, 2,Tr r r r r

r

J r Hα α −∂′ ′ ′← − − = …′∂

W W W δ yW

• Kumulatives Lernen: es muss die gesamte Lernstichprobe durchgearbeitet werden , um den gemittelten Gradienten ∇J aus der Sequenz der {∇Jj } zu ermitteln, bevor die Gewichte korrigiert werden können gemäß:

( 1) für 1,2, Tr r r r

j jj

r Hα −′ ′← − = …∑W W δ y

• unter Beachtung der ersten Ableitung der Sigmoidfunktion f(s)=ψ(s):

( )( ) ( )(1 ( )) (1 )

bzw: ( ) (1 )r r rm m m

d sf s s s y yds

f s y y

ψ ψ ψ′ = = − = −

′ = −


Eigenschaften:• Der Backpropagation-Algorithmus ist einfach zu implementieren, aber sehr

rechenaufwendig, insbesondere wenn die Koeffizientenmatrix groß ist, was zur Folge hat, dass auch die Lernstichprobe entsprechend groß sein muss. Nachteilig ist weiterhin die Abhängigkeit des Verfahrens von den Startwerten der Gewichte, dem Korrekturfaktor α und die Reihenfolge, in der die Stichproben abgearbeitet werden.

• Wie beim rekursiven Trainieren des Polynomklassifikators bleiben lineare Abhängigkeiten in den Merkmalen unberücksichtigt.

• Positiv zu vermerken ist, das der Gradientenalgorithmus auch für sehr große Probleme verwendet werden kann.

• Die Dimension der Koeffizientenmatrix W ergibt sich aus den Dimensionen des Eingangsvektors, der verdeckten Schichten, sowie des Ausgangsvektors (N,N 1,..., NH-1,K) zu:

1 0

1

dim( ) ( 1) mit und

dim( ) Merkmalsraumˆdim( ) Anzahl der Klassen

Hh h H

h

T N N N N N K

NK

−

=

= = + = =

==

∑W

xy


Zur Dimensionierung des Netzes• Die Überlegungen bei dem Entwurf eines mehrschichtigen Perceptrons mit

Schwellwertfunktionen (σ bzw. sign) geben eine gute Vorstellung, wievieleHidden-Layer und wieviele Neuronen man für ein MLPC verwenden sollte für das Backpropagation-Lernen (vorausgestzt, man hat eine gewisse Vorstellung über die Verteilung der Cluster).

• Das Netz sollte so einfach wie nur möglich gewählt werden. Mit höherer Dimension steigt die Gefahr des overfitting, gepaart mit einem Verlust an Generalisierungsfähigkeit und zugleich werden viele Nebenmaxima zugelassen, wo der Algorithmus hängen bleiben kann!

Epochen

Training

TestenFe

hler• Bei einem vorgegebenen Stich-

probenumfang, sollte die Lernphase bei einem bestimmten Punkt abgebrochen werden. Danach wird das Netz zu sehr an die vorhandenen Daten angepasst (overfitting) und verliert an Generalisierungsfähigkeit.


Zur Berechnungskomplexität des Backpropagation-Algorithmus

• Wenn T=dim(W) die Anzahl der Gewichte und Biasterme ist, so läßt sich einfach nachvollziehen, daß O(T) Berechnungsschritte für die Vorwärtssimulation benötigt werden, O(T) für das Backpropagieren des Fehlers und ebenso O(T) Operationen für die Korrektur der Gewichte, also erhält man insgesamt einen lineare Komplexität in der Anzahl der Gewichte: O(T).

• Würde man den Gradienten durch finite Differenzen experimentell bestimmen (dazu ändert man jedes Gewicht inkrementell und ermittelt die Wirkung auf das Gütemaß durch Vorwärtsrechnung) durch Berechnung eines Differenzenquotienten gemäß (d.h. man macht sich nicht die Mühe der analytischen Auswertung):

• so ergäben sich T Vorwärtsrechnungen der Komplexität O(T) und damit insgesamt eine Gesamtkomplexität von: O(T2)

( ) ( )( )

r rji ji

rji

J w J wJ Ow

εε

ε+ −∂

= +∂


Backpropagation zum Trainieren eines zweischichtigen Netzwerks zur Funktionsapproximation

(Matlab-Demo: „Backpropagation Calculation)

1 1 1 1 1 1

1 11,11 1 11 12,1 2

( ) ( ) ( )

mit: und

x

w bw b

′ ′= + = =

⎡ ⎤ ⎡ ⎤= =⎢ ⎥ ⎢ ⎥

⎣ ⎦⎣ ⎦

y ψ W b ψ W x ψ s

W b

2 2 1 2

2 2 21,1 1,2

ˆ ( )

mit:

y y b

w w

= = +

⎡ ⎤= ⎣ ⎦

W y

W

4( ) 1 sin( ) für 2 2y x x xπ= + − ≤ ≤

• Gesucht wird eine Approximation der Funktion

+

+

1x +2 ˆy y=

1

11,1w

12,1w

12s

11s

11y

12y

11b

12b

2b

21,1w

21,2w

2s

1

2δ11δ

12δ



2 2 1 2 21, und für 1,2j jw y b jαδ αδ∆ = ∆ = =

• Backpropagation: Für die Ausgangsschicht oder zweite Schicht mit linearer Aktivierungsfunktion ergibt sich wegen f ´=1:

2 ˆ( )y yδ = −

• Korrektur der Gewichte in der Ausgangsschicht:

• Backpropagation: Für die erste Schicht mit Sigmoid-Funktion ergibt sich: :

1 1 2 2 1 1 2 21, 1,( ) (1 ) für 1,2j j j j j jf s w y y w jδ δ δ′ ′⎡ ⎤ ⎡ ⎤= = − =⎣ ⎦ ⎣ ⎦

• Korrektur der Gewichte in der Eingangsschicht:

1 1 1 1,1 und für 1,2j j j jw x b jαδ αδ∆ = ∆ = =


Start der Matlab-Demomatlab-BPC.bat



(Matlab-Demo, other NN, Backpropagation: „Function Approximation)

4( ) 1 sin( ) für 2 2y x i x xπ= + ⋅ − ≤ ≤

• Gesucht wird eine Approximation der Funktion

• Mit zunehmenden Wert von i (difficulty index) steigen die Anforderungen an das MLPC-Netzwerk. Die auf der Sigmoid-Funktion aufbauende Approximation benötigt mehr und mehr Schichten, um mehrere Perioden der Sinus-Funktion darzustellen.

• Problem: Konvergenz zu lokalen Minima, selbst in Fällen, wo das Netzwerk groß genug gewählt wird, um die Funktion– Das Netzwerk wird zu klein gewählt, so dass eine Approximation nur schlecht

gelingt, d.h. es wird zwar das globale Minimum erreicht, aber dieses liefert noch keine gute Approximationsgüte (i=8 und Netzwerk 1-3-1)

– Das Netzwerk wird groß genug gewählt, so dass eine gute Approximation möglich ist, aber es konvergiert nur gegen ein lokales Minimum (i=4 und Netzwerk 1-3-1)


Start der Matlab-Demomatlab-FA.bat


Modell groß genug, aber nur lokales Minimum


Generalisierungsfähigkeit des Netzwerkes

• Wir gehen davon aus, dass das Netzwerk für 11 Abtastpunkte trainiert wird

{ } { } { }1 1 2 2 11 11, , , , ,y x y x y x…

• Die Frage ist nun, wie gut das Netzwerk die Funktion für nicht gelernte Abtastpunkte approximiert in Abhängigkeit von der Komplexität des Netzwerkes

• Regel: Das Netzwerk sollte weniger Parameter haben als die zur Verfügung stehenden Ein-/Ausgangspaare

Start der Matlab-Demo (Hagan 11-21)matlab-GENERAL.bat


Verbesserung der Generalisierungsfähigkeit eines Netzes durch Hinzufügen additiver Störungen

• Stehen nur wenige Stichproben zur Verfügung, so kann die Generalisierungs-fähigkeit eines NN verbessert werden, indem man den Stichprobenumfang durch z.Bsp. normalverteilte Störungen verbreitert. D.h. man fügt weitere Stichproben hinzu, welche mit hoher Wahrscheinlichkeit in der unmittelbaren Nachbarschaft anzutreffen sind.

• Dadurch werden die Intraklassenbereiche verbreitert und die Grenzen zwischen den Klassen schärfer ausgebildet.

Klasse 1

Klasse 2


Interpolation durch Überlagerung von Normalverteilungen

( ) ( )i i iy x f x tα= −∑

-3 -2 -1 0 1 2 30

0.2

0.4

0.6

0.8

1

1.2

1.4W eighted Sum of Radial Basis Transfer Functions

I t


Interpolation durch Überlagerung von Normalverteilungen


Zeichenerkennungsaufgabe für26 Buchstaben der Größe 7×5

• mit graduell ansteigenden additiven Störungen:


y2= ψ(W2 ψ(W1x+b1)+b2)

Zweischichtiges Neuronales Netz für die Zeichenerkennung mit 35 Eingangswerten (Pixel), 10 Neuronen in der

verdeckten Schicht und 26 Neuronen in der Ausgangsschicht

ψ+

W1

b11

xN×1

S1×N=10 ×35

S1×1=10×1

S1×1=10 × 1

s1

y1=f1(W1x+b1)

erste Schicht

N=35

ψ+

W2

b21

y1

S1×1=10 × 1 S2×S1=

26 × 10

S2×1=26 × 1

s2

y2=f2(W2y1+b2)

zweite Schicht

y2

S2×1=26 × 1

S2×1=26 × 1

S2×1=26 × 1

S1×1=10×1


Demo mit MATLAB

• Öffnen von Matlab– Demo in Toolbox Neural Networks– „Character recognition“ (command line)– Es werden zwei Netzwerke trainiert

• Netzwerk 1 ohne Störungen• Netzwerk 2 mit Störungen

– Auf einem unabhängigen Testdatensatz liefert Netzwerk 2 bessere Ergebnisse als Netzwerk 1

Start der Matlab-Demomatlab-CR.bat


Möglichkeiten zur Beschleunigung der Adaption

Es handelt sich bei der Adaption von NN um ein allgemeines Parameteropti-mierungsproblem. Demgemäss können im Prinzip eine Vielzahl weiterer Optimierungsmethoden aus der numerischen Mathematik eingesetzt werden. Dies kann zu erheblichen Verbesserungen führen (Konvergenzgeschwin-digkeit, Konvergenzbereich, Stabilität, Berechnungsaufwand).

I.a. lassen sich jedoch nur sehr schwer allgemeingültige Aussagen machen, da die Ergebnisse von Fall zu Fall sehr verschieden sein können und in der Regel Kompromisse in den Eigenschaften zu akzeptieren sind!

• Heuristische Verbesserungen des Gradientenalgorithmus (Schrittweitenkontrolle)

– Gradientenalgorithmus (Steepest descent) mit Momentum-Term (update der Gewichte nicht nur abhängig vom Gradient, sondern auch vom vorherigen update)

– Verwendung eines adaptiven Lernfaktors

• Konjugierter Gradientenalgorithmus


• Newton und Quasi-Newton-Algorithmen (Verwendung der zweiten Ableitungen der Fehlerfunktion z.B. in Form der Hesse-Matrix oder deren Schätzung)

– Quickprop– Levenberg-Marquardt-Algorithmus

• Pruning-Techniken. Man startet mit einem hinreichend großen Netzwerk und nimmt dann wieder Neuronen aus dem Netz, welche keinen oder nur geringen Einfluß auf die Gütefunktion haben und reduziert damit das Overfitting der Daten.

12

2

Taylorentwicklung der Gütefunktion in :( ) ( ) Terme höherer Ordnung

mit: Gradientenvektor

und: Hesse-Matrix

T T

i j

J JJ

Jw w

+ ∆ = +∇ ∆ + ∆ ∆ +

∂∇ =

∂⎧ ⎫∂⎪ ⎪= ⎨ ⎬∂ ∂⎪ ⎪⎩ ⎭

ww w w J w w H w

Jw

H


Demo mit MATLAB(Demo von Theodoridis)

• C:\...\matlab\PR\startdemo• Example 2 (XOR) mit (2-2-1 und 2-5-1)• Example 3 mit dreischichtigem Netzwerk [5,5]

(3000 Epochen, learning rate 0,7, momentum 0,5)Start der Matlab-Demomatlab-theodoridis.bat

Zwei Lösungen des XOR-Problems:

Konvexes Gebiet realisiert mit einem zweischichtigen Netz (2-2-1). Mögliche Fehlklassifikation bei Varianz:

Vereinigung von 2 konvexen Gebieten reali-siert mit einem dreischichtigen Netz (2-5-5-1). Mögliche Fehlklassifikation bei Varianz:

14 2 0,35> ≈n 0,5>n

2-2-2-1 konvergiert leider nicht!


XOR mit hohem Rauschanteil um zweiteLösung zu provozieren! Mit zwei Geradenschafft mein keine fehlerfreie Konstellation. Der Gradient kann trotzdem verschwindenbei einem von Null verschiedenenFehlermass, d.h. man ist in einemNebenmaximum. Erst die richtige Lösungführt auf einen Fehler Null.


Demo mit MATLAB (Klassifikationgui.m)

• Öffnen von Matlab– zuerst setmypath.m aufrufen, dann– C:\Home\ppt\Lehre\ME_2002\matlab\KlassifikatorEntwurf-

WinXX\Klassifikationgui– Datensatz: Samples/xor2.mat laden

Einstellung: 500 Epochen, Lernrate 0.7– Gewichtsmatrizen laden: models/xor-trivial.mat– Gewichtsmatrizen laden: models/xor-3.mat laden

• Zweiklassenproblem mit Bananenshape eingeben– Datensatz Samples/banana_test_samples.mat laden– Voreinstellungen aus: models/MLP_7_3_2_banana.mat laden

Start der Matlab-Demomatlab-Klassifikation_gui.bat


Lösung des XOR-Problems mit zweischichtigem NN


Lösung des XOR-Problems mit dreischichtigem NN


Durch Normalverteilungen schlecht darstellbare Klassen

+

+

+

+

+++

++ + +

+

++

++ +

++

-

-

-

-

- --

----

-------

-- -


Konvergenzverhalten von Backpropagation-Algorithmen

• Backpropagation mit gewöhnlichem Gradientenabstieg (steepest descent)

Start der Matlab-Demomatlab-BP-gradient.bat

• Backpropagation mit konjugiertem Gradientenabstieg (conjugate gradient) – wesentlich bessere Konvergenz!

Start der Matlab-Demomatlab-BP-CGgradient.bat


NN und deren Eigenschaften• „Quick and Dirty“. Ein NN-Entwurf ist einfach zu realisieren und man erhält

durchaus brauchbare Lösungen (eine suboptimale Lösung ist jedenfalls besser als irgendeine Lösung).

• Es können damit insbesondere auch sehr große Probleme angegangen werden.• Alle Strategien benutzen jedoch nur „lokale“ Optimierungsfunktionen und

erreichen in der Regel kein globales Optimum. Dies ist der gravierende Nachteil für den Einsatz Neuronaler Netze.


Verwendung eines NN zur iterativen Berechnung der Hauptkomponentenanalyse (KLT)

• Anstatt die KLT explizit über ein Eigenwertproblem zu lösen, kann auch ein NN zur iterativen Berechnung herangezogen werden.

• Man verwendet ein zweischichtiges Perceptron. Der Ausgang der verdeckten Schicht w ist der gesuchte Merkmalsvektor.

1

N

1M

1

N

x̂x

TA

w

A

• Die erste Schicht berechnet den Merkmalsvektor zu:T=w A x


• Dabei wird angenommen, dass eine lineare Aktivierungsfunktion zum Ansatz kommt. Die zweite Schicht realisiert die Rekonstruktion von x mit der transponierten Gewichtsmatrix der ersten Schicht

• BM ist eine N× M-Matrix der M dominanten Eigenvektoren von E{xxT} und T eine orthonormale M× M–Matrix, welche eine Rotation des Koordinaten-systems bewirkt, innerhalb eines Raumes, welcher durch die M dominanten Eigenvektoren von E{xxT} aufgespannt wird.

M=A B T

ˆ =x Aw• Das Optimierungsziel ist die Minimierung von:

{ } { } { }22 2ˆ TJ E E E= − = − = −x x Aw x AA x x

• Die folgende Lernregel:

( ) Tα α← − − = − ∇A A Aw x w A J

• führt zu einer Koeffizientenmatrix A, welche als Produkt von zwei Matrizen geschrieben werden kann (ohne Beweis!):


• Die Lernstrategie beinhaltet keine Translation. D.h. sie berechnet die Eigenvektoren der Momentenmatrix E{xxT} und nicht der Kovarianzmatrix K = E{(x-µx)(x- µx)T}. Dies kann jedoch realisiert werden, indem man einen rekursiv geschätzten Erwartunghswert µx = E{x} subtrahiert, bevor man die rekursive Schätzung des Merkmalvektors beginnt. Den gleichen Effekt erzielt man dadurch, dass man einen erweiterten Beobachtungsvektor verwendet:

1 anstatt

⎡ ⎤= ⎢ ⎥⎣ ⎦

x xx

Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für...

Documents

Transcript of Lernstrategien für Neuronale Netze - Der Backpropagation ... · H Burkhardt Institut für...