Lernstrategien für Neuronale Netze - Der Backpropagation ...· H Burkhardt Institut für Informatik

download Lernstrategien für Neuronale Netze - Der Backpropagation ...· H Burkhardt Institut für Informatik

of 60

  • date post

    15-Mar-2019
  • Category

    Documents

  • view

    216
  • download

    1

Embed Size (px)

Transcript of Lernstrategien für Neuronale Netze - Der Backpropagation ...· H Burkhardt Institut für Informatik

ME II Kap 8bH Burkhardt Institut fr Informatik Universitt Freiburg 1

Lernstrategien fr Neuronale Netze -Der Backpropagation-Algorithmus

Im Unterschied zu den bisher behandelten NNs mit Schwellwertfunktionen sind die NNs mit stetig differenzierbaren nichtlinearen Aktivierungsfunktionenf(x). Am weitesten verbreitet ist die Sigmoid-Funktion (x):

1( ) ( )1 ax

f x xe

= = +

-6 -4 -2 0 2 4 60

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

a

Sie approximiert mit wachsendem adie Sprungfunktion (x).

ME II Kap 8bH Burkhardt Institut fr Informatik Universitt Freiburg 2

Die Funktion (x) hat einen engen Bezug zur tanh-Funktion. Es gilt fr a=1:

2

2tanh( ) 1 2 (2 ) 11 x

x xe

= = +Fgt man die zwei Parameter a und b hinzu, so erhlt man eine etwas

allgemeinere Form:

( )

1( ) 11g a x b

xe

= +

2

1 1 1( 1) (1 ) ( )(1 ( ))(1 ) 1 1

xx x x

d e x xdx e e e

= = =

+ + +

wobei mit a die Steilheit und mit b die Position auf der x-Achse beeinflusst werden kann.

Die Nichtlinearitt der Aktivierungsfunktion ist entscheidend fr die Existenz des Multi-Lagen-Perceptron; ohne diese, wrde das mehrschichtige in ein triviales lineares einschichtiges Netzwerk zusammenschrumpfen.

Die Differenzierbarkeit von f(x) erlaubt die Anwendung von notwendigen Bedingungen (()/wi,j) zur Optimierung der Gewichtskoeffizienten wi,j.

Die erste Ableitung der Sigmoid-Funktion kann auf sich selbst zurckgefhrt werden:

ME II Kap 8bH Burkhardt Institut fr Informatik Universitt Freiburg 3

Eine Schicht des Neuronalen NetzesEine einzige Schicht des NN wird charakterisiert durch die MNKoeffizienten der Gewichtsmatrix W, den Offset-Vektor b und eine vektorielle Sigmoid-Funktion . Nach einer Erweiterung des Eingangsvektors um eine konstante 1

[ ]

( ) ( ) ( )1

mit: und ,

= + = =

= =

y Wx b W x s

x W b Wx

+

+

+

s1 y1

s2 y2

sM yM

1

x2

x1

xN

w1,0

wM,N

1 =

xx

ergibt sich eine Schicht in der nebenstehenden Form.

Ihre Funktion lsst sich beschreiben durch eine Matrixmultiplikation, gefolgt von einer nichtlinearen Aktivierungsfunktion, welche in identischer Form auf alle Elemente angewandt wird.

ME II Kap 8bH Burkhardt Institut fr Informatik Universitt Freiburg 4

Gestalt der erweiterten Gewichtsmatrix

[ ]

1,0 1 1,1 1,2 1,

2,0 2 2,1 2,2 1,

3,0 3 3,1 3,2 1,

,0 ,1 ,2 ,

,

N

N

N

M M M M M N

w b w w ww b w w ww b w w w

w b w w w

= = == = =

W b W

ME II Kap 8bH Burkhardt Institut fr Informatik Universitt Freiburg 5

Das Neuronale Netz mit H SchichtenDas mehrlagige NN mit H Schichten hat in jeder Schicht eine eigene

Gewichtsmatrix Wi, jedoch identische Sigmoid-Funktionen:

{ } { }22min mini i HJ E E = = W Wy y y y

W1 W2y1

WHyH-1y2 yHx

2 1( ( ( ) ))H H =y W W W x Das Lernen basiert auf der Anpassung der Gewichtsmatrizen, mit dem Ziel der Minimierung eines Fehlerquadrat-Kriterums zwischen dem Sollwert y und der Approximation durch das Netz (berwachtes Lernen). Der Erwartungswert ist zu bilden ber das zur Verfgung stehende Trainings-Ensemble von {j,xj}:

Anmerkung: Das einschichtige NN und der lineare Polynomklassifikator sind identisch, wenn die Aktivierungsfunktion 1 gesetzt wird.

ME II Kap 8bH Burkhardt Institut fr Informatik Universitt Freiburg 6

Beziehungen zu dem Konzept der Funktionsapproximation durch eine Linearkombination

von BasisfunktionenBei der Approximation z.Bsp. mit Polynomfunktionen sind die Basisfunktionen von vornherein festgelegt. Bei dem NN werden die Basisfunktionen iterativ durch Parametermatrizen aufgebaut. Zudem ist die Linearkombination nicht der letzte Schritt der Approximation; vielmehr geht die Wirkung durch eine nichtlineare Abbildung hervor und der Vorgang wiederholt sich!

+

+

+

1

x2

x1

W1 +

+

+

W2

21 1y y=

1

22 2y y=

23 3y y=

1y

Beispiel fr ein zweilagiges NN:

ME II Kap 8bH Burkhardt Institut fr Informatik Universitt Freiburg 7

Beziehungen zu dem Konzept der Funktionsapproximation durch eine Linearkombination

von Basisfunktionen

Die erste Schicht erzeugt die Basisfunktionen in Form des verdeckten Vektors y1 und die zweite Schicht bildet eine Linearkombination dieser Basisfunktionen.

Deshalb beeinflusst die Koeffizientenmatrix W1 der ersten Schicht das Aussehen der Basisfunktionen, whrend die Gewichtmatrix W2 der zweiten Schicht die Koeffizienten der Linearkombinationen enthlt. Diese wird zustzlich durch die Aktivierungsfunktion gewichtet.

ME II Kap 8bH Burkhardt Institut fr Informatik Universitt Freiburg 8

Reaktion eines Neurons mit zwei Eingngen und einer Schwellwertfunktion

ME II Kap 8bH Burkhardt Institut fr Informatik Universitt Freiburg 9

Reaktion eines Neurons mit zwei Eingngen und einer Sigmoidfunktion

ME II Kap 8bH Burkhardt Institut fr Informatik Universitt Freiburg 10

berlagerung zweier Neuronen mit je zwei Eingngen und einer Sigmoidfunktion

ME II Kap 8bH Burkhardt Institut fr Informatik Universitt Freiburg 11

Reaktion eines Neurons in der zweiten Schicht auf zwei Neuronen der ersten Schicht nach der Bewertung durch

die Sigmoidfunktion

ME II Kap 8bH Burkhardt Institut fr Informatik Universitt Freiburg 12

Der Backpropagation-Lernalgorithmus Die Klassenzugehrigkeitsabbildung geschieht durch ein Multilagenperceptron,

dessen i-ter Ausgang eine 1 erzeugt in den Regionen von x, welche durch die Stichproben xi der entsprechenden Bedeutungsklasse bevlkert ist, und sie erzeugt eine 0 in Gebieten, welche durch andere Bedeutungsklassen belegt sind. In den Gebieten dazwischen und auerhalb findet eine Inter- bzw. eine Extrapolation statt.

{ }2 ( , )iJ E = y W x y Dieser Ausdruck ist nichtlinear sowohl in den Elementen des Eingangs-

vektors x, als auch in den Gewichtskoeffizienten {wijh}.

Das Netzwerk wird trainiert auf der Grundlage der Optimierung des quadratischen Gtekriteriums:

ME II Kap 8bH Burkhardt Institut fr Informatik Universitt Freiburg 13

Nach Einsatz der Funktionsabbildung des Multilagenperceptrons erhlt man:

2 1

2

( ( ( ) ))HJ E =

y

W W W x y

Die Iteration wird beendet, wenn der Gradient bei einem (lokalen oder auch globalen) Minimum verschwindet.

Eine geeignete Wahl von ist schwierig. Kleine Werte erhhen die Anzahl der Iterationen. Grere Werte vermindern zwar die Wahrscheinlichkeit in ein lokales Minimum zu laufen, aber man riskiert, da das Verfahren divergiert und das Minimum nicht gefunden wird (oder Oszillationen auftauchen).

Gesucht ist das globale Minimum. Es ist jedoch nicht klar, ob ein solches existiert oder wie viele lokale Minima vorhanden sind.Der Backpropagation Algorithmus lst das Problem iterativ mit einem Gradientenalgorithmus. Iteriert wird gem:

{ }1 2 mit: , , ,

und d. Gradienten:

H

hnm

J Jw

=

= =

W W J W W W W

JW

ME II Kap 8bH Burkhardt Institut fr Informatik Universitt Freiburg 14

Die Iteration hat leider nur eine lineare Konvergenzordnung (Gradienten-algorithmus).

Der Fehler, verursacht durch eine Stichprobe ergibt sich zu:

2 1( ( ( ) )) ( ) H = W Wy W xx

2 21 12 2

1

( ) ( ( ) ( ))HN

j j j k kk

J y j y j=

= = y x y

Der Erwartungswert E{...} des Gradienten muss durch den Mittelwert ber alle Stichprobengradienten approximiert werden:

1

1

n

jnj=

= J J

Berechnung des Gradienten:Zur Bestimmung der zusammengesetzten Funktion

wird die Kettenregel bentigt.

ME II Kap 8bH Burkhardt Institut fr Informatik Universitt Freiburg 15

und dem kumulativen Lernen (batch learnung), aufbauend auf

Partielle Ableitungen fr eine Schicht:Fr die r-te Schicht gilt:

1

1

n

jnj=

= J J

Man unterscheidet zwischen individuellem Lernen aufbauend auf die letzte Stichprobe

,j j j x y J

1

0

( ) wobei:

m-ter Eingang von Schicht r

n-ter Ausgang von Schicht r

rNr r r r r rn n nm m m m

m

rm

rn

y s w x x y

x

y

=

= = =

ME II Kap 8bH Burkhardt Institut fr Informatik Universitt Freiburg 16

Definition der Variablen zweier Schichten fr den Backpropagation-Algorithmus

+

+

+

f

f

f +

+

+

f

f

f

1rmy

Schicht r-1 Schicht r

rnmw

rns

rny

1rms

rn

1rm

1r

+

1rknw+ 1r

ks+

ME II Kap 8bH Burkhardt Institut fr Informatik Universitt Freiburg 17

1Hm

H HHn nnH H H H

nm n nm nm

y

J J s sw s w w

=

= =

Wir berechnen zunchst die Wirkung der letzten verdeckten Schicht auf die Ausgangsschicht r=H. Unter Verwendung der partiellen Ableitungen der Gtefunktion J (eigentlich Jj, aber j wird der Einfachheit halber weggelassen) und unter Anwendun