Σύγχρονα συστήματα προβλέψεων και μοντελοποίησης

Post on 25-Jan-2016

44 views 1 download

description

Σύγχρονα συστήματα προβλέψεων και μοντελοποίησης. Δημήτρης Λέκκας Τμήμα Στατιστικής και Αναλογιστικών Χρηματοοικονομικών Μαθηματικών. Περιγραφή. Πρόγνωση Μέθοδοι Πρόγνωση με Συναρτήσεις Μεταφοράς Πρόγνωση με Τεχνητά Νευρωνικά δίκτυα (ΤΝΔ) Artificial Neural Networks (ANN) - PowerPoint PPT Presentation

Transcript of Σύγχρονα συστήματα προβλέψεων και μοντελοποίησης

Σύγχρονα συστήματα προβλέψεων και μοντελοποίησης

Δημήτρης Λέκκας

Τμήμα Στατιστικής και Αναλογιστικών Χρηματοοικονομικών Μαθηματικών

2

Περιγραφή

Πρόγνωση Μέθοδοι Πρόγνωση με Συναρτήσεις Μεταφοράς Πρόγνωση με Τεχνητά Νευρωνικά δίκτυα

(ΤΝΔ) Artificial Neural Networks (ANN)

Διόρθωση πρόγνωσης

3

Γιατί να κάνουμε πρόγνωση με ΤΝΔ?Pattern or Noise?

Δεδομένα επιβατών αεροπορικής εταιρίας

Εποχικότητα, Τάση Πολλαπλασιαστική επίδραση της

εποχικότητας Ή προσθετική επίδραση της εποχικότητας

Πωλήσεις νωπών προϊόντων σε supermarket

Εποχικότητα, Παλμοί, Θόρυβος Άγνωστο μοντέλο

4

Γιατί να κάνουμε πρόγνωση με ΤΝΔ?Pattern or Noise?

TAR(p) Threshold Autoregressive model

Random Walk model

13,0

19,0

11

11

ttt

tttt

yfory

yforyy

ttt yy 1

5

Γιατί Τεχνητά Νευρωνικά Δίκτυα? – μη γραμμικότητα

Διαθέσιμα δεδομένα – άγνωστες διεργασίες Πολλές εξαρτημένες σχέσεις στο χώρο των

επιχειρήσεων και της αγοράς είναι μη-γραμμικές ΤΝΔ μπορούν να προσεγγίσουν οποιαδήποτε

γραμμική και μη-γραμμική σχέση με ακρίβεια Μπορούν να μάθουν (learn) Μπορούν να προεκτείνουν (extrapolate) generalisation

(ικανότητα γενίκευσης) Μπορούν να εξάγουν πληροφορία από τα δεδομένα

Ευέλικτα εργαλεία για προσομοίωση και πρόγνωση

6

“An ANN is a nonlinear mathematical structure which is capable of representing arbitrary complex nonlinear processes that relate the inputs and the outputs of any system” (Hsu et al., 1995).

Ανήκουν στην ομάδα των data-driven μεθόδων όπως τα μοντέλα Συνάρτησης Μεταφοράς, σε αντίθεση με τις μεθόδους που βασίζονται στην περιγραφή των διεργασιών / σχέσεων (process-driven). Ένα ΤΝΔ μπορεί να παράγει μελλοντικές τιμές μιας χρονοσειράς με πολλές μεταβλητές που πιθανόν περιέχει θόρυβο, βασισμένο σε παλιότερες παρατηρήσεις.

7

Άγνωστες διεργασίες που περιγράφονται από τα δεδομένα – απαιτούν την δημιουργία υποψήφιων μοντέλων Ευελιξία στις μεταβλητές εισόδου – κωδικοποίησης

Δυαδικό - Binary scale [0;1], [-1;1] Δεκαδικό - Nominal/ordinal scale (0,1,2,…,10) Μετρικό - Metric scale (0,235 7,75 10220303,0 …)

Ευελιξία στις μεταβλητές εξόδου Αριθμός μεταβλητών εισόδου Αριθμός μεταβλητών εξόδου

Γιατί Τεχνητά Νευρωνικά Δίκτυα? – ευέλικτη μοντελοποίηση

8

Γιατί Τεχνητά Νευρωνικά Δίκτυα? – ευέλικτη μοντελοποίηση

Μια αρχιτεκτονική δικτύου πολλές εφαρμογές

9

Εφαρμογή των ΤΝΔ σε διαφορετικά πεδία έρευνας και εφαρμογής

2500+ επιστημονικές δημοσιεύσεις σε πρόγνωση με ΤΝΔ Νευροφυσιολογία – προσομοίωση και ανάλυση λειτουργίας εγκεφάλου Πληροφορική

email & URL filtering VirusScan (Symmantec Norton Antivirus) Speech recognition & Optical Character Recognition

Μηχανική Έλεγχος και διαχείριση συστημάτων Αυτόματη αναγνώριση στόχου Ανίχνευση εκρηκτικών σε αεροδρόμια Εκκίνηση και προσγείωση αεροπλάνων και πυραύλων (NASA)

Κλήμα και καιρικά φαινόμενα Πρόγνωση βροχόπτωσης Επιδράσεις φαινομένων όπως ElNino

10

Εφαρμογή των ΤΝΔ σε διαφορετικά πεδία έρευνας και εφαρμογής

Επιχειρήσεις Έλεγχος και ανίχνευση

απάτης με πιστωτικές κάρτες Μέθοδοι προσομοίωσης και

πρόγνωσης Παραγωγή ηλεκτρικής

ενέργειας / ζήτηση Πωλήσεις

Οικονομικός τομέας Προγνώσεις μετοχών,

δεικτών κλπ.

11

Τι είναι τα Τεχνητά Νευρωνικά Δίκτυα? Τεχνητά Νευρωνικά Δίκτυα

Μια μηχανή που έχει σχεδιαστεί για να προσομοιώσει τον τρόπο που λειτουργεί το ανθρώπινο μυαλό - το δίκτυο ‘περιγράφεται’ σε κώδικα για να λειτουργεί σε Η/Υ.

Μια τάξη στατιστικών μεθόδων για την διαχείριση πληροφορίας που αποτελείται από έναν αριθμό (μεγάλο?) απλών δομών (νευρώνια - neurons) που ανταλλάσσουν πληροφορίες μέσω οργανωμένων συνδέσεων.

•Παρατηρήσεις χρονοσειρών•Μεταβλητές •Δεδομένα εικόνας (pixel/bits)•Δακτυλικά αποτυπώματα•Χημικές αναλύσεις•...

•Πρόγνωση χρονοσειρών•Εξαρτημένες μεταβλητές •Ομαδοποίηση•Πιθανότητες•Κύριο συστατικό•...

Είσοδος Διεργασία Έξοδος

Black Box

12

Παράδειγμα

13

Τεχνητά Νευρωνικά Δίκτυα (Τ.Ν.Δ.)

Τι είναι τα Τ.Ν.Δ.

Δομή

Εκπαίδευση Τ.Ν.Δ.

Εφαρμογές Τ.Ν.Δ. Στρατηγική ασφαλίσεων

Τραπεζικό σύστημα και οικονομία

Πρόβλεψη Οικονομικών Μεγεθών

Εκμετάλλευση πετρελαίου και παραγώγων του

Υπολογιστικό σύστημα που εκτελεί ορισμένες χαρακτηριστικές λειτουργίες.

Ενδυνάμωση / αποδυνάμωση βαρών μέχρι να λάβουν κατάλληλες τιμές

Νευρώνες / Στρώματα / Σύνδεση

14Παράδειγμα δομής ενός Τεχνητού Νευρωνικού Δικτύου

ΤΕΧΝΗΤΟΣ ΝΕΥΡΩΝΑΣ

•Βάρη

•Αθροιστής

•Συναρτήσεις μεταφοράς

ΔΟΜΗ ΔΙΚΤΥΟΥ

•Αριθμός Στρωμάτων

•Συναρτήσεις μεταφοράς

•Πλήθος Νευρώνων

•Είδος σύνδεσης

Δομή Τεχνητών Νευρωνικών Δικτύων Δομή Τεχνητών Νευρωνικών Δικτύων

Σ

Σχηματική Αναπαράσταση ενός Τεχνητού Νευρώνα

15

Νευρώνια - Απλές δομέςΚάθε νευρώνιο δέχεται ένα άθροισμα από εισόδους (με διαφορετικά βάρη) – έξοδος από νευρώνια της προηγούμενης στοιβάδας (layer). Το εισερχόμενο σήμα προωθείται (propagates) μέσω μια μη-γραμμικής συνάρτησης ενεργοποίησης (activation function) στα νευρώνια της επόμενης στοιβάδας.Το κάθε νευρώνιο έχει διπλό ρόλο:

Α) ενοποίηση της πληροφορίας που προέρχεται από εξωτερικές πηγές ή νευρώνια (συνήθως μέσω μιας γραμμικής συνάρτησης)

Β) παραγωγή του σήματος εξόδου βάση μιας προκαθορισμένης συνάρτησης ενεργοποίησης (sigmoid, linear, the cubic polynomial κλπ)

Η μετατροπή αυτή των εισόδων σε εξόδους σε ένα νευρώνιο είναι σχετικά απλή, η πολυπλοκότητα και η ισχύς των ΤΝΔ επιτυγχάνεται με την αλληλεπίδραση ενός αριθμού νευρωνίων.

1.0X1(p)

X2(p)

. . .

. . .

. . .

Xi(p)

yj(p)

Xn(p)

16

Αρχικές ιδέες, κίνητρο και εφαρμογή ΤΝΔ

17

Επεξεργασία πληροφορίας σε βιολογικά νευρώνια

Προσομοίωση βιολογικών λειτουργιών σε νευρώνια 10-100 δις Νευρώνια με 10000 συνδέσεις στον εγκέφαλο Είσοδος (αισθήσεις), Επεξεργασία (εσωτερικά) & Έξοδος

(κινητική)

Γενική ιδέα: η επεξεργασία των πληροφοριών γίνεται στα νευρώνια!

18

Επεξεργασία της πληροφορίας στα νευρώνια ΤΝΔ

19

Συναρτήσεις

Εισόδου – γραμμική (άθροισμα)

Εξόδου – γραμμικές, μη-γραμμικές

20

Επεξεργασία της πληροφορίας σε νευρώνιο

Νευρώνιο δυαδικό κατώφλι

21

22

Γραφική παρουσίαση

Απλή γραμμική παλινδρόμηση... Με τη μορφή εξίσωσης

Απλή γραμμική παλινδρόμηση... Με τη μορφή σχήματος

23

Απλή εξίσωση ΤΝΔ χωρίς ανατροφοδότηση (feedback)

Επίσης

Απλοποίηση γιαπολύπλοκα μοντέλα

24

Συνδυασμός νευρωνίων

•Απλή διεργασία σε κάθε νευρώνιο•Συνδυασμός απλών νευρωνίων δημιουργεί σύνθετη συμπεριφορά• ...

25

Αρχιτεκτονική δικτύων - στοιβάδες (layers)

Όλα τα ΤΝΔ είναι οργανωμένα σε στοιβάδες. Τρεις τύποι - διαφορετικές λειτουργίες:

Στοιβάδα εισόδου (input layer) Κρυφές στοιβάδες (hidden layers) Στοιβάδα εξόδου (output layer)

Κάθε στοιβάδα αποτελείται από ένα αριθμό νευρωνίων και οι στοιβάδες συνδέονται μεταξύ τους με κάποια βάρη (correlation weights).

26

Αρχιτεκτονική ΤΝΔ πολλαπλών στοιβάδων

Νευρώνια un οργανωμένα σε στοιβάδες

Συνδέσεις μεταξύ στοιβάδων με βάρη wi,j

Δεδομένα εισόδου xi

Δεδομένα εξόδου ok

27

Ορολογία

Τεχνητά Νευρωνικά Δίκτυα Στατιστική

Είσοδος σε νευρώνια εισόδου Ανεξάρτητες μεταβλητές / με υστέρηση (lagged)

Έξοδος από νευρώνια εξόδου Εξαρτημένες μεταβλητές

Εκπαίδευση/ Εκμάθηση-

Training/ learning

Προσδιορισμός παραμέτρων

Parameterization

Βάρη - Weights Παράμετροι

... ...

28

Αρχιτεκτονική ΤΝΔ

Ο τρόπος σύνδεσης των στοιβάδων, ο αριθμός των κρυφών στοιβάδων και ο αριθμός των νευρωνίων σε κάθε στοιβάδα – η αρχιτεκτονική του δικτύου – καθορίζει τον τρόπο που θα γίνει ο υπολογισμός

Σε μερικές περιπτώσεις η αρχιτεκτονική μπορεί να καθοριστεί κατά τη διαδικασία εκπαίδευσης του δικτύου (cascade correlation (Imrie et al., 2000) & Linear Least Square Simplex (Hsu et al., 1995).

Η αρχιτεκτονική ή ο τύπος του δικτύου καθορίζεται από την εφαρμογή.

29

Τύποι δικτύων

fully connected - , όλα τα νευρώνια είναι συνδεδεμένα μεταξύ τους με διάφορους τύπους συνδεσμολογίας (forward, backward or no-connection (zero weight)

layered, δεν υπάρχουν συνδέσεις από ανώτερες στοιβάδες σε κατώτερες στοιβάδες

acyclic, δεν υπάρχουν συνδέσεις μεταξύ νευρωνίων ίδιας στοιβάδας. Δίκτυα που δεν είναι acyclic αναφέρονται ως recurrent. Feed forward δίκτυα ανήκουν στα acyclic networks.

modular networks - η αρχιτεκτονική τους αποτελείται από ξεχωριστά στοιχεία που όταν συνδεθούν δημιουργούν ένα δίκτυο

30

Τύποι δικτύων

Μulti-layered feed forward neural networks (FFNN) (Rumelhart et al., 1986),

self-organising feature maps (Kohonen, 1982) Hopfield networks (Hopfield, 1987). Από αυτούς τους τύπους τα FFNN έχει

παρατηρηθεί να έχουν την καλύτερη απόδοση για την περιγραφή σχέσεις όπου υπάρχουν δεδομένα εισόδου και εξόδου.

31

Τύποι δικτύων - εκπαίδευση

Πριν από την εφαρμογή ενός ΤΝΔ πρέπει να ορισθούν Ο αριθμός των στοιβάδων Ο αριθμός των νευρωνίων και οι συνδέσεις μεταξύ τους Οι τιμές των παράμετροι (weights and biases)

Η διαδικασία προσδιορισμού των παραμέτρων (weights and biases) αναφέρεται ως εκπαίδευση ή εκμάθηση (learning or training).

32

Δεδομένα εκπαίδευσης και ελέγχουΔεδομένα εκπαίδευσης και ελέγχου

33

Παράδειγμα

34

Τύποι εκπαίδευσης

Η διαδικασία προσδιορισμού των παραμέτρων (learning) μπορεί να χωριστεί σε δυο κατηγορίες supervised και unsupervised.

supervised : μια ομάδα δεδομένων (calibration ή training set) που περιέχει παρατηρήσεις από τις μεταβλητές του συστήματος, είναι διαθέσιμα για να προσδιοριστεί η απόδοση του συστήματος

unsupervised : δεν υπάρχουν διαθέσιμα δεδομένα (calibration ή training set) για να υποδείξουν τα σφάλματα του συστήματος και να βοηθήσουν στον προσδιορισμό των παραμέτρων. Η διαδικασία βασίζεται στην αναγνώριση διαφορών στα δεδομένα ή στο περιβάλλον με κανόνες.

πχ supervised learning classification unsupervised learning clustering

35

Η ισχύς του ΤΝΔ & ακρίβια πρόγνωσης επηρεάζονται από Επιλογή συνάρτησης ενεργοποίησης

ΤΝΔ με γραμμικές παραμέτρους ευκολότερος προσδιορισμός παραμέτρων

Περίοδος και μέθοδος εκπαίδευσης Ποσότητα διαθέσιμων δεδομένων – επιλογή μεθόδου

Περιορισμοί λόγω προβλημάτων στην πρόγνωση μεγάλων τιμών.

Υπάρχουν μέθοδοι για την κατασκευή ΤΝΔ που να μπορούν να κάνουν πρόγνωση τιμών που να είναι μεγαλύτερες από τις τιμές στα δεδομένα εκμάθησης.

36

--

1. Διαδικασία (1 εποχή)

• Είσοδος

• Έξοδος

• Σύγκριση με στόχο

• Τροποποίηση βαρών

2.Υπερεκπαίδευση

3.Γενίκευση

Εκπαίδευση Τ.Ν.Δ. Εκπαίδευση Τ.Ν.Δ.

Τ.Ν.Δ.

-Υn

Αυτοματοποίηση:• Δεδομένα εκπαίδευσης• Αλγόριθμος εκπαίδευσης• Τερματισμός εκπαίδευσης

-Υn-1

-Υn-2

Υ1

Υ2

TnXn

Xn-1 Tn-1

Xn-2 Tn-2

X1 T1

X2 T2

Υ1

Υ2●

Υn-1

Υn

38

ΑποτελέσματαΑποτελέσματα

Τιμή Στιγμιαίου Ναύλου μεταφοράς Σιδήρου

(Βραζιλία - ΒΔ. Ευρώπη / 120.000dwt)

39

ΑποτελέσματαΑποτελέσματα

Τιμή Στιγμιαίου Ναύλου μεταφοράς Σιδήρου

(Βραζιλία - ΒΔ. Ευρώπη / 120.000dwt)

ANN+1

ANN+6

ANN+9

ANN+12

ANN+3

40

ΑποτελέσματαΑποτελέσματα

Worldscale VLCC Ras Tanura-Rotterdam

0.00

20.00

40.00

60.00

80.00

100.00

120.00

OUTPUT

TARGET

ΤΝΔ+3

41

0.00

20.00

40.00

60.00

80.00

100.00

120.00

140.00

OUTPUT

TARGET

ΑποτελέσματαΑποτελέσματα

Worldscale VLCC Ras Tanura-Rotterdam

ΤΝΔ+9

42

0

1000

2000

3000

4000

5000

6000

20

04

-04

20

04

-06

20

04

-08

20

04

-10

20

04

-12

20

05

-02

20

05

-04

20

05

-06

20

05

-08

20

05

-10

20

05

-12

20

06

-02

"ΤΝΔ+12"

BDI

ΑποτελέσματαΑποτελέσματα

43

0

1000

2000

3000

4000

5000

6000Πρόβλεψη ΤΝΔ+18BDI

ΑποτελέσματαΑποτελέσματα

45

Υστέρηση στα δεδομένα

Εισαγωγή υστέρησης στα δεδομένα πριν την προώθηση στις κρυφές στοιβάδες.

Χρήση - tapped delay line (TDL) Η έξοδος είναι ένας πίνακας η-διαστάσεων

που αποτελείται από τα δεδομένα εισόδου σε προηγούμενες χρονικές περιόδους. Κάθε στοιχείο του πίνακα μπορεί να έχει διαφορετική παράμετρο ενώ προωθείται στην επόμενη κρυφή στοιβάδα.

Λειτουργεί ως μνήμη που αποθηκεύει παλαιότερες τιμές των δεδομένων εισόδου

D

D

P(t)P(t)

P(t-1)

P(t-n)

46

Feed-forward neural networks (FFNN) Τα FFNN είναι δομημένα σε στοιβάδες χωρίς συνδέσεις μεταξύ

νευρωνίων της ίδιας στοιβάδας. Μεταξύ της στοιβάδας εισόδου και εξόδου υπάρχουν μια ή περισσότερες κρυφές στοιβάδες.

Κάθε μονάδα επεξεργασίας πληροφορίας (νευρώνιο) είναι συνδεδεμένο με όλα νευρώνια της επόμενης στοιβάδας με βάρη (παραμέτρους) που πρέπει να προσδιοριστού.

Η πληροφορία που παρουσιάζεται στην στοιβάδα εισόδου (i) προωθείται προς τα μπρος μέσα στο δίκτυο και τις κρυφές (h) στοιβάδες στην στοιβάδα εξόδου (o).

a1 a2 am

inputlayer

hiddenlayer

outputlayer

Wth,

Wh,i

bh,1 bh,2 bh,n

bt,1 bt,2 bt,s. . .

. . .

. . .

47

Οι δείκτες στα βάρη είναι με αντίστροφη σειρά π.χ. wh,i αντιστοιχεί στη σύνδεση μιας εισόδου σε ένα

νευρώνιο στη κρυφή στοιβάδα. Η είσοδος σε κάθε νευρώνιο στη κρυφή στοιβάδα

n: είναι ο αριθμός των νευρωνίων στην προηγούμενη στοιβάδα, b: το βάρος μιας σταθερής εισόδου ίσης με τη μονάδα

n

pphiihh bawg

1,,)(input

48

g(h) είναι η έξοδος ενός νευρωνίου στη κρυφή στοιβάδα, fh είναι η συνάρτηση ενεργοποίησης στη κρυφή στοιβάδα.

Αντίστοιχα η έξοδος ενός νευρωνίου στη στοιβάδα εξόδου g(t)

μπορεί να προσδιοριστεί από:

n

pphiihhhhh bawgg

1,,))(input()(output ff

m

rt

n

pphiihhhtt

m

rthhttt bbawwbgwg

1 1,,,

1, )(output)(output fff

49

Συναρτήσεις

Γραμμική

Σιγμοειδής

Υπερβολική εφαπτομένη

xex

1

1)f(

x(x) f

x

x

ee

x

11

)f(

50

Ένα FFNN πολλαπλών στοιβάδων είναι ένα αρκετά ισχυρό μοντέλο προσομοίωσης Πχ ένα δυο-στοιβάδων δίκτυο (1 input – 1 hidden – 1 output)

με σιγμοειδή συνάρτηση στην κρυφή στοιβάδα και γραμμική στην εξωτερική μπορεί να εκπαιδευτεί και να προσομοιώνει σχεδόν κάθε συνάρτηση (με πεπερασμένο αριθμό ασυνεχειών)

Όπως παρουσιάζεται από τους Hsu et al. (1995) ένα δυο-στοιβάδων δίκτυο με πεπερασμένο αριθμό νευρωνίων στην κρυφή στοιβάδα ικανοποιεί τις απαιτήσεις ώστε να θεωρηθεί universal function, ικανό να προσεγγίζει κάθε λειτουργία με περισσότερες από μια μεταβλητές. Το γεγονός αυτό αναφέρεται και σαν “Kolmogorov’s mapping neural network existence theorem” (Hsu et al., 1995).

51

Recurrent Networks

Ενδιαφέρον λόγω της χρήσης προηγούμενων τιμών για την πρόγνωση.

Elman recurrent network (Elman, 1988) δυο-στοιβάδων δίκτυο (1 input

– 1 hidden – 1 output) Ανατροφοδότηση. Επιπλέον

σύνδεση από την έξοδο της κρυφής στοιβάδας στην είσοδο.

Δίνει τη δυνατότητα να μάθει, να αναγνωρίσει, να γενικεύσει και να προσομοιώσει χρονικά μεταβαλλόμενα συστήματα.

a1 an

inputlayer

hiddenlayer

outputlayer

Wth,

Wh,i

bh,1 bh,2

bt,1 bt,2

Feedbackunits

52

Το Elman ΤΝΔ έχει Υπερβολική εφαπτομένη συνάρτηση ενεργοποίησης στην κρυφή στοιβάδα (recurrent) και γραμμική συνάρτηση στην στοιβάδα εξόδου.

Περισσότερα νευρώνια στην κρυφή στοιβάδα από FFNN.

Ανάλογα την εφαρμογή τα recurrent ΤΝΔ υπερτερούν των FFNN ακόμα και σε περιπτώσεις με δεδομένα με θόρυβο.

Δεν αναπαράγουν τα ίδια αποτελέσματα με ίδια δεδομένα εισόδου.

Μπορεί να γίνουν ασταθή (moving target problem)

53

Εκπαίδευση Για τα Feed-forward ΤΝΔ συνήθως χρησιμοποιείται o back

propagation αλγόριθμος εκπαίδευσης (Rumelhart et. al., 1986)

Παραλλαγή της μεθόδου κλίσης καθόδου (gradient descent optimisation) που χρησιμοποιείται για την ελαχιστοποίηση του σφάλματος μεταξύ της εκτιμώμενης και παρατηρούμενης τιμής εξόδου. Τα σφάλματα προωθούνται προς τα πίσω μέσα στο δίκτυο και χρησιμοποιούνται για τον υπολογισμό των διαφορικά της συνάρτησης σφάλματος ως προς τα βάρη (παραμέτρους) που πρέπει να προσδιοριστούν.

Τα βάρη προσαρμόζονται με το πέρας κάθε παρατήρησης (adaptive training) ή μετά το πέρας όλων των διαθέσιμων δεδομένων εκπαίδευσης π.χ. epoch (batch training).

54

Εκπαίδευση ΤΝΔ

55

Εκπαίδευση ΤΝΔ – ελαχιστοποίηση σφάλματος

Ελαχιστοποίηση του σφάλματος αλλάζοντας ένα βάρος wj

56

Error backpropagation = 3D+gradient decent

Αναζήτηση σε πολυδιάστατη επιφάνεια σφαλμάτων

Τοπικό ελάχιστο - κάθε κοιλάδαΣυνολικό (Global) ελάχιστο – η πιο βαθεία κοιλάδαΜεταβάλλεται με την επιφάνεια σφαλμάτων

•Στόχος: προσδιορισμός της πιο βαθεία κοιλάδας

•Τοπική αναζήτηση•Σταθερό βήμα•Ακολουθεί τη μέγιστη κλίση

57

Βack propagation learning algorithm

Η εκτιμώμενη έξοδος του δικτύου συγκρίνεται με τις παρατηρήσεις και υπολογίζεται το άθροισμα των τετραγώνων των σφαλμάτων (SSE) ή το μέσο τετραγωνικό σφάλμα (MSE).

Σε κάθε επανάληψη το σφάλμα μεταφέρεται προς τα πίσω (στις στοιβάδες) και υπολογίζεται η μεταβολή στα βάρη τις κάθε στοιβάδας

N

qqq dySSE

1

2)(

N

qqq dy

NMSE

1

2)(1

ihold

ihnew

ih www ,,, ih

ih w

SSElw

,,

)(

l: learning rate

58

Συντελεστές αλγόριθμου εκπαίδευσης

Η σύγκλιση και η αποτελεσματικότητας του αλγόριθμου εκπαίδευσης εξαρτάται από μια ομάδα συντελεστών. Learning rate (l) – κάθε ΤΝΔ υπάρχει ένας βέλτιστος ρυθμός

εκμάθησης Ξεκινώντας από μεγάλο Ξεκινώντας από μικρό

Momentum term (α) Ρυθμός προσαρμογής παραμέτρων Initial weights (Αρχικές τιμές ) – επανεκκίνηση πολλές φορές Επιτάχυνση του ρυθμού εκμάθησης

Αριθμητικοί μέθοδοι quasi- Newton Levenberg-Marquardt

ipipoldip

newip wawww

otherwise

SSE ifbl

SSE ifk

w

0

0)(

0)(

59

Αρχικές τιμές

Ακόμα και στην περίπτωση δυο παραμέτρων είναι πιθανόν να υπάρχουν δυο ελάχιστα.

Επανεκκίνηση (ανάλογα με το μέγεθος του δικτύου 100-1000 φορές)

60

Προσαρμοζόμενα ΤΝΔ πολλαπλών στοιβάδων

Μικρά δίκτυα Λιγότερες παράμετροι Εκπαιδεύονται καλύτερα Δίκτυα που πιθανόν να γενικεύσουν καλύτερα σε νέα δεδομένα

Για τον προσδιορισμό του κατάλληλου μεγέθους και αρχιτεκτονικής οι ακόλουθες προσεγγίσεις μπορούν να χρησιμοποιηθούν

Ξεκινώντας από ένα μεγάλο δίκτυο και απενεργοποιώντας νευρώνια και συνδέσεις που θεωρούνται ασήμαντοι (pruning algorithms) (Maier and Dandy, 2000).

Ξεκινώντας από ένα μικρό δίκτυο του οποίου το μέγεθος αυξάνει (νευρώνια και στοιβάδες) μέχρι να έχει ικανοποιητική επίδοση (cascade correlation).

61

Γενίκευση - Generalisation

Airline Passenger data

0

100000

200000

300000

400000

500000

600000

700000

1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 103 109 115 121 127

Δεδομένα εκπαίδευσηςΒοηθητικάδεδομένα εκπαίδευσης

Δεδομένααξιολόγησης απόδοσης

Airline Passenger data

0

100000

200000

300000

400000

500000

600000

700000

1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 103 109 115 121 127

Δεδομένα εκπαίδευσηςΒοηθητικάδεδομένα εκπαίδευσης

Δεδομένααξιολόγησης απόδοσης

62

Αρχιτεκτονικήover-parameterisation

initialisation Ικανότητα ΓενίκευσηςGeneralisabilityΕκπαίδευση - Training

(over-training)

Τεχνητά Νευρωνικά Δίκτυα (ANN)

63

18/4/92 19/4/92 20/4/92 21/4/92 22/4/92 23/4/920

100

200

300

400

500

600

Time

Dis

char

ge (

m3 /s

)

flowBPCCELMADP

Flow forecast using flow data (verification)

x 1

x 2

x n ANN

y t

x 1

x n -1

ANN

. . . y t + c -1

y t + c -2

y t + c -n or x v

ANN y t + c

ANN

x1

x2

xn

yt

yt+1

yt+m

… …

Πρόγνωση με ΤΝΔ

64

Πρόγνωση με ΤΝΔ

65

Επιλογές στα ΤΝΔ

66

Αξιολόγηση της επίδοσης των ΤΝΔ

67

Αξιολόγηση με ανταγωνισμό

68

Διαθέσιμα λογισμικά για ΤΝΔ

Matlab toolbox

69

Πλεονεκτήματα - Μειονεκτήματα

Πρόγνωση σε κάθε χρονικό βήμα Χωρίς προεπεξεργασία Δεν απαιτείται επιλογή

μοντέλου Ελευθερία στη

μοντελοποίηση Με ένα μοντέλο Πολλές επιλογές

Γραμμικά Μη-γραμμικά Πολυπαραμετρικά Πρόγνωση πολλαπλών

βημάτων

70

Σημαντικά χαρακτηριστικά των ΤΝΔ Είναι universal approximators συναρτήσεων και των διαφορικών τους. Είναι μη-γραμμικά, μπορούν να προσομοιώσουν πολύπλοκες διεργασίες πολύ

καλύτερα από άλλες γραμμικές μεθόδους. Έχουν παράλληλη δομή, περιέχουν πολλές όμοιες ανεξάρτητες μονάδες που

μπορούν να λειτουργούν ταυτόχρονα που συχνά τα κάνει ταχύτερα από εναλλακτικές μεθόδους.

Μπορούν να εξάγουν πληροφορίες από τα δεδομένα χωρίς παλαιότερη γνώση των δεδομένων ή του συστήματος που αναλύεται.

Μπορούν να μεταβάλουν τη συμπεριφορά τους ανάλογα με τις αλλαγές του συστήματος, μπορούν να μάθουν / να αυτο-προσαρμοστούν για να παράγουν σταθερή απόκριση όταν εκπαιδεύονται χρησιμοποιώντας δεδομένα εξόδου.

Μπορούν να χωρίσουν το χώρο των διαθέσιμων δεδομένων και να δημιουργήσουν διαφορετικές σχέσεις για διαφορετικά τμήματα του χώρου των δεδομένων.

Μπορούν να οργανώσουν τμηματικά μη-γραμμικά μοντέλα που να συμπεριλαμβάνουν ασυνέχειες.

Μπορούν να γενικεύσουν σε νέες τιμές δεδομένων εφόσον έχουν οργανωθεί και εκπαιδευτεί κατάλληλα. Η ικανότητα γενίκευσης είναι σημαντική ιδικά σε περιπτώσεις που τα δεδομένα περιέχουν θόρυβο, σφάλματα ή είναι κατεστραμμένα.

Μπορούν να εντοπίσουν σημαντικά χαρακτηριστικά στα δεδομένα εισόδου και να τα ιεραρχήσουν.

71

Μειονεκτήματα

Μπορεί να αποτύχουν να αναπαράγουν το επιθυμητό αποτέλεσμα λόγω: Αδυναμία κατά την εκπαίδευσης να προσδιοριστούν τα κατάλληλα βάρη Ακατάλληλο μέγεθος/αρχιτεκτονική (Τα ΤΝΔ επιλέγονται/οργανώνονται ανάλογα με

την εφαρμογή και τα διαθέσιμα δεδομένα – πολυπλοκότητα που υποστηρίζεται από τα δεδομένα)

Η επιλογή του βέλτιστου δικτύου (αρχιτεκτονική και παράμετροι) σχετίζεται με την εφαρμογή και πρέπει να γίνεται μέσω διαδικασίας trial-and-error όταν αυτοματοποιημένες μέθοδοι όπως cascade correlation δεν μπορούν να χρησιμοποιηθούν.

Δεν είναι ικανά να ανταποκριθούν σε πολύ μεγάλες μεταβολές του συστήματος που προσπαθούν να προσομοιώσουν καθώς έχουν εκπαιδευτεί σε ιστορικά δεδομένα. Μπορούν όμως να παράγουν τύπους ή ρυθμούς ανάλογους των δεδομένων που έχουν εκπαιδευτεί χρησιμοποιώντας νέα δεδομένα. Όπως σε όλες τις μεθόδους που βασίζονται σε δεδομένα, όταν υπάρχουν σημαντικές μεταβολές στο σύστημα πρέπει να προσδιοριστούν και να εκπαιδευτούν ξανά,

They do not provide/allow for clear understanding of the response of the ANN's components (number of neurons / layers, weights), when compared with other hydrological models.