ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and...

61
1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ Σημειώσεις για το μάθημα ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Θεοδόσης Δημητράκος e-mail: [email protected] Σάμος 2019

Transcript of ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and...

Page 1: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

1

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ

ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ

Σημειώσεις για το μάθημα

ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Θεοδόσης Δημητράκος

e-mail: [email protected]

Σάμος 2019

Page 2: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

2

ΕΙΣΑΓΩΓΗ

Πολλά προβλήματα της Επιχειρησιακής Έρευνας ανάγονται τελικά στην μελέτη ενός δυναμικού συστήματος η

εξέλιξη του οποίου μέσα στο χρόνο επηρεάζεται από μία σειρά αποφάσεων. Συγχρόνως κάθε απόφαση

συνεπάγεται και κάποιο άμεσο κόστος ή κέρδος. Έτσι η εξέλιξη του συστήματος μέσα στο χρόνο ως συνέπεια

των διαδοχικών αποφάσεων που λαμβάνονται επιφέρει κάποιο συνολικό κόστος το οποίο επιθυμούμε να είναι

το ελάχιστο δυνατό. Το κατάλληλο μαθηματικό εργαλείο για την επίλυση των προβλημάτων αυτής της μορφής

είναι ο Δυναμικός Προγραμματισμός.

Η θεμελίωση του Δυναμικού Προγραμματισμού έγινε κατά τη δεκαετία του 1950 από τον R.E. Bellman και

σήμερα αποτελεί ένα βασικό κλάδο των Μαθηματικών με εφαρμογές σε πλήθος περιοχών των Μαθηματικών

και κυρίως της Επιχειρησιακής Έρευνας, όπως για παράδειγμα στον έλεγχο αποθεμάτων, στη συντήρηση

μηχανημάτων, στο σχεδιασμό επενδύσεων και αλλού. Ο Bellman ανέπτυξε μία αναδρομική διαδικασία για τον

υπολογισμό βέλτιστων τιμών συναρτήσεων κέρδους ή κόστους μέσω μιας κατάλληλης συναρτησιακής

εξίσωσης. Ο Δυναμικός Προγραμματισμός χρησιμοποιείται σε προβλήματα πεπερασμένου ή άπειρου χρονικού

ορίζοντα στα οποία μία στοχαστική διαδικασία ελέγχεται από μία ακολουθία ενεργειών. Ο κύριος στόχος είναι

η εύρεση ενός κανόνα επιλογής των ενεργειών που ελέγχει τη διαδικασία με το βέλτιστο τρόπο. Στα τέλη της

δεκαετίας του 1950 ο Howard συνδύασε ιδέες του Δυναμικού Προγραμματισμού με στοιχεία της θεωρίας των

στοχαστικών διαδικασιών και κατασκεύασε έναν αλγόριθμο βελτίωσης των πολιτικών για να υπολογίσει τη

βέλτιστη πολιτική σε προβλήματα ελέγχου διαδικασιών σε άπειρο χρονικό ορίζοντα. Η τεχνική του Δυναμικού

Προγραμματισμού έχει βρει εφαρμογές σε διάφορα πεδία της επιστήμης όπως για παράδειγμα στην

Επιχειρησιακή Έρευνα, στη Βιολογία, στην Οικολογία και στην Πληροφορική. Έχει αποδειχθεί πολύ χρήσιμη

μεταξύ άλλων σε προβλήματα βέλτιστου ελέγχου αποθεμάτων, βέλτιστου ελέγχου ουρών αναμονής, βέλτιστου

ελέγχου βιολογικών πληθυσμών, βέλτιστης συντήρησης και αντικατάστασης μηχανημάτων, βέλτιστης

διαχείρισης δικτύων και τηλεπικοινωνιών.

Στις παρούσες σημειώσεις παρουσιάζεται η βασική θεωρία καθώς επίσης αρκετές εφαρμογές του Δυναμικού

Προγραμματισμού σε προβλήματα πεπερασμένου και άπειρου χρονικού ορίζοντα. Στο Κεφάλαιο 1

αναπτύσσουμε τη μεθοδολογία του δυναμικού προγραμματισμού για τα μοντέλα του πεπερασμένου χρονικού

ορίζοντα. Παρουσιάζουμε διάφορα προβλήματα, όπως μεταξύ άλλων, το πρόβλημα της ελάχιστης διαδρομής,

το πρόβλημα της βέλτιστης διαδρομής σε προσανατολισμένο δίκτυο και μία μορφή του περίφημου

προβλήματος του περιπλανώμενου πωλητή. Επιπλέον, παρουσιάζουμε διάφορα παραδείγματα από την

Επιδημιολογία, τη Βιομηχανική παραγωγή και τα Οικονομικά. Στο Κεφάλαιο 2 αναπτύσσουμε τη θεωρία του

δυναμικού προγραμματισμού για τα μοντέλα του άπειρου χρονικού ορίζοντα κάτω από το κριτήριο της

ελαχιστοποίησης του συνολικού αναμενόμενου αποπληθωρισμένου κόστους. Παρουσιάζουμε διάφορα

Page 3: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

3

παραδείγματα που σχετίζονται με έλεγχο αποθεμάτων, με την πώληση μιας επιχείρησης και τη συντήρηση

μηχανημάτων παραγωγής.

Οι παρούσες σημειώσεις περιλαμβάνουν στοιχεία θεωρίας, παραδείγματα και διάφορες εφαρμογές από τα

βιβλία των:

[1]. Fakinos D. and Economou Α. (2003) Εισαγωγή στην Επιχειρησιακή Έρευνα, Θεωρία και Ασκήσεις,

Εκδόσεις Συμμετρία, Αθήνα.

[2]. Hillier F.S. and Lieberman G.J. (2010) Introduction to Operations Research, McGraw-Hill, New York.

[3]. Ross S.M. (1983) Introduction to Stochastic Dynamic Programming, Academic Press, New York.

[4]. Whitle P. (1982 & 1983) Optimization over time Dynamic Programming and Stochastic Control, Vol. 1 &

2, Wiley & Sons, Australia.

Εκτός των παρόντων σημειώσεων, τα ακόλουθα βιβλία περιλαμβάνουν στοιχεία της θεωρίας του Δυναμικού

Προγραμματισμού και προτείνονται, μεταξύ άλλων, για περαιτέρω μελέτη:

Α. Ξενόγλωσση Βιβλιογραφία

[1]. Bather J. (2000) Decision Theory: An introduction to Dynamic Programming and Sequential Decisions,

Wiley, New York.

[2]. Ross S.M. (1992). Applied Probability Models with Optimization Applications, Dover, New York.

[3]. Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New

York.

[4]. Tijms H.C. (2003) A First Course in Stochastic Models, Wiley, Chichester.

Β. Ελληνική Βιβλιογραφία

[1]. Economou G.S and Georgiou A.K. (2011) Επιχειρησιακή Έρευνα για τη Λήψη Διοικητικών Αποφάσεων,

Τόμοι Α & Β, Εκδόσεις Ευγ. Μπένου, Αθήνα.

[2]. Hillier F.S. and Lieberman G.J. (2017) Εισαγωγή στην Επιχειρησιακή Έρευνα, Επιστημονική Επιμέλεια:

Αλέξανδρος Διαμαντίδης, Εκδόσεις Τζιόλα, 10η Έκδοση, Θεσσαλονίκη.

[3]. Ipsilantis P. (2015) Επιχειρησιακή Έρευνα-Μέθοδοι και Τεχνικές Λήψης Αποφάσεων, Εκδόσεις

Προπομπός, Αθήνα.

[4]. Taha H.A. (2017) Εισαγωγή στην Επιχειρησιακή Έρευνα, Επιστημονική Επιμέλεια: Στέφανος

Κατσαβούνης, Εκδόσεις Τζιόλα, 10η Έκδοση, Θεσσαλονίκη.

[5]. Vasileiou P. (2001). Εφαρμοσμένος Μαθηματικός Προγραμματισμός, Εκδόσεις Ζήτη, Θεσσαλονίκη.

Θεοδόσης Δημητρίου Δημητράκος

Σάμος, Ιούνιος 2019

Page 4: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

4

ΚΕΦΑΛΑΙΟ 1

ΜΟΝΤΕΛΑ ΠΕΠΕΡΑΣΜΕΝΟΥ ΧΡΟΝΙΚΟΥ ΟΡΙΖΟΝΤΑ

1.1 Η εξίσωση του Δυναμικού Προγραμματισμού

Έστω ότι παρατηρούμε μία εν εξελίξει διαδικασία κατά τις χρονικές στιγμές ,1t .1,,,2 ntntt

Υποθέτουμε ότι, αν σε κάποια χρονική στιγμή, η διαδικασία βρίσκεται, για παράδειγμα, στην κατάσταση ,i

μπορούμε να επιλέξουμε μία ενέργεια (ή να λάβουμε μία απόφαση) Aa και υπό την επίδραση αυτής της

ενέργειας, η κατάσταση της διαδικασίας την επόμενη χρονική στιγμή, είναι η κατάσταση j με πιθανότητα

).(apij Αυτή η μετάβαση επιφέρει ένα κέρδος, η μέση τιμή του οποίου είναι ίση με ).,( aiR Το σύνολο A των

ενεργειών (ή αποφάσεων) θεωρείται πεπερασμένο.

Το πρόβλημα που μας ενδιαφέρει είναι να βρούμε εκείνη την πολιτική (δηλαδή έναν κανόνα επιλογής

ενεργειών) που μεγιστοποιεί το αναμενόμενο κέρδος που λαμβάνεται από τη χρονική στιγμή 1t μέχρι τη

χρονική στιγμή .1 nt Έστω ),,( tiV 1,,1 nt το μέγιστο κέρδος από τη χρονική στιγμή t μέχρι τη

χρονική στιγμή ,1n αν η διαδικασία κατά τη χρονική στιγμή t βρίσκεται στην κατάσταση .i Αν ,1 nt

προφανώς ισχύει ότι: .0)1,( niV

Αν ,nt

),(max),( aiRniVAa

(1)

δηλαδή, τη χρονική στιγμή ,nt η βέλτιστη πολιτική επιλέγει εκείνη την ενέργεια που μεγιστοποιεί το δεξιό

μέλος της (1).

Έστω ότι τη χρονική στιγμή t η διαδικασία βρίσκεται στην κατάσταση i και επιλέγεται η ενέργεια .a Τότε

λαμβάνουμε ένα κέρδος ),( aiR και η επόμενη κατάσταση είναι η κατάσταση j με πιθανότητα ).(apij Το

καλύτερο που μπορούμε να πετύχουμε υπό την έννοια του αναμενόμενου κέρδους αν τη χρονική στιγμή t

επιλέξουμε την ενέργεια a είναι ίσο με: j

ij tjVapaiR ).1,()(),(

Εφόσον ),( tiV είναι ό,τι καλύτερο μπορούμε να πετύχουμε, μπορούμε να γράψουμε ότι:

jij

AatjVapaiRtiV )1,()(),(max),( (2)

Page 5: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

5

Η Εξίσωση (2) είναι γνωστή ως εξίσωση δυναμικού προγραμματισμού (dynamic programming equation) και

παρέχει μία μέθοδο για τον υπολογισμό του )1,(iV αναδρομικά. Καταρχήν υπολογίζουμε την ποσότητα ),( niV

από τη Σχέση (1). Κατόπιν, θέτοντας 1 nt στην (2) υπολογίζουμε την ποσότητα )1,( niV και

συνεχίζοντας την ίδια διαδικασία 2n φορές βρίσκουμε την ποσότητα ).1,(iV

Η βέλτιστη πολιτική είναι η ακόλουθη: Όταν η διαδικασία βρίσκεται τη χρονική στιγμή 1,,1, nnt στην

κατάσταση ,i τότε επιλέγεται η ενέργεια που μεγιστοποιεί το δεξιό μέλος της (2).

Παρατηρήσεις

1. Αντί για αναμενόμενο κέρδος ),( aiR μπορούμε να έχουμε αναμενόμενο κόστος ).,( aiC Σε αυτή την

περίπτωση μας ενδιαφέρει η εύρεση της πολιτικής που ελαχιστοποιεί το συνολικό αναμενόμενο κόστος.

Τότε η εξίσωση του δυναμικού προγραμματισμού παίρνει την εξής μορφή:

.)1,()(),(min),(

jij

AatjVapaiCtiV

2. Έστω ),(iVk nk ,,0 το μέγιστο αναμενόμενο κέρδος (ή το ελάχιστο αναμενόμενο κόστος) αν η

διαδικασία βρίσκεται στην κατάσταση i και απομένουν k βήματα ( k χρονικές περίοδοι) μέχρι την

χρονική στιγμή .1n Οι εξισώσεις δυναμικού προγραμματισμού παίρνουν την εξής μορφή:

,)()(),(max)( 1

jkij

Aak jVapaiRiV nk ,,1 με 0)(0 iV

και

,)()(),(min)( 1

jkij

Aak jVapaiCiV nk ,,1 με .0)(0 iV

3. Το σύνολο των ενεργειών A μπορεί να είναι άπειρο.

4. Πολλές φορές η επόμενη κατάσταση j δεν εξαρτάται από την πιθανότητα )(apij αλλά από μία

συνάρτηση πυκνότητας πιθανότητας ).(xf

5. Η εύρεση της βέλτιστης πολιτικής λύνοντας αναδρομικά την εξίσωση του δυναμικού προγραμματισμού

απαιτεί πολλούς υπολογισμούς. Πολλές φορές όμως μπορούμε να βρούμε μία συγκεκριμένη έκφραση

Page 6: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

6

για την ποσότητα ),( tiV (ή ισοδύναμα για την ποσότητα ))(iVk ή να αποδείξουμε χρησιμοποιώντας την

εξίσωση του δυναμικού προγραμματισμού ότι η βέλτιστη πολιτική έχει μία συγκεκριμένη μορφή.

6. Το μοντέλο που περιγράψαμε είναι στοχαστικό. Αν για κάθε κατάσταση i και κάθε ενέργεια a ισχύει

ότι 0)( apij για 0jj και 1)(

0apij

για μία δεδομένη κατάσταση 0j τότε το μοντέλο γίνεται

ντετερμινιστικό.

1.2 Μοντέλα πεπερασμένου χρονικού ορίζοντα

Στο παρόν εδάφιο παραθέτουμε διάφορα παραδείγματα στοχαστικών και ντετερμινιστικών μοντέλων

πεπερασμένου χρονικού ορίζοντα.

Παράδειγμα 1.1 (Ένα μοντέλο σχετιζόμενο με ένα τυχερό παιχνίδι). Ένας παίκτης μπορεί να στοιχηματίσει

οποιαδήποτε μη-αρνητική ποσότητα από την περιουσία του και κερδίζει ή χάνει αυτήν την ποσότητα με

πιθανότητες p και ,1 pq αντίστοιχα. Ο παίκτης έχει δικαίωμα να στοιχηματίσει n φορές και ο στόχος του

είναι να μεγιστοποιήσει την αναμενόμενη τιμή του λογαρίθμου της τελικής περιουσίας του. Το πρόβλημα είναι

η εύρεση της βέλτιστης στρατηγικής (πολιτικής) που πρέπει να ακολουθήσει.

Λύση. Έστω )(xVn η μέγιστη αναμενόμενη τιμή του λογαρίθμου της τελικής περιουσίας του παίκτη, αν η

παρούσα περιουσία του είναι ίση με x και έχει δικαίωμα να πάρει μέρος σε n στοιχήματα. Ως ενέργεια του

παίκτη θεωρούμε το κλάσμα (ποσοστό) της περιουσίας που στοιχηματίζει. Η εξίσωση δυναμικού

προγραμματισμού είναι:

)]()([max)( 1110

xxqVxxpVxV nnn

με οριακή συνθήκη:

).log()(0 xxV

Αν ,2

1p τότε )log()( xxVn και η βέλτιστη στρατηγική (πολιτική) είναι ο παίκτης να στοιχηματίζει

πάντοτε μηδέν ευρώ. Θα δείξουμε τον ισχυρισμό επαγωγικά. Προφανώς για 0n ισχύει. Έστω ότι

).log()(1 xxVn Τότε:

)]1log()1log([max)log())]1(log())1(log([max)(1010

qpxxqxpxVn (3)

Page 7: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

7

Έστω ).1log()1log()( qpf Είναι .0)1)(1(

)('

qpf Άρα η )(f είναι φθίνουσα ως

προς στο διάστημα ].1,0[ Επομένως η μέγιστη τιμή της )(f επιτυγχάνεται όταν 0 και συνεπώς

).log()( xxVn Έστω ότι .2

1p Χρησιμοποιούμε τη σχέση )log()(0 xxV και από την (3) για ,1n έχουμε:

)]1log()1log([max)log()(10

1

qpxxV (4)

Αν χρησιμοποιήσουμε Απειροστικό Λογισμό συμπεραίνουμε ότι η μέγιστη τιμή στην (4) επιτυγχάνεται όταν

.qp Έτσι ),log()(1 xCxV όπου ).log()log(2log qqppC Από την (3) για ,2n έχουμε:

.)]log()log([max)(10

2 CxxqxxpxV

Συγκρίνοντας την παραπάνω εξίσωση με την (4) βλέπουμε ότι η βέλτιστη ενέργεια που πρέπει να επιλέξει ο

παίκτης είναι να στοιχηματίσει πάλι )%( qp της τελικής περιουσίας του. Προκύπτει ότι:

).log(2)(2 xCxV

Επαγωγικά, μπορεί να δειχτεί ότι:

).log()( xnCxVn

Η βέλτιστη στρατηγική (πολιτική) που θα πρέπει να ακολουθήσει ο παίκτης είναι να στοιχηματίζει πάντοτε

)%( qp της περιουσίας (αυτής που διαθέτει κάθε φορά). ■

Παράδειγμα 1.2 (Ένα μοντέλο για την αγορά μιας μετοχής). Έστω kS η τιμή μιας συγκεκριμένης μετοχής

κατά την k οστή μέρα, .0k Υποθέτουμε ότι ,1

1

011

k

i

ikkk XSXSS όπου ,, 21 XX είναι

ανεξάρτητες και ισόνομες τυχαίες μεταβλητές με συνάρτηση πυκνότητας πιθανότητας )(xf και με

πεπερασμένη μέση τιμή. Θεωρούμε ότι οι τυχαίες μεταβλητές ,, 21 XX είναι επίσης ανεξάρτητες της ,0S

δηλαδή της αρχικής τιμής της μετοχής. Το μοντέλο αυτό είναι γνωστό ως τυχαίος περίπατος (random walk) για

Page 8: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

8

τις τιμές μιας μετοχής. Υποθέτουμε ότι έχουμε τη δυνατότητα να αγοράσουμε τη μετοχή σε μία σταθερή τιμή c

και μπορούμε να κάνουμε αυτήν την αγορά οποιαδήποτε μέρα εντός ενός διαστήματος N ημερών. Δεν είναι

υποχρεωτικό να αγοράσουμε τη μετοχή αλλά αν την αγοράσουμε όταν η τιμή της είναι ,s τότε το κέρδος είναι

ίσο με .cs Ποια πολιτική (στρατηγική) μεγιστοποιεί το αναμενόμενο κέρδος;

Λύση. Έστω )(sVn το μέγιστο αναμενόμενο κέρδος όταν η παρούσα τιμή της μετοχής είναι s και απομένουν

n μέρες για την αγορά της μετοχής. Η εξίσωση δυναμικού προγραμματισμού είναι:

,)()(,max)( 1

dxxfxsVcssV nn 1n (5)

με οριακή συνθήκη

].0,max[)(0 cssV

Δεν υπάρχει τρόπος να βρούμε μία απλή έκφραση για το ).(sVn Όμως μπορούμε να δείξουμε ότι το )(sVn

ικανοποιεί μία απλή ιδιότητα που θα μας βοηθήσει να βρούμε τη μορφή της βέλτιστης πολιτικής.

ΙΣΧΥΡΙΣΜΟΣ: Ισχύει ότι η έκφραση ssVn )( είναι φθίνουσα ως προς .s

Η απόδειξη του ισχυρισμού θα γίνει με επαγωγή ως προς .n Είναι φανερό ότι η έκφραση ssV )(0 είναι

φθίνουσα ως προς .s Από την Εξίσωση (5) έχουμε:

,)()]()([,max)( 1

dxxfxsxsVcssV nn

όπου .)(][ 1

dxxxfXE Από την επαγωγική υπόθεση, η έκφραση )()(1 xsxsVn είναι, για κάθε ,x

φθίνουσα ως προς .s Επομένως η έκφραση ssVn )( είναι φθίνουσα ως προς .s

Θεώρημα. Η βέλτιστη πολιτική έχει την εξής μορφή: Υπάρχει μία αύξουσα ακολουθία nss1 τέτοια

ώστε, αν απομένουν n μέρες και η παρούσα τιμή της μετοχής είναι ,s τότε πρέπει να αγοράσουμε την μετοχή

αν και μόνο αν .nss

Page 9: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

9

Απόδειξη. Αν η τιμή της μετοχής είναι s και απομένουν n μέρες για την αγορά της μετοχής, από την Εξίσωση

(5), συμπεραίνουμε ότι πρέπει να αγοράσουμε την μετοχή, αν .)( cssVn Έστω }.)(:min{ cssVss nn

Εφόσον ssVn )( είναι μία φθίνουσα συνάρτηση ως προς s για nss έχουμε .)()( cssVssV nnnn

Άρα .)( cssVn Συνεπώς σύμφωνα με τη βέλτιστη πολιτική πρέπει να αγοράσουμε τη μετοχή αν και μόνο αν

.nss Για να δείξουμε ότι η ακολουθία ,2,1}{ nns είναι αύξουσα ως προς n αρκεί να δείξουμε ότι η έκφραση

)(sVn είναι αύξουσα ως προς .n Αυτό ισχύει διότι όσο αυξάνει ο χρονικός ορίζοντας αυξάνει και το

αναμενόμενο ολικό κέρδος. ■

Το επόμενο παράδειγμα είναι γνωστό ως το πρόβλημα της γραμματέως (The secretary problem).

Παράδειγμα 1.3 (Το πρόβλημα της γραμματέως). Υποθέτουμε ότι παρουσιάζονται n προσφορές με μία

συγκεκριμένη σειρά. Αφού εξετάσουμε μία προσφορά πρέπει να αποφασίσουμε αν θα την αποδεχτούμε και θα

σταματήσουμε τη διαδικασία ή αν θα την απορρίψουμε. Αν μία προσφορά απορριφθεί αυτόματα χάνεται.

Υποθέτουμε ότι η μοναδική πληροφορία που έχουμε οποιαδήποτε στιγμή είναι η σχετική βαθμολογία της

παρούσας προσφοράς συγκρινόμενη με τις προηγούμενες. Ο στόχος μας είναι να μεγιστοποιήσουμε την

πιθανότητα να επιλέξουμε την καλύτερη προσφορά όταν όλες οι !n δυνατές διατάξεις των προσφορών έχουν

την ίδια πιθανότητα.

Λύση. Σ’ αυτό το πρόβλημα λέμε ότι βρισκόμαστε στην κατάσταση i αν η i οστή προσφορά μόλις

παρουσιάζεται και είναι η καλύτερη από τις i προσφορές που έχουν παρουσιαστεί. Έστω )(iV η μέγιστη

πιθανότητα αποδοχής της καλύτερης προσφοράς, όταν βρισκόμαστε στην κατάσταση .i Τότε, μπορούμε να

γράψουμε ότι:

,)(),(max)( iHiPiV

όπου, )(iP είναι η πιθανότητα να έχουμε την καλύτερη ανάμεσα σε όλες τις προσφορές, αν δεχτούμε την i

οστή προσφορά και )(iH είναι ό,τι καλύτερο μπορούμε να πετύχουμε αν απορρίψουμε την i οστή προσφορά.

Παρατηρούμε ότι:

{)( PiP η i οστή προσφορά είναι καλύτερη ανάμεσα στις |n η i οστή προσφορά είναι καλύτερη ανάμεσα

στις }i .1

1

n

i

i

n

Page 10: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

10

Άρα ,)(,max)(

iH

n

iiV .,,1 ni

Η )(iH είναι η μέγιστη πιθανότητα να αποδεχτούμε την καλύτερη προσφορά ανάμεσα στις n προσφορές, όταν

έχουμε απορρίψει τις πρώτες i προσφορές. Συνεπάγεται ότι η )(iH είναι φθίνουσα ως προς .i Αφού η

ποσότητα n

i αυξάνει και η ποσότητα )(iH φθίνει ως προς ,i συμπεραίνουμε ότι για κάποιο ,j θα ισχύει ότι:

),(iHn

i ji και ),(iH

n

i .ji

Άρα η βέλτιστη πολιτική έχει την ακόλουθη μορφή: Για κάποιο ,j ,1 nj απορρίπτουμε τις πρώτες j

προσφορές και μετά αποδεχόμαστε την πρώτη υποψήφια προσφορά που εμφανίζεται, όπου μία προσφορά

ονομάζεται υποψήφια αν έχει υψηλότερη βαθμολογία από όλες τις προηγούμενες. Θα βρούμε κατά προσέγγιση

τη βέλτιστη πολιτική ανάμεσα στις πολιτικές που έχουν την παραπάνω μορφή.

Έστω (jP καλύτερη ) η πιθανότητα να αποδεχτούμε την καλύτερη ανάμεσα στις n προσφορές αν

ακολουθήσουμε μία πολιτική της παραπάνω μορφής. Από το Θεώρημα Ολικής Πιθανότητας έχουμε ότι:

(jP καλύτερη

jn

i

jP1

() καλύτερη | δεχόμαστε την ji προσφορά () jP δεχόμαστε την ji προσφορά )

Μπορούμε να γράψουμε ότι:

(jP καλύτερη | δεχόμαστε την ji προσφορά () P καλύτερη ανάμεσα στις |n καλύτερη ανάμεσα στις ji

)

.)( 1

1

n

ji

ji

n

Επίσης,

(jP δεχόμαστε την ji προσφορά )

(P η καλύτερη προσφορά ανάμεσα στις j πρώτες η καλύτερη προσφορά ανάμεσα στις 1 ji πρώτες,

η ji προσφορά είναι η καλύτερη ανάμεσα στις ji πρώτες )

Page 11: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

11

(P η καλύτερη προσφορά ανάμεσα στις j πρώτες η καλύτερη προσφορά ανάμεσα στις 1 ji πρώτες )

(P η ji προσφορά είναι η καλύτερη ανάμεσα στις ji πρώτες .)(

1

)1()

jiji

j

Άρα,

(jP καλύτερη )

jn

i

n

jk

n

jj

n

n

j

j

n

n

jdx

xn

j

kn

j

jin

j

1

1 1

.log)1(

log11

)1(

1

Αν θέσουμε

,log)(x

n

n

xxg τότε .

1log

1)('

nx

n

nxg Άρα, .1log0)('

e

nx

x

nxg

Επίσης, .1

ee

ng

Συνεπώς, για μεγάλα ,n η βέλτιστη πολιτική, κατά προσέγγιση, αφήνει ένα ποσοστό e

1 όλων των προσφορών

να περάσουν και μετά αποδέχεται την πρώτη υποψήφια προσφορά. Η πιθανότητα να επιλέξουμε την καλύτερη

προσφορά χρησιμοποιώντας αυτήν την πολιτική είναι περίπου ίση με .1e ■

Παράδειγμα 1.4 (Παραγωγή ενός αποδεκτού προϊόντος). Μία εταιρεία έχει λάβει μία παραγγελία για την

προμήθεια ενός τεμαχίου κάποιου προϊόντος. Όμως, ο πελάτης έχει υψηλές απαιτήσεις ως προς την ποιότητα

και συνεπώς η εταιρεία ίσως πρέπει να κατασκευάσει περισσότερα τεμάχια μέχρι την κατασκευή ενός

αποδεκτού τεμαχίου. Η εταιρεία εκτιμά ότι κάθε κατασκευαζόμενο τεμάχιο του προϊόντος είναι αποδεκτό με

πιθανότητα 2

1 και ελαττωματικό με πιθανότητα .2

1 Συνεπώς, αν κατασκευαστούν L τεμάχια η πιθανότητα

να μην υπάρχει κανένα αποδεκτό είναι .2

1L

Το κόστος παραγωγής ενός τεμαχίου του προϊόντος είναι 100

ευρώ. Το κόστος για το στήσιμο μιας διαδικασίας παραγωγής (setup cost) ισούται με 300 ευρώ. Αν μία

διαδικασία παραγωγής (production run) δεν δώσει κανένα αποδεκτό τεμάχιο τότε η εταιρεία προχωρά σε μία

νέα διαδικασία παραγωγής. Μπορούν να γίνουν το πολύ τρεις διαδικασίες παραγωγής. Αν κανένα αποδεκτό

τεμάχιο του προϊόντος δεν έχει παραχθεί μετά το τέλος της τρίτης διαδικασίας παραγωγής η εταιρεία πληρώνει

το ποσό των 1600 ευρώ ως πρόστιμο. Το πρόβλημα είναι να προσδιοριστεί το πλήθος των κατασκευαζόμενων

τεμαχίων του προϊόντος σε κάθε διαδικασία παραγωγής έτσι ώστε να ελαχιστοποιηθεί το αναμενόμενο

συνολικό κόστος.

Λύση. Έστω i η κατάσταση του συστήματος στην αρχή της t oστής διαδικασίας παραγωγής, .3,2,1t Έστω

ότι 1i αν δεν έχει παραχθεί κανένα αποδεκτό τεμάχιο και 0i αν έχει παραχθεί τουλάχιστον ένα αποδεκτό

τεμάχιο. Προφανώς αν 1t τότε .1i Αν κατά την πρώτη διαδικασία παραγωγής δεν παραχθεί κανένα

Page 12: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

12

αποδεκτό τεμάχιο, τότε 1i όταν ,2t ενώ αν κατά την πρώτη διαδικασία παραγωγής παραχθεί τουλάχιστον

ένα αποδεκτό τεμάχιο τότε 0i όταν .2t Έστω tx ο αριθμός των κατασκευαζόμενων τεμαχίων του

προϊόντος κατά την t οστή διαδικασία παραγωγής, .3,2,1t Έστω ),( tiV το ελάχιστο αναμενόμενο κόστος

αν βρισκόμαστε στην κατάσταση i κατά την t οστή διαδικασία παραγωγής. Προφανώς, .3,2,0),0( ttV

Έστω )( txK το κόστος για το στήσιμο μιας διαδικασίας παραγωγής αν η εταιρεία κατασκευάζει tx

τεμάχια του

προϊόντος. Είναι ,0)( txK αν

0tx και

,3)( txK αν

.0tx Η εξίσωση του δυναμικού προγραμματισμού

είναι:

)1,0(

2

11)1,1(

2

1)(min),1(

,2,1,0tVtVxKxtV

tt

t

xx

ttx

,)1,1(2

1)(min

,2,1,0

tVxKx

t

t

x

ttx

.1,2,3t

.16)4,1( V

Η παραπάνω αναδρομική σχέση δίνει τα εξής αριθμητικά αποτελέσματα:

Page 13: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

13

Συνεπώς η βέλτιστη πολιτική παράγει δύο τεμάχια κατά την πρώτη διαδικασία. Αν κανένα δεν είναι αποδεκτό

τότε παράγει δύο ή τρία τεμάχια κατά τη δεύτερη διαδικασία. Αν κανένα δεν είναι αποδεκτό, τότε παράγει τρία

ή τέσσερα τεμάχια κατά την τρίτη διαδικασία. Το ελάχιστο συνολικό αναμενόμενο κόστος είναι 675 ευρώ. ■

Παράδειγμα 1.5 (Μεγιστοποίηση της πιθανότητας να κερδίσουμε ένα στοίχημα). Ένας στατιστικός

πιστεύει ότι έχει αναπτύξει ένα σύστημα που του επιτρέπει να κερδίζει ένα δημοφιλές τυχερό παιχνίδι. Έχει

βάλει ένα στοίχημα με συναδέλφους του σύμφωνα με το οποίο αν ξεκινήσει με 3 μάρκες θα έχει τουλάχιστον 5

μάρκες μετά από 3 παιχνίδια. Σε κάθε παιχνίδι μπορεί να στοιχηματίσει οποιοδήποτε αριθμό από τις διαθέσιμες

μάρκες και κερδίζει ή χάνει αυτόν τον αριθμό των μαρκών με πιθανότητα 3

2 και ,3

1 αντίστοιχα. Με τη

μέθοδο του δυναμικού προγραμματισμού θέλουμε να προσδιορίσουμε τη βέλτιστη πολιτική του στατιστικού

σχετικά με τον αριθμό των μαρκών που πρέπει να στοιχηματίσει σε καθένα από τα 3 παιχνίδια. Η απόφαση σε

κάθε παιχνίδι εξαρτάται από τα αποτελέσματα των προηγούμενων παιχνιδιών. Ο στόχος είναι να

μεγιστοποιηθεί η πιθανότητα να κερδίσει ο στατιστικός το στοίχημα.

Λύση. Έστω ),( tiV η μέγιστη πιθανότητα να έχει ο στατιστικός τουλάχιστον 5 μάρκες μετά το τρίτο παιχνίδι,

αν στην αρχή του t οστού παιχνιδιού, 3,2,1t έχει i μάρκες. Έστω επίσης tx ο αριθμός των μαρκών που

στοιχηματίζει ο στατιστικός κατά το t οστό παιχνίδι, .3,2,1t Η εξίσωση δυναμικού προγραμματισμού είναι

η εξής:

,)1,(3

2)1,(

3

1max),(

},,1,0{

txiVtxiVtiV ttixt

.3,2,1t

,1)4,( iV αν 5i και ,0)4,( iV αν .5i

Η παραπάνω εξίσωση δίνει τα εξής αποτελέσματα:

Page 14: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

14

Αυτή η πολιτική δίνει πιθανότητα ίση με 27

20 να κερδίσει ο στατιστικός το στοίχημα. ■

Παράδειγμα 1.6 (Η τιμολόγηση ενός Αμερικανικού δικαιώματος πώλησης). Υποθέτουμε ότι έχουμε μία

μετοχή την οποία έχουμε το δικαίωμα να την πουλήσουμε οποιαδήποτε χρονική στιγμή },,1,0{ nt με τιμή

πώλησης ίση με .K Αν τη χρονική στιγμή t η τιμή της μετοχής ισούται με ,ts η τιμή της 1ts τη χρονική

στιγμή 1t δίνεται από τον τύπο tt uss 1 με πιθανότητα p και από τον τύπο tt dss 1 με πιθανότητα

.1 qp Είναι γνωστό ότι .0 ss

Σχηματικά, οι πρώτες δύο δυνατές μεταβολές της τιμής της μετοχής φαίνονται παρακάτω:

Page 15: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

15

Έστω ),( tiV το μέγιστο αναμενόμενο κέρδος που θα έχουμε από ενδεχόμενη πώληση της μετοχής αν

βρισκόμαστε στη χρονική στιγμή ,t δεν έχουμε εξασκήσει το δικαίωμα πώλησης της μετοχής και μέχρι τη

χρονική στιγμή t η τιμή της μετοχής έχει πραγματοποιήσει ,i ti ,,0 αυξήσεις και it μειώσεις. Θέλουμε

να βρούμε την ποσότητα )0,0(V καθώς και τη βέλτιστη πολιτική για την εξάσκηση του δικαιώματος πώλησης

της μετοχής.

Ισχύει ότι:

},0,max{),( sduKniV ini .,,0 ni

Η εξίσωση δυναμικού προγραμματισμού δίνεται από τον τύπο:

)},1,()1()1,1(,max{),( tiVptipVsduKtiV iti ,1,,0 nt .,,0 ti

Ο συντελεστής 1 είναι ο αποπληθωριστικός παράγοντας. Το κίνητρο της εισαγωγής του αποπληθωριστικού

παράγοντα είναι οικονομικό: Το κέρδος που θα ληφθεί στο μέλλον από την πώληση της μετοχής έχει μικρότερη

αξία από αυτό που λαμβάνεται σήμερα. Η ποσότητα sduK iti αντιστοιχεί στην ενέργεια της πώλησης της

μετοχής ενώ η ποσότητα )1,()1()1,1( tiVptipV αντιστοιχεί στην ενέργεια της μη-άσκησης του

δικαιώματος πώλησης της μετοχής κατά τη χρονική στιγμή .t

Ας δούμε ένα αριθμητικό παράδειγμα. Έστω ,0694.1u ,5056.0p ,4944.01 p ,997.0 ,5n ,9s

,9351.0d .10K Οι δυνατές τιμές της μετοχής κατά τη χρονική στιγμή 5 είναι:

,435.69 5 d ,359.79 4 ud ,416.89 32 du ,625.99 23 du ,109 5 ii du .5,4i

Συνεπώς,

,565.3)5,0( V ,0)5,( iV ,5,4i ,641.2)5,1( V ,584.1)5,2( V .375.0)5,3( V

Page 16: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

16

Η εξίσωση δυναμικού προγραμματισμού δίνει τα εξής αποτελέσματα:

Για :4t ,119.3)4,0( V ,13.2)4,1( V ,1)4,2( V ,18.0)4,3( V .0)4,4( V

Για :3t ,641.2)3,0( V ,584.1)3,1( V ,58.0)3,2( V .089.0)3,3( V

Για :2t ,130.2)2,0( V ,075.1)2,1( V .333.0)2,2( V

Για :1t ,592.1)1,0( V .698.0)1,1( V

Για :0t .137.1)0,0( V ■

Παράδειγμα 1.7 (Το πρόβλημα της ελάχιστης διαδρομής σε δίκτυο με κόμβους). Θωρούμε το παρακάτω

δίκτυο. Επιτρέπεται να κινηθούμε μόνο κατά μήκος των ακμών και επιθυμούμε να προσδιορίσουμε την

ελάχιστη διαδρομή που ξεκινά από τον κόμβο 3 και αποτελείται από 4 ακριβώς βήματα.

Λύση. Ορίζουμε τα ζεύγη ,4,3,2,1,5,,2,1),,( xttx όπου ),( tx συμβολίζει το γεγονός ότι στην αρχή του

βήματος t το σύστημα βρίσκεται στον κόμβο .x Το πρόβλημα ανάγεται σε ένα απλό πρόβλημα ελάχιστης

διαδρομής με το παρακάτω δίκτυο.

Page 17: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

17

Η επίλυση της εξίσωσης βελτιστοποίησης και κατ’ επέκταση η εύρεση της ελάχιστης διαδρομής γίνεται

αναδρομικά με τη βοήθεια του παραπάνω αναλυτικού δικτύου, όπου οι αριθμοί στα τετράγωνα είναι οι

αντίστοιχες βέλτιστες τιμές ενώ τα βέλη με κύκλους συμβολίζουν τις αντίστοιχες βέλτιστες διαδρομές.

Επομένως το μήκος της ελάχιστης διαδρομής είναι 8 και αυτό αντιστοιχεί στις παρακάτω ελάχιστες διαδρομές:

Παράδειγμα 1.8 Μια αυτοκινητοβιομηχανία έχει εργοστάσια σε 5 χώρες 521 ,,, XXX και σκέπτεται να τα

επεκτείνει. Το συνολικό ύψος της επένδυσης είναι 6 εκατ. Ευρώ, ενώ το κόστος tK και η απόδοση tA για κάθε

χώρα δίνονται από τον παρακάτω πίνακα (σε εκατ. Ευρώ).

Κάθε εργοστάσιο μπορεί να επεκταθεί το πολύ μια φορά. Ζητείται να βρεθεί η βέλτιστη πολιτική επένδυσης

δηλαδή αυτή που μεγιστοποιεί τη συνολική απόδοση.

Λύση. Εισάγουμε τεχνητά τον χρόνο. Θεωρούμε ότι η αυτοκινητοβιομηχανία αποφασίζει πρώτα αν θα

επενδύσει ή όχι στην ,1X μετά στην 2X κ.ο.κ. μέχρι τέλος στην .5X Ορίζουμε 5,,2,1),,( ttx ως τη

μέγιστη συνολική απόδοση αν έχει απομείνει κεφάλαιο x για επένδυση στη χώρα .t Η εξίσωση δυναμικού

προγραμματισμού είναι η εξής:

Page 18: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

18

Οι υπολογισμοί μπορούν να γίνουν με τη βοήθεια του επόμενου πίνακα, όπου οι βέλτιστες τιμές ),( tx

υπολογίζονται αναδρομικά για ,1,,4,5 t αφού έχουν πρώτα προσδιοριστεί τα στοιχεία όλων των

προηγούμενων στηλών.

Page 19: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

19

Παράδειγμα 1.9 (Βέλτιστη παραγωγικότητα ενός συνεταιρισμού). Ένας αγροτικός συνεταιρισμός έχει στη

διάθεσή του ένα μεγάλο αγρό. Η παραγωγικότητα του αγρού ελέγχεται κάθε χρόνο και κατατάσσεται σε μία

από τις καταστάσεις, 1: άριστη, 2: καλή, 3: μέτρια. Η κατάσταση του αγρού το επόμενο έτος εξαρτάται από την

κατάστασή του φέτος, μέσω του πίνακα πιθανοτήτων μετάβασης:

100

5.05.00

3.05.02.0

)1()1( ijpP

Για παράδειγμα, αν φέτος η κατάσταση του αγρού είναι καλή, τότε το επόμενο έτος θα είναι καλή ή μέτρια, με

ίσες πιθανότητες. Η παραγωγικότητα του αγρού μπορεί να βελτιωθεί με τη χρησιμοποίηση λιπασμάτων.

Συγκεκριμένα, αν στην αρχή του έτους, ο αγρός λιπανθεί, τότε ο προηγούμενος πίνακας πιθανοτήτων

μετάβασης αλλάζει και γίνεται:

55.04.005.0

3.06.01.0

1.06.03.0

)2()2( ijpP

Έτσι, ανάλογα με την κατάσταση του αγρού, υπάρχουν στην αρχή κάθε έτους οι αποφάσεις μη-λίπανσης (1) ή

λίπανσης (2). Οι αντίστοιχοι πίνακες αμοιβής είναι:

236

047

156

)2()2(,

100

150

367

)1()1( ijij rRrR

Για παράδειγμα, αν η κατάσταση του αγρού φέτος είναι καλή και ο αγρός δεν λιπανθεί, τότε το κέρδος του

συνεταιρισμού είναι 5 ή 1 χρηματικές μονάδες, ανάλογα με το αν το επόμενο έτος η κατάστασή του παραμείνει

καλή ή γίνει μέτρια. Αν όμως ο αγρός λιπανθεί, το κέρδος είναι 7, 4, 0, ανάλογα αν η κατάστασή του το

επόμενο έτος βελτιωθεί, μείνει η ίδια ή χειροτερέψει, αντίστοιχα.

Ο χώρος καταστάσεων είναι το σύνολο: }3,2,1{S και οι ενέργειες σε κάθε κατάσταση είναι 1: μη-λίπανση

και 2: λίπανση. Τα κέρδη ),( aiR υπολογίζονται ως μέσες τιμές από τις ακόλουθες σχέσεις:

3

1

.2,1,3,2,1),()(),(j

ijij aiarapaiR

Page 20: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

20

Για παράδειγμα,

3.533.065.072.0)1,1( R

1.346.071.0)2,2( R

Έστω 4,3,2,1),,( ttiV το μέγιστο κέρδος από την αρχή του έτους t μέχρι την αρχή του έτους 4, αν η

κατάσταση του αγρού κατά το έτος t είναι η κατάσταση .i Αυτή η ποσότητα βρίσκεται αναδρομικά

χρησιμοποιώντας την εξίσωση του δυναμικού προγραμματισμού:

3,2,1,3,2,1,)1,()(),(max),(3

1}2,1{

titjVapaiRtiV

jij

a

3,2,1,0)4,( iiV

Τα αριθμητικά αποτελέσματα καθώς και οι ενέργειες που επιλέγονται από τη βέλτιστη πολιτική

παρουσιάζονται στον παρακάτω πίνακα.

Page 21: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

21

Page 22: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

22

Επομένως, για τη μεγιστοποίηση του αναμενόμενου συνολικού κέρδους ο αγρός πρέπει να λιπανθεί τα δύο

πρώτα έτη, ανεξάρτητα από την κατάστασή του, ενώ το τρίτο έτος αυτό πρέπει να γίνει μόνο στην περίπτωση

που η κατάσταση του αγρού δεν είναι άριστη. Το αντίστοιχο μέγιστο κέρδος είναι 10.74, 7.92 ή 4.23, ανάλογα

με το αν στην αρχή του πρώτου έτους η παραγωγικότητα του αγρού είναι άριστη, καλή ή μέτρια, αντίστοιχα. ■

Παράδειγμα 1.10 (Πρόβλημα ελάχιστης διαδρομής σε προσανατολισμένο δίκτυο). Να βρεθεί η ελάχιστη

διαδρομή από το σημείο Α μέχρι το σημείο Β για το παρακάτω προσανατολισμένο δίκτυο.

Το πρόβλημα αποτελείται από 6 βήματα, δηλαδή .6n Συμβολίζοντας με ),( ti τον i οστό κόμβο στην αρχή

του t οστού βήματος, το παραπάνω δίκτυο παίρνει τη μορφή:

Έστω ),( tiV το μήκος της ελάχιστης διαδρομής από την κατάσταση ),( ti μέχρι την κατάσταση ).7,1( Η

εξίσωση δυναμικού προγραμματισμού για αυτό το πρόβλημα είναι η ακόλουθη:

6,,1,)1,(),(min),( ttjVjictiVj

Page 23: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

23

,0)7,1( V

όπου, ),( jic είναι η απόσταση ανάμεσα στον i οστό και στον j οστό κόμβο. Η επίλυση της παραπάνω

εξίσωσης γίνεται αναδρομικά ως εξής:

Page 24: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

24

Page 25: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

25

Άρα, η τιμή της βέλτιστης διαδρομής είναι ,13)1,1( V ενώ η αντίστοιχη βέλτιστη διαδρομή είναι η ακόλουθη:

)7,1()6,1()5,2()4,3()3,2()2,1()1,1( ■

Παράδειγμα 1.11 (Βέλτιστος έλεγχος επιδημικών διαδικασιών). Έστω ένας πληθυσμός ατόμων τα οποία

είναι δυνατόν να προσβληθούν από δύο μεταδοτικές ασθένειες. Υποθέτουμε ότι το συνολικό μέγεθος του

πληθυσμού είναι ίσο με N και ότι το πολύ ένα άτομο μπορεί να προσβληθεί από μία από τις δύο ασθένειες.

Θεωρούμε ότι οι δύο ασθένειες είναι ανταγωνιζόμενες υπό την έννοια ότι αν ένα άτομο προσβληθεί από την

ασθένεια r ),2,1( r παραμένει προσβεβλημένο από αυτήν την ασθένεια και δεν μπορεί να προσβληθεί από

την άλλη.

Η μετάδοση των ασθενειών σταματά όταν ο συνολικός αριθμός των ατόμων που έχουν προσβληθεί από τις

ασθένειες 1 και 2 γίνει ίσος με ,N το οποίο θεωρούμε ότι σχεδόν σίγουρα θα συμβεί σε πεπερασμένο χρόνο. Οι

μεταβάσεις της επιδημικής διαδικασίας είναι:

),1(),( yxyx με πιθανότητα ,21

1

ycxc

xc

(6)

)1,(),( yxyx με πιθανότητα ,21

2

ycxc

yc

(7)

Page 26: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

26

όπου, ,,, 21 cc θετικές σταθερές. Η μεταβλητή x αναπαριστά τον αριθμό των ατόμων που έχουν προσβληθεί

από την ασθένεια 1 και η μεταβλητή y αναπαριστά τον αριθμό των ατόμων που έχουν προσβληθεί από την

ασθένεια 2. Στους θετικούς πραγματικούς αριθμούς και μπορούμε να αποδώσουμε τον όρο «μολυσματική

ισχύς» των ασθενειών 1 και 2, αντίστοιχα, και να τον δικαιολογήσουμε ως εξής. Αν η εξάπλωση μιας

μεταδοτικής ασθένειας σε έναν πληθυσμό επιδεκτικών ατόμων εξαρτάται περισσότερο από το κατά πόσο ένα

επιδεκτικό άτομο είναι επιρρεπές στην ασθένεια και λιγότερο από το κατά πόσο ένα άτομο που έχει προσβληθεί

από την ασθένεια μπορεί να τη μεταδώσει στον υπόλοιπο πληθυσμό, τότε ο ρυθμός με τον οποίο νέα άτομα θα

προσβληθούν από την ασθένεια δεν εξαρτάται ιδιαίτερα από τον αριθμό των ατόμων που ήδη έχουν

προσβληθεί από την ασθένεια. Σε αυτή την περίπτωση μπορούμε να θεωρήσουμε ότι η μολυσματική ισχύς των

ασθενειών 1 και 2 είναι μικρή και οι θετικοί πραγματικοί αριθμοί και παίρνουν τιμές κοντά στο μηδέν.

Στην αντίθετη περίπτωση κατά την οποία, η μολυσματική ισχύς των ασθενειών 1 και 2 είναι μεγάλη, μπορούμε

να θεωρήσουμε ότι οι παράμετροι και παίρνουν τιμές μεγαλύτερες της μονάδας. Σε αυτή την περίπτωση

οι επιδημίες εξαπλώνονται στον πληθυσμό με πολύ γρήγορους ρυθμούς.

Έστω ότι η ασθένεια 1 προξενεί σοβαρά συμπτώματα σε ένα άτομο που έχει προσβληθεί από αυτήν και

μειώνει την παραγωγικότητά του. Η παρουσία ενός ατόμου που έχει προσβληθεί από την ασθένεια 1 επιφέρει

κάποιο κόστος στην κοινωνία το οποίο θεωρούμε ότι είναι σταθερό και ίσο με τη μονάδα. Υποθέτουμε ότι η

ασθένεια 2, σε σύγκριση με την ασθένεια 1, είναι λιγότερο επιβλαβής για ένα άτομο που έχει προσβληθεί από

αυτήν. Θεωρούμε ότι η παρουσία ενός ατόμου που έχει προσβληθεί από την ασθένεια 2 δεν επιφέρει κανένα

κόστος στην κοινωνία.

Ο έλεγχος της επιδημικής διαδικασίας σε κάθε χρονική στιγμή μπορεί να πραγματοποιηθεί με την επιλογή

μιας ενέργειας. Θεωρούμε ότι μία ενέργεια, η οποία μπορεί να ελέγξει τη διαδικασία σε κάθε χρονική στιγμή,

είναι ο εμβολιασμός με την ήπια ασθένεια 2 οποιουδήποτε αριθμού επιδεκτικών ατόμων έχουν απομείνει στον

πληθυσμό και δεν έχουν προσβληθεί από καμία από τις δύο ασθένειες. Θεωρούμε ότι ο εμβολιασμός ενός

ατόμου με την ήπια ασθένεια 2 επιφέρει ένα κόστος το οποίο είναι ίσο με .0K

Μία άλλη ενέργεια η οποία επίσης θεωρούμε ότι μπορεί να ελέγξει την επιδημική διαδικασία σε κάθε χρονική

στιγμή είναι η απομόνωση κάποιων ή όλων των ατόμων που έχουν προσβληθεί από τη σοβαρή ασθένεια 1.

Υποθέτουμε ότι η απομόνωση ενός ατόμου που έχει προσβληθεί από τη σοβαρή ασθένεια 1 επιφέρει ένα

κόστος το οποίο είναι ίσο με .0L

Μας απασχολεί το πρόβλημα της εύρεσης εκείνης της πολιτικής η οποία, για οποιαδήποτε αρχική κατάσταση

της επιδημικής διαδικασίας, ελαχιστοποιεί το συνολικό αναμενόμενο κόστος. Επειδή η διαδικασία θεωρούμε

ότι σταματά όταν ο συνολικός αριθμός των ατόμων που έχουν προσβληθεί από τις ασθένειες 1 και 2 γίνει ίσος

με ,N το πρόβλημα της εύρεσης της βέλτιστης πολιτικής είναι ένα πρόβλημα πεπερασμένου χρονικού

ορίζοντα.

Page 27: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

27

Η επιδημική διαδικασία που περιγράψαμε βρίσκει πιθανή εφαρμογή στην περίπτωση της γνωστής ασθένειας

του νωτιαίου μυελού, πολιομυελίτιδας. Η ασθένεια 1 μπορεί να θεωρηθεί ότι είναι η σοβαρή μορφή της

πολιομυελίτιδας ενώ η ασθένεια 2 μπορεί να θεωρηθεί ότι είναι η ήπια μορφή της.

Στην επιδημική διαδικασία μπορεί επίσης να αποδοθεί η ακόλουθη οικολογική ερμηνεία. Θεωρούμε δύο είδη

ζωντανών οργανισμών τα οποία αναπτύσσονται σε ένα βιότοπο που έχει μέγιστη χωρητικότητα ίση με .N Το

είδος 1 θεωρούμε ότι είναι ένα παράσιτο, η παρουσία του οποίου είναι βλαβερή. Η παρουσία ενός παρασίτου

επιφέρει κάποιο κόστος το οποίο είναι σταθερό και ίσο με τη μονάδα. Το είδος 2 θεωρούμε ότι είναι ένα ήπιο

είδος, η παρουσία του οποίου είναι ακίνδυνη. Η παρουσία ενός ήπιου είδους δεν επιφέρει κανένα κόστος.

Θεωρούμε πολιτικές οι οποίες σε κάθε χρονική στιγμή ελέγχουν την ανάπτυξη των ζωντανών οργανισμών στο

βιότοπο είτε με τη σκόπιμη εισαγωγή ήπιων ειδών είτε με την απομόνωση ή την απομάκρυνση από το βιότοπο

οποιουδήποτε αριθμού παρασίτων. Η σκόπιμη εισαγωγή ενός ήπιου είδους επιφέρει ένα κόστος ίσο με 0K

ενώ η απομόνωση ή η απομάκρυνση ενός παρασίτου επιφέρει ένα κόστος ίσο με .0L

Για την επιδημική διαδικασία θεωρούμε τα παρακάτω δύο προβλήματα βελτιστοποίησης.

Πρόβλημα 1. Εύρεση εκείνης της πολιτικής η οποία, για οποιαδήποτε αρχική κατάσταση της διαδικασίας,

ελαχιστοποιεί το συνολικό αναμενόμενο κόστος, αν η διαδικασία σε κάθε χρονική στιγμή είναι δυνατόν να

ελεγχθεί μέσω του εμβολιασμού με την ήπια ασθένεια 2 οποιουδήποτε αριθμού επιδεκτικών ατόμων έχουν

απομείνει στον πληθυσμό και δεν έχουν προσβληθεί από καμία από τις δύο ασθένειες.

Πρόβλημα 2. Εύρεση εκείνης της πολιτικής η οποία, για οποιαδήποτε αρχική κατάσταση της διαδικασίας,

ελαχιστοποιεί το συνολικό αναμενόμενο κόστος, αν η διαδικασία σε κάθε χρονική στιγμή είναι δυνατόν να

ελεγχθεί μέσω της απομόνωσης κανενός ή όλων των ατόμων που έχουν προσβληθεί από τη σοβαρή ασθένεια 1.

Η κατάσταση της διδιάστατης στοχαστικής επιδημικής διαδικασίας που περιγράψαμε μπορεί να

αναπαρασταθεί σε κάθε χρονική στιγμή με το ζεύγος των μεταβλητών ),,( yx όπου Nyx ,0 και

.0 Nyx

Πρόβλημα 1. Σε κάθε κατάσταση ),( yx της διαδικασίας τέτοια ώστε Nyx μπορούμε να επιλέξουμε μία

από τις δύο παρακάτω ενέργειες:

(i) να αφήσουμε τη διαδικασία να μεταβεί στις καταστάσεις ),1( yx και ),1,( yx σύμφωνα με τον τυχαίο

περίπατο με πιθανότητες οι οποίες δίνονται από τις (6), (7) και κόστος ίσο με 1 και 0, αντίστοιχα, ή

Page 28: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

28

(ii) να εμβολιάσουμε με την ήπια ασθένεια 2 και με κόστος ίσο με K ένα από τα επιδεκτικά άτομα που έχουν

απομείνει στον πληθυσμό και δεν έχουν προσβληθεί από καμία από τις δύο ασθένειες.

Για κάθε κατάσταση ),( yx της επιδημικής διαδικασίας, έστω ),( yxV το ελάχιστο αναμενόμενο κόστος και

),( yxW το ελάχιστο αναμενόμενο κόστος όταν η διαδικασία πραγματοποιήσει μία μετάβαση σύμφωνα με τις

πιθανότητες οι οποίες δίνονται από τις (6), (7) και στη συνέχεια υιοθετηθεί η βέλτιστη πολιτική. Επειδή η

διαδικασία σταματά όταν ,Nyx η εξίσωση βελτιστοποίησης για το πρόβλημα της ελαχιστοποίησης του

συνολικού αναμενόμενου κόστους σε πεπερασμένο χρονικό ορίζοντα, παίρνει την ακόλουθη μορφή:

)},,(),1,(min{),( yxWyxVKyxV ,0 Nyx (8)

όπου,

),1,()],1(1[),(21

2

21

1

yxVycxc

ycyxV

ycxc

xcyxW

,0 Nyx (9)

και

,0),( xNxV .0 Nx (10)

Όταν η διαδικασία βρίσκεται στην κατάσταση ),( yx και ισχύει η ανισότητα ),,()1,( yxWyxVK τότε η

βέλτιστη πολιτική επιλέγει την ενέργεια (ii), δηλαδή εμβολιάζει με την ήπια ασθένεια 2 ένα από τα επιδεκτικά

άτομα που έχουν απομείνει στον πληθυσμό και δεν έχουν προσβληθεί από καμία από τις δύο ασθένειες. Στην

περίπτωση αυτή η διαδικασία μεταβαίνει στην κατάσταση ).1,( yx

Όταν η διαδικασία βρίσκεται στην κατάσταση ),( yx και ισχύει η ανισότητα ),1,(),( yxVKyxW τότε η

βέλτιστη πολιτική επιλέγει την ενέργεια (i), δηλαδή δεν επεμβαίνει στην εξέλιξη της επιδημικής διαδικασίας.

Οι εξισώσεις (8)-(10) μας επιτρέπουν να υπολογίσουμε αριθμητικά το ελάχιστο αναμενόμενο κόστος ),( yxV

για κάθε κατάσταση ),( yx της διαδικασίας για την οποία ισχύει ότι .0 Nyx Επιπλέον προσδιορίζουν

την ενέργεια που επιλέγεται από τη βέλτιστη πολιτική για κάθε κατάσταση .0),,( Nyxyx

Το ελάχιστο αναμενόμενο κόστος υπολογίζεται διαδοχικά για τις καταστάσεις ),2,1( N ),3,2( N ...,

),0,1( N ),3,1( N ..., ),0,2( N ..., ),0,1( από τις εξισώσεις (8)-(10) με αναδρομικό τρόπο.

Page 29: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

29

Ένα αριθμητικό παράδειγμα παρουσιάζεται παρακάτω. Θεωρούμε την περίπτωση κατά την οποία

.1,5.1,1,2,1,10 21 ccKN Η βέλτιστη πολιτική για αυτές τις τιμές των παραμέτρων

παρουσιάζεται στο ακόλουθο Σχήμα 1, όπου για κάθε κατάσταση ),( yx της διαδικασίας για την οποία ισχύει

ότι ,90 yx η ενέργεια (i) αναπαριστάται με “0” και η ενέργεια (ii) αναπαριστάται με “1”. Στο σχήμα

παρατηρούμε ότι δεν υπάρχει κανένα “1” το οποίο βρίσκεται πάνω από ένα “0”.

109876543210

0111111110

011111111

00111112

0001103

000004

00005

0006

007

08

9

10

x

y

Σχήμα 1. Η βέλτιστη πολιτική όταν ).1 ,5.1 ,1 ,2 ,1 ,10(),,,,,( 21 ccKN

Πολλά αριθμητικά παραδείγματα για διάφορες τιμές των παραμέτρων παρέχουν ισχυρή ένδειξη ότι η

βέλτιστη πολιτική έχει πάντα αυτήν την ιδιότητα. Έτσι οδηγούμαστε στην ακόλουθη εικασία σχετικά με τη

μορφή της βέλτιστης πολιτικής.

Εικασία για το Πρόβλημα 1. Για κάθε ακέραιο αριθμό ,x ,0 Nx υπάρχουν δύο περιπτώσεις.

Περίπτωση 1. Η βέλτιστη πολιτική δεν επεμβαίνει στην εξέλιξη της διαδικασίας σε όλες τις καταστάσεις

),( yx για τις οποίες ισχύει ότι .0 xNy

Περίπτωση 2. Υπάρχει ένας ακέραιος αριθμός ,~y ,~0 xNy τέτοιος ώστε η βέλτιστη πολιτική επιλέγει

την ενέργεια (ii) σε όλες τις καταστάσεις ),( yx για τις οποίες ισχύει ότι yy ~0 και επιλέγει την ενέργεια (i),

δηλαδή δεν επεμβαίνει στην εξέλιξη της διαδικασίας, σε όλες τις καταστάσεις ),( yx για τις οποίες ισχύει ότι

.~ xNyy Στην Περίπτωση 2 της παραπάνω εικασίας μπορούμε να θεωρήσουμε ότι η βέλτιστη πολιτική

Page 30: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

30

είναι μονότονη. Για κάθε κατάσταση ),( yx της διαδικασίας η κρίσιμη τιμή y~ χαρακτηρίζει τη μονότονη

μορφή της βέλτιστης πολιτικής.

Πρόβλημα 2. Σε κάθε κατάσταση ),( yx της διαδικασίας τέτοια ώστε Nyx μπορούμε να επιλέξουμε μία

από τις δύο παρακάτω ενέργειες:

(i) να αφήσουμε τη διαδικασία να μεταβεί στις καταστάσεις ),1( yx και ),1,( yx σύμφωνα με τον τυχαίο

περίπατο με πιθανότητες οι οποίες δίνονται από τις (6), (7) και κόστος ίσο με 1 και 0, αντίστοιχα, ή

(ii) να απομονώσουμε όλα τα άτομα που έχουν προσβληθεί από τη σοβαρή ασθένεια 1 με κόστος ίσο με .Lx

Η εξίσωση βελτιστοποίησης παίρνει τώρα την ακόλουθη μορφή:

)},,(,min{),( yxWLxyxV .0 Nyx (11)

Όταν η διαδικασία βρίσκεται στην κατάσταση ),( yx και ισχύει η ανισότητα ),,( yxWLx τότε η βέλτιστη

πολιτική επιλέγει την ενέργεια (ii), δηλαδή απομονώνει τα x άτομα που έχουν προσβληθεί από τη σοβαρή

ασθένεια 1. Στην περίπτωση αυτή η διαδικασία μεταβαίνει στην κατάσταση ).,0( y

Όταν η διαδικασία βρίσκεται στην κατάσταση ),( yx και ισχύει η ανισότητα ,),( LxyxW τότε η βέλτιστη

πολιτική επιλέγει την ενέργεια (i), δηλαδή δεν επεμβαίνει στην εξέλιξη της επιδημικής διαδικασίας.

Ένα αριθμητικό παράδειγμα παρουσιάζεται παρακάτω. Θεωρούμε την περίπτωση κατά την οποία

.2.1,8.0,5.0,1,6.0,10 21 ccLN Η βέλτιστη πολιτική για αυτές τις τιμές των παραμέτρων

παρουσιάζεται στο ακόλουθο Σχήμα 2, όπου για κάθε κατάσταση ),( yx της διαδικασίας για την οποία ισχύει

ότι ,90 yx η ενέργεια (i) αναπαριστάται με “0” και η ενέργεια (ii) αναπαριστάται με “2”. Στο σχήμα

παρατηρούμε ότι δεν υπάρχει κανένα “2” το οποίο βρίσκεται δεξιά από ένα “0”.

Page 31: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

31

109876543210

0002222220

000222221

00022222

0002223

000224

00025

0026

007

08

9

10

x

y

Σχήμα 2. Η βέλτιστη πολιτική όταν ).2.1,8.0,5.0,1,6.0,10(),,,,,( 21 ccLN

Πολλά αριθμητικά παραδείγματα για διάφορες τιμές των παραμέτρων παρέχουν ισχυρή ένδειξη ότι η

βέλτιστη πολιτική έχει πάντα αυτήν την ιδιότητα. Έτσι οδηγούμαστε στην ακόλουθη εικασία σχετικά με τη

μορφή της βέλτιστης πολιτικής.

Εικασία για το Πρόβλημα 2. Για κάθε ακέραιο αριθμό ,y ,0 Ny υπάρχουν δύο περιπτώσεις.

Περίπτωση 1. Η βέλτιστη πολιτική δεν επεμβαίνει στην εξέλιξη της διαδικασίας σε όλες τις καταστάσεις

),( yx για τις οποίες ισχύει ότι .0 yNx

Περίπτωση 2. Υπάρχει ένας ακέραιος αριθμός ,~x ,~1 yNx τέτοιος ώστε η βέλτιστη πολιτική επιλέγει

την ενέργεια (ii) σε όλες τις καταστάσεις ),( yx για τις οποίες ισχύει ότι xx ~1 και επιλέγει την ενέργεια (i),

δηλαδή δεν επεμβαίνει στην εξέλιξη της διαδικασίας, σε όλες τις καταστάσεις ),( yx για τις οποίες ισχύει ότι

.~ yNxx Στην Περίπτωση 2 της παραπάνω εικασίας μπορούμε να θεωρήσουμε ότι η βέλτιστη πολιτική

είναι μονότονη. Για κάθε κατάσταση ),( yx της διαδικασίας η κρίσιμη τιμή x~ χαρακτηρίζει τη μονότονη

μορφή της βέλτιστης πολιτικής.

Παράδειγμα 1.12 (Βέλτιστη δρομολόγηση ενός οχήματος). Το πρόβλημα αυτό είναι γνωστό στη

βιβλιογραφία ως πρόβλημα βέλτιστης δρομολόγησης ενός οχήματος (Single Vehicle Routing Problem

(SVRP)), και προσδιορίζει τη βέλτιστη διαδρομή ενός οχήματος το οποίο ξεκινά από μία αποθήκη και

διανέμει ένα προϊόν σε n πελάτες σύμφωνα με μία προκαθορισμένη σειρά. Είναι μία μορφή του περίφημου

Page 32: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

32

προβλήματος του περιοδεύοντος (περιπλανώμενου) πωλητή (Travelling Salesman problem (TSP)) σύμφωνα

με το οποίο ένας πωλητής έχει πελάτες σε N πόλεις και δεδομένων των αποστάσεων μεταξύ των πόλεων ο

πωλητής ξεκινώντας από μία πόλη, έστω την πόλη 0, επιθυμεί να επιστρέψει σε αυτήν επισκεπτόμενος κάθε

άλλη πόλη, ακριβώς μία φορά, με τρόπο που η συνολική διαδρομή του να είναι η ελάχιστη δυνατή. Η

βασική διαφορά αυτού του προβλήματος σε σύγκριση με το κλασσικό πρόβλημα ελάχιστης διαδρομής,

είναι ότι σε κάθε βήμα πρέπει να γνωρίζουμε όχι μόνο την πόλη στην οποία βρίσκεται ο πωλητής, αλλά

επιπλέον και το σύνολο των πόλεων από τις οποίες έχει περάσει, αφού πρέπει να επισκεφθεί όλες τις πόλεις

από μία φορά.

Έστω ένα σύνολο κορυφών }, , ,0{ nV όπου η κορυφή 0 αναπαριστά την αποθήκη και οι κορυφές

n , ,1 αντιστοιχούν στους πελάτες. Το σύνολο }}{:)0,1( ),1,{( nViiiiA περιέχει τα τόξα που

συνδέουν τους πελάτες κατά μήκος της διαδρομής ,21 n καθώς επίσης όλους τους πελάτες με

την αποθήκη. Το κόστος της διαδρομής για κάθε τόξο Aji ),( είναι ίσο με .0ijc Τα κόστη

,),( , Ajicij ικανοποιούν την τριγωνική ανισότητα, δηλαδή ισχύει ότι .kjikij ccc Το όχημα πρέπει να

εξυπηρετήσει όλους τους πελάτες σύμφωνα με μία προκαθορισμένη σειρά . , ,1 n Αρχικά, το όχημα

βρίσκεται στην αποθήκη και μετά από την εξυπηρέτηση όλων των πελατών επιστρέφει στην αποθήκη.

Έστω , , ,1 , nid i η ζήτηση του πελάτη i για ένα συγκεκριμένο προϊόν. Θεωρούμε ότι οι απαιτήσεις

, , ,1 , nid i σε προϊόν του κάθε πελάτη i είναι ανεξάρτητες συνεχείς τυχαίες μεταβλητές με γνωστές

συναρτήσεις πυκνότητας ),(xf i τέτοιες ώστε ,0)( xf i όταν ,Qx όπου Q είναι η χωρητικότητα του

οχήματος. Μετά την εξυπηρέτηση του κάθε πελάτη, το όχημα έχει δύο επιλογές: (α) να ταξιδέψει προς τον

επόμενο πελάτη, ή (β) να επιστρέψει στην αποθήκη για να ανανεώσει το απόθεμά του και να συνεχίσει τη

διαδρομή του. Θεωρούμε ότι η ζήτηση κάθε πελάτη γίνεται γνωστή λίγο πριν την εξυπηρέτηση του πελάτη.

Το πρόβλημα είναι η εύρεση εκείνης της πολιτικής που ελαχιστοποιεί το συνολικό αναμενόμενο κόστος.

Ένα ρεαλιστικό παράδειγμα αυτού του μοντέλου μπορεί να είναι η περίπτωση κατά την οποία ένα όχημα

διανέμει πετρέλαιο σε συγκεκριμένα βενζινάδικα. Η ζήτηση σε πετρέλαιο από το κάθε βενζινάδικο μπορεί

να θεωρηθεί στοχαστική διότι όταν γίνεται η παραγγελία του πετρελαίου από το κάθε βενζινάδικο δεν είναι

γνωστή η ποσότητα του πετρελαίου που θα πουληθεί στους καταναλωτές από το κάθε βενζινάδικο στο

χρονικό διάστημα που μεσολαβεί ανάμεσα στην παραγγελία και στη διανομή του πετρελαίου από το όχημα.

Έστω ],,0[ ),( QqqVi το ελάχιστο συνολικό αναμενόμενο κόστος από τον πελάτη i μέχρι το τέλος της

διαδρομής, αν ο πελάτης i έχει εξυπηρετηθεί και η ποσότητα του προϊόντος που έχει απομείνει στο όχημα

είναι ίση με .q Αυτή η ποσότητα ικανοποιεί την ακόλουθη εξίσωση του δυναμικού προγραμματισμού:

Page 33: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

33

,1 , ,1 },~

),(min{)( niHqHqV iii (12)

όπου,

Q

q

q

iiiiiiii dxxfxqVdxxfxQqVccqH0

11110,11, ,)()()()](2[)( (13)

και

Q

iiiii dxxfxQVccH0

111,00 .)()(~

(14)

Η οριακή συνθήκη είναι:

]. ,0[ ,)( 0 QqcqV nn

Αν ),(~

qHH ii τότε η βέλτιστη απόφαση είναι η επιστροφή του οχήματος στην αποθήκη έτσι ώστε το όχημα

να ανανεώσει το απόθεμά του και εν συνεχεία να εξυπηρετήσει τον πελάτη .1i Αν ,~

)( ii HqH η βέλτιστη

απόφαση είναι τέτοια ώστε το όχημα να ταξιδέψει κατευθείαν προς τον επόμενο πελάτη .1i Σε αυτήν την

περίπτωση, αν η ζήτηση x του πελάτη είναι μεγαλύτερη από ,q τότε το όχημα τροφοδοτεί τον πελάτη 1i με

την ποσότητα ,q επιστρέφει στην αποθήκη για να ανανεώσει το απόθεμά του και εν συνεχεία επιστρέφει στον

πελάτη 1i για να τον τροφοδοτήσει με την υπόλοιπη ποσότητα .qx Σύμφωνα με την ακόλουθη Πρόταση 2,

για κάθε πελάτη ,11 , nii υπάρχει μία κρίσιμη ποσότητα ih τέτοια ώστε, η βέλτιστη απόφαση για το

όχημα είναι να ταξιδέψει κατευθείαν προς τον πελάτη 1i αν και μόνο αν η ποσότητα q που έχει απομείνει

στο όχημα μετά από την εξυπηρέτηση του πελάτη i είναι μεγαλύτερη ή ίση με .ih Το αποτέλεσμα του

Λήμματος 1 που ακολουθεί, θα χρησιμοποιηθεί στην απόδειξη της Πρότασης 2.

Λήμμα 1. ]. ,0[ ,1 , ,1 ,2)()( 0 QqnicQVqV iii

Απόδειξη. Από τις εξισώσεις (12) και (14) έχουμε ότι:

Q

iiiii dxxfxQVccqV0

111,00 .)()()( (15)

Από τις εξισώσεις (12), (13), (14) προκύπτει ότι

Page 34: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

34

Q

iiiii dxxfxQVcQV0

111, ,)()()( (16)

διότι τα κόστη ijc ικανοποιούν την τριγωνική ανισότητα. Από τις εξισώσεις (15) και (16) έχουμε ότι:

),(2)()()( 01,1,001,1,00 QVccQVccccQVccqV iiiiiiiiiiiiiii

όπου η δεύτερη ανισότητα προκύπτει από την τριγωνική ανισότητα. □

Πρόταση 2. Έστω ότι ].,0[ ,)( 0 QqcqH nn Οι συναρτήσεις )(qH i και )(qVi είναι φθίνουσες ως προς

. , ,1 , niq

Απόδειξη. Θα αποδείξουμε την πρόταση με επαγωγή ως προς .i Για ni οι ποσότητες )(qH n και )(qVn

είναι σταθερές ως προς .q Έστω ότι για 1 ni οι ποσότητες )(1 qH i και )(1 qVi είναι φθίνουσες ως προς .q

Θα αποδείξουμε ότι οι ποσότητες )(qH i και )(qVi είναι επίσης φθίνουσες ως προς .q Έστω .0 21 Qqq

Η διαφορά )()( 21 qHqH ii μπορεί να γραφεί ως εξής:

Q

q

iii

q

q

iiiii

dxxfxQqVc

dxxfxQqVcqHqH

2

2

1

)()](2[

)()](2[)()(

1110,1

1110,121

1

20

1210,1111 )()](2[)()(

q Q

q

iiiii dxxfxQqVcdxxfxqV

1 2

10

121121 .)()()()(

q q

q

iiii dxxfxqVdxxfxqV

Από την μονοτονία της )(1 qVi ως προς ,q προκύπτει ότι

Q

q

Q

q

iiiiii dxxfxQqVcdxxfxQqVc

2 2

)()](2[)()](2[ 1210,11110,1

και

Page 35: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

35

11

0

121

0

111 .)()()()(

q

ii

q

ii dxxfxqVdxxfxqV

Από τις παραπάνω ανισότητες, συμπεραίνουμε ότι η ανισότητα )()( 21 qHqH ii ισχύει αν

2

1

.0)()]()(2[ 121110,1

q

q

iiii dxxfxqVxQqVc

Επίσης, ισχύει ότι

2

1

2

1

,0)()]()(2[

)()]()(2[

12110,1

121110,1

q

q

iiii

q

q

iiii

dxxfxqVQVc

dxxfxqVxQqVc

όπου, η πρώτη ανισότητα προκύπτει από την μονοτονία της )(1 qVi και η δεύτερη ανισότητα προκύπτει από το

Λήμμα 1. Συνεπώς, η συνάρτηση )(qH i είναι φθίνουσα ως προς .q Από την εξίσωση (12), συμπεραίνουμε ότι

η συνάρτηση )(qVi είναι φθίνουσα ως προς q διότι η iH~

δεν εξαρτάται από την ποσότητα .q Η απόδειξη της

πρότασης είναι πλήρης.

Για κάθε ,1 , ,1 ni ισχύει ότι ii HQH~

)( και ,~

)0( ii HH διότι τα κόστη ijc ικανοποιούν την τριγωνική

ανισότητα. Από την Πρόταση 2 προκύπτει ότι, για κάθε 1 , ,1 ni υπάρχει μία κρίσιμη ποσότητα

),0( Qhi τέτοια ώστε .~

)( iii HhH Η βέλτιστη πολιτική επιλέγει εκείνη την ενέργεια σύμφωνα με την οποία

το όχημα ταξιδεύει κατευθείαν προς τον επόμενο πελάτη ,1i αν ,ihq ενώ αντιθέτως, επιλέγει εκείνη την

ενέργεια σύμφωνα με την οποία το όχημα επιστρέφει στην αποθήκη για να ανανεώσει το απόθεμά του, αν

.ihq Οι κρίσιμες ποσότητες ,1 , ,1 , nihi μπορούν να υπολογιστούν, κατά προσέγγιση, διαιρώντας το

διάστημα ],0[ Q σε μικρά υπό-διαστήματα μήκους και υπολογίζοντας αριθμητικά τα ολοκληρώματα στις

εξισώσεις (13) και (14). Το ελάχιστο αναμενόμενο κόστος υπολογίζεται στα σημεία ./ , ,0 , Qjj Ο

αλγόριθμος για τον υπολογισμό των κρίσιμων ποσοτήτων παρουσιάζεται παρακάτω.

Page 36: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

36

Αλγόριθμος για τον υπολογισμό των 1 , ,1 , nihi

Θέτουμε ./ , ,0 ,)( 0 QjcjV nn

Για 1 , ,1 ni υπολογίζουμε τις ποσότητες )0(iV και )(QVi :

1/

0

111,00 ,)()(~

)0(

Q

j

iiiiii jfjQVccHV

,)()()(/

0

111,

Q

j

iiiii jfjQVcQV

και για 0 , ,2/ ,1/ QQj υπολογίζουμε την ποσότητα :)( jH i

1

0

11

1/

110,11,

,)()(

)()](2[)(

j

r

ii

Q

jr

iiiiii

rfrjV

rfrQjVccjH

μέχρι να ισχύει ).0()( ii VjH Η κρίσιμη ποσότητα ih είναι ίση με ,)1~

( j όπου j~

είναι η μέγιστη τιμή

των }1/ , ,0{ Q που ικανοποιούν την παραπάνω ανισότητα. Για )0()( ,~

, ,1 ii VjVjj και για

).()( ,1/ , ,)1~

( jHjVQjj ii

Ένα αριθμητικό παράδειγμα παρουσιάζεται παρακάτω. Υποθέτουμε ότι η χωρητικότητα του οχήματος είναι

10Q και ο αριθμός των πελατών είναι .10n Οι απαιτήσεις id , ,10,,1i των πελατών είναι ανεξάρτητες

συνεχείς τυχαίες μεταβλητές ομοιόμορφα κατανεμημένες στο διάστημα ].10,0[ Επιλέγουμε 005.0 έτσι

ώστε το διάστημα ],0[ Q να διαιρείται σε 2000/ Q μικρά υπό-διαστήματα μήκους . Έστω ότι τα κόστη

της διαδρομής ανάμεσα στην αποθήκη (κορυφή 0) και τις κορυφές 10,,1 είναι: ,251,0 c ,202,0 c

,153,0 c ,224,0 c ,185,0 c ,126,0 c ,177,0 c ,208,0 c 189,0 c και .1310,0 c Τα κόστη της διαδρομής

ανάμεσα στις κορυφές i και 9 , ,1 ,1 ii είναι: ,182,1 c ,123,2 c ,164,3 c ,205,4 c ,146,5 c

,137,6 c ,108,7 c 159,8 c και .1910,9 c Οι κρίσιμες ποσότητες που λαμβάνονται από τον αλγόριθμο είναι:

,25.31 h ,335.22 h ,23.53 h ,445.44 h ,335.35 h ,295.56 h ,25.37 h 615.38 h και .385.59 h

Page 37: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

37

ΚΕΦΑΛΑΙΟ 2

ΜΟΝΤΕΛΑ ΑΠΕΙΡΟΥ ΧΡΟΝΙΚΟΥ ΟΡΙΖΟΝΤΑ

2.1 Εισαγωγή

Θεωρούμε ότι παρατηρούμε μία εν εξελίξει διαδικασία κατά τις χρονικές στιγμές .,1,0 t Έστω nX η

κατάσταση της διαδικασίας τη χρονική στιγμή .n Το σύνολο των δυνατών καταστάσεων της διαδικασίας είναι

αριθμήσιμο και χάριν ευκολίας, θεωρούμε ότι είναι το σύνολο των μη αρνητικών ακεραίων. Αφού

παρατηρήσουμε κάποια χρονική στιγμή ότι η κατάσταση της διαδικασίας είναι π.χ. η κατάσταση i μπορούμε

να επιλέξουμε μία ενέργεια (ή να λάβουμε μία απόφαση) )(iAa και υπό την επίδραση αυτής της ενέργειας, η

επόμενη κατάσταση της διαδικασίας θα είναι η κατάσταση j με πιθανότητα ).(apij Αυτή η μετάβαση επιφέρει

ένα κόστος, η αναμενόμενη τιμή του οποίου είναι ).,( aiC Για κάθε κατάσταση i της διαδικασίας, το σύνολο

A ( i ) των ενεργειών (ή αποφάσεων) θεωρείται πεπερασμένο. Έστω na η ενέργεια που λαμβάνεται κατά τη

χρονική στιγμή .n Πολιτική (policy) είναι οποιοσδήποτε κανόνας επιλογής των ενεργειών. Δεν θέτουμε

κανέναν περιορισμό για το σύνολο των επιτρεπόμενων πολιτικών. Έτσι, για παράδειγμα, η ενέργεια που

επιλέγεται σε μία συγκεκριμένη χρονική στιγμή από μία πολιτική μπορεί να εξαρτάται από την ιστορία της

διαδικασίας μέχρι εκείνη τη χρονική στιγμή ή μπορεί να είναι τυχαιοποιημένη υπό την έννοια ότι η ενέργεια a

επιλέγεται με κάποια πιθανότητα ).(, iAaPa Ένα σημαντικό υποσύνολο του συνόλου όλων των πολιτικών

είναι το σύνολο των στάσιμων πολιτικών. Μία πολιτική καλείται στάσιμη (stationary) αν είναι μη

τυχαιοποιημένη και η ενέργεια που επιλέγεται από αυτήν, τη χρονική στιγμή n εξαρτάται μόνον από την

κατάσταση της διαδικασίας κατά τη χρονική στιγμή .n

Θεωρούμε ότι υπάρχει ένας θετικός πραγματικός αριθμός B τέτοιος ώστε, για κάθε ενέργεια )(iAa και

κάθε κατάσταση i της διαδικασίας, ισχύει ότι: .|),(| BaiC Το συνολικό αναμενόμενο αποπληθωρισμένο

κόστος ( )V i σε άπειρο χρονικό ορίζοντα, υπό τον έλεγχο της πολιτικής , αν η αρχική κατάσταση της

διαδικασίας είναι η κατάσταση ,i ορίζεται ως εξής:

,|),()(0

0

t

tt

t iXaXCEiV

όπου η σταθερά ανήκει στο διάστημα (0,1) και καλείται αποπληθωριστικός παράγοντας (discount factor).

Με E συμβολίζουμε τη δεσμευμένη μέση τιμή δοθείσης της πολιτικής . Η ποσότητα ( )V i είναι καλώς

Page 38: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

38

ορισμένη, διότι το γεγονός ότι τα κόστη ),( aiC είναι φραγμένα και ότι ,1 έχει ως συνέπεια .1

|)(|

B

iV

Το κίνητρο της εισαγωγής του αποπληθωριστικού παράγοντα είναι οικονομικό διότι το κόστος που θα

πληρώσουμε στο μέλλον έχει μικρότερη αξία από αυτό που πληρώνουμε σήμερα.

Το πρόβλημα που μας ενδιαφέρει είναι να βρούμε εκείνη την πολιτική που ελαχιστοποιεί το συνολικό

αναμενόμενο αποπληθωρισμένο κόστος, για κάθε αρχική κατάσταση της διαδικασίας.

Μία πολιτική * καλείται βέλτιστη ( optimal), αν

*( )V i = inf

( )V i για όλα τα .0i

Έστω ( )V i = inf

( )V i . Συνεπώς, μία πολιτική * καλείται βέλτιστη αν *( )V i = ( )V i για όλα τα i 0. Η

εξίσωση του παρακάτω θεωρήματος είναι γνωστή ως εξίσωση βελτιστοποίησης (optimality equation) για τα

μοντέλα του άπειρου χρονικού ορίζοντα.

Θεώρημα 2.1 Ισχύει η ακόλουθη εξίσωση:

.0,)()(),(min)(0

)(

ijVapaiCiVj

ijiAa

(1)

Απόδειξη. Έστω μία τυχαία πολιτική. Υποθέτουμε ότι η πολιτική επιλέγει την ενέργεια a κατά τη

χρονική στιγμή 0 με πιθανότητα ).(, iAaPa Τότε:

)( 0

,)()(),()(iAa j

ija jWapaiCPiV

όπου, ( )W j είναι το συνολικό αναμενόμενο αποπληθωρισμένο κόστος από τη χρονική στιγμή 1 και μετά,

δοθέντος ότι η κατάσταση κατά τη χρονική στιγμή 1 είναι η κατάσταση .j Από τους ορισμούς των )( jV και

( )W j έπεται ότι: )()( jVjW και συνεπώς,

)( 0

)()( 0

)()(),(min)()(),()(iAa j

ijiAa

a

iAa j

ija jVapaiCPjVapaiCPiV

Page 39: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

39

.)()(),(min0

)(

j

ijiAa

jVapaiC

Αφού η πολιτική είναι μία τυχαία πολιτική, από την παραπάνω ανισότητα, έχουμε ότι:

.)()(),(min)(0

)(

j

ijiAa

jVapaiCiV (2)

Για να αποδείξουμε την αντίστροφη ανισότητα, έστω 0a η ενέργεια που είναι τέτοια ώστε:

0 0

)(00 .)()(),(min)()(),(

j j

ijiAa

ij jVapaiCjVapaiC (3)

Έστω η πολιτική που επιλέγει την ενέργεια 0a κατά την χρονική στιγμή 0 και αν η επόμενη κατάσταση είναι

η κατάσταση j τότε, θεωρώντας ότι η διαδικασία ξεκινάει από την κατάσταση j ακολουθεί μία πολιτική j

τέτοια ώστε:

.0,)()( jViVj

Συνεπώς,

0 0

0000 .)()(),()()(),()(j j

ijij jVapaiCjVapaiCiVjj

Αφού aV ( )i V ( )i από την παραπάνω ανισότητα, έχουμε ότι:

0

00 .)()(),()(j

ij jVapaiCiV

Συνεπώς, λόγω της (3), έχουμε:

Page 40: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

40

.)()(),(min)(0

)(

j

ijiAa

jVapaiCiV

Η Εξίσωση (1) έπεται από την Εξίσωση (2) και την παραπάνω σχέση, διότι είναι ένας αυθαίρετος θετικός

αριθμός. ■

Έστω ( )B I το σύνολο των φραγμένων πραγματικών συναρτήσεων επί του χώρου των καταστάσεων της

διαδικασίας. Ισχύει ότι V ( )B I για όλες τις πολιτικές . Μία στάσιμη πολιτική είναι μία συνάρτηση

),(: iAIf όπου I είναι ο χώρος καταστάσεων της διαδικασίας με την ερμηνεία σύμφωνα με την οποία

( )f i είναι η ενέργεια που επιλέγεται οποτεδήποτε η κατάσταση της διαδικασίας είναι η κατάσταση i .

Για κάθε στάσιμη πολιτική f ορίζουμε τη συνάρτηση ),()(: IBIBT f τέτοια ώστε:

( fT )( ) ( , ( ))u i C i f i +

0

).())((j

ij juifp

Δηλαδή, για κάθε συνάρτηση u ( )B I η ποσότητα fT u είναι μία συνάρτηση της οποίας η τιμή στην

κατάσταση i δίνεται από τον παραπάνω τύπο. Η συνάρτηση fT u είναι φραγμένη και συνεπώς ανήκει στο

σύνολο ( )B I . Ένας χρήσιμος τρόπος ερμηνείας της συνάρτησης fT u είναι ο εξής. Η τιμή ( fT u ) ( )i στην

κατάσταση i είναι το αναμενόμενο κόστος αν χρησιμοποιήσουμε αρχικά την πολιτική f και μετά από μία

περίοδο σταματήσουμε τη διαδικασία λαμβάνοντας ένα τελικό κόστος ίσο με ( )u j , αν η τελική κατάσταση

είναι η κατάσταση .j

Ορισμός 2.2 Για οποιεσδήποτε συναρτήσεις ,u v ( )B I , ισχύει ότι u v αν ( ) ( )u i v i για κάθε i 0.

Επίσης για ,nu u ( )B I ισχύει ότι: ,uun αν )()( iuiun καθώς ,n για κάθε i 0.

Είναι 1

f fT T και για ,1n 1( )n n

f f fT T T .

Το παρακάτω λήμμα αναφέρει σημαντικές ιδιότητες των συναρτήσεων fT .

Λήμμα 2.3 Αν ,u v ( )B I και f μία στάσιμη πολιτική, ισχύει ότι:

(i) u v f fT u T v (ii) f f fT V V και (iii) ,f

n

f VuT για κάθε u ( )B I .

Page 41: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

41

Απόδειξη. Το (i) έπεται άμεσα από τον ορισμό της .fT Το (ii) ισοδυναμεί με την εξίσωση:

0

).())(())(,()(j

fijf jVifpifiCiV

Η παραπάνω εξίσωση αληθεύει αν δεσμευτούμε στην κατάσταση στην οποία μεταβαίνει η διαδικασία κατά τη

χρονική στιγμή 1, αν χρησιμοποιηθεί η πολιτική .f Για το (iii) αρχικά, παρατηρούμε ότι:

0

2 ))())((())(,())((j

fijf juTifpifiCiuT

0 0

)())(())(,())(())(,(j j

jkij kujfpjfjCifpifiC

0 0 0

2 ),())(())(())(,())(())(,(j j k

jkijij kujfpifpjfjCifpifiC

δηλαδή 2

fT u είναι το αναμενόμενο κόστος, αν χρησιμοποιήσουμε την πολιτική f και σταματήσουμε τη

διαδικασία μετά από δυο περιόδους λαμβάνοντας ένα τελικό κόστος ίσο με .2u Με επαγωγή αποδεικνύεται

ότι η ποσότητα n

fT u είναι το αναμενόμενο κόστος αν χρησιμοποιήσουμε την πολιτική f για n βήματα και

μετά σταματήσουμε τη διαδικασία λαμβάνοντας ένα τελικό κόστος ίσο με .un Αφού 1 και η συνάρτηση

u είναι φραγμένη, έπεται ότι .f

n

f VuT ■

Με βάση τα παραπάνω, μπορούμε να δείξουμε το ακόλουθο σημαντικό θεώρημα.

Θεώρημα 2.4 Έστω f η στάσιμη πολιτική η οποία, όταν η διαδικασία βρίσκεται στην κατάσταση i , επιλέγει

την ενέργεια εκείνη που ελαχιστοποιεί το δεξιό μέλος της (1), δηλαδή ( )f i είναι τέτοια ώστε:

0 0

)(.0,)()(),(min)())(())(,(

j j

ijiAa

ij ijVapaiCjVifpifiC

Τότε ( ) ( )fV i V i για κάθε 0i και συνεπώς η πολιτική f είναι βέλτιστη.

Απόδειξη. Είναι

0 0

)(),()()(),(min)())(())(,())((

j j

ijiAa

ijf iVjVapaiCjVifpifiCiVT

Page 42: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

42

όπου, η τελευταία ισότητα έπεται από το Θεώρημα 2.1. Άρα, fT V V . Από την τελευταία ισότητα έπεται ότι:

VVTVTTVT ffff )(2

και με επαγωγή, έχουμε n

fT V V , για n 1. Παίρνοντας το όριο για n

και χρησιμοποιώντας το (iii) του Λήμματος 2.3, έχουμε ότι fV V . ■

Αποδείξαμε την ύπαρξη μίας -βέλτιστης πολιτικής. Συγκεκριμένα, αποδείξαμε την ύπαρξη μίας στάσιμης -

βέλτιστης πολιτικής που προσδιορίζεται από την Εξίσωση (1). Συνεπώς, αν μπορούμε να βρούμε το ελάχιστο

συνολικό αναμενόμενο αποπληθωρισμένο κόστος ( ), 0V i i , τότε η στάσιμη πολιτική η οποία, όταν η

διαδικασία βρίσκεται στην κατάσταση i επιλέγει εκείνη την ενέργεια που ελαχιστοποιεί την παράσταση

0

)()(),(j

ij jVapaiC είναι -βέλτιστη.

Υποθέτουμε ότι για μία στάσιμη πολιτική f έχουμε υπολογίσει το αναμενόμενο κόστος ( ), 0fV i i . Έστω

*f μία στάσιμη πολιτική η οποία, όταν η διαδικασία βρίσκεται στην κατάσταση i, επιλέγει την ενέργεια εκείνη

που ελαχιστοποιεί την παράσταση:

0

),()(),(j

fij jVapaiC δηλαδή )(* if είναι τέτοια ώστε

0 0

)(.0,)()(),(min)())(*())(*,(

j j

fijiAa

fij ijVapaiCjVifpifiC

Ερώτημα: Πόσο «καλή» είναι η *f συγκρινόμενη με την πολιτική f ;

Το ακόλουθο αποτέλεσμα δείχνει ότι η πολιτική *f είναι τουλάχιστον τόσο «καλή» όσο και η .f Στη

συνέχεια, θα δείξουμε ότι δύο πράγματα είναι δυνατά:

(α) Η πολιτική *f είναι γνήσια «καλύτερη» της f για τουλάχιστον μία αρχική κατάσταση, ή

(β) Η πολιτική ff * είναι -βέλτιστη.

Πόρισμα 2.5 Ισχύει ότι ),()(* iViV ff για κάθε .0i

Απόδειξη. Είναι

0

* )())(*())(*,())((j

fijff jVifpifiCiVT

0

( , ( )) ( ( )) ( )

ij f

j

C i f i p f i V j

( ) fV i ,

Page 43: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

43

όπου η ανισότητα οφείλεται στον ορισμό της πολιτικής *f και η ισότητα στο Λήμμα 2.3(ii). Συνεπώς

fff VVT * και εφαρμόζοντας *fT και στα δύο μέλη της παραπάνω ανισότητας από την μονοτονία της *fT

(Λήμμα 2.3(i)) προκύπτει ότι: fffff VVTVT *

2

* και με επαγωγή .* ff

n

f VVT Παίρνοντας το όριο καθώς

n και χρησιμοποιώντας το Λήμμα 2.3(iii) προκύπτει το αποτέλεσμα του πορίσματος. ■

Η τεχνική, σύμφωνα με την οποία, ξεκινώντας από μία αρχική στάσιμη πολιτική και χρησιμοποιώντας το

Πόρισμα 2.5, βρίσκουμε μία καλύτερη στάσιμη πολιτική βελτιώνοντας την προηγούμενη και στη συνέχεια

βελτιώνοντας την νέα πολιτική κ.ο.κ. είναι γνωστή ως αλγόριθμος βελτίωσης των πολιτικών (policy iteration

algorithm). Θα αναφερθούμε στη συνέχεια σ’ αυτό το θέμα με περισσότερες λεπτομέρειες.

2.2 Συστολές και αποπληθωρισμένος δυναμικός προγραμματισμός.

Στη συνέχεια, θα δούμε τον τρόπο με τον οποίο η θεωρία συστολών μπορεί να εφαρμοστεί σε προβλήματα

βελτιστοποίησης στοχαστικών μοντέλων. Το επόμενο ερώτημα που μας απασχολεί είναι πως μπορούμε να

προσδιορίσουμε την ποσότητα ( ), 0V i i . Πριν απαντήσουμε σ’ αυτό το ερώτημα, παραθέτουμε ορισμένες

προκαταρκτικές γνώσεις από τη θεωρία συστολών. Για οποιαδήποτε συνάρτηση ( )u B I έστω

0

|| || sup | ( ) |

i

u u i

Ορισμός 2.6 Μία συνάρτηση : ( ) ( )T B I B I καλείται συστολή (contraction mapping) αν

,vuTvTu

για κάποιο 1 και για κάθε , ( )u v B I . Η συνάρτηση u v είναι η συνάρτηση της οποίας η τιμή στο i είναι

( ) ( )u i v i .

Παρακάτω αναφέρουμε ένα σημαντικό θεώρημα το οποίο παραθέτουμε χωρίς απόδειξη. Για την απόδειξη

συμβουλευθείτε οποιοδήποτε βιβλίο Συναρτησιακής Ανάλυσης.

Θεώρημα 2.7 (Σταθερού Σημείου για Συστολές, Contraction Mapping Fixed Point Theorem).

Αν : ( ) ( )T B I B I είναι συστολή, τότε υπάρχει μία μοναδική συνάρτηση ( )g B I τέτοια ώστε: Tg g .

Επιπλέον, για κάθε ( )u B I ,

nT u g καθώς n .

Για να εφαρμόσουμε το θεώρημα, ας ορίσουμε τη συνάρτηση : ( ) ( )T B I B I ως εξής:

Page 44: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

44

( )0

( )( ) min ( , ) ( ) ( )

ij

a A ij

T u i C i a p a u j .

Από το Θεώρημα 2.1 έπεται ότι:

T V V .

Συνεπώς, αν μπορέσουμε να δείξουμε ότι η συνάρτηση T είναι συστολή, τότε αυτό θα συνεπάγεται ότι η V

μπορεί να βρεθεί τουλάχιστον προσεγγιστικά αν διαδοχικά εφαρμόσουμε την T σε οποιαδήποτε αρχική

συνάρτηση ( )u B I . Αυτή η διαδικασία είναι γνωστή ως μέθοδος των διαδοχικών προσεγγίσεων (method of

successive approximations).

Θεώρημα 2.8 Η συνάρτηση T είναι μία συστολή.

Απόδειξη. Για κάθε , ( )u v B I έχουμε:

( )( ) ( )( )T u i T v i

( ) ( )

0 0

min ( , ) ( ) ( ) min ( , ) ( ) ( )

ij ij

a A i a A ij j

C i a p a u j C i a p a v j

( )

0 0

min ( , ) ( ) ( ) ( , ) ( ) ( )

ij ij

a A ij j

C i a p a u j C i a p a v j

όπου a είναι τέτοια ώστε:

( )0 0

( , ) ( ) ( ) min ( , ) ( ) ( )

ij ij

a A ij j

C i a p a v j C i a p a v j .

Διαδοχικά, έχουμε:

( )( ) ( )( )T u i T v i 0 0

( ) ( ) ( ) ( )

ij ij

j j

p a u j p a v j

0 0

( )[ ( ) ( )] ( )sup[ ( ) ( )]

ij ijjj j

p a u j v j p a u j v j

||||)]()([sup vujvjuj

Από την παραπάνω ανισότητα, έχουμε ότι:

.||||)]()([sup))(())((sup0

vujvjuivTiuTji

Με εναλλαγή των ρολών των u και v προκύπτει ότι )].()([sup))(())((sup0

jujviuTivTji

Page 45: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

45

Συνδυάζοντας τις δύο παραπάνω ανισότητες έπεται ότι ,)()(sup))(())((sup0

iviuivTiuTji

ή ισοδύναμα .vuvTuT Το ζητούμενο αποτέλεσμα αποδείχτηκε. ■

Ως άμεσο επακόλουθο του παραπάνω θεωρήματος και του Θεωρήματος Σταθερού Σημείου, παίρνουμε το

ακόλουθο πόρισμα:

Πόρισμα 2.9 Η συνάρτηση V είναι η μοναδική λύση της εξίσωσης:

.0,)()(),(min)(0

)(

ijVapaiCiVj

ijiAa

Επιπλέον, για κάθε συνάρτηση ,),( VuTIBu n καθώς .n

Παρατηρήσεις. (i) Μία ιδιαίτερα χρήσιμη επιλογή για τη συνάρτηση u είναι να θεωρήσουμε ως u τη

μηδενική συνάρτηση, δηλαδή .0,0 iui Τότε, αν θεωρήσουμε ),(0)(, iTiV n

n προκύπτει ότι η ποσότητα

)(, iVn ισούται με το ελάχιστο συνολικό αναμενόμενο αποπληθωρισμένο κόστος για το πρόβλημα του

πεπερασμένου χρονικού ορίζοντα μήκους .n Πολλές φορές σημαντικά αποτελέσματα που αφορούν την

ποσότητα )(iV μπορούν να αποδειχτούν, αφού πρώτα αποδειχθεί η ισχύ τους για την ποσότητα )(, iVn και

μετά πάρουμε το όριο για .n Για παράδειγμα, μπορεί να δειχθεί ότι η ποσότητα )(iV είναι μονότονη ως

προς ,i αφού δειχθεί ότι αυτό ισχύει για την ποσότητα ).(, iVn Η ομοιότητα της μορφής των συναρτήσεων

)(iV και )(, iVn θα φανεί σε παράδειγμα που θα παρουσιάσουμε παρακάτω.

(ii) Το Πόρισμα 2.9 μας επιτρέπει να δείξουμε ότι στον αλγόριθμο βελτίωσης των πολιτικών, δύο πράγματα

είναι δυνατά: (α) Η νέα πολιτική είναι «γνήσια» καλύτερη από την προηγούμενη, ή (β) και οι δύο πολιτικές

είναι βελτιστες. Αυτός ο ισχυρισμός αποδεικνύεται ως εξής: Αν ,0),()(* iiViV ff τότε από τη σχέση:

0 0

)(.0,)()(),(min)())(*())(*,(

j j

fijiAa

fij ijVapaiCjVifpifiC

και από το Λήμμα 2.3(ii) έπεται ότι η fV ικανοποιεί το δεξιό μέλος της εξίσωσης βελτιστοποιησης (1) και

συνεπώς από το Πόρισμα 2.9, έχουμε .0),()( iiViV f

(iii) Η συνάρτηση fT είναι μία συστολή.

Page 46: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

46

Πράγματι, ,])()())[((sup))(())((sup000

vujvjuifpivTiuTvTuTj

iji

ffi

ff

για κάθε ).(, IBvu Άρα η fT είναι μία συστολή. Συνεπώς από το Λήμμα 2.3(ii) προκύπτει ότι η fV είναι η

μοναδική λύση της εξίσωσης:

0

.0),())(())(,()(j

fijf ijVifpifiCiV

(iv) Αν το σύνολο των καταστάσεων της διαδικασίας είναι πεπερασμένο (για παράδειγμα, αν είναι το σύνολο

}),,,2,1{ n ο αλγόριθμος βελτίωσης των πολιτικών λειτουργεί ως εξής: Επιλέγουμε μία αρχική στάσιμη

πολιτική .f Υπολογίζουμε τις ποσότητες ,,,1),( niiV f λύνοντας το παρακάτω γραμμικό σύστημα n

εξισώσεων με n αγνώστους:

0

.,,1),())(())(,()(j

fijf nijVifpifiCiV

Κατόπιν βρίσκουμε τη στάσιμη πολιτική *f η οποία, όταν η διαδικασία βρίσκεται στην κατάσταση i , επιλέγει

την ενέργεια a A i που ελαχιστοποιεί την παράσταση

0

).()(),(j

fij jVapaiC

Κατόπιν βρίσκουμε τις ποσότητες ,,,1),(* niiV f για να βελτιώσουμε την πολιτική *f κ.ο.κ. Επειδή ο

αριθμός των δυνατών στάσιμων πολιτικών είναι πεπερασμένος, διότι ο αριθμός των καταστάσεων είναι

πεπερασμένος, τελικά θα φτάσουμε σε μία στάσιμη πολιτική για την οποία δεν υπάρχει «γνήσια» βελτίωση.

Αυτή είναι η βέλτιστη πολιτική.

Συνοψίζοντας, υπάρχουν δύο διαφορετικοί αλγόριθμοι για τη λύση του προβλήματος:

(α) Μέθοδος των διαδοχικών προσεγγίσεων (Method of successive approximations).

(β) Αλγόριθμος βελτίωσης των πολιτικών (Policy-iteration algorithm).

Τονίζουμε ότι, όλα τα παραπάνω αποτελέσματα ισχύουν αν, αντί της ελαχιστοποίησης του συνολικού

αναμενόμενου αποπληθωρισμένου κόστους, μας ενδιαφέρει η μεγιστοποίηση του συνολικού αναμενόμενου

αποπληθωρισμένου κέρδους. Σε αυτήν την περίπτωση, η εξίσωση βελτιστοποίησης (αντίστοιχη της (1)) είναι:

,0,)()(),(max)(0

)(

ijVapaiRiVj

ijiAa

όπου ,R i a είναι το αναμενόμενο κέρδος, όταν βρισκόμαστε

στη κατάσταση i και λάβουμε την απόφαση a (αντίστοιχο του )).,( aiC

Page 47: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

47

2.3 Περιγραφή των δύο αλγορίθμων

Μπορούμε να περιγράψουμε σε βήματα τον αλγόριθμο βελτίωσης των πολιτικών για μία διαδικασία με χώρο

καταστάσεων το σύνολο }.,,1{ n

Βήμα 0 (Έναρξη). Επιλέγουμε μία στάσιμη πολιτική .f

Βήμα 1. Για αυτήν την πολιτική, υπολογίζουμε τις ποσότητες niiV f ,,1),( λύνοντας το παρακάτω

γραμμικό σύστημα n εξισώσεων με n αγνώστους:

0

),())(())(,()(

j

fijf jVifpifiCiV .,,1 ni

Βήμα 2 (Βήμα βελτίωσης των πολιτικών). Βρίσκουμε τη στάσιμη πολιτική *f η οποία, όταν η διαδικασία

βρίσκεται στην κατάσταση ,i επιλέγει την ενέργεια )(iAa που ελαχιστοποιεί την παράσταση:

0

).()(),(

j

fij jVapaiC

Η νέα στάσιμη πολιτική *f λαμβάνεται επιλέγοντας iaif )(* για κάθε κατάσταση i της διαδικασίας με την

προϋπόθεση ότι η ενέργεια )(* if επιλέγεται ίδια με την ενέργεια της προηγούμενης πολιτικής )(if όταν η

ενέργεια αυτή ελαχιστοποιεί την παραπάνω παράσταση.

Βήμα 3 (Σύγκλιση). Αν η καινούργια πολιτική *f είναι ίδια με την προηγούμενη πολιτική ,f ο αλγόριθμος

σταματά. Διαφορετικά, επιστρέφουμε στο Βήμα 1 με την πολιτική f να αντικαθίσταται από την πολιτική .*f

Ο αλγόριθμος βελτίωσης των πολιτικών απαιτεί σε κάθε επανάληψή του, την επίλυση ενός συστήματος

γραμμικών εξισώσεων με διάσταση ίση με τη διάσταση του χώρου καταστάσεων της διαδικασίας για την οποία

επιλύεται. Το γεγονός αυτό επιβαρύνει υπολογιστικά τους αλγορίθμους βελτίωσης των πολιτικών και τους

κάνει λιγότερο ελκυστικούς σε προβλήματα δυναμικού προγραμματισμού με μεγάλο χώρο καταστάσεων. Ένας

εναλλακτικός αλγόριθμος αποφεύγει την επίλυση συστημάτων γραμμικών εξισώσεων και χρησιμοποιεί έναν

αναδρομικό τρόπο επίλυσης των προβλημάτων που βασίζεται στο δυναμικό προγραμματισμό. Ο αλγόριθμος

στηρίζεται στη μέθοδο των διαδοχικών προσεγγίσεων και υπολογίζει αναδρομικά μία ακολουθία τιμών

συνάρτησης η οποία προσεγγίζει την τιμή του ελάχιστου συνολικού αναμενόμενου αποπληθωρισμένου

κόστους. Ο αλγόριθμος προσεγγίζει αναδρομικά για ,,2,1 n τη συνάρτηση )(, iVn από τον τύπο:

.0,)()(),(min)(

0

,1)(

,

ijVapaiCiV

j

nijiAa

n

Page 48: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

48

Η ποσότητα )(, iVn μπορεί να θεωρηθεί ως το ελάχιστο συνολικό αναμενόμενο αποπληθωρισμένο κόστος

όταν απομένουν n χρονικές περίοδοι για το τέλος της διαδικασίας. Σύμφωνα με τη μέθοδο των διαδοχικών

προσεγγίσεων για μεγάλες τιμές του ,n οι διαφορές )()( ,1, iViV nn θα είναι πολύ κοντά στην τιμή του

ελάχιστου συνολικού αναμενόμενου αποπληθωρισμένου κόστους. Η στάσιμη πολιτική της οποίας οι ενέργειες

ελαχιστοποιούν την παράσταση ανάμεσα στα άγκιστρα για κάθε κατάσταση i της διαδικασίας στην παραπάνω

εξίσωση θα είναι η βέλτιστη. Τα βήματα της μεθόδου των διαδοχικών προσεγγίσεων είναι:

Βήμα 0 (Έναρξη). Επιλέγουμε )(,0 iV με ),,(min)(0 ,0 aiCiVa

για κάθε κατάσταση i της διαδικασίας.

Βήμα 1. Υπολογίζουμε τη συνάρτηση )(, iVn για κάθε κατάσταση i της διαδικασίας, από τον τύπο:

0,)()(),(min)(

0

,1)(

,

ijVapaiCiV

j

nijiAa

n

και καθορίζουμε την πολιτική της οποίας οι ενέργειες ελαχιστοποιούν το δεξιό μέλος της συνάρτησης

.0),(, iiVn

Βήμα 2 (Σύγκλιση). Ο αλγόριθμος σταματά όταν ,|)()(| ,1, iViV nn όπου καλείται όριο ανοχής

(tolerance number) και είναι ένας προκαθορισμένος πολύ μικρός αριθμός (π.χ. ).10 4

Βήμα 3. Θέτουμε 1: nn και μεταβαίνουμε στο Βήμα 1.

2.4 Πλεονεκτήματα και μειονεκτήματα των δύο αλγορίθμων

Ο αλγόριθμος βελτίωσης των πολιτικών έχει τα ακόλουθα πλεονεκτήματα:

(i) Παρουσιάζει κατά την εκτέλεσή του σημαντική βελτίωση από τις πρώτες του επαναλήψεις (συνήθως

μετά την πρώτη επανάληψη, δηλαδή κατά τη 2η ή κατά τη 3η επανάληψή του).

(ii) Συγκλίνει μετά από ένα πεπερασμένο αριθμό βημάτων (επαναλήψεων) σχετικά γρήγορα και είναι ένας

ευσταθής αλγόριθμος.

(iii) Ο αριθμός των επαναλήψεων του αλγορίθμου είναι ανεξάρτητος του αριθμού των καταστάσεων του

υπό εξέταση μοντέλου και συνήθως κυμαίνεται μεταξύ των αριθμών 3 και 15.

Ο αλγόριθμος βελτίωσης των πολιτικών έχει τα ακόλουθα μειονεκτήματα:

(i) Είναι αρκετά δύσκολο να υλοποιηθεί αλγοριθμικά διότι σε κάθε επανάληψή του απαιτείται η επίλυση

ενός γραμμικού συστήματος.

Page 49: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

49

(ii) Όταν το υπό εξέταση μοντέλο έχει μεγάλο χώρο καταστάσεων ή μεγάλη διάσταση (π.χ. μεγαλύτερη από

δύο) είναι δύσκολη η υλοποίηση του αλγορίθμου.

Ο αλγόριθμος των διαδοχικών προσεγγίσεων έχει τα ακόλουθα πλεονεκτήματα:

(i) Ενδείκνυται σε προβλήματα μοντέλων με μεγάλους χώρους καταστάσεων.

(ii) Είναι πολύ πιο εύκολα υλοποιήσιμος αλγοριθμικά διότι χρησιμοποιεί έναν αναδρομικό τρόπο επίλυσης

των προβλημάτων που βασίζεται στον δυναμικό προγραμματισμό.

Ο αλγόριθμος των διαδοχικών προσεγγίσεων έχει τα ακόλουθα μειονεκτήματα:

(i) Δεν έχει την ευστάθεια του αλγορίθμου βελτίωσης των πολιτικών ειδικά για περιοδικά μοντέλα.

(ii) Ο αριθμός των επαναλήψεων του αλγορίθμου εξαρτάται από το υπό-εξέταση πρόβλημα και συνήθως

αυξάνεται όταν αυξάνεται ο αριθμός των καταστάσεων της διαδικασίας.

(iii) Το όριο ανοχής και η συνάρτηση 0),(0 iiV επηρεάζουν τον αριθμό των απαιτούμενων

επαναλήψεων του αλγορίθμου.

2.5 Παραδείγματα

Παράδειγμα 1 (Ένα μοντέλο για την αντικατάσταση ενός μηχανήματος). Θεωρούμε ένα μηχάνημα το οποίο

μπορεί να βρίσκεται σε οποιαδήποτε από τις καταστάσεις .,2,1,0 Υποθέτουμε ότι στην αρχή κάθε μέρας η

κατάσταση του μηχανήματος παρατηρείται και αποφασίζεται αν θα αντικατασταθεί ή αν δεν θα

αντικατασταθεί. Αν αποφασιστεί να αντικατασταθεί, τότε υποθέτουμε ότι το μηχάνημα αντικαθίσταται αμέσως

από ένα καινούργιο. Η κατάσταση του καινούργιου μηχανήματος είναι η κατάσταση 0. Το κόστος

αντικατάστασης του μηχανήματος είναι ίσο με R . Επιπλέον υποθέτουμε ότι υπάρχει ένα κόστος συντήρησης

ίσο με C i για κάθε μέρα που το μηχάνημα είναι στην κατάσταση .i Επίσης έστω i jP η πιθανότητα ένα

μηχάνημα που βρίσκεται στην κατάσταση i στην αρχή κάποιας μέρας, να μεταβεί στην κατάσταση j στην

αρχή της επόμενης μέρας. Έχουμε ακόμα τις εξής υποθέσεις για το κόστος συντήρησης και τις πιθανότητες

μετάβασης:

(i) Η συνάρτηση , 0C i i είναι φραγμένη και αύξουσα.

(ii) Η έκφραση i j

j

P

είναι αύξουσα ως προς i για κάθε 0 .

Page 50: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

50

Η Υπόθεση (i) σημαίνει ότι το κόστος συντήρησης είναι μία αύξουσα συνάρτηση της κατάστασης. Η Υπόθεση

(ii) σημαίνει ότι η πιθανότητα μετάβασης σε οποιοδήποτε σύνολο τιμών , 1,...

είναι μια αύξουσα

συνάρτηση της παρούσας κατάστασης.

Σε αυτό το μοντέλο οι ενέργειες που αντιστοιχούν στις καταστάσεις 1,2,... είναι η Ενέργεια 1, που σημαίνει

«αντικατάσταση» και η Ενέργεια 2, που σημαίνει «μη-αντικατάσταση». Στην κατάσταση 0 αντιστοιχεί μόνο η

Ενέργεια 2. Από την περιγραφή του μοντέλου, έχουμε τις ακόλουθες εκφράσεις για τις ποσότητες ,C i a ,

i jP a :

,1 0 , ,2 , 1C i R C C i C i i

00,2 0 , 1 , 2 , 1i j j i j i jC C P P P P i

0 02j jP P

Για την εύρεση της μορφής της βέλτιστης πολιτικής, θα χρειαστούμε το ακόλουθο λήμμα, του οποίου η

απόδειξη παραλείπεται (βασίζεται στην Υπόθεση (ii)).

Λήμμα 2.10 Για οποιαδήποτε αύξουσα συνάρτηση h i , η συνάρτηση 0

i j

j

P h j

είναι επίσης αύξουσα ως

προς .i

Στην απόδειξη του παρακάτω λήμματος θα χρησιμοποιήσουμε την Παρατήρηση 1.

Λήμμα 2.11 Αν οι Υποθέσεις (i) και (ii) ισχύουν, τότε η ποσότητα ,0),( iiV είναι αύξουσα.

Απόδειξη. Θα δείξουμε αρχικά ότι , ( ), 0nV i i είναι αύξουσα.

Η απόδειξη θα γίνει επαγωγικά ως προς .n Για 1n , έχουμε: 1, ( ) min (0), ( ) , 1V i R C C i i

και 1, (0) (0)V C

Αφού , 0C i i αύξουσα, έχουμε ότι 1, ( ), 0V i i

είναι αύξουσα. Έστω ότι 1, ( ), 0nV i i

αύξουσα. Τότε

, 0 1, 1,

0 0

( ) min (0) ( ), ( ) ( ) , 1n j n ij n

j j

V i R C P V j C i PV j i

Page 51: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

51

, 0 1,

0

(0) (0) ( )n j n

j

V C P V j

Από την επαγωγική υπόθεση και το Λήμμα 2.10 προκύπτει ότι , ( ), 0nV i i είναι αύξουσα ως προς .i Όμως

,lim ( ) ( ), 0nn

V i V i i

. Άρα ,0),( iiV είναι αύξουσα. □

Η μορφή της βέλτιστης πολιτικής δίνεται στο παρακάτω θεώρημα.

Θεώρημα 2.12 Υπάρχει ένας μη-αρνητικός ακέραιος i , i , τέτοιος ώστε η βέλτιστη πολιτική

αντικαθιστά το μηχάνημα όταν η κατάσταση του μηχανήματος είναι μεγαλύτερη του i και δεν το αντικαθιστά

όταν είναι μικρότερη ή ίση του i .

Απόδειξη. Η εξίσωση βελτιστοποίησης είναι:

0

0 0

( ) min (0) ( ), ( ) ( ) , 0j ij

j j

V i R C P V j C i PV j i

Έστω 0

0 0

: max : ( ) ( ) (0) ( )ij j

j j

i i C i PV j R C P V j

Από τα δυο προηγούμενα λήμματα, έπεται ότι 0

( ) ( )ij

j

C i PV j

είναι αύξουσα ως προς i . Συνεπώς:

.

*),()0(

*),()(

)(

0

0

0

j

j

j

ij

iijVPCR

iijVPiC

iV

Το αποτέλεσμα έπεται άμεσα από το Θεώρημα 2.4. ■

Παράδειγμα 2 (Ένα απλό μοντέλο για τον έλεγχο αποθεμάτων). Υποθέτουμε ότι ένα κατάστημα πώλησης

αυτοκινήτων χωράει το πολύ 3 αυτοκίνητα. Αν στην αρχή της ημέρας το κατάστημα διαθέτει , 0,1,2,3i i

αυτοκίνητα, υπάρχει δυνατότητα να παραγγελθούν 3 i αυτοκίνητα, τα οποία φθάνουν στο κατάστημα

αμέσως.

Το κόστος παραγγελίας a αυτοκινήτων είναι ίσο με C a όπου, 0 0, 1 6, 2 8, 3 10C C C C .

Η πιθανότητα P i ζήτησης i αυτοκινήτων από το συγκεκριμένο κατάστημα κατά τη διάρκεια μίας ημέρας

δίνεται από τις σχέσεις: 1 1 1 1

0 , 1 , 2 , 38 4 2 8

P P P P .

Page 52: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

52

Αν κάποια μέρα ο αριθμός i των αυτοκινήτων στο κατάστημα υπερβαίνει τη ζήτηση d της ημέρας, τότε

υπάρχει ένα αποθεματικό κόστος (holding cost) ίσο με ).( dih Υποθέτουμε ότι , 0,1,2,3h z z z . Αν

κάποια μέρα ο αριθμός i των αυτοκινήτων στο κατάστημα είναι μικρότερος της ζήτησης d της ημέρας, τότε

υπάρχει ένα κόστος λόγω έλλειψης (shortage cost) ίσο με ).( id Υποθέτουμε ότι .3,2,1,0,12)( zzz

Μας ενδιαφέρει η εύρεση της πολιτικής που ελαχιστοποιεί το συνολικό αναμενόμενο αποπληθωρισμένο κόστος

όταν ο αποπληθωριστικός παράγοντας είναι ίσος με 0.9 .

Λύση. Ο χώρος καταστάσεων είναι ο αριθμός των αυτοκινήτων που διαθέτει το κατάστημα κατά την αρχή της

ημέρας, δηλαδή είναι το σύνολο 0,1,2,3 . Στην κατάσταση i αντιστοιχεί η ενέργεια },3,,1,0{ ia όπου

a είναι ο αριθμός των αυτοκινήτων που παραγγέλνονται. Τα δεδομένα του προβλήματος συνοψίζονται στον

παρακάτω πίνακα:

Κατάσταση i Ενέργεια a ),( aiC )(0 api )(1 api )(2 api )(3 api

0 0 19.5 1 0 0 0

1 15.125 0.875 0.125 0 0

2 10 0.625 0.25 0.125 0

3 11.375 0.125 0.5 0.25 0.125

1 0 9.125 0.875 0.125 0 0

1 8 0.625 0.25 0.125 0

2 9.375 0.125 0.5 0.25 0.125

2 0 2 0.625 0.25 0.125 0

1 7.375 0.125 0.5 0.25 0.125

3 0 1.375 0.125 0.5 0.25 0.125

Ο πίνακας επιβεβαιώνεται εύκολα. Για παράδειγμα:

,5.0)2()2()1(21 PdPP

,625.08

1

2

1)3()2()3()2()1(10 PPdPdPP

,24

8

4

1

4

7

8

112

2

10

4

11

8

12)3()1()2()0()1()1()0()2()0,2( pphphphC

.125.158

7

4

6

2

18

8

30)3())2()1(()2())1()1(()1()1()0())1()1(()1,0( pcpcpcphcC

Page 53: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

53

Θα βρούμε τη βέλτιστη πολιτική χρησιμοποιώντας τον αλγόριθμο βελτίωσης των πολιτικών. Έστω ,,, 21 ff η

ακολουθία των στάσιμων πολιτικών που παράγονται από τον αλγόριθμο. Ως αρχική πολιτική επιλέγουμε εκείνη

που ελαχιστοποιεί τις ποσότητες ).,( aiC Μία τέτοια επιλογή έχει αποδειχθεί συμφέρουσα από την πρακτική

εμπειρία.

Από τον παραπάνω πίνακα έχουμε: .0)3(,0)2(,1)1(,2)0( 1111 ffff Για να βρούμε το κόστος ),(1

iV f

,3,2,1,0i που αντιστοιχεί στην πολιτική 𝑓1, λύνουμε το παρακάτω σύστημα των γραμμικών εξισώσεων:

)2(125.0)1(25.0)0(625.09.010)0(1111 ffff VVVV

)2(125.0)1(25.0)0(625.09.08)1(1111 ffff VVVV

)2(125.0)1(25.0)0(625.09.02)2(1111 ffff VVVV

)3(125.0)2(25.0)1(5.0)0(125.09.0375.1)3(11111 fffff VVVVV

Η λύση είναι: .26.75)3(,5.78)2(,5.84)1(,5.86)0(1111

ffff VVVV

Θα προσπαθήσουμε να βελτιώσουμε την πολιτική 𝑓1 βασιζόμενοι στο Πόρισμα 2.5.

Οι υπολογισμοί γίνονται παρακάτω:

ΚΑΤΑΣΤΑΣΗ 0

Ενέργεια a

3

0

0 )()(9.0),0(1

j

fj jVaPaC

0 19.5 + 0.9 × 86.5 = 97.35

1 15.125 + 0.9[0.875 × (86.5) + 0.125 × (84.5)] = 92.75

2 10 + 0.9[0.625 × (86.5) + 0.25 × (84.5) + 0.125(78.5)] = 86.5

3 11.375 + 0.9[0.125 × (86.5) + 0.5 × (84.5) + 0.25 × (78.5) + 0.125 × (75.26)]=85.26

ΚΑΤΑΣΤΑΣΗ 1

Ενέργεια a

3

0

1 )()(9.0),1(1

j

fj jVaPaC

0 9.125 + 0.9[0.875 × (86.5) + 0.125 × (84.5)] = 86.5

1 8 + 0.9[0.625 × (86.5) + 0.25 × (84.5) + 0.125(78.5)] = 84.5

2 9.375 + 0.9[0.125 × (86.5) + 0.5 × (84.5) + 0.25 × (78.5) + 0.125 × (75.26)]=𝟖𝟑. 𝟐𝟔

ΚΑΤΑΣΤΑΣΗ 2

Ενέργεια a

3

0

2 )()(9.0),2(1

j

fj jVaPaC

0 5.78125.05.8425.05.86625.09.02 78.5

1 7.375 + 0.9[0.125 × (86.5) + 0.5 × (84.5) + 0.25 × (78.5) + 0.125 × (75.26)]=81.26

Page 54: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

54

ΚΑΤΑΣΤΑΣΗ 3

Ενέργεια

a

3

0

3 )()(9.0),3(1

j

fj jVaPaC

0 1.375 + 0.9[0.125 × (86.5) + 0.5 × (84.5) + 0.25 × (78.5) + 0.125 × (75.26)]=𝟕𝟓. 𝟐𝟔

Άρα η βελτιωμένη στάσιμη πολιτική είναι η πολιτική 𝑓2, όπου .0)3(,0)2(,2)1(,3)0( 2222 ffff

Παρατηρούμε ότι: 𝑓2 ≠ 𝑓1. Για να βρούμε το κόστος ,3,2,1,0),(2

iiV f που αντιστοιχεί στην πολιτική 𝑓2,

λύνουμε το σύστημα:

)3(125.0)2(25.0)1(5.0)0(125.09.0375.11)0(22222 fffff VVVVV

)3(125.0)2(25.0)1(5.0)0(125.09.0375.9)1(22222 fffff VVVVV

)3(125.0)1(25.0)0(625.09.02)2(2222 ffff VVVV

)3(125.0)2(25.0)1(5.0)0(125.09.0375.1)3(22222 fffff VVVVV

Η λύση είναι: .73.67)3(,71.70)2(,73.75)1(,73.77)0(2222

ffff VVVV

Θα προσπαθήσουμε να βελτιώσουμε την πολιτική 𝑓2. Οι υπολογισμοί γίνονται παρακάτω:

ΚΑΤΑΣΤΑΣΗ 0

Ενέργεια a

3

0

0 )()(9.0),0(2

j

fj jVaPaC

0 19.5 + 0.9 × 77.73 = 89.45

1 15.125+0.9[0.875 85.84)]73.75(125.0)73.77(

2 10 + 0.9[0.625 × (77.73) + 0.25 × (75.73) + 0.125(70.71)] = 78.71

3 11.375 + 0.9[0.125 × (77.73) + 0.5 × (75.73) + 0.25 × (70.71) + 0.125 × (67.73)]= 𝟕𝟕. 𝟕𝟑

ΚΑΤΑΣΤΑΣΗ 1

Ενέργεια a

3

0

1 )()(9.0),1(2

j

fj jVaPaC

0 9.125 + 0.9[0.875 × (77.73) + 0.125 × (75.73)] = 78.75

1 8 + 0.9[0.625 × (77.73) + 0.25 × (75.73) + 0.125(70.71)] = 76.71

2 9.375 + 0.9[0.125 × (77.73) + 0.5 × (75.73) + 0.25 × (70.71) + 0.125 × (67.73)]=𝟕𝟓. 𝟕𝟑

Page 55: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

55

ΚΑΤΑΣΤΑΣΗ 2

Ενέργεια a 2

3

2 j f

j 0

C( 2,a ) 0.9 P ( a )V ( j )

0 2 0.9[0.625(77.73) 0.25(75.73) 0.125(70.71)] 70.71

1 7.375 0.9[0.125(77.73) 0.5(75.73) 0.25(70.71) 0.125(67.73)] 73.73

ΚΑΤΑΣΤΑΣΗ 3

Ενέργεια a 2

3

3 j f

j 0

C( 3,a ) 0.9 P ( a )V ( j )

0 1.375 0.9[0.125(77.73) 0.5(75.73) 0.25(70.71) 0.125(67.73)] 67.73

Άρα, η βελτιωμένη πολιτική είναι η πολιτική 3f , όπου, 3 3 3 3f (0 ) 3, f (1) 2, f ( 2 ) 0, f ( 3 ) 0 .

Παρατηρούμε ότι 3 2f f . Άρα η πολιτική 2f είναι 0.9-βέλτιστη. Συνεπώς, αν και υπάρχουν 24 διαφορετικές

στάσιμες πολιτικές, ο αλγόριθμος βελτίωσης των πολιτικών φτάνει στη βέλτιστη πολιτική μετά από δύο μόνο

επαναλήψεις.

Χρησιμοποιώντας τη μέθοδο των διαδοχικών προσεγγίσεων, θέτουμε για i {0,1,2,3} και n 1,2,...

,)()(),(min))(0()(3

0

,1)(

,

j

nijiAa

n

n jVaPaiCiTiV

όπου, }3,2,1,0{,0)(,0 iiV και A(i ) {0,...,3 i } .

Ισχύει ότι: ),()(, iViVn καθώς ,n για i {0,1,2,3} . Έστω ng ,n 1,2,... η στάσιμη πολιτική η οποία

για κάθε i {0,1,2,3} επιλέγει εκείνη την ενέργεια ( )a A i που επιτυγχάνει το ελάχιστο στην παραπάνω

εξίσωση. Από το Θεώρημα 2.4, ,gg n καθώς ,n όπου, g είναι η βέλτιστη στάσιμη πολιτική,

.9.0 Στον παρακάτω πίνακα παραθέτουμε τις ποσότητες )(, iVn και ng για διάφορες τιμές του .n

n

)0(,nV

)1(,nV

)2(,nV

)3(,nV (0)ng (1)ng (2)ng (3)ng

1 10 8 2 1.38 2 1 0 0

2 16.71 14.71 9.65 6.71 3 2 0 0

3 22.8 20.8 15.79 12.8 3 2 0 0

10 51.45 49.45 44.44 41.45 3 2 0 0

30 74.53 72.53 67.52 64.53 3 2 0 0

50 77.34 75.34 67.34 67.34 3 2 0 0

77.73 75.73 67.73 67.73 3 2 0 0

Page 56: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

56

Παρατηρούμε ότι η 0.9-βέλτιστη πολιτική λαμβάνεται για n 2 , ενώ η ποσότητα , ( )n aV i διαφέρει από την

ποσότητα ( )aV i λιγότερο από 1% , για .50n Αυτά τα αποτελέσματα συμφωνούν με εκείνα που λάβαμε

χρησιμοποιώντας τον αλγόριθμο βελτίωσης των πολιτικών. ■

Παράδειγμα 3 (Πώληση μίας επιχείρησης). Έστω ότι θέλουμε να πουλήσουμε μία επιχείρηση μας. Κάθε

μέρα λαμβάνουμε μια προσφορά και πρέπει αμέσως να απαντήσουμε αν τη δεχόμαστε ή την απορρίπτουμε. Τα

μεγέθη των προσφορών είναι ανεξάρτητες και ισόνομες τυχαίες μεταβλητές. Η πιθανότητα να είναι το μέγεθος

μίας προσφοράς ίσο με i -ευρώ, 0 i N , ισούται με iP . Υποθέτουμε ότι μία προσφορά που απορρίπτεται,

αυτόματα χάνεται. Η διαδικασία διακόπτεται μετά την αποδοχή μίας προσφοράς. Επιπλέον, υποθέτουμε ότι

υπάρχει ένα κόστος συντήρησης ίσο με C για κάθε μέρα που η επιχείρηση παραμένει απούλητη και ότι

υπάρχει ένας αποπληθωριστικός παράγοντας ίσος με ανά ημέρα, όπου .10 Το πρόβλημα είναι να

βρούμε εκείνη την πολιτική που μεγιστοποιεί το αναμενόμενο συνολικό αποπληθωρισμένο κέρδος.

Λύση. Το σύνολο των καταστάσεων της διαδικασίας, είναι: S {0,1,...,N, } , όπου οι καταστάσεις 0,1,...,N

αντιστοιχούν στο μέγεθος μιας προσφοράς που μόλις παρουσιάζεται. Η κατάσταση , είναι η κατάσταση προς

την οποία υποθέτουμε ότι μεταβαίνει η διαδικασία μόλις μία προσφορά γίνει αποδεκτή. Αν η διαδικασία

μεταβεί στην κατάσταση , παραμένει εκεί πάντοτε (δηλαδή, η κατάσταση είναι μία απορροφούσα

κατάσταση). Το σύνολο των ενεργειών είναι: A {απ,δε } , όπου, απορρίπτουμε την προσφορά και

δεχόμαστε την προσφορά. Για i {0,1,...,N } έχουμε:

i

ij j

R( i,δε ) i,R( i,απ ) C,R( ,a ) 0

P ( a ) 1,a A

P ( δε ) 1

P (απ ) P , j {0,...N }

Η εξίσωση βελτιστοποίησης (1), γι’ αυτό το πρόβλημα, παίρνει τη μορφή:

.0,)(,max)(0

NijVPCiiVN

j

j

Ο δεξιός όρος μέσα στα άγκιστρα είναι μία σταθερά, αν και η τιμή της μέχρι στιγμής είναι άγνωστη. Έστω

.)(,1|min:0

*

N

j

j jVPCiNiii

Επομένως, η βέλτιστη πολιτική δέχεται οποιαδήποτε προσφορά που είναι μεγαλύτερη ή ίση με *i και

απορρίπτει όλες τις προσφορές που είναι μικρότερες του *i . Παρατηρούμε ότι: 0 *i N .

Page 57: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

57

Για μερικές τιμές των παραμέτρων είναι βέλτιστο να αποδεχόμαστε οποιαδήποτε προσφορά (είναι η περίπτωση

* 0i ). Ακόμα, είναι πάντοτε βέλτιστο να αποδεχόμαστε μία προσφορά μεγέθους N . Παρατηρούμε επίσης

ότι:

N

j

j iijVPCiV0

*0),()( και

.*,)( iiiiV

Η γραφική παράσταση της ),(iV φαίνεται στο ακόλουθο σχήμα:

Παρατηρούμε ότι είναι μία κυρτή συνάρτηση. Συνεπώς, η μορφή της βέλτιστης πολιτικής βρέθηκε. Μένει

να προσδιορίσουμε την τιμή της κρίσιμης κατάστασης *i . Ενώ για τον προσδιορισμό της μορφής της

βέλτιστης πολιτικής χρησιμοποιήθηκε μόνο η εξίσωση βελτιστοποίησης, για τον προσδιορισμό της τιμής *i θα

χρησιμοποιηθούν γνώσεις λογισμού πιθανοτήτων.

Έστω kf η πολιτική εκείνη που αποδέχεται μία προσφορά αν και μόνο αν είναι μεγαλύτερη ή ίση με k ευρώ,

0 .k N Χρησιμοποιώντας την πολιτική kf , η αναμενόμενη τιμή της προσφοράς k που τελικά γίνεται

δεκτή, είναι:

N

j

j k

k N

j

j k

jP

μ

P

i

( )aV i

0 *i N

Page 58: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

58

(είναι ουσιαστικά η δεσμευμένη μέση τιμή του μεγέθους μίας προσφοράς, δοθέντος ότι είναι μεγαλύτερη ή ίση

με k ).

Έστω T ο αριθμός των απορριφθέντων προσφορών που έχουμε προτού μία προσφορά γίνει δεκτή αν

χρησιμοποιείται η πολιτική kf . Η μεταβλητή T είναι μία τυχαία μεταβλητή που ακολουθεί τη γεωμετρική

κατανομή με πιθανότητα επιτυχίας 1

0

k

j

j

P

. Η πιθανογεννήτρια της T είναι:

T 1 θE( z )

1 θz

.

Δοθέντος της T , το αναμενόμενο συνολικό αποπληθωρισμένο κέρδος, αν χρησιμοποιήσουμε την πολιτική kf ,

είναι:

.1

)1(12

k

TT

k

TT CCCCC

Παίρνοντας τη μέση τιμή της παραπάνω έκφρασης ως προς ,T το αναμενόμενο συνολικό αποπληθωρισμένο

κέρδος είναι ίσο με:

.

1)1(11

1

1

1

11

1

0

1

0

k

j

j

k

j

j

N

kj

j

N

kj

j

N

kj

j

N

kj

j

k

P

PCjP

P

jPPC

C

Η τιμή του k που αντιστοιχεί στη βέλτιστη πολιτική πρέπει να μεγιστοποιεί το αναμενόμενο κέρδος.

Έπεται λοιπόν ότι η τιμή *i είναι εκείνη η τιμή ,k ,0 Nk που μεγιστοποιεί την παραπάνω έκφραση. ■

Παράδειγμα 4. Στην αρχή κάθε μήνα, ένα μηχάνημα εξετάζεται και ταξινομείται σε μία από τις παρακάτω

καταστάσεις.

Κατάσταση Ερμηνεία

0 άριστη κατάσταση (σαν καινούργιο)

1 δουλεύει έχοντας πάθει μικρή βλάβη

2 δουλεύει έχοντας πάθει μεγάλη βλάβη

3 δε δουλεύει

Page 59: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

59

Αφού παρατηρήσουμε την κατάσταση στην οποία βρίσκεται το μηχάνημα, πρέπει να αποφασίσουμε αν θα το

αντικαταστήσουμε με ένα καινούργιο μηχάνημα (Ενέργεια 1) ή αν δεν θα το αντικαταστήσουμε (Ενέργεια 2).

Όμως στην κατάσταση 0 μόνο η ενέργεια 2 είναι επιτρεπτή και στην κατάσταση 3 μόνο η ενέργεια 1 είναι

επιτρεπτή. Αν ληφθεί η ενέργεια 2, όταν το μηχάνημα είναι στις καταστάσεις 0, 1, 2, τότε έχουμε ένα μηνιαίο

κόστος λειτουργίας του μηχανήματος ίσο με 100, 200 και 500, αντίστοιχα. Επιπλέον, το μηχάνημα θα μεταβεί

στην κατάσταση j στην αρχή του επόμενου μήνα με πιθανότητα 2ijp , 0,1,2i . Αν ληφθεί η ενέργεια 1,

όταν το μηχάνημα είναι στις καταστάσεις 1, 2 και 3, το μηχάνημα αντικαθίσταται ακαριαία από ένα καινούργιο

μηχάνημα (κατάσταση 0) και έχουμε ένα κόστος αντικατάστασης ίσο με 2000, 2500 και 3000, αντίστοιχα. Το

μηχάνημα θα μεταβεί στην κατάσταση j στην αρχή του επόμενου μήνα με πιθανότητα .3,2,1),2()1( 0 ipp jij

Οι ποσότητες ( , )c i a και ( )ijp a για αυτό το πρόβλημα δίνονται στον παρακάτω πίνακα:

Πίνακας με τα δεδομένα του προβλήματος

Κατάσταση Ενέργεια

i a ( , )c i a 0ip a 1ip a 2ip a 3ip a

0 2 100 0.75 0.1875 0.0625 0

1 2 200 0 0.75 0.1875 0.0625

1 2100 0.75 0.1875 0.0625 0

2 2 500 0 0 0.75 0.25

1 2600 0.75 0.1875 0.0625 0

3 1 3100 0.75 0.1875 0.0625 0

Χρησιμοποιείστε τον αλγόριθμο βελτίωσης των πολιτικών για την εύρεση της 0.95-βέλτιστης πολιτικής.

Λύση. Ξεκινάμε από την πολιτική που ελαχιστοποιεί τις ποσότητες ( , )c i a . Αυτή είναι η 1 0 2f , 1 1 2f ,

1 2 2f , 1 3 1f . Για να βρούμε το κόστος 1f

V i , 0,1,2,3i λύνουμε το σύστημα των γραμμικών

εξισώσεων:

1 1 1 1

0 100 0.95 0.75 0 0.1875 1 0.0625 2f f f fV V V V

1 1 1 1

1 200 0.95 0.75 1 0.1875 2 0.0625 3f f f fV V V V

1 1 1

2 500 0.95 0.75 2 0.25 3f f fV V V

Page 60: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

60

1 1 1 1

3 3100 0.95 0.75 0 0.1875 1 0.0625 2f f f fV V V V

Η λύση του συστήματος είναι: 1 1 1 1

0 9503.5, 1 10754.88, 2 12068.11, 3 12503.5f f f fV V V V

Για τις καταστάσεις 1,2i βρίσκουμε την ενέργεια 1,2a που ελαχιστοποιεί την παράσταση

1

3

0

, 0.95 ( )ij f

j

c i a p a V j

και προκύπτει η πολιτική: 2 2 2 20 2, 1 2, 2 1, 3 1f f f f

Για να βρούμε το κόστος 2

, 0,1,2,3fV i i λύνουμε το σύστημα:

2 2 2 2

0 100 0.95 0.75 0 0.1875 1 0.0625 2f f f fV V V V

2 2 2 2

1 200 0.95 0.75 1 0.1875 2 0.0625 3f f f fV V V V

2 2 2 2

2 2600 0.95 0.75 0 0.1875 1 0.0625 2f f f fV V V V

2 2 2 2

3 3100 0.95 0.75 0 0.1875 1 0.0625 2f f f fV V V V

Η λύση του συστήματος είναι: 2 2 2 2

0 9368.08, 1 10602.98, 2 11868.08, 3 12503.5f f f fV V V V

Για τις καταστάσεις 𝑖 ∈ {1,2} βρίσκουμε την ενέργεια }2,1{a που ελαχιστοποιεί την παράσταση:

3

0

).()(95.0),(2

j

fij jVapaiC

και προκύπτει η πολιτική: .1)3(,1)2(,2)1(,2)0( 3333 ffff Παρατηρούμε ότι 𝑓2 = 𝑓3. Άρα, η πολιτική

𝑓2 είναι βέλτιστη. ■

Σημείωση: Εκτελώντας το κατάλληλο πρόγραμμα και υλοποιώντας το σχετικό αλγόριθμο, σε μία γλώσσα

προγραμματισμού, μπορούμε να βρούμε τη 0.95-βέλτιστη πολιτική και τις ποσότητες ,3,2,1,0),(95.0 iiV για το

μοντέλο του προηγούμενου παραδείγματος, χρησιμοποιώντας τη μέθοδο των διαδοχικών προσεγγίσεων. Τα

αποτελέσματα αυτού του αλγόριθμου πρέπει να συμπίπτουν με αυτά που θα προκύψουν, αν υλοποιήσουμε, για

το παραπάνω μοντέλο και τον αλγόριθμο βελτίωσης των πολιτικών. Για τον αλγόριθμο με τη μέθοδο των

Page 61: ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ · Sennott L.I. (1999) Stochastic Dynamic Programming and the Control of Queueing Systems, Wiley, New York. [4]. Tijms H.C. (2003) A First

61

διαδοχικών προσεγγίσεων είναι λογικό να σταματήσουμε τον αλγόριθμο όταν φτάσουμε σε κάποιο n τέτοιο

ώστε: .|)()(|max ,1, iViV nni

Στο θετικό αριθμό μπορούμε να δώσουμε διάφορες τιμές (π.χ. 0.01, 0.005,

0.001) ανάλογα με την ακρίβεια που επιθυμούμε να έχουμε. □