Slides11-without-mixed-strategies-for-nonzero-gamesusers.uom.gr/~acg/Courses/QA2/material/Ch11slides-miniatures.pdf ·...

10
http://users.uom.gr/~acg 1 Στοιχεία από τη Θεωρία Παιγνίων Ιστορικά στοιχεία: Antoine Augustin Cournot (1801-1877), Cournot duopoly, 1838 John von Neumann (1903-1957), θεμελίωσε τη θεωρία παιγνίων ως κλάδο των μαθηματικών, (παίγνια μηδενικού αθροίσματος, 1928) John von Neumann και Oskar Morgenstern (1902-1977), «Theory of Games and Economic Behaviour», 1944, παίγνια μηδενικού αθροίσματος. Ανάλυση αποφάσεων σε καταστάσεις στρατηγικής αλληλεπίδρασης (strategic interdependence) John Forbes Nash Jr., (1928-2015) ισορροπία σε παίγνια μη μηδενικού αθροίσματος (non-cooperative games equilibrium), Nobel 1994 John Harsanyi (1920-2000), games of incomplete information and Reinhard Selten (1930-2016), dynamic strategic interaction, Nobel 1994 Robert Aumann(1930-) and Thomas Schelling (1921-2016), conflict and cooperation, Nobel 2005 http://users.uom.gr/~acg 2 Με τι ασχολείται η Θεωρία Παιγνίων Μελέτη των στοιχείων που χαρακτηρίζουν καταστάσεις ανταγωνιστικής αλληλεξάρτησης (στρατηγικής αλληλεπίδρασης) με έμφαση στη διαδικασία λήψης αποφάσεων περισσοτέρων του ενός ληπτών απόφασης (αντιπάλων=παικτών) Παίγνια μηδενικού αθροίσματος Παίγνια μη μηδενικού αθροίσματος Παίγνια σταθερού αθροίσματος Παίγνια μη σταθερού αθροίσματος Παίγνια δύο ή n παικτών με n > 2 Παίγνια με ή χωρίς συνεργασία (cooperative non-cooperative) Παίγνια μη ορθολογιστών παικτών (π.χ. φύση) http://users.uom.gr/~acg 3 Βασικές Έννοιες Παίγνιο (game): Κατάσταση κατά την οποία δύο ή περισσότεροι ορθολογιστές παίκτες (άτομα ή συλλογικές οντότητες) με αντικρουόμενους (ενδεχομένως) στόχους και συμφέροντα, επιλέγουν τρόπους ενέργειας (στρατηγικές), δημιουργώντας συνθήκες ανταγωνιστικής αλληλεξάρτησης, με στόχο του κάθε παίκτη την ικανοποίηση του δικού του συμφέροντος. Το αποτέλεσμα είναι συνδυασμός των επιλογών όλων των παικτών. Παραδείγματα; Στοιχεία παιγνίου: Παίκτες, κανόνες που διέπουν το παίγνιο, πληροφορίες που υπάρχουν ή δεν υπάρχουν κατά τη διάρκεια του παιγνίου, αξιολόγηση των διαφόρων αποτελεσμάτων από τους παίκτες, μεταβλητές ελέγχου Παίκτης (player): αυτόνομη μονάδα λήψης απόφασης. Άτομο, ομάδα, επιχείρηση, κράτος, σωματείο κ.λπ. Προσπαθεί να βελτιστοποιήσει τη δική του ευημερία εγωιστικά έναντι των αντιπάλων του βασιζόμενος στους κανόνες, στους πόρους και στις πληροφορίες που έχει στη διάθεσή του (ορθολογιστής παίκτης) http://users.uom.gr/~acg 4 Βασικές Έννοιες (συνέχεια) Στρατηγική (strategy): Είναι το σύνολο των κανόνων που ορίζουν τις εφικτές επιλογές τις οποίες δύναται να ακολουθεί σε κάθε κίνησή του ο παίκτης μέχρι το τέλος του παιγνίου. Αναζητούνται στρατηγικές που μεγιστοποιούν ή ελαχιστοποιούν την αντικειμενική συνάρτηση κάθε παίκτη. Αμιγής Στρατηγική (pure strategy): Κάθε παίκτης επιλέγει μία μόνο από τις δυνατές στρατηγικές του με πιθανότητα ίση με τη μονάδα. Μικτή Στρατηγική (mixed strategy): Περιλαμβάνει συνδυασμό στρατηγικών οι οποίες επιλέγονται με κάποια πιθανότητα. Πίνακας αποτελεσμάτων (payoff matrix): Υποδεικνύει τα αποτελέσματα του παιγνίου για κάθε συνδυασμό στρατηγικών. http://users.uom.gr/~acg 5 Γενική μορφή πίνακα πληρωμών παιγνίου δύο παικτών Παίκτης Β Στρατη- γικές 1 2 n Παίκτης Α 1 α11,b11 α12,b12 α1n,b1n 2 α21,b21 α22,b22 α2n,b2n m αm1,bm1 αm2,bm2 αmn,bmn Γενικός πίνακας πληρωμών για ένα παίγνιο δύο παικτών όταν ο Α κερδίζει αij, ο Β κερδίζει bij Το κέρδος και η ζημία είναι σχετικές έννοιες (όπως γνωρίζετε) http://users.uom.gr/~acg 6 Παίγνιο δύο παικτών μηδενικού αθροίσματος Δύο μόνο παίκτες αντίπαλοι παίκτης Α (παίκτης των σειρών) και παίκτης Β (παίκτης των στηλών) Το παιχνίδι παριστάνεται από έναν πίνακα πληρωμών, που συνήθως αναφέρεται στα κέρδη για τον παίκτη Α Ο παίκτης Α διαθέτει m στρατηγικές Ο παίκτης Β διαθέτει n στρατηγικές Αν ο παίκτης Α επιλέξει τη στρατηγική Αi και ο παίκτης Β τη στρατηγική Bj τότε: ο παίκτης Α κερδίζει αij και ο παίκτης Β χάνει αij. Ο πίνακας μπορεί να έχει και αρνητικά στοιχεία http://users.uom.gr/~acg 7 Γενική μορφή πίνακα παιγνίου μηδενικού αθροίσματος Παίκτης Β Στρατη- γικές 1 2 n Παίκτης Α 1 α11,-α11 α12,-α12 α1n,-α1n 2 α21,-α21 α22,-α22 α2n,-α2n m αm1,-αm1 αm2,-αm2 αmn,-αmn Πίνακας πληρωμών όταν ο Α κερδίζει αij, ο Β «κερδίζει» -αij. http://users.uom.gr/~acg 8 Απλή μορφή πίνακα παιγνίου μηδενικού αθροίσματος Παίκτης Β Στρατη- γικές 1 2 n Παίκτης Α 1 α11 α12 α1n 2 α21 α22 α2n m αm1 αm2 αmn Πίνακας πληρωμών για τον παίκτη Α όταν ο Α κερδίζει αij, ο Β «κερδίζει» -αij. http://users.uom.gr/~acg 9 Άλλα στοιχεία Η στρατηγική μπορεί να αναφέρεται σε μία ακολουθία ενεργειών ή σε μία μεμονωμένη ενέργεια Οι παίκτες είναι ορθολογιστές επομένως επιλέγουν τις στρατηγικές τους με μόνο στόχο τη δική τους ευημερία και συμφέροντα βάσει των στοιχείων του πίνακα και δεν αντιδρούν συναισθηματικά Τα στοιχεία του πίνακα αντιπροσωπεύουν κέρδος υπό την ευρεία έννοια χρησιμότητα, ωφέλεια (=utility) για τον κάθε παίκτη από κάθε συνδυασμό δύο στρατηγικών Πλήρης πληροφόρηση = Αρχή κοινής γνώσης (common knowledge principle) Οι ορθολογιστές παίκτες γνωρίζουν τη δομή του πίνακα πληρωμών, γνωρίζουν ότι οι ορθολογιστές αντίπαλοί τους γνωρίζουν τη δομή αυτή, γνωρίζουν ότι οι αντίπαλοί τους γνωρίζουν ότι γνωρίζουν τη δομή αυτή, κ.ο.κ. http://users.uom.gr/~acg 10 Καθημερινές καταστάσεις και κλασικά προβλήματα Εφαρμογές στην οικονομία και διοίκηση επιχειρήσεων, στη βιολογία, πληροφορική και τεχνολογίες επικοινωνιών, πολιτική και κοινωνιολογία (φυσικά), γεωστρατηγική, εξοπλισμοί, τεχνολογία, κανόνες οδικής κυκλοφορίας, χαμηλά τιμολόγια κλήσεων ή ηλεκτρικού ρεύματος, αγορά μεταχειρισμένων οχημάτων, αντιγραφή στις εξετάσεις, διαδίκτυο και γενικά σε κάθε κοινωνική και επαγγελματική κατάσταση. Το δίλημμα του κρατούμενου (Prisoner’s Dilemma) Η κούρσα των εξοπλισμών (arm race) To πρόβλημα της διαφήμισης To παιγνίδι της δειλίας (chicken game) Η μάχη των δύο φύλων (Bach or Stravinsky;) http://users.uom.gr/~acg 11 Περιεχόμενο Ενότητας Διδακτικοί Στόχοι Κλασικά παίγνια δύο παικτών μη μηδενικού αθροίσματος Διαγραφή κυριαρχούμενων (υποδεέστερων) στρατηγικών Ισορροπία Nash σε παίγνια μη μηδενικού αθροίσματος (αμιγείς στρατηγικές) Παίγνια δύο παικτών μηδενικού αθροίσματος Παίγνια σταθερού αθροίσματος Ισορροπία Nash σε παίγνια μηδενικού ή σταθερού αθροίσματος (αμιγείς στρατηγικές) Το κριτήριο minimax για την εύρεση ισορροπίας Nash στα παίγνια μηδενικού αθροίσματος Μεικτές στρατηγικές σε παίγνια μη μηδενικού αθροίσματος Ισορροπία Nash με μεικτές στρατηγικές σε παίγνια μη μηδενικού αθροίσματος Μεικτές στρατηγικές σε παίγνια μηδενικού (ή σταθερού) αθροίσματος Γραφική μέθοδος διαγραφής υποδεέστερων στρατηγικών Επίλυση παιγνίων μηδενικού ή σταθερού αθροίσματος με γραμμικό προγραμματισμό http://users.uom.gr/~acg 12 Πριν προχωρήσουμε να θυμάστε: Η θεωρία παιγνίων δεν μας υποδεικνύει κατ΄ ανάγκη τη καλύτερη δυνατή λύση ΑΛΛΑ την πιο «λογική» …. ό,τι κι αν σημαίνει αυτό ! Δηλαδή την υπερέχουσα στρατηγική αυτή που οδηγεί σε ελαχιστοποίηση της (μέγιστης) ζημίας ανεξάρτητα τι θα κάνει ο αντίπαλος ό,τι κι αν σημαίνει και αυτό Ακόμη κι αν φανερά, υπάρχουν στρατηγικές που μπορούν να οδηγήσουν σε καλύτερα αποτελέσματα και για τους δύο αντιπάλους ταυτόχρονα. Τι «φταίει»; http://users.uom.gr/~acg 13 Παράδειγμα 1 - Prisoner’s Dilemma http://users.uom.gr/~acg 14 Παράδειγμα 1 - Prisoner’s Dilemma (συνέχεια) Η αστυνομία έχει συλλάβει επαυτοφώρω δύο τύπους που είχαν διαρρήξει ένα κατάστημα, αλλά αυτοί πρόλαβαν να πετάξουν τα κλοπιμαία. Έτσι, δεν υπάρχουν επαρκείς αποδείξεις για να καταδικαστούν για κλοπή (μόνο για διάρρηξη). ΕΚΤΟΣ αν ομολογήσει τουλάχιστον ένας. Τους βάζουν σε ξεχωριστά δωμάτια ανάκρισης και ο αστυνόμος επισκέπτεται τον καθένα ξεχωριστά και τους λέει τα εξής: «Προς το παρόν, το ξέρεις ότι κατηγορείσαι μόνο για διάρρηξη, δηλαδή πάς για ένα μήνα φυλακή εσύ και ο συνάδελφός σου. Γνωρίζω ότι εσείς διαπράξατε την κλοπή, αλλά δεν μπορώ να το αποδείξω, εκτός αν ομολογήσεις. Αν είσαι συνεργάσιμος και ομολογήσεις ότι εσείς κάνατε την κλοπή, τότε εσένα θα σε απαλλάξω από κάθε κατηγορία και φεύγεις τώρα καθαρός, ενώ ο συνάδελφος σου θα κατηγορηθεί για διάρρηξη και κλοπή και θα «φάει» 12 μήνες. Έχε υπόψη, ότι αν ομολογήσετε και οι δυο σας, αυτό είναι καλό αλλά φανερά η ομολογία σας θα έχει μικρότερη αξία και θα «φάτε» και οι δύο από οκτώ μήνες. Σε ενημερώνω, ότι έχω ήδη κάνει την ίδια προσφορά και στο συνάδελφό σου και περιμένω την απάντησή του. Α ! και επίσης, δεν θα περιμένω για πολύ την απάντησή σου ! http://users.uom.gr/~acg 15 Prisoner’s Dilemma (1) Με άλλα λόγια: oΑν παραμείνουν και οι δυο σιωπηλοί τιμωρούνται με ένα μήνα φυλάκιση oΑν ο ένας προδώσει το συνάδελφό του απαλλάσσεται (εφόσον ο άλλος μείνει πιστός) oΑν ομολογήσουν και οι δύο τότε καταδικάζονται σε οκτώ μήνες φυλακή ο καθένας oΥποθέτουμε ότι οι παίκτες ενδιαφέρονται ορθολογιστικά να μειώσει ο καθένας τους το χρόνο της ποινής του όσο γίνεται περισσότερο oΈχουμε ένα παίγνιο μη-μηδενικού αθροίσματος στο οποίο οι δύο παίκτες είτε «παραμένουν πιστοί» ο ένας στο άλλο είτε «καρφώνει» ο ένας τον άλλο http://users.uom.gr/~acg 16 Prisoner’s Dilemma (2) Πίνακας πληρωμών Β Στρατηγικές Β1 (σιωπή) Β2 (ομολογία) Α Α1 (σιωπή) -1, -1 -12, 0 Α2 (ομολογία) 0, -12 -8, -8

Transcript of Slides11-without-mixed-strategies-for-nonzero-gamesusers.uom.gr/~acg/Courses/QA2/material/Ch11slides-miniatures.pdf ·...

Page 1: Slides11-without-mixed-strategies-for-nonzero-gamesusers.uom.gr/~acg/Courses/QA2/material/Ch11slides-miniatures.pdf · Title: Microsoft Word - Slides11-without-mixed-strategies-for-nonzero-games.doc

http://users.uom.gr/~acg 1

ΣΣττοοιιχχεείίαα ααππόό ττηη ΘΘεεωωρρίίαα ΠΠααιιγγννίίωωνν Ιστορικά στοιχεία: Antoine Augustin Cournot (1801-1877), Cournot duopoly, 1838

John von Neumann (1903-1957), θεμελίωσε τη θεωρία παιγνίων ως κλάδο των μαθηματικών, (παίγνια μηδενικού αθροίσματος, 1928)

John von Neumann και Oskar Morgenstern (1902-1977), «Theory of Games and Economic Behaviour», 1944, παίγνια

μηδενικού αθροίσματος. Ανάλυση αποφάσεων σε καταστάσεις στρατηγικής αλληλεπίδρασης (strategic interdependence) John Forbes Nash Jr., (1928-2015) ισορροπία σε παίγνια μη μηδενικού αθροίσματος (non-cooperative games equilibrium), Nobel 1994

John Harsanyi (1920-2000), games of incomplete information and Reinhard Selten (1930-2016), dynamic strategic interaction, Nobel 1994

Robert Aumann(1930-) and Thomas Schelling (1921-2016), conflict and cooperation, Nobel 2005

http://users.uom.gr/~acg 2

ΜΜεε ττιι αασσχχοολλεείίττααιι ηη ΘΘεεωωρρίίαα ΠΠααιιγγννίίωωνν Μελέτη των στοιχείων που χαρακτηρίζουν καταστάσεις ανταγωνιστικής αλληλεξάρτησης (στρατηγικής αλληλεπίδρασης) με έμφαση στη διαδικασία λήψης αποφάσεων περισσοτέρων του ενός ληπτών απόφασης (αντιπάλων=παικτών)

Παίγνια μηδενικού αθροίσματος Παίγνια μη μηδενικού αθροίσματος Παίγνια σταθερού αθροίσματος Παίγνια μη σταθερού αθροίσματος Παίγνια δύο ή n παικτών με n > 2 Παίγνια με ή χωρίς συνεργασία (cooperative non-cooperative) Παίγνια μη ορθολογιστών παικτών (π.χ. φύση)

http://users.uom.gr/~acg 3

ΒΒαασσιικκέέςς ΈΈννννοοιιεεςς Παίγνιο (game): Κατάσταση κατά την οποία δύο ή περισσότεροι

ορθολογιστές παίκτες (άτομα ή συλλογικές οντότητες) με αντικρουόμενους (ενδεχομένως) στόχους και συμφέροντα, επιλέγουν τρόπους ενέργειας (στρατηγικές), δημιουργώντας συνθήκες ανταγωνιστικής αλληλεξάρτησης, με στόχο του κάθε παίκτη την ικανοποίηση του δικού του συμφέροντος. Το αποτέλεσμα είναι συνδυασμός των επιλογών όλων των παικτών. Παραδείγματα;

Στοιχεία παιγνίου: Παίκτες, κανόνες που διέπουν το παίγνιο, πληροφορίες που υπάρχουν ή δεν υπάρχουν κατά τη διάρκεια του παιγνίου, αξιολόγηση των διαφόρων αποτελεσμάτων από τους παίκτες, μεταβλητές ελέγχου

Παίκτης (player): αυτόνομη μονάδα λήψης απόφασης. Άτομο, ομάδα, επιχείρηση, κράτος, σωματείο κ.λπ. Προσπαθεί να βελτιστοποιήσει τη δική του ευημερία εγωιστικά έναντι των αντιπάλων του βασιζόμενος στους κανόνες, στους πόρους και στις πληροφορίες που έχει στη διάθεσή του (ορθολογιστής παίκτης)

http://users.uom.gr/~acg 4

ΒΒαασσιικκέέςς ΈΈννννοοιιεεςς ((σσυυννέέχχεειιαα)) Στρατηγική (strategy): Είναι το σύνολο των κανόνων που

ορίζουν τις εφικτές επιλογές τις οποίες δύναται να ακολουθεί σε κάθε κίνησή του ο παίκτης μέχρι το τέλος του παιγνίου. Αναζητούνται στρατηγικές που μεγιστοποιούν ή ελαχιστοποιούν την αντικειμενική συνάρτηση κάθε παίκτη.

Αμιγής Στρατηγική (pure strategy): Κάθε παίκτης επιλέγει μία μόνο από τις δυνατές στρατηγικές του με πιθανότητα ίση με τη μονάδα.

Μικτή Στρατηγική (mixed strategy): Περιλαμβάνει συνδυασμό στρατηγικών οι οποίες επιλέγονται με κάποια πιθανότητα.

Πίνακας αποτελεσμάτων (payoff matrix): Υποδεικνύει τα αποτελέσματα του παιγνίου για κάθε συνδυασμό στρατηγικών.

http://users.uom.gr/~acg 5

ΓΓεεννιικκήή μμοορρφφήή ππίίνναακκαα ππλληηρρωωμμώώνν ππααιιγγννίίοουυ δδύύοο ππααιικκττώώνν Παίκτης Β Στρατη-

γικές 1 2 n

Παίκτης Α

1 α11,b11 α12,b12 … α1n,b1n

2 α21,b21 α22,b22 … α2n,b2n

m αm1,bm1 αm2,bm2 … αmn,bmn

Γενικός πίνακας πληρωμών για ένα παίγνιο δύο παικτών όταν ο Α κερδίζει αij, ο Β κερδίζει bij

Το κέρδος και η ζημία είναι σχετικές έννοιες (όπως γνωρίζετε)

http://users.uom.gr/~acg 6

ΠΠααίίγγννιιοο δδύύοο ππααιικκττώώνν μμηηδδεεννιικκοούύ ααθθρροοίίσσμμααττοοςς Δύο μόνο παίκτες – αντίπαλοι παίκτης Α (παίκτης των σειρών) και παίκτης Β (παίκτης των στηλών)

Το παιχνίδι παριστάνεται από έναν πίνακα πληρωμών, που συνήθως αναφέρεται στα κέρδη για τον παίκτη Α

Ο παίκτης Α διαθέτει m στρατηγικές Ο παίκτης Β διαθέτει n στρατηγικές Αν ο παίκτης Α επιλέξει τη στρατηγική Αi και ο παίκτης Β τη στρατηγική Bj τότε: ο παίκτης Α κερδίζει αij και ο παίκτης Β χάνει αij.

Ο πίνακας μπορεί να έχει και αρνητικά στοιχεία

http://users.uom.gr/~acg 7

ΓΓεεννιικκήή μμοορρφφήή ππίίνναακκαα ππααιιγγννίίοουυ μμηηδδεεννιικκοούύ ααθθρροοίίσσμμααττοοςς Παίκτης Β Στρατη-

γικές 1 2 n

Παίκτης Α

1 α11,-α11 α12,-α12 … α1n,-α1n

2 α21,-α21 α22,-α22 … α2n,-α2n

m αm1,-αm1 αm2,-αm2 … αmn,-αmn

Πίνακας πληρωμών όταν ο Α κερδίζει αij, ο Β «κερδίζει» -αij.

http://users.uom.gr/~acg 8

ΑΑππλλήή μμοορρφφήή ππίίνναακκαα ππααιιγγννίίοουυ μμηηδδεεννιικκοούύ ααθθρροοίίσσμμααττοοςς Παίκτης Β Στρατη-

γικές 1 2 n

Παίκτης Α

1 α11 α12 … α1n

2 α21 α22 … α2n

m αm1 αm2 … αmn

Πίνακας πληρωμών για τον παίκτη Α όταν ο Α κερδίζει αij, ο Β «κερδίζει» -αij.

http://users.uom.gr/~acg 9

ΆΆλλλλαα σσττοοιιχχεείίαα Η στρατηγική μπορεί να αναφέρεται σε μία ακολουθία ενεργειών ή

σε μία μεμονωμένη ενέργεια Οι παίκτες είναι ορθολογιστές επομένως επιλέγουν τις στρατηγικές

τους με μόνο στόχο τη δική τους ευημερία και συμφέροντα βάσει των στοιχείων του πίνακα και δεν αντιδρούν συναισθηματικά

Τα στοιχεία του πίνακα αντιπροσωπεύουν κέρδος υπό την ευρεία έννοια χρησιμότητα, ωφέλεια (=utility) για τον κάθε παίκτη από κάθε συνδυασμό δύο στρατηγικών

Πλήρης πληροφόρηση = Αρχή κοινής γνώσης (common knowledge principle) Οι ορθολογιστές παίκτες γνωρίζουν τη δομή του πίνακα πληρωμών, γνωρίζουν ότι οι ορθολογιστές αντίπαλοί τους γνωρίζουν τη δομή αυτή, γνωρίζουν ότι οι αντίπαλοί τους γνωρίζουν ότι γνωρίζουν τη δομή αυτή, κ.ο.κ.

http://users.uom.gr/~acg 10

ΚΚααθθηημμεερριιννέέςς κκαατταασσττάάσσεειιςς κκααιι κκλλαασσιικκάά ππρροοββλλήήμμαατταα Εφαρμογές στην οικονομία και διοίκηση επιχειρήσεων, στη

βιολογία, πληροφορική και τεχνολογίες επικοινωνιών, πολιτική και κοινωνιολογία (φυσικά), γεωστρατηγική, εξοπλισμοί, τεχνολογία, κανόνες οδικής κυκλοφορίας, χαμηλά τιμολόγια κλήσεων ή ηλεκτρικού ρεύματος, αγορά μεταχειρισμένων οχημάτων, αντιγραφή στις εξετάσεις, διαδίκτυο και γενικά σε κάθε κοινωνική και επαγγελματική κατάσταση.

Το δίλημμα του κρατούμενου (Prisoner’s Dilemma) Η κούρσα των εξοπλισμών (arm race) To πρόβλημα της διαφήμισης To παιγνίδι της δειλίας (chicken game) Η μάχη των δύο φύλων (Bach or Stravinsky;)

http://users.uom.gr/~acg 11

ΠΠεερριιεεχχόόμμεεννοο ΕΕννόόττηηττααςς –– ΔΔιιδδαακκττιικκοοίί ΣΣττόόχχοοιι Κλασικά παίγνια δύο παικτών μη μηδενικού αθροίσματος Διαγραφή κυριαρχούμενων (υποδεέστερων) στρατηγικών Ισορροπία Nash σε παίγνια μη μηδενικού αθροίσματος (αμιγείς στρατηγικές) Παίγνια δύο παικτών μηδενικού αθροίσματος Παίγνια σταθερού αθροίσματος Ισορροπία Nash σε παίγνια μηδενικού ή σταθερού αθροίσματος (αμιγείς

στρατηγικές) Το κριτήριο minimax για την εύρεση ισορροπίας Nash στα παίγνια μηδενικού

αθροίσματος Μεικτές στρατηγικές σε παίγνια μη μηδενικού αθροίσματος Ισορροπία Nash με μεικτές στρατηγικές σε παίγνια μη μηδενικού αθροίσματος Μεικτές στρατηγικές σε παίγνια μηδενικού (ή σταθερού) αθροίσματος Γραφική μέθοδος διαγραφής υποδεέστερων στρατηγικών Επίλυση παιγνίων μηδενικού ή σταθερού αθροίσματος με γραμμικό

προγραμματισμό

http://users.uom.gr/~acg 12

ΠΠρριινν ππρροοχχωωρρήήσσοουυμμεε νναα θθυυμμάάσσττεε:: Η θεωρία παιγνίων δεν μας υποδεικνύει κατ΄ ανάγκη τη καλύτερη δυνατή

λύση ΑΛΛΑ την πιο «λογική» …. ό,τι κι αν σημαίνει αυτό !

Δηλαδή την υπερέχουσα στρατηγική αυτή που οδηγεί σε ελαχιστοποίηση της (μέγιστης) ζημίας ανεξάρτητα τι θα κάνει ο αντίπαλος

ό,τι κι αν σημαίνει και αυτό

Ακόμη κι αν φανερά, υπάρχουν στρατηγικές που μπορούν να οδηγήσουν σε καλύτερα αποτελέσματα και για τους δύο αντιπάλους ταυτόχρονα.

Τι «φταίει»;

http://users.uom.gr/~acg 13

ΠΠααρράάδδεειιγγμμαα 11 -- PPrriissoonneerr’’ss DDiilleemmmmaa

http://users.uom.gr/~acg 14

ΠΠααρράάδδεειιγγμμαα 11 -- PPrriissoonneerr’’ss DDiilleemmmmaa ((σσυυννέέχχεειιαα)) Η αστυνομία έχει συλλάβει επ’ αυτοφώρω δύο τύπους που είχαν διαρρήξει ένα

κατάστημα, αλλά αυτοί πρόλαβαν να πετάξουν τα κλοπιμαία. Έτσι, δεν υπάρχουν επαρκείς αποδείξεις για να καταδικαστούν για κλοπή (μόνο για διάρρηξη). ΕΚΤΟΣ αν ομολογήσει τουλάχιστον ένας. Τους βάζουν σε ξεχωριστά δωμάτια ανάκρισης και ο αστυνόμος επισκέπτεται τον καθένα ξεχωριστά και τους λέει τα εξής:

«Προς το παρόν, το ξέρεις ότι κατηγορείσαι μόνο για διάρρηξη, δηλαδή πάς για ένα μήνα φυλακή εσύ και ο συνάδελφός σου. Γνωρίζω ότι εσείς διαπράξατε την κλοπή, αλλά δεν μπορώ να το αποδείξω, εκτός αν ομολογήσεις. Αν είσαι συνεργάσιμος και ομολογήσεις ότι εσείς κάνατε την κλοπή, τότε εσένα θα σε απαλλάξω από κάθε κατηγορία και φεύγεις τώρα καθαρός, ενώ ο συνάδελφος σου θα κατηγορηθεί για διάρρηξη και κλοπή και θα «φάει» 12 μήνες. Έχε υπόψη, ότι αν ομολογήσετε και οι δυο σας, αυτό είναι καλό αλλά φανερά η ομολογία σας θα έχει μικρότερη αξία και θα «φάτε» και οι δύο από οκτώ μήνες. Σε ενημερώνω, ότι έχω ήδη κάνει την ίδια προσφορά και στο συνάδελφό σου και περιμένω την απάντησή του. Α ! και επίσης, δεν θα περιμένω για πολύ την απάντησή σου !

http://users.uom.gr/~acg 15

PPrriissoonneerr’’ss DDiilleemmmmaa ((11)) Με άλλα λόγια:

o Αν παραμείνουν και οι δυο σιωπηλοί τιμωρούνται με ένα μήνα φυλάκιση

o Αν ο ένας προδώσει το συνάδελφό του απαλλάσσεται (εφόσον ο άλλος μείνει πιστός)

o Αν ομολογήσουν και οι δύο τότε καταδικάζονται σε οκτώ μήνες φυλακή ο καθένας

o Υποθέτουμε ότι οι παίκτες ενδιαφέρονται ορθολογιστικά να μειώσει ο καθένας τους το χρόνο της ποινής του όσο γίνεται περισσότερο

o Έχουμε ένα παίγνιο μη-μηδενικού αθροίσματος στο οποίο οι δύο παίκτες είτε «παραμένουν πιστοί» ο ένας στο άλλο είτε «καρφώνει» ο ένας τον άλλο

http://users.uom.gr/~acg 16

PPrriissoonneerr’’ss DDiilleemmmmaa ((22))

Πίνακας πληρωμών Β Στρατηγικές Β1 (σιωπή) Β2 (ομολογία)

Α Α1 (σιωπή) -1, -1 -12, 0

Α2 (ομολογία) 0, -12 -8, -8

Page 2: Slides11-without-mixed-strategies-for-nonzero-gamesusers.uom.gr/~acg/Courses/QA2/material/Ch11slides-miniatures.pdf · Title: Microsoft Word - Slides11-without-mixed-strategies-for-nonzero-games.doc

http://users.uom.gr/~acg 17

PPrriissoonneerr’’ss DDiilleemmmmaa ((33)) Το παίγνιο από την πλευρά του παίκτη Α Αν π.χ. ήξερε ότι ο παίκτης Β θα μείνει σιωπηλός:

Β Στρατηγικές Β1 (σιωπή) Β2 (ομολογία)

Α Α1 (σιωπή) -1, * -12, 0

Α2 (ομολογία) 0, * -8, -8

Ποια θα ήταν η απόφαση του Α ;

http://users.uom.gr/~acg 18

PPrriissoonneerr’’ss DDiilleemmmmaa ((44)) Το παίγνιο από την πλευρά του παίκτη Α Αν π.χ. ήξερε ότι ο παίκτης Β θα ομολογήσει:

Β Στρατηγικές Β1 (σιωπή) Β2 (ομολογία)

Α Α1 (σιωπή) -1, -1 -12, *

Α2 (ομολογία) 0, -12 -8, *

Ποια θα ήταν η απόφαση του Α ;

Συγκρίνετε συνολικά τη στρατηγική Α1 με την Α2

http://users.uom.gr/~acg 19

PPrriissoonneerr’’ss DDiilleemmmmaa ((55)) Το παίγνιο από την πλευρά του παίκτη Β Αν π.χ. ήξερε ότι ο παίκτης Α θα μείνει σιωπηλός:

Β Στρατηγικές Β1 (σιωπή) Β2 (ομολογία)

Α Α1 (σιωπή) *, -1 *, 0

Α2 (ομολογία) 0, -12 -8, -8

Ποια θα ήταν η απόφαση του Β ;

http://users.uom.gr/~acg 20

PPrriissoonneerr’’ss DDiilleemmmmaa ((66)) Το παίγνιο από την πλευρά του παίκτη Β Αν π.χ. ήξερε ότι ο παίκτης Α θα ομολογήσει:

Β Στρατηγικές Β1 (σιωπή) Β2 (ομολογία)

Α Α1 (σιωπή) -1, -1 -12, 0

Α2 (ομολογία) *, -12 *, -8

Ποια θα ήταν η απόφαση του Β ;

Συγκρίνετε συνολικά τη στρατηγική Β1 με την Β2

http://users.uom.gr/~acg 21

PPrriissoonneerr’’ss DDiilleemmmmaa ((77))

Πίνακας πληρωμών Β Στρατηγικές Β1 (σιωπή) Β2 (ομολογία)

Α Α1 (σιωπή) -1, -1 -12, 0

Α2 (ομολογία) 0, -12 -8, -8

Τελικά ποια είναι η απόφαση των δύο παικτών ; Είναι βέλτιστη ή λογική ; Ατομικά ορθολογιστές ή συλλογικά ορθολογιστές;

Nash 

http://users.uom.gr/~acg 22

PPuurree SSttrraatteeggyy NNaasshh EEqquuiilliibbrriiuumm Ισορροπία Nash με αμιγείς στρατηγικές

http://users.uom.gr/~acg 23

PPrriissoonneerr’’ss DDiilleemmmmaa ((88))

Πίνακας πληρωμών με ωφέλειες (utilities) Β Στρατηγικές Β1 (σιωπή) Β2 (ομολογία)

Α Α1 (σιωπή) 3, 3 1, 4

Α2 (ομολογία) 4, 1 2, 2

Η μονάδα (1) εκφράζει τη χαμηλότερη προτίμηση - ωφέλεια και το 4 την υψηλότερη προτίμηση - ωφέλεια. Προσοχή: πάντα με βάση την υπόθεση ότι ο καθένας επιθυμεί να ελαχιστοποιήσει την ποινή του !

Nash 

http://users.uom.gr/~acg 24

PPrriissoonneerr’’ss DDiilleemmmmaa ((99))

Η ομολογία υπερισχύει αυστηρά της σιωπής (strict dominance) (και για τους δύο παίκτες)

H σιωπή είναι αυστηρά υποδεέστερη στρατηγική της ομολογίας (strictly dominated) και για τους δύο παίκτες)

Ένας ορθολογιστής παίκτης δεν θα επέλεγε ποτέ μία αυστηρά υποδεέστερη στρατηγική (εκτός αν η πίστη στο τι θα κάνει ο φίλος του είναι στιβαρή ή δεν θέλει να καταστρέψει τη φιλία τους ή τρομάζει στη σκέψη τι τον περιμένει όταν ο άλλος θα βγει από τη φυλακή κ.λπ., όμως, όλα αυτά, διαφοροποιούν το βασικό κανόνα του παιγνίου που ήταν ότι επιθυμούν την ελάχιστη δυνατή ποινή για τον εαυτό τους)

Μέθοδος διαγραφής υποδεέστερων (κυριαρχούμενων) στρατηγικών

http://users.uom.gr/~acg 25

ΓΓεεννιικκόό σσυυμμππέέρραασσμμαα –– ύύππααρρξξηη σσηημμεείίοουυ ιισσοορρρροοππίίααςς

Τι εξασφαλίζει η ύπαρξη σημείου ισορροπίας ;;

Σε ελεύθερη απόδοση, ένα ζεύγος στρατηγικών για τους δύο παίκτες αποτελεί σημείο ισορροπίας όταν κανένας από τους δύο δεν μπορεί να κερδίσει κάτι περισσότερο

μεταβάλλοντας τη στρατηγική του μονομερώς (Pure Strategy Nash Εquilibrium)

Συχνά, η εναλλακτική του κοινού συμφέροντος δεν είναι πάντα η επιλογή (θεωρητικά) “λογικά” – ατομικά ορθολογιστών παικτών ενώ επίσης συχνά, φαινομενικά λογικές επιλογές οδηγούν σε ζημιές (όλους μαζί)

Προσοχή! Η πιθανή επανάληψη του παιγνίου αλλάζει τα δεδομένα

http://users.uom.gr/~acg 26

PPrriissoonneerr’’ss DDiilleemmmmaa ((1100)) Εύρεση της ισορροπίας Nash (αμιγείς στρατηγικές)

Β Στρατηγικές Β1 (σιωπή) Β2 (ομολογία)

Α Α1 (σιωπή) 3, 3 1, 4

Α2 (ομολογία) 4, 1 2, 2

Για κάθε συνδυασμό στρατηγικών, ελέγχουμε τη «διάθεση» κάθε παίκτη να μετακινηθεί σε καλύτερη στρατηγική. Αν σε κάποιο κελί η «διάθεση» αυτή είναι αρνητική και για τους δυο, τότε έχουμε ισορροπία Nash με αμιγείς στρατηγικές. Ισοδύναμα, βρίσκουμε την καλύτερη πληρωμή κάθε παίκτη σε σχέση με την κάθε στρατηγική του άλλου. Αν οι καλύτερες των δύο παικτών συμπίπτουν στο ίδιο κελί τότε εκεί έχουμε ισορροπία Nash με αμιγείς στρατηγικές. (τα υπόλοιπα στην παράδοση !!! )

Nash 

http://users.uom.gr/~acg 27

PPrriissoonneerr’’ss DDiilleemmmmaa ((1111)) Evolutionary version – Axelrod’s tournament (1980) Tit for Tat (Συνεργάσου – Ανταπόδωσε)

Success in an evolutionary "game" is correlated with the following characteristics: Be nice: cooperate, never be the first to defect. Be provocable: return defection for defection, cooperation for

cooperation (retaliate) Don't be envious: be fair with your partner Don't be too clever: or, don't try to be tricky Tit for Tar is a clear, nice, provocable, and forgiving strategy. Πηγή: The evolution of cooperation - Wikipedia

Forgiving

http://users.uom.gr/~acg 28

ΔΔεείίττεε ααυυττόό:: CCaarr lliigghhttss

Β High Low

Ηigh 1, 1 3, 0

Low 0, 3 2, 2

http://users.uom.gr/~acg 29

ΚΚααιι ααυυττόό:: AA wwoorrkkiinngg ccoouuppllee

Β Work Home

Work 3, 3 2, 1

Home 1, 2 4, 4

http://users.uom.gr/~acg 30

ΚΚααιι ααυυττόό:: AA ccoouuppllee iinn lloovvee??

Β Love Silent

Love 4, 4 0, 1

Silent 1, 0 2, 2

http://users.uom.gr/~acg 31

ΠΠααρράάδδεειιγγμμαα 22 Το πρόβλημα της κούρσας των εξοπλισμών (1) Δύο ανταγωνιζόμενοι συνασπισμοί κρατών ή

μεμονωμένα κράτη επιλέγουν ανάμεσα σε δύο στρατηγικές. Είτε την περαιτέρω ανάπτυξη και αγορά οπλικών συστημάτων είτε τη μείωση των εξοπλιστικών τους προγραμμάτων.

Το θέμα είναι ότι τα οπλικά συστήματα κοστίζουν ΠΟΛΥ με παράπλευρα προβλήματα στην αναπτυξιακή στρατηγική μιας χώρας. Από την άλλη πλευρά, οι εξοπλισμοί προσδίδουν αίσθημα ασφάλειας απέναντι σε ανταγωνιστικούς ή εχθρικούς συνασπισμούς.

http://users.uom.gr/~acg 32

ΤΤοο ππρρόόββλληημμαα ττηηςς κκοούύρρσσααςς ττωωνν εεξξοοππλλιισσμμώώνν ((22))

Πίνακας πληρωμών (preference values) Β Στρατηγικές Β1 (μείωση) Β2 (ανάπτυξη)

Α Α1 (μείωση) 3, 3 1, 4

Α2 (ανάπτυξη) 4, 1 2, 2 Ποια είναι τελικά η ισορροπία Nash του παραπάνω παιγνίου ; Όμοια προβλήματα:

Διεθνές εμπόριο και δασμοί μεταξύ δύο κρατών Διαφήμιση ομοειδούς προϊόντος δύο ανταγωνιστών Μπορείτε να σκεφτείτε όμοιες καταστάσεις σε παίγνια με περισσότερους από 2 παίκτες ; (tragedy of commons)

Page 3: Slides11-without-mixed-strategies-for-nonzero-gamesusers.uom.gr/~acg/Courses/QA2/material/Ch11slides-miniatures.pdf · Title: Microsoft Word - Slides11-without-mixed-strategies-for-nonzero-games.doc

http://users.uom.gr/~acg 33

ΠΠααρράάδδεειιγγμμαα 33 Ένα γενικότερο παράδειγμα

Πίνακας πληρωμών Β Στρατηγικές Β1 Β2

Α Α1 7, -6 5, 0

Α2 -4, 8 2, 9

Μπορείτε να βρείτε τι θα πρέπει να επιλέξουν οι δύο παίκτες;

Nash 

http://users.uom.gr/~acg 34

ΠΠααρράάδδεειιγγμμαα 44 Ένα λίγο πιο δύσκολο παράδειγμα

Πίνακας πληρωμών Β Στρατηγικές Β1 Β2

Α Α1 5, 5 0, 3

Α2 3, 0 1, 1

Μπορείτε να βρείτε τι θα πρέπει να επιλέξουν οι δύο παίκτες;

Ενδιαφέρουσα σημείωση: Μεικτή στρατηγική Nash: A: (1/3, 2/3), B: (1/3, 2/3), Value (A) = Value (B) = 5/3

Nash 

http://users.uom.gr/~acg 35

ΠΠααρράάδδεειιγγμμαα 55 -- CChhiicckkeenn GGaammee ((11)) Δύο έφηβοι (και όχι μόνο) ανταγωνίζονται με

αυτοκίνητα. Βρίσκονται στα άκρα ενός δρόμου και οδηγούν με μεγάλη ταχύτητα ο ένας προς τον άλλο (στην ίδια λωρίδα, σε πορεία σύγκρουσης). Αυτός που θα δειλιάσει πρώτος (chicken) και θα στρίψει το τιμόνι για να αποφύγει τη σύγκρουση χάνει, αφού ο ο άλλος αποδεικνύεται πιο θαρραλέος (δύο περιπτώσεις).

Βεβαίως, υπάρχουν ακόμη δύο περιπτώσεις: να δειλιάσουν και οι δύο (και να στρίψουν το τιμόνι για να αποφύγουν τη σύγκρουση) ή να παραμείνουν και οι δύο θαρραλέοι ανόητοι μέχρι το τέλος (όπως ενδεχομένως θα τους χαρακτηρίσει ένας κοινός φίλος, ξεπροβοδίζοντας τους στον επικήδειο).

Case: Η κρίση των Σοβιετικών πυραύλων στην Κούβα (1962)

http://users.uom.gr/~acg 36

CChhiicckkeenn GGaammee ((22))

Πίνακας πληρωμών Β Στρατηγικές Β1 (συνεχίζει) Β2 (αποφεύγει)

Α Α1 (συνεχίζει) -10, -10 2, -2

Α2 (αποφεύγει) -2, 2 0, 0

Μπορείτε να βρείτε τι θα επιλέξουν οι δύο παίκτες;

Ενδιαφέρουσα σημείωση: Μεικτή στρατηγική Nash: A: (1/5, 4/5), B: (1/5, 4/5), Value (A) = Value (B) = -2/5 Τότε γιατί να μην ισορροπήσουν στο συνδυασμό (Α2, Β2) ;

Nash 

http://users.uom.gr/~acg 37

ΠΠααρράάδδεειιγγμμαα 66 Battle of the Sexes (Bach or Stravinsky;) (1) Ένας άνδρας και μία γυναίκα συμφωνούν να

συναντηθούν σε ραντεβού για να πάνε μαζί σε μία εκδήλωση. Όμως, υπάρχει ένα πρόβλημα. Υπάρχουν δύο υποψήφιες εκδηλώσεις που μπορούν να πάνε: ένα κονσέρτο στο μέγαρο μουσικής ή ο τελικός αγώνας κυπέλου στο ποδόσφαιρο. Σημαντικό στοιχείο είναι ότι επιθυμούν (preference) να είναι μαζί παρά να μείνουν μόνοι τους (κονσέρτο ή αγώνας, αν είσαι μόνος δεν έχει αξία).

Υποθέτουμε, ότι δεν υπάρχει επικοινωνία μεταξύ τους και ο καθένας απλά εμφανίζεται στην εκδήλωση που επιλέγει (δεν υπάρχουν ακόμη εύχρηστες τεχνολογίες επικοινωνιών)

http://users.uom.gr/~acg 38

BBaattttllee ooff tthhee SSeexxeess ((BBaacchh oorr SSttrraavviinnsskkyy;;)) ((22))

Πίνακας πληρωμών Γυναίκα Στρατηγικές Γ1 (Κονσέρτο) Γ2 (Ποδόσφαιρο)

Άνδρας Α1 (Κονσέρτο) 1, 2 0, 0

Α2 (Ποδόσφαιρο) 0, 0 2, 1

Μπορείτε να βρείτε τι θα επιλέξουν οι δύο παίκτες; Coordination game (παίγνιο συντονισμού. π.χ. τεχνολογικά standards)

Ενδιαφέρουσα σημείωση: Μεικτή στρατηγική Nash: A: (1/3, 2/3), Γ: (2/3, 1/3), Value (A) = Value (B) = 2/3

Ποιο είναι το παράδοξο εδώ ;

Nash 

http://users.uom.gr/~acg 39

ΠΠααίίγγννιιαα δδύύοο ππααιικκττώώνν μμηηδδεεννιικκοούύ ((ήή σσττααθθεερροούύ)) ααθθρροοίίσσμμααττοοςς

Παράδειγμα 7 Δύο πολιτικοί επιλέγουν το κύριο θέμα στο οποίο θα επικεντρώσουν σε τηλεοπτική αναμέτρηση. Ο καθένας έχει τρεις στρατηγικές, όχι κατ΄ ανάγκη ίδιες. Η σχετική αποτελεσματικότητα –αύξηση στις ψήφους του πολιτικού Α ως ποσοστό των συνολικών ψήφων- που θα προκύψει στο τέλος της συζήτησης, εξαρτάται από τους συνδυασμούς των θεμάτων που επιλέγουν και δίνεται στον ακόλουθο πίνακα πληρωμών για τον παίκτη Α (των σειρών).

Πίνακας πληρωμών για τον Α Πολιτικός Β Στρατηγικές Β1 Β2 Β3

Πολιτικός Α

Α1 -1 7 3 Α2 1 1 2 Α3 -5 -3 1

http://users.uom.gr/~acg 40

ΠΠίίνναακκααςς ππλληηρρωωμμώώνν γγιιαα ττοονν ΒΒ

Πολιτικός Α Στρατηγικές Α1 Α2 Α3

Πολιτικός Β

Β1 1 -1 5 Β2 -7 -1 3 Β3 -3 -2 -1

Οι παίκτες γνωρίζουν τη δομή του πίνακα, γνωρίζουν ότι οι αντίπαλοί τους το γνωρίζουν κ.ο.κ. Επιλέγουν ταυτοχρόνως στρατηγική χωρίς να επικοινωνούν, χωρίς συνεργασία και χωρίς να έχουν ενημερωθεί εκ των προτέρων για την επιλογή του αντιπάλου τους

Ποια στρατηγική πρέπει να επιλέξει κάθε πολιτικός ;; 

http://users.uom.gr/~acg 41

ΔΔιιααγγρρααφφήή υυπποοδδεεέέσσττεερρωωνν σσττρρααττηηγγιικκώώνν Μία στρατηγική είναι υποδεέστερη (κυριαρχούμενη) μίας άλλης (που ονομάζεται υπερέχουσα ή κυρίαρχη) όταν η κυρίαρχη στρατηγική είναι τουλάχιστον τόσο «καλή» όσο και η υποδεέστερη. Ασθενής και ισχυρή κυριαρχία (weak and strict dominance)

B1 B2 B3 B1 B2 B3

A1 -1 7 3 A1 -1 7 3 A2 1 1 2 A2 1 1 2 A3 -5 -3 1

Ο ορθολογιστής παίκτης Α δεν εφαρμόζει ποτέ την στρατηγική 3

(γιατί;;)

http://users.uom.gr/~acg 42

ΠΠααρράάδδεειιγγμμαα 77 ((σσυυννέέχχεειιαα--11))

B1 B2 B3 B1 B2 A1 -1 7 3 A1 -1 7 A2 1 1 2 A2 1 1

Ο ορθολογιστής παίκτης Β γνωρίζοντας ότι ο Α δεν θα εφαρμόσει ποτέ την στρατηγική 3 (και γνωρίζοντας ότι ο Α γνωρίζει ότι το γνωρίζει κ.ο.κ.) δεν εφαρμόζει ποτέ τη δική του στρατηγική 3 αφού είναι υποδεέστερη (από ποιά;;)

Προσοχή! Κατά τη διαδικασία απαλοιφής των υποδεεστέρων στρατηγικών, είναι δυνατό, μία στρατηγική που αρχικά δεν ήταν υποδεέστερη, να καταστεί στη συνέχεια υποδεέστερη και τελικά να απομακρυνθεί από τον πίνακα πληρωμών. Η σειρά απαλοιφής δεν έχει σημασία αν έχουμε ισχυρή κυριαρχία.

http://users.uom.gr/~acg 43

ΠΠααρράάδδεειιγγμμαα 77 ((σσυυννέέχχεειιαα--22))

B1 B2 B1 A1 -1 7 A1 -1 A2 1 1 A2 1

Ο παίκτης Β γνωρίζοντας ότι ο Α δεν θα εφαρμόσει ποτέ την στρατηγική 3 (και γνωρίζοντας ότι ο Α γνωρίζει ότι το γνωρίζει κ.ο.κ.) δεν εφαρμόζει ποτέ τη στρατηγική 2 αφού είναι υποδεέστερη της 1ης στρατηγικής του. Οι στρατηγικές 2η και 3η του παίκτη Β θα μπορούσαν να είχαν διαγραφεί ταυτόχρονα ήδη στο προηγούμενο βήμα

http://users.uom.gr/~acg 44

ΠΠααρράάδδεειιγγμμαα 77 ((σσυυννέέχχεειιαα--33))

B1 B1 A1 -1 A2 1 A2 1

Γνωρίζοντας ο παίκτης Α ότι ο Β γνωρίζει όλα τα προηγούμενα, τότε δεν θα εφαρμόσει την 1η στρατηγική του αφού είναι υποδεέστερη της 2ης στρατηγικής του.

Στο παράδειγμα, το σημείο ισορροπίας (saddle point) είναι εκείνο που προκύπτει όταν ο παίκτης Α εφαρμόζει τη 2η στρατηγική του και ο Β την 1η. Η πιθανή εφαρμογή άλλης στρατηγικής πέρα από το σημείο ισορροπίας, έχει απάντηση από τον αντίπαλο η οποία δυσχεραίνει τη θέση του.

http://users.uom.gr/~acg 45

ΙΙσσοορρρροοππίίαα NNaasshh μμεε ττοο κκρριιττήήρριιοο mmiinniimmaaxx Το σημείο ισορροπίας (οριακό σημείο) ονομάζεται «τιμή του παιγνίου», συμβολίζεται με V (value of the game) και παρατηρούμε ότι είναι το μεγαλύτερο στη στήλη του και το μικρότερο στη σειρά του (saddle point, σαγματικό σημείο).

B1 B2 B3 row min A1 -1 7 3 -1 A2 1 1 2 1*

A3 -5 -3 1 -5 column max 1* 7 3 V=1

Οι δύο άριστες -αμιγείς- στρατηγικές συνθέτουν τη λύση του παιγνίου σύμφωνα με την οποία το καλύτερο που μπορεί να πετύχει ο Α είναι κερδίσει 1% των ψήφων ενώ το καλύτερο που μπορεί να πετύχει ο Β είναι να χάσει 1% των ψήφων.

http://users.uom.gr/~acg 46

ΣΣττρρααττηηγγιικκήή mmaaxxiimmiinn κκααιι mmiinniimmaaxx

B1 B2 B3 min A1 -1 7 3 -1 A2 1 1 2 1*

A3 -5 -3 1 -5 max 1* 7 3 V=1

Ο αντικειμενικός σκοπός του Α είναι να μεγιστοποιήσει τα κέρδη του ενώ του Β να ελαχιστοποιήσει τη ζημιά του. Θα ισορροπήσουν εκεί όπου ο Α θα μεγιστοποιεί το ελάχιστο κέρδος του και ο Β θα ελαχιστοποιεί τη μέγιστη ζημιά του. Δηλαδή, ουσιαστικά, θα ισορροπούν εκεί όπου και οι δύο θα ελαχιστοποιούν τη μέγιστη ζημιά που μπορούν να υποστούν.

Minimax σημείο 

Maximin σημείο 

http://users.uom.gr/~acg 47

ΓΓεεννιικκόό ΣΣυυμμππέέρραασσμμαα

Σύμφωνα με το κριτήριο minimax, σε έναν πίνακα πληρωμών για τον παίκτη Α, ο παίκτης Α επιλέγει, εκείνη τη στρατηγική που θα του δώσει το μεγαλύτερο από τα ελάχιστα των σειρών (maximin τιμή) και ο παίκτης Β επιλέγει εκείνη τη στρατηγική που θα του δώσει το ελάχιστο από τα μέγιστα των στηλών (minimax τιμή). Η maximin τιμή ονομάζεται κατώτερη τιμή και η minimax ανώτερη τιμή του παιγνίου. Όταν οι δύο τιμές ταυτίζονται το παίγνιο έχει λύση με αμιγείς στρατηγικές και η λύση είναι σταθερή (stable) δηλαδή υπάρχει ένα μοναδικό σημείο ισορροπίας που δίνει την τιμή του παιγνίου, V

Είναι ισοδύναμη διαδικασία της ισορροπίας Nash στα γενικά παίγνια, αλλά εφαρμόζεται μόνο σε παίγνια μηδενικού ή σταθερού αθροίσματος

http://users.uom.gr/~acg 48

ΠΠααρράάδδεειιγγμμαα 88

B1 B2 B3 min A1 -3 -2 6 -3 A2 2 0 2 0*

A3 5 -2 -4 -4 max 5 0* 6 V=0

Σύμφωνα με το κριτήριο minimax, και οι δύο παίκτες θα εφαρμόσουν τη 2η στρατηγική τους. Το παίγνιο αυτό ονομάζεται δίκαιο (fair game) επειδή V=0.

Θα μπορούσε να βρεθεί το σημείο ισορροπίας και οι άριστες αμιγείς στρατηγικές με διαδοχικές απαλοιφές των υποδεέστερων στρατηγικών των δύο παικτών ;;;

Maximin σημείο 

Minimax σημείο 

Page 4: Slides11-without-mixed-strategies-for-nonzero-gamesusers.uom.gr/~acg/Courses/QA2/material/Ch11slides-miniatures.pdf · Title: Microsoft Word - Slides11-without-mixed-strategies-for-nonzero-games.doc

http://users.uom.gr/~acg 49

ΠΠααρράάδδεειιγγμμαα 99:: Δύο ανταγωνιστικές επιχειρήσεις Α και Β μοιράζονται τις πωλήσεις ενός προϊόντος σε μία περιοχή. Ο συνολικός ετήσιος τζίρος των πωλήσεων είναι περίπου σταθερός και ανέρχεται στα 200 εκατομμύρια ευρώ. Κάθε μία επιχείρηση για να αποσπάσει πωλήσεις από την άλλη, εξετάζει τρία εναλλακτικά σενάρια μάρκετινγκ. (1) βελτίωση ποιότητας, (2) βελτίωση συσκευασίας, (3) αύξηση διαφημιστικής δαπάνης. Το κόστος των τριών λύσεων είναι περίπου ίδιο, αλλά υψηλό, οπότε μία μόνο στρατηγική θα εφαρμοστεί από κάθε επιχείρηση. Ακολουθεί ο πίνακας πληρωμών για την επιχείρηση Α. Παίγνιο δύο παικτών σταθερού αθροίσματος Το άθροισμα των ανταμοιβών των παικτών είναι μία σταθερά c Τιμή της σταθεράς: θετική οι παίκτες μοιράζονται κάποια

ανταμοιβή, αρνητική μοιράζονται κάποιο κόστος. Παίγνιο μηδενικού αθροίσματος ;;

http://users.uom.gr/~acg 50

ΠΠίίνναακκααςς ππλληηρρωωμμώώνν ππααιιγγννίίοουυ cc==220000

Β Στρατηγικές Β1 Β2 Β3 min

Α Α1 95 105 110 95 Α2 120 90 115 90 Α3 125 120 130 120*

max 125 120* 130 V=120

π.χ. αν η Α επιλέξει την 1η και η Β τη 3η, η Α θα πραγματοποιήσει πωλήσεις 110 εκ. και η Β πωλήσεις 90 εκ. Η διαδικασία επίλυσης είναι ίδια με τα παίγνια μηδενικού αθροίσματος. Σύμφωνα με το κριτήριο minimax η άριστη λύση είναι: A: A3, B: B2 και V(Α) = 120. Πόσο είναι το V(B);

Θα μπορούσε να βρεθεί το σημείο ισορροπίας και οι άριστες αμιγείς στρατηγικές με διαδοχικές απαλοιφές των υποδεέστερων στρατηγικών των δύο παικτών ;;

Πώς διαμορφώνεται ο πίνακας ως γενικό παίγνιο μη μηδενικού αθροίσματος;

http://users.uom.gr/~acg 51

ΜΜεειικκττέέςς ΣΣττρρααττηηγγιικκέέςς Κάθε παίκτης ακολουθεί τις στρατηγικές του με βάση κάποια κατανομή (σχέδιο) πιθανοτήτων, (δηλαδή σε κάθε στρατηγική του αντιστοιχίζει μια πιθανότητα να την ακολουθήσει). Σκοπός του είναι, να εντοπίσει εκείνο το σχέδιο πιθανοτήτων που να μην έχει κίνητρο να το αλλάξει με βάση το προσδοκώμενο κέρδος. Η κατανομή των πιθανοτήτων με βάση την οποία επιλέγει τις στρατηγικές του, ονομάζεται μεικτή ή τυχαία στρατηγική (ranzomized – mixed strategy) Η μεικτή αυτή στρατηγική ενός παίκτη είναι εκείνη που θα αφήνει τον αντίπαλό του αδιάφορο μεταξύ των αμιγών στρατηγικών που έχει στη διάθεσή του (δηλαδή το κέρδος του παίκτη επιτυγχάνεται ανεξάρτητα από τις επιλογές-μεικτές στρατηγικές του αντιπάλου του).

http://users.uom.gr/~acg 52

ΠΠιιοο σσυυγγκκεεκκρριιμμέένναα ;;

xi : η πιθανότητα ο παίκτης Α να εφαρμόσει τη στρατηγική Αi yj: η πιθανότητα ο παίκτης B να εφαρμόσει τη στρατηγική Bj Πρακτικά, κάθε παίκτης προσδιορίζει το «πρόγραμμα» βάσει του

οποίου θα παίξει το παιγνίδι δίνοντας τέτοιες τιμές στις αντίστοιχες πιθανότητες με ώστε να ισχύει ο παραπάνω κανόνας.

Τα πιθανά «προγράμματα» - πολιτικές συμβολίζονται με τα διανύσματα πιθανοτήτων (x1, x2, …, xm) και (y1, y2, …, yn) και είναι στην ουσία οι μεικτές στρατηγικές.

m

iix

1

1 και

n

jjy

1

1 ;;;

http://users.uom.gr/~acg 53

ΆΆλλλλεεςς ππλληηρροοφφοορρίίεεςς γγιιαα ττιιςς μμεειικκττέέςς σσττρρααττηηγγιικκέέςς

Μία μικτή στρατηγική (x1, x2, …, xm) με ένα xi = 1 (και τα υπόλοιπα μηδενικά) υποδεικνύει ότι εφαρμόζεται η αμιγής στρατηγική i (δηλαδή με πιθανότητα μονάδα)

Δείτε ξανά στα προηγούμενα παραδείγματα τις μεικτές (υπό την ευρεία έννοια) στρατηγικές που εφάρμοσαν οι παίκτες

Ποιο είναι το φυσικό νόημα της μεικτής στρατηγικής (x1, x2, x3) = (1/2, 1/2, 0) για τον Α και (y1, y2, y3) = (1/3, 1/3, 1/3) για τον Β ;;

Θεώρημα Nash για τις μεικτές στρατηγικές: Σε κάθε πεπερασμένο παίγνιο υπάρχει πάντοτε μία ισορροπία Nash με μεικτές στρατηγικές (πέρα και πάνω από τις πιθανές ισορροπίες με αμιγείς στρατηγικές)

http://users.uom.gr/~acg 54

ΜΜεειικκττέέςς ΣΣττρρααττηηγγιικκέέςς σσεε παίγνια μηδενικού ή σταθερού αθροίσματος Παράδειγμα 10

Β Στρατηγικές Β1 Β2 Β3 row min

Α Α1 0 -2 2 -2* Α2 5 4 -3 -3 Α3 2 3 -4 -4

col. max 5 4 2* -22 Εδώ, η εύρεση μεικτής στρατηγικής έχει νόημα όταν δεν υπάρχει σημείο ισορροπίας (ασταθής λύση). Η ανώτερη και η κατώτερη τιμή του παιγνίου δεν είναι ίδιες, οπότε οι παίκτες δεν ισορροπούν σε ένα κοινό σημείο στο οποίο να ελαχιστοποιούν τη μέγιστη ζημιά τους. Δηλαδή, γνωρίζοντας κάθε παίκτης τη δομή του πίνακα, παρατηρεί ότι για κάθε στρατηγική του αντιπάλου του υπάρχει πάντα μία καλύτερη «απάντηση».

http://users.uom.gr/~acg 55

ΥΥπποολλοογγιισσμμοοίί ττοουυ ππααρρααδδεείίγγμμααττοοςς 1100 μμεε ττοονν ΗΗ//ΥΥ ((PPOOMM--QQMM))

Η αναμενόμενη τιμή του παιγνίου (V) βρίσκεται ανάμεσα στην κατώτερη και στην ανώτερη τιμή (δηλαδή στο διάστημα (-2, 2) ). Αυτό, ισχύει ΓΕΝΙΚΑ (;)

http://users.uom.gr/~acg 56

ΤΤιι εείίννααιι ππρραακκττιικκάά ηη ««ΜΜεειικκττήή ΣΣττρρααττηηγγιικκήή»» σστταα ππααίίγγννιιαα μμηηδδεεννιικκοούύ ααθθρροοίίσσμμααττοοςς;; Κάθε παίκτης ακολουθεί τις στρατηγικές του με βάση κάποια κατανομή (σχέδιο) πιθανοτήτων. Σκοπός του είναι, να εντοπίσει εκείνο το σχέδιο πιθανοτήτων που να μην έχει κίνητρο να το αλλάξει με βάση το προσδοκώμενο κέρδος. Ειδικότερα: Ο σκοπός του είναι να μεγιστοποιεί το ελάχιστο προσδοκώμενο κέρδος του (δηλαδή να ελαχιστοποιεί τη μέγιστη προσδοκώμενη ζημιά του). Η κατανομή των πιθανοτήτων με βάση την οποία επιλέγει τις στρατηγικές του, ονομάζεται μεικτή ή τυχαία στρατηγική (ranzomized – mixed strategy). Η μεικτή στρατηγική ενός παίκτη είναι εκείνη που αφήνει τον αντίπαλό του αδιάφορο μεταξύ των αμιγών στρατηγικών του (δηλαδή το κέρδος του παίκτη επιτυγχάνεται ανεξάρτητα από τις επιλογές-μεικτές στρατηγικές του αντιπάλου του).

http://users.uom.gr/~acg 57

ΘΘεεώώρρηημμαα mmiinniimmaaxx γγιιαα ττιιςς μμιικκττέέςς σσττρρααττηηγγιικκέέςς Όταν εφαρμόζονται μεικτές στρατηγικές, τότε υπάρχει πάντα, για κάθε παίκτη, μία άριστη μικτή στρατηγική σύμφωνα με το κριτήριο minimax, που οδηγεί σε σταθερή λύση, ώστε κανένας παίκτης να μην μπορεί να βελτιώσει τη θέση του και να ελαχιστοποιεί τη μέγιστη ζημιά που μπορεί να υποστεί, ανεξάρτητα από τη μικτή στρατηγική του αντιπάλου (!)

Έστω: V(A), το προσδοκώμενο κέρδος του Α και V(B), η προσδοκώμενη ζημιά του Β

Τότε V(A) = V(B) = V, είναι το σημείο ισορροπίας για τις άριστες μικτές στρατηγικές αναμενόμενη τιμή του παιγνίου

m

i

n

jijji ayxV

1 1

http://users.uom.gr/~acg 58

ΠΠεερρίίππττωωσσηη 11ηη Παίγνιο μηδενικού αθροίσματος διάστασης 2×2 Παράδειγμα 11

Β Στρατηγικές Β1 Β2 min Α Α1 -2 6 -2

Α2 5 1 1*

max 5* 6 1V5

Δεν υπάρχει σημείο ισορροπίας με αμιγείς στρατηγικές. Ορίζουμε πιθανότητες εφαρμογής κάθε στρατηγικής από κάθε παίκτη και συνεχίζουμε για τον εντοπισμό των άριστων μικτών στρατηγικών και της προσδοκώμενης τιμής του παιγνίου.

http://users.uom.gr/~acg 59

ΠΠιιθθααννόόττηηττεεςς γγιιαα κκάάθθεε σσττρρααττηηγγιικκήή ππααρρααδδεείίγγμμααττοοςς 1111

Β Στρατηγικές Β1

y1 Β2 y2

Α Α1 x1 -2 6 Α2 x2 5 1

Εντοπισμός άριστης μεικτής στρατηγικής για παίκτη Α:

Υπολογίζουμε τις αναμενόμενες πληρωμές στον παίκτη A: V(A, B1) και V(A, B2).

Ισχύει ότι: V(B, B1) = -V(A, B1) και V(B, B2) = -V(A, B2) Εξισώνουμε τις V(A, B1) και V(A, B2) και υπολογίζουμε έτσι τις πιθανότητες x1 και x2

Υπολογίζουμε το V(A) από μία εκ των V(A, B1) ή V(A, B2)

http://users.uom.gr/~acg 60

ΕΕφφααρρμμοογγήή σσττοο ππααρράάδδεειιγγμμαα 1111 ((11)) Εντοπισμός άριστης μικτής στρατηγικής για τον παίκτη Α Ο Α ακολουθεί τη στρατηγική Α1 με πιθανότητα x1, και τη

στρατηγική Α2 με πιθανότητα x2. Φυσικά, x1 + x2 = 1. δηλαδή: V(A, B1) = -2x1 + 5x2 = -2x1 + 5(1-x1) = -7x1 + 5

V(A, B2)= 6x1 + 1x2 = 6x1 + 1-x1 = 5x1 + 1

Επειδή πρέπει να ισχύει ότι V(A, B1) = V(A, B2), έχουμε ότι:

-7x1 + 5 = 5x1 + 1 δηλαδή 12x1 = 4, οπότε x1=1/3 και x2=2/3

http://users.uom.gr/~acg 61

ΕΕφφααρρμμοογγήή σσττοο ππααρράάδδεειιγγμμαα 1111 ((22))

Αυτό σημαίνει, ότι ο Α θα πρέπει να ακολουθεί τη στρατηγική Α1 με πιθανότητα x1 = 1/3 και την Α2 με πιθανότητα x2 = 2/3.

Το προσδοκώμενο κέρδος του Α είναι (με αντικατάσταση στο V(A, B1) ή στο V(A, B2)): V(A) = -2(1/3) + 5(2/3) = 6(1/3) + 1(2/3) =8/3

Το αναμενόμενο αυτό κέρδος είναι ανεξάρτητο της μικτής στρατηγικής που χρησιμοποιεί ο παίκτης Β.

Π.χ.: αν ο Β ακολουθεί μία τυχαία μικτή στρατηγική έστω: για τη Β1: y=1/4 και για τη Β2: (1-y)=3/4, τότε: V(A)=(1/4)(-2×1/3 + 5×2/3) + (3/4)(6×1/3 + 1×2/3) = 8/3.

http://users.uom.gr/~acg 62

ΕΕφφααρρμμοογγήή σσττοο ππααρράάδδεειιγγμμαα 1111 ((33))

Γενικότερα, αν ο Β ακολουθεί οποιαδήποτε τυχαία μεικτή στρατηγική έστω: (y1, y2) με y1 + y2 =1, τότε έχουμε: V(A)=(y1)(-2×1/3 + 5×2/3) + (1-y1)(6×1/3 + 1×2/3) =

(y1)(8/3) + (1-y1)(8/3) = (y1 + 1 – y1)(8/3) = 8/3.

Αυτό συμβαίνει, διότι οι πιθανότητες που βρέθηκαν για τον παίκτη Α (1/3 και 2/3) ήταν αποτέλεσμα της απαίτησης να ισχύει V(A, B1) = V(A, B2) = V (δηλ. ο Β αδιάφορος). Κάτι, που πάντα επαληθεύει την ισχύ της ακόλουθης:

V(A) = (y1) V(A, B1) + y2 V(A, B2) = (y1 + y2) V = V

http://users.uom.gr/~acg 63

ΕΕννττοοππιισσμμόόςς άάρριισσττηηςς σσττρρααττηηγγιικκήήςς γγιιαα ττοονν ππααίίκκττηη BB Ο Β ακολουθεί τη στρατηγική Β1 με πιθανότητα y1, και τη στρατηγική B2 με πιθανότητα y2.

Ας θέσουμε αμέσως y1 =y και y2 = 1-y. Αν ο A ακολουθήσει τη στρατηγική A1, η προσδοκώμενη ζημιά του παίκτη B είναι: V(B, A1) = -2y + 6(1-y)

Αν ο Α ακολουθήσει την Α2, τότε η αναμενόμενη ζημιά του Β είναι: V(Β, Α2) = 5y + 1(1-y).

Για να ελαχιστοποιεί ο Β τη μέγιστη ζημιά που μπορεί να υποστεί θα πρέπει: V(Β, Α1) = V(Β, Α2), οπότε είναι:

-2y + 6(1-y) = 5y + 1(1-y) δηλαδή 12y = 5 που δίνει y=5/12, (1-y)=7/12.

http://users.uom.gr/~acg 64

ΕΕννττοοππιισσμμόόςς άάρριισσττηηςς σσττρρααττηηγγιικκήήςς γγιιαα ττοονν ππααίίκκττηη BB (συνέχεια) Αυτό σημαίνει ότι ο Β θα πρέπει να ακολουθεί τη στρατηγική Β1 με πιθανότητα y1 = 5/12 και την B2 με πιθανότητα y2 = 7/12.

Προσδοκώμενη ζημιά του Β (αντικατάσταση στο V(Β, Α1) ή στο V(Β, Α2)): V(Β) = -2×5/12 + 6×7/12 = 5×5/12 + 1×7/12 = 8/3 που είναι ίσο με το V(A).

Η αναμενόμενη αυτή ζημιά είναι ανεξάρτητη της μικτής στρατηγικής που χρησιμοποιεί ο παίκτης A.

Page 5: Slides11-without-mixed-strategies-for-nonzero-gamesusers.uom.gr/~acg/Courses/QA2/material/Ch11slides-miniatures.pdf · Title: Microsoft Word - Slides11-without-mixed-strategies-for-nonzero-games.doc

http://users.uom.gr/~acg 65

ΣΣύύννοοψψηη άάρριισσττηηςς λλύύσσηηςς ππααρρααδδεείίγγμμααττοοςς 1111 Παίκτης Α: (x1, x2) = (1/3, 2/3), V(A) = 8/3 Παίκτης B: (y1, y2) = (5/12, 7/12), V(B) = V(A) = V = 8/3 Επομένως, μακροπρόθεσμα, αν το παιγνίδι επαναληφθεί πολλές φορές, καθώς το πλήθος των επαναλήψεων τείνει στο άπειρο, στις 12 επαναλήψεις του παιγνίου ο παίκτης Α θα ακολουθεί 4 φορές την Α1 και 8 φορές την Α2, ενώ ο παίκτης Β θα ακολουθεί 5 φορές την Β1 και 7 φορές την Β2.

Επισήμανση – φυσικό νόημα: Η τιμή του παιγνίου V=8/3, δεν σημαίνει πως κάθε φορά που επαναλαμβάνεται το παιγνίδι ο Α κερδίζει 8/3 και ο Β χάνει 8/3, αλλά, ότι αν οι δύο παίκτες επαναλάβουν το παίγνιο πολλές φορές με βάση τις πιθανότητες που υπολογίστηκαν, τότε το μέσο κέρδος του Α είναι 8/3 (η προσδοκώμενη ζημιά του Β).

http://users.uom.gr/~acg 66

ΠΠεερρίίππττωωσσηη 22ηη Παίγνιο μηδενικού αθροίσματος διάστασης 2×n Παράδειγμα 12

Β Στρατηγικές Β1

y1

Β2 y2

Β3 y3

Β4 y4

Β5 y5

row min

Α Α1 x1 1 4 -2 -3 5 -3 Α2 x2 4 3 5 2 -1 -1*

col. Max 4 4 5 2* 5 -1V2

Θα μπορούσαν να απομακρυνθούν κάποιες υποδεέστερες στρατηγικές ;;;

http://users.uom.gr/~acg 67

ΠΠααρράάδδεειιγγμμαα 1122 ((σσυυννέέχχεειιαα)) Υπολογισμοί V(A, B1) = x1 + 4x2 = x1 + 4(1-x1) = -3x1 + 4 V(A, B2) = 4x1 + 3x2 = 4x1 + 3(1-x1) = x1 + 3

V(A, B3) = -2x1 + 5x2 = -2x1 + 5(1-x1) = -7x1 + 5

V(A, B4) = -3x1 + 2x2 = -3x1 + 2(1-x1) = -5x1 + 2 V(A, B5) = 5x1 – x2 = 5x1 – (1-x1) = 6x1 – 1

http://users.uom.gr/~acg 68

ΓΓρρααφφιικκήή ΜΜέέθθοοδδοοςς ((μμεείίωωσσηη ττηηςς δδιιάάσστταασσηηςς ττοουυ ππίίνναακκαα))

http://users.uom.gr/~acg 69

ΓΓρρααφφιικκήή εεππίίλλυυσσηη ππααρρααδδεείίγγμμααττοοςς 1122 ((ΗΗ//ΥΥ--PPOOMM--QQMM))

http://users.uom.gr/~acg 70

ΠΠααρράάδδεειιγγμμαα 1122 ((σσυυννέέχχεειιαα--11)) Μείωση της διάστασης του πίνακα – διαγραφή των υποδεέστερων που εντοπίστηκαν στη γραφική αναπαράσταση

Β Στρατηγικές Β4

y4

Β5 y5

Α Α1 x1 -3 5 Α2 x2 2 -1

Στη συνέχεια, εφαρμόζεται η διαδικασία επίλυσης παιγνίου διάστασης 22

http://users.uom.gr/~acg 71

ΠΠααρράάδδεειιγγμμαα 1122 ((σσυυννέέχχεειιαα--22)) Εντοπισμός άριστης μεικτής στρατηγικής για τον παίκτη Α V(A, B4) = -3x1 + 2x2 και V(A, B5) = 5x1 - x2. Οπότε V(A, B4) = V(A, B5), δηλαδή -3x1 + 2x2 = 5x1 - x2 Άρα, 8x1 = 3x2 και επειδή x1 + x2 = 1 προκύπτει ότι x1=3/11 και x2=8/11. Αντικαθιστώντας την άριστη μικτή στρατηγική του Α σε οποιοδήποτε από τα V(A, B4) και V(A, B5) παίρνουμε την άριστη αναμενόμενη τιμή (μέγιστο προσδοκώμενο κέρδος σύμφωνα με το κριτήριο minimax) για τον παίκτη Α: V(A) = -3 × 3/11 + 2 × 8/11 = 7/11

http://users.uom.gr/~acg 72

ΠΠααρράάδδεειιγγμμαα 1122 ((σσυυννέέχχεειιαα--33)) Εντοπισμός άριστης μικτής στρατηγικής για τον παίκτη Β V(Β, Α1) = V(Β, Α2) δηλαδή -3y4 + 5y5 = 2y4 – 1y5 Άρα, 5y4 = 6y5 και επειδή y4 + y5 = 1 προκύπτει ότι y4=6/11 και y5=5/11 Αντικαθιστώντας την άριστη μικτή στρατηγική του B σε οποιοδήποτε από τα V(B, A1) και V(B, A2) παίρνουμε την άριστη αναμενόμενη τιμή (ελάχιστη προσδοκώμενη ζημιά σύμφωνα με το κριτήριο minimax) για τον παίκτη B: V(Β) = -3 × 6/11 + 5 × 5/11 = 7/11

http://users.uom.gr/~acg 73

ΣΣύύννοοψψηη ττηηςς άάρριισσττηηςς λλύύσσηηςς ττοουυ ππααρρααδδεείίγγμμααττοοςς 1122 O παίκτης Α εφαρμόζει τη μικτή στρατηγική: x1=3/11, x2=8/11, με maximin κέρδος V(A) = 7/11 O παίκτης Β εφαρμόζει τη μικτή στρατηγική:

y1=y2=y3=0, y4=6/11, y5=5/11, με minimax ζημιά V(Β) = 7/11

Η προσδοκώμενη τιμή παιγνίου είναι V = V(A) = V(B) = 7/11. Φυσικό νόημα (;;)

http://users.uom.gr/~acg 74

ΠΠεερρίίππττωωσσηη 33ηη Παίγνιο μηδενικού αθροίσματος διάστασης m×2 Παράδειγμα 13

Β Στρατηγικές Β1

y1

Β2 y2

min

Α Α1 x1 -2 4 -2 Α2 x2 5 -3 -3 Α3 x3 4 2 2*

Α4 x4 2 1 1

max 5 4* 2V4

http://users.uom.gr/~acg 75

ΠΠααρράάδδεειιγγμμαα 1133 ((σσυυννέέχχεειιαα)) Υπολογισμοί

V(B, A1) = -2y1 + 4y2

V(B, A2) = 5y1 – 3y2 V(B, A3) = 4y1 + 2y2

V(B, A4) = 2y1 + y2

http://users.uom.gr/~acg 76

ΓΓρρααφφιικκήή ΜΜέέθθοοδδοοςς ((μμεείίωωσσηη ττηηςς δδιιάάσστταασσηηςς ττοουυ ππίίνναακκαα))

V(B, A2)

minimax  

V(B, A3)

V(B, A1)

http://users.uom.gr/~acg 77

ΓΓρρααφφιικκήή εεππίίλλυυσσηη ππααρρααδδεείίγγμμααττοοςς 1133 ((ΗΗ//YY -- PPOOMM--QQMM))

http://users.uom.gr/~acg 78

ΠΠααρράάδδεειιγγμμαα 1133 ((σσυυννέέχχεειιαα--11))

Μείωση της διάστασης του πίνακα – διατήρηση των στρατηγικών Α1 και Α3 που καθορίζουν το σημείο minimax.

Β Στρατηγικές Β1

y1

Β2 y2

Α Α1 x1 -2 4 Α3 x3 4 2

Στη συνέχεια, εφαρμόζεται η διαδικασία επίλυσης παιγνίου διάστασης 2×2

http://users.uom.gr/~acg 79

ΠΠααρράάδδεειιγγμμαα 1133 ((σσυυννέέχχεειιαα--22)) Εντοπισμός άριστης μικτής στρατηγικής για τον παίκτη Β V(Β, Α1) = V(Β, Α3) δηλαδή: -2y1 + 4y2 = 4y1 + 2y2 Άρα, 3y1 = y2 (και y1 + y2 = 1) οπότε: y1 = 1/4 και y2 = 3/4 Αντικαθιστώντας την άριστη μικτή στρατηγική του B σε οποιοδήποτε από τα V(B, A1) και V(B, A3) παίρνουμε την άριστη αναμενόμενη τιμή (ελάχιστη προσδοκώμενη ζημιά σύμφωνα με το κριτήριο minimax) για τον παίκτη B: V(Β) = -2 × 0.25 + 4 × 0.75 = 2.5

http://users.uom.gr/~acg 80

ΠΠααρράάδδεειιγγμμαα 1133 ((σσυυννέέχχεειιαα--33)) Εντοπισμός άριστης μικτής στρατηγικής για τον παίκτη Α V(A, B1) = V(A, B2) δηλαδή -2x1 + 4x3 = 4x1 + 2x3 Άρα, 3x1 = x3 και επειδή x1 + x3 = 1 προκύπτει ότι x1 = 1/4 και x3 = 3/4 Αντικαθιστώντας την άριστη μικτή στρατηγική του A σε οποιοδήποτε από τα V(A, B1) και V(A, B2) παίρνουμε την άριστη αναμενόμενη τιμή (μέγιστο προσδοκώμενο κέρδος σύμφωνα με το κριτήριο minimax) για τον παίκτη Α: V(Α) = -2 × 0.25 + 4 × 0.75 = 2.5

Page 6: Slides11-without-mixed-strategies-for-nonzero-gamesusers.uom.gr/~acg/Courses/QA2/material/Ch11slides-miniatures.pdf · Title: Microsoft Word - Slides11-without-mixed-strategies-for-nonzero-games.doc

http://users.uom.gr/~acg 81

ΣΣύύννοοψψηη ττηηςς άάρριισσττηηςς λλύύσσηηςς ττοουυ ππααρρααδδεείίγγμμααττοοςς 1133

O παίκτης Α εφαρμόζει τη μικτή στρατηγική: x1 = 1/4, x2 = 0, x3 = 3/4, x4 = 0,

με maximin κέρδος V(A) = 2.5

O παίκτης Β εφαρμόζει τη μικτή στρατηγική:

y1 = 1/4 και y2 = 3/4, με minimax ζημιά V(Β) = 2.5

Η προσδοκώμενη τιμή παιγνίου είναι V = V(A) = V(B) = 2.5

Φυσικό νόημα (;;;)

http://users.uom.gr/~acg 82

ΠΠααρράάδδεειιγγμμαα 1100 ((εεππιισσττρροοφφήή))

Β Στρατηγικές Β1 Β2 Β3 min

Α Α1 0 -2 2 -2* Α2 5 4 -3 -3 Α3 2 3 -4 -4

max 5 4 2* -2V2

Δεν υπάρχει σημείο ισορροπίας (ασταθής λύση). Η άριστη λύση θα μπορούσε να βρεθεί ξεκινώντας με απαλοιφή των υποδεέστερων στρατηγικών (το σκιασμένο

τμήμα του πίνακα δείχνει τις εναπομένουσες στρατηγικές) και μετά με την

εφαρμογή της περίπτωσης 2×2. Αν, χάριν παραδείγματος, διαγράψουμε μόνο την Α3 τότε θα ήταν 2×3 και η διαδικασία επίλυσης θα ήταν η ακόλουθη.

http://users.uom.gr/~acg 83

ΠΠααρράάδδεειιγγμμαα 1100 ((σσυυννέέχχεειιαα)) Υπολογισμοί

V(Α, Β1) = 0x1 + 5(1-x1) = 5 – 5x1

V(Α, Β2) = -2x1 + 4(1-x1) = 4 – 6x1

V(Α, Β3) = 2x1 – 3(1-x1) = -3 + 5x1

V = V(A) = V(B) = y1 × (5-5x1) + y2 × (4 – 6x1) + y3 × (-3 + 5x1)

http://users.uom.gr/~acg 84

ΓΓρρααφφιικκήή εεππίίλλυυσσηη ππααρρααδδεείίγγμμααττοοςς 1100 σσττοονν ΗΗ//ΥΥ

maximin  

Β1 υποδεέστερη 

http://users.uom.gr/~acg 85

ΠΠααρράάδδεειιγγμμαα 1100 ((σσυυννέέχχεειιαα--11)) Μείωση της διάστασης του πίνακα – διατήρηση των στρατηγικών Β2 και Β3 που καθορίζουν το σημείο maximin.

Β Στρατηγικές Β2

y2

Β3 y3

Α Α1 x1 -2 2 Α2 1-x1 4 -3

Στη συνέχεια, εφαρμόζεται η διαδικασία επίλυσης παιγνίου διάστασης 2×2

http://users.uom.gr/~acg 86

ΠΠααρράάδδεειιγγμμαα 1100 ((σσυυννέέχχεειιαα--22)) Εντοπισμός άριστης μικτής στρατηγικής για τον παίκτη Α V(A, B2) = V(A, B3) δηλαδή -4 – 6x1 = -3 + 5x1 Άρα, x1 = 7/11 και 1-x1 = 4/11 Οπότε: V(Α) = 4 - 6×(7/11) = 2/11

Εντοπισμός άριστης μικτής στρατηγικής για τον παίκτη Β V(Β, Α1) = V(Β, Α2) δηλαδή -2y2 + 2y3 = 42y2 – 3y3 Άρα: 6y2 =5y3 και επειδή y2 + y3 = 1 προκύπτει ότι y2 = 5/11 και y3 =1 - y2 = 6/11 Οπότε: V(B) = -2 × (5/11) + 2 × (6/11) = 2/11

http://users.uom.gr/~acg 87

ΣΣύύννοοψψηη ττηηςς άάρριισσττηηςς λλύύσσηηςς ττοουυ ππααρρααδδεείίγγμμααττοοςς 1100

O παίκτης Α εφαρμόζει τη μικτή στρατηγική:

x1 = 7/11, x2 = 1-x1 = 4/11, με maximin κέρδος V(A) = 2/11

O παίκτης Β εφαρμόζει τη μικτή στρατηγική:

y1 = 0, y2 = 5/11 και y3 = 1-y2 = 6/11, και V(Β) = 2/11

Η προσδοκώμενη τιμή παιγνίου είναι V = V(A) = V(B) =

2/11 Φυσικό νόημα (;;;)

http://users.uom.gr/~acg 88

ΣΣύύννοοψψηη άάρριισσττηηςς λλύύσσηηςς ππααρρααδδεείίγγμμααττοοςς 1100 ((ΗΗ//ΥΥ -- PPOOMM--QQMM))

http://users.uom.gr/~acg 89

ΠΠααρράάδδεειιγγμμαα 1144 ((πποολλλλααππλλάά σσηημμεείίαα ιισσοορρρροοππίίααςς))

B1 B2 B3 row min A1 4 3 3 3* A2 3 3 3 3* A3 2 1 6 1

column max 4 3* 6 V=3

B1 B2 B3 B1 B2 B3 A1 4 3 3 A1 4 3 3 A2 3 3 3 A2 3 3 3 A3 2 1 6 A3 2 1 6

1η 3η

4η 2η

http://users.uom.gr/~acg 90

ΟΟιι υυπποολλοογγιισσμμοοίί ττοουυ ππααρρααδδεείίγγμμααττοοςς 1144 ((ΗΗ//ΥΥ -- PPOOMM--QQMM))

http://users.uom.gr/~acg 91

ΕΕππίίλλυυσσηη ππααιιγγννίίοουυ μμεε γγρρααμμμμιικκόό ππρροογγρρααμμμμααττιισσμμόό Παράδειγμα 15

B1

y1 B2

y2 B3

y3 row min

A1 x1 0 -1 1 -1 A2 x2 1 0 -1 -1 A3 x3 -1 1 0 -1

col. max 1 1 1 -1V1 Μπορείτε να σκεφτείτε ένα παιγνίδι που ταιριάζει ;

http://users.uom.gr/~acg 92

http://users.uom.gr/~acg 93

ΠΠααρράάδδεειιγγμμαα 1155 ((σσυυννέέχχεειιαα--11)) Υπολογισμοί

V(Α, Β1) = 0x1 + x2 – x3 = x2 – x3

V(Α, Β2) = -1x1 + 0x2 + x3 = -x1 + x3

V(Α, Β3) = x1 – x2 + 0x3 = x1 – x2

V = V(A) = V(B) = y1 × (x2 – x3) + y2 × (-x1 + x3) + y3 × (x1 – x2)

http://users.uom.gr/~acg 94

ΠΠααρράάδδεειιγγμμαα 1155 ((σσυυννέέχχεειιαα--22))

Ο παίκτης Α επιλέγει μικτή στρατηγική τέτοια ώστε (σύμφωνα με το κριτήριο minimax) να μεγιστοποιεί το ελάχιστο κέρδος που μπορεί να αποκομίσει. Έστω ότι αυτό το κέρδος συμβολίζεται με x4. Τότε, ισχύει ότι: x4 V(Α, Β1), x4 V(Α, Β2) και x4 V(Α, Β3)

και επειδή θέλουμε να είναι όσο γίνεται μεγαλύτερο θα πρέπει επίσης: Maximize z = x4

Τέλος, τα x1, x2 και x3 είναι πιθανότητες και ισχύει ότι: x1 + x2 + x3 = 1 όπου x1, x2, x3 0 και x4 R

http://users.uom.gr/~acg 95

ΠΠααρράάδδεειιγγμμαα 1155 ((σσυυννέέχχεειιαα--33))

Γενική Μορφή (Σχεδόν) Κανονική Μορφή

Max z = x4

με περιορισμούς x4 x2 – x3 x4 -x1 + x3 x4 x1 – x2

x1 + x2 + x3 = 1 και x1, x2, x3 0 και x4 R

Max z = x4

με περιορισμούς –x2 + x3 + x4 0 x1 – x3 + x4 0 -x1 + x2 + x4 0

x1 + x2 + x3 = 1 και x1, x2, x3 0 και x4 R

http://users.uom.gr/~acg 96

ΠΠααρράάδδεειιγγμμαα 1155 ((σσυυννέέχχεειιαα--44))

Αν εργαστούμε με ανάλογο τρόπο για τον παίκτη Β το αντίστοιχο μοντέλο γραμμικού προγραμματισμού είναι:

Γενική Μορφή (Σχεδόν) Κανονική Μορφή Min w = y4

με περιορισμούς y4 -y2 + y3 y4 y1 – y3 y4 -y1 + y2

y1 + y2 + y3 = 1 και y1, y2, y3 0 και y4 R

Min w = y4

με περιορισμούς + y2 – y3 + y4 0 –y1 + y3 + y4 0 y1 – y2 + y4 0

y1 + y2 + y3 = 1 και y1, y2, y3 0 και y4 R

Page 7: Slides11-without-mixed-strategies-for-nonzero-gamesusers.uom.gr/~acg/Courses/QA2/material/Ch11slides-miniatures.pdf · Title: Microsoft Word - Slides11-without-mixed-strategies-for-nonzero-games.doc

http://users.uom.gr/~acg 97

ΠΠααρράάδδεειιγγμμαα 1155 ((σσυυννέέχχεειιαα--55))

Ποια σχέση συνδέει τα δύο μοντέλα;; Για να λύσουμε το γραμμικό μοντέλο του παίκτη Α ή του Β

μπορούμε να μετασχηματίσουμε τη μεταβλητή x4, ή τη μεταβλητή y4, κατά το γνωστό μετασχηματισμό των μεταβλητών που δεν περιορίζονται ως προς το πρόσημο.

Εναλλακτικά, προσθέτουμε σε κάθε στοιχείο του πίνακα πληρωμών, μία σταθερά ίση με την απόλυτη τιμή του πλέον αρνητικού στοιχείου του πίνακα. Έτσι η τιμή του μετασχηματισμένου παιγνίου, θα είναι μη αρνητική και μάλιστα μεγαλύτερη από την κανονική, κατά την απόλυτη αυτή τιμή.

Στο παράδειγμα, προσθέτουμε την -1 = 1. Το νέο x4 που βελτιστοποιείται, θα είναι κατά μία μονάδα μεγαλύτερο από την πραγματική του άριστη τιμή.

http://users.uom.gr/~acg 98

ΠΠααρράάδδεειιγγμμαα 1155 ((σσυυννέέχχεειιαα--66)) Ο μετασχηματισμένος πίνακας πληρωμών

B1

y1 B2

y2 B3

y3 row min

A1 x1 1 0 2 0 A2 x2 2 1 0 0 A3 x3 0 2 1 0

col. max 2 2 2 0V2

http://users.uom.gr/~acg 99

ΠΠααρράάδδεειιγγμμαα 1155 ((σσυυννέέχχεειιαα--77)) Το μετασχηματισμένο γραμμικό μοντέλο Max z = x'4

με περιορισμούς -x1 – 2x2 + x'4 0 – x2 – 2x3 + x'4 0 -2x1 – x3 + x'4 0

x1 + x2 + x3 = 1

και x1, x2, x3 x'4 0

http://users.uom.gr/~acg 100

ΕΕππίίλλυυσσηη ττοουυ ππααρρααδδεείίγγμμααττοοςς 1155 ((ΗΗ//ΥΥ -- QQSSBB))

http://users.uom.gr/~acg 101

ΣΣύύννοοψψηη ττηηςς άάρριισσττηηςς λλύύσσηηςς ττοουυ ππααρρααδδεείίγγμμααττοοςς 1155

O παίκτης Α εφαρμόζει τη μικτή στρατηγική:

x1 = 1/3, x2 = 1/3, και x3 = 1/3, με maximin κέρδος x'4 = 1 για το μετασχηματισμένο μοντέλο, άρα V(A) = 1 – 1 = 0.

Από τις σκιώδεις (δυϊκές) τιμές βρίσκουμε τη λύση για τον

παίκτη Β που εφαρμόζει τη μικτή στρατηγική: y1 = 1/3, y2 = 1/3 και y3 = 1/3, με minimax ζημιά V(Β) = 0

Η προσδοκώμενη τιμή παιγνίου είναι V = V(A) = V(B) = 0

(δίκαιο παιγνίδι)

http://users.uom.gr/~acg 102

ΠΠααρράάδδεειιγγμμαα 1144 ((εεππιισσττρροοφφήή)) Επίλυση με γραμμικό προγραμματισμό

B1 B2 B3 row min A1 4 3 3 3* A2 3 3 3 3* A3 2 1 6 1

column max 4 3* 6 V=3

Στο παράδειγμα αυτό, όλα τα στοιχεία του πίνακα πληρωμών είναι μη αρνητικά οπότε δεν χρειάζεται μετασχηματισμός αφού ούτως ή άλλως όλες οι μεταβλητές θα είναι μη αρνητικές.

http://users.uom.gr/~acg 103

ΠΠααρράάδδεειιγγμμαα 1144 ((σσυυννέέχχεειιαα--11)) Max z = x4

με περιορισμούς 4x1 + 3x2 + 2x3 - x4 > 0 3x1 + 3x2 + x3 - x4 > 0 3x1 + 3x2 + 6x3 - x4 > 0 x1 + x2 + x3 = 1

και x1, x2, x3, x4 0

http://users.uom.gr/~acg 104

ΕΕππίίλλυυσσηη ττοουυ ππααρρααδδεείίγγμμααττοοςς 1144 ((ΗΗ//ΥΥ -- QQSSBB))

http://users.uom.gr/~acg 105

EEννααλλλλαακκττιικκήή άάρριισσττηη λλύύσσηη ττοουυ ππααρρααδδεείίγγμμααττοοςς 1144

http://users.uom.gr/~acg 106

ΠΠααρράάδδεειιγγμμαα 1166 Η Ένωση Καλαθοσφαιριστών (παίκτης Α) διαπραγματεύεται με την Ένωση Σωματείων (παίκτης Β) για να συμφωνήσουν σε μία ελάχιστη ετήσια αμοιβή. Κάθε πλευρά, έχει τρεις στρατηγικές. Κάθε συνδυασμός στρατηγικών, οδηγεί σε ένα ελάχιστο (αναμενόμενο) ετήσιο ποσό. Οι στρατηγικές των καλαθοσφαιριστών είναι: 1) αποχώρηση από τη διαπραγμάτευση, 2) επιθετική στάση, 3) παρελκυστική στάση. Για τα σωματεία είναι: 1) αποφυγή ρήξης, 2) σθεναρή στάση, 3) «δώστε ό,τι θέλουν». Στον επόμενο πίνακα δίνονται τα ποσά που μπορούν να πετύχουν οι καλαθοσφαιριστές

B1 B2 B3 min A1 30 10 35 10 A2 25 15 30 15* A3 10 25 15 10

max 30 25* 35 15V25

http://users.uom.gr/~acg 107

ΠΠααρράάδδεειιγγμμαα 1166 -- εεππίίλλυυσσηη Η στρατηγική Β3 της Ένωσης Σωματείων απαλείφεται ως υποδεέστερη της Β1.

B1 y1

B2 y2

A1 x1 30 10 A2 x2 25 15 A3 x3 10 25

Υπολογισμοί V(B, A1) = 30y1 + 10y2 = 30y1 + 10(1 – y1) = 10 + 20y1

V(B, A2) = 25y1 + 15y2 = 25y1 + 15(1 – y1) = 15 + 10y1

V(B, A3) = 10y1 + 25y2 = 10y1 + 25(1 – y1) = 25 – 15y1

http://users.uom.gr/~acg 108

ΓΓρρααφφιικκήή εεππίίλλυυσσηη ππααρρααδδεείίγγμμααττοοςς 1166 ((ΗΗ//ΥΥ -- PPOOMM--QQMM))

minimax  

V(B, A3) V(B, A2) V(B, A1)

http://users.uom.gr/~acg 109

ΠΠααρράάδδεειιγγμμαα 1166 ((σσυυννέέχχεειιαα--11)) Μείωση της διάστασης του πίνακα – διατήρηση των Α2 και Α3 που καθορίζουν το σημείο minimax.

Β Στρατηγικές Β1

y1

Β2 y2

Α Α2 x2 25 15 Α3 x3 10 25

Στη συνέχεια, εφαρμόζεται η διαδικασία επίλυσης παιγνίου διάστασης 2×2

http://users.uom.gr/~acg 110

ΠΠααρράάδδεειιγγμμαα 1166 ((σσυυννέέχχεειιαα--22)) Εντοπισμός άριστης μικτής στρατηγικής για τον παίκτη Β V(Β, Α2) = V(Β, Α3) δηλαδή 15 + 10y1= 25 – 15y1 Άρα, 25y1 = 10 y1=2/5 και y2 = 3/5 Αντικαθιστώντας την άριστη μικτή στρατηγική του B σε οποιοδήποτε από τα V(B, A2) και V(B, A3) παίρνουμε την άριστη αναμενόμενη τιμή για τον παίκτη B: V(Β) = 25 - 15 × 2/5 = 19 (=15 + 10 × 2/5)

http://users.uom.gr/~acg 111

ΕΕννττοοππιισσμμόόςς άάρριισσττηηςς μμιικκττήήςς σσττρρααττηηγγιικκήήςς γγιιαα ττοονν ππααίίκκττηη ΑΑ V(A, B1) = 25x2 + 10x3 και V(A, B2) = 15x2 + 25x3 Οπότε V(A, B1) = V(A, B2), δηλαδή 25x2+10x3 =

15x2+25x3 Άρα, 10x2 = 15x3 και επειδή x2 + x3 = 1 προκύπτει ότι x2 = 3/5 και x3 = 2/5. Αντικαθιστώντας την άριστη μικτή στρατηγική του Α σε οποιοδήποτε από τα V(A, B1) και V(A, B2) παίρνουμε την άριστη αναμενόμενη τιμή για τον παίκτη Α: V(A) = 25 × 3/5 + 10 × 2/5 = 19

http://users.uom.gr/~acg 112

ΣΣύύννοοψψηη ττηηςς άάρριισσττηηςς λλύύσσηηςς ττοουυ ππααρρααδδεείίγγμμααττοοςς 1166 O παίκτης Α εφαρμόζει τη μικτή στρατηγική:

x1 = 0, x2 = 3/5 και x3 = 2/5, με maximin κέρδος V(A) = 19

O παίκτης Β εφαρμόζει τη μικτή στρατηγική:

y1=2/5, y2 = 3/5 και y3 =0, με minimax ζημιά V(Β) = 19

Η προσδοκώμενη τιμή παιγνίου είναι V = V(A) = V(B) = 19

Page 8: Slides11-without-mixed-strategies-for-nonzero-gamesusers.uom.gr/~acg/Courses/QA2/material/Ch11slides-miniatures.pdf · Title: Microsoft Word - Slides11-without-mixed-strategies-for-nonzero-games.doc

http://users.uom.gr/~acg 113

ΠΠααρράάδδεειιγγμμαα 1177

Δύο επιχειρήσεις A και B παράγουν υβρίδια, σπόρους και άλλα αγροτικά υλικά και δραστηριοποιούνται στην ίδια γεωγραφική περιοχή. Σχεδιάζουν την προώθηση ενός βελτιωμένου υβριδίου καλαμποκιού για την επόμενη περίοδο καλλιέργειας. Προκειμένου να αποσπάσουν μεγαλύτερο μερίδιο της αγοράς δύνανται να εφαρμόσουν διάφορες στρατηγικές οι οποίες είναι: α) διαφήμιση σε τηλεοπτικά μέσα, β) προσωπική ενημέρωση των αγροτών πόρτα-πόρτα, γ) ανταγωνιστική τιμή του προϊόντος και η τέταρτη στρατηγική που αφορά μόνο την εταιρεία Α, είναι δ) δυνατότητα χρηματοδότησης από την ΕΕ μέρους του κόστους ανάπτυξης του νέου προϊόντος. Η αύξηση του ποσοστού των πωλήσεων για την επιχείρηση Α έναντι της Β, για κάθε συνδυασμό στρατηγικών, δίνεται στον επόμενο πίνακα.

http://users.uom.gr/~acg 114

ΠΠααρράάδδεειιγγμμαα 1177 ((σσυυννέέχχεειιαα--11))

Β Στρατηγικές Β1

y1

Β2 y2

Β3 y3

min

Α Α1 x1 3 -2 4 -2 Α2 x2 -3 6 -2 -3 Α3 x3 1 -1 3 -1

Α4 x4 0 4 1 0*

max 3* 6 4 0V3 Να επιλυθεί με τη μέθοδο του γραμμικού προγραμματισμού για τον παίκτη Β

http://users.uom.gr/~acg 115

ΠΠααρράάδδεειιγγμμαα 1177 ((σσυυννέέχχεειιαα--22)) Το μοντέλο γραμμικού προγραμματισμού για τον παίκτη Β

Minimize w = y4 με περιορισμούς

y4 3y1 – 2y2 + 4y3 y4 –3y1 + 6y2 – 2y3 y4 y1 – y2 + 3y3 y4 4y2 + y3

y1 + y2 + y3 = 1 και y1, y2, y3 0 και y4 R Προσθέτουμε σε όλα τα στοιχεία του πίνακα το -3 = 3

http://users.uom.gr/~acg 116

ΠΠααρράάδδεειιγγμμαα 1177 ((σσυυννέέχχεειιαα--33)) Το μετασχηματισμένο μοντέλο γρ. προγραμματισμού Minimize w = y'4 με περιορισμούς

-6y1 – y2 – 7y3 + y'4 0 -9y2 – y3 + y'4 0 -4y1 – 2y2 – 6y3 + y'4 0 -3y1 – 7y2 – 4y3 + y'4 0

y1 + y2 + y3 = 1 και y1, y2, y3, y'4 0

http://users.uom.gr/~acg 117

ΕΕππίίλλυυσσηη ττοουυ ππααρρααδδεείίγγμμααττοοςς 1177 ((ΗΗ//ΥΥ -- QQSSBB))

http://users.uom.gr/~acg 118

ΣΣύύννοοψψηη ττηηςς άάρριισσττηηςς λλύύσσηηςς ττοουυ ππααρρααδδεείίγγμμααττοοςς 1177

Η τιμή του παιγνίου είναι V = 4.3333 (=13/3) – 3 = 4/3

Από τις δυϊκές τιμές (οι αντίθετες τιμές των σκιωδών τιμών) βλέπουμε ότι ο παίκτης Α εφαρμόζει τη μικτή στρατηγική:

x1 = 4/9, x2 = 0, x3 = 0 και x4 = 5/9, με V(A) = 4/3

O παίκτης Β εφαρμόζει τη μικτή στρατηγική: y1=2/3, y2 = 1/3 και y3 = 0, με V(Β) = 4/3

Η προσδοκώμενη τιμή παιγνίου είναι V = V(A) = V(B) = 4/3

http://users.uom.gr/~acg 119

ΓΓρρααφφιικκήή ππααρράάσστταασσηη ττοουυ ππααρρ.. 1177 μμεεττάά ττηηνν ααππααλλοοιιφφήή ττηηςς ΒΒ33

minimax 

V(B, A1) V(B, A2)

V(B, A4)

http://users.uom.gr/~acg 120

ΠΠααρράάδδεειιγγμμαα 1177 ((σσυυννέέχχεειιαα--44)) Μείωση της διάστασης του πίνακα – διατήρηση των Α1 και Α4 που καθορίζουν το σημείο minimax.

Β Στρατηγικές Β1

y1

Β2 y2

Α Α1 x1 3 -2 Α4 x4 0 4

Στη συνέχεια, εφαρμόζεται η διαδικασία επίλυσης παιγνίου διάστασης 2×2 που δίνει τα ίδια αποτελέσματα με τον γραμμικό προγραμματισμό.

http://users.uom.gr/~acg 121

ΠΠααρράάδδεειιγγμμαα 1188 ((ππααίίγγννιιοο σσττααθθεερροούύ ααθθρροοίίσσμμααττοοςς))

Δύο επιχειρήσεις A και B δραστηριοποιούνται στην αγορά της συνδρομητικής τηλεόρασης. Ο συνολικός τζίρος του κλάδου ξεπερνά τα 500 (εκατομμύρια χρηματικές μονάδες) και οι δύο επιχειρήσεις πρακτικά μοιράζονται το ποσό αυτό (το υπόλοιπο πάει σε μικρότερες επιχειρήσεις του κλάδου). Σχεδιάζοντας τη στρατηγική τους προκειμένου να αποσπάσουν μεγαλύτερο μερίδιο της αγοράς έχουν τις ακόλουθες πολιτικές: (1) αύξηση διαφημιστικής δαπάνης σε τηλεοπτικά μέσα, (2) πακέτα προσφορών και μείωση τιμής, (3) ενσωμάτωση της προσφοράς ψηφιακής πλατφόρμας σε πακέτα τηλεφωνίας και Internet και (4) ανάπτυξη εναλλακτικών ηλεκτρονικών καναλιών προώθησης του προϊόντος (µόνο η επιχείρηση Β).

Ο ετήσιος τζίρος που αναμένεται να προκύψει για την επιχείρηση Α, για κάθε συνδυασμό στρατηγικών, δίνεται στον πίνακα που ακολουθεί.

http://users.uom.gr/~acg 122

ΠΠααρράάδδεειιγγμμαα 1188 ((σσυυννέέχχεειιαα))

Στρατηγικές Εταιρείας Β Στρατηγικές Εταιρείας Α

1

2

3

4

1 200 250 300 300 2 250 400 200 100 3 225 300 150 150

Να εφαρμόσετε την κατάλληλη μεθοδολογία προκειμένου να προσδιορίσετε την άριστη στρατηγική για κάθε επιχείρηση καθώς και τον ετήσιο τζίρο της κάθε επιχείρησης. Μακροπρόθεσμα ποια επιχείρηση φαίνεται να ευνοείται από το αποτέλεσμα, αν ο συνολικός ετήσιος τζίρος παραμένει σταθερός ;

http://users.uom.gr/~acg 123

ΠΠααρράάδδεειιγγμμαα 1188 -- εεππίίλλυυσσηη

B1 B2 Β3 B4 min A1 200 250 300 300 200* A2 250 400 200 100 100 A3 225 300 150 150 150

max 250* 400 300 300 200V250

http://users.uom.gr/~acg 124

ΠΠααρράάδδεειιγγμμαα 1188 ((σσυυννέέχχεειιαα)) Η στρατηγικές Β2 και B3 ως υποδεέστερες (;;) απαλείφονται

B1 y1

B4 y4

A1 x1 200 300 A2 x2 250 100 A3 x3 225 150

Υπολογισμοί V(B, A1) = 200y1 + 300y4

V(B, A2) = 250y1 + 100y4 V(B, A3) = 225y1 + 150y4

(y1 + y4 =1)

http://users.uom.gr/~acg 125

ΓΓρρααφφιικκήή εεππίίλλυυσσηη ππααρρααδδεείίγγμμααττοοςς 1188 ((ΗΗ//ΥΥ -- PPOOMM--QQMM))

http://users.uom.gr/~acg 126

ΠΠααρράάδδεειιγγμμαα 1188 ((σσυυννέέχχεειιαα εεππίίλλυυσσηηςς --11)) Μείωση της διάστασης του πίνακα, διαγραφή της «υποδεέστερης» Α3, όπως φάνηκε στη γραφική αναπαράσταση

Β Στρατηγικές Β1

y1

Β4 y4

Α Α1 x1 200 300 Α2 x2 250 100

Στη συνέχεια, εφαρμόζεται η διαδικασία επίλυσης παιγνίου διάστασης 2×2

http://users.uom.gr/~acg 127

ΠΠααρράάδδεειιγγμμαα 1188 ((σσυυννέέχχεειιαα εεππίίλλυυσσηηςς --22)) Εντοπισμός άριστης μικτής στρατηγικής για τον παίκτη Β V(Β, Α1) = V(Β, Α2) δηλαδή: 200y1 + 300y4 = 250y1 + 100y4 και επειδή y1 + y4 = 1 έχουμε: 50y1 = 200(1-y1)

Άρα, 250y1 = 200 y1=4/5 και y4 = 1/5 Αντικαθιστώντας την άριστη μικτή στρατηγική του παίκτη B σε οποιοδήποτε από τα V(B, A1) και V(B, A2) παίρνουμε την άριστη αναμενόμενη τιμή για τον παίκτη B (δηλαδή το τμήμα του συνολικού τζίρου που «αφήνει» στον Α):

V(Β) = 200(0,8) +300(0,2) = 220 ΠΡΟΣΟΧΗ ! Ο παίκτης Β καρπώνεται 500 - 220 = 280 (παίγνιο σταθερού αθροίσματος με πίνακα πληρωμών στον παίκτη Α)

http://users.uom.gr/~acg 128

ΠΠααρράάδδεειιγγμμαα 1188 ((σσυυννέέχχεειιαα εεππίίλλυυσσηηςς --33)) Εντοπισμός άριστης μικτής στρατηγικής για τον παίκτη Α V(Α, Β1) = V(Α, Β4) δηλαδή: 200x1 + 250x2 = 300x1 + 100x2 και επειδή x1 + x2 = 1 έχουμε ότι: 100x1 = 150(1-x1)

Άρα, 250x1 = 150 x1=3/5 και x2 = 2/5 Αντικαθιστώντας την άριστη μικτή στρατηγική του παίκτη A σε οποιοδήποτε από τα V(A, B1) και V(A, B4) παίρνουμε την άριστη αναμενόμενη τιμή για τον παίκτη A (δηλαδή το τμήμα του συνολικού τζίρου (500) που καρπώνεται ο Α):

V(Α) = 200(0,6) +250(0,4) = 220

Page 9: Slides11-without-mixed-strategies-for-nonzero-gamesusers.uom.gr/~acg/Courses/QA2/material/Ch11slides-miniatures.pdf · Title: Microsoft Word - Slides11-without-mixed-strategies-for-nonzero-games.doc

http://users.uom.gr/~acg 129

ΣΣύύννοοψψηη ττηηςς άάρριισσττηηςς λλύύσσηηςς ττοουυ ππααρρααδδεείίγγμμααττοοςς 1188 O παίκτης Α εφαρμόζει τη μικτή στρατηγική: x1 = 3/5 και x2 = 2/5, x3 = 0, με maximin κέρδος V(A) = 220

O παίκτης Β εφαρμόζει τη μικτή στρατηγική: y1=4/5, y2 =0, y3 =0, y4 = 1/5, με minimax «ζημιά» V(Β) = 220

Η προσδοκώμενη τιμή παιγνίου είναι

V = V(A) = V(B) = 220 ΠΟΥ ΣΗΜΑΙΝΕΙ, ΟΤΙ ΜΑΚΡΟΠΡΟΘΕΣΜΑ ο παίκτης Α καρπώνεται 220 (εκ. χ.μ.) και ο παίκτης Β 500-220=280 (εκ. χ.μ.).

Συνεπώς, ευνοημένος είναι ο παίκτης Β.

http://users.uom.gr/~acg 130

ΠΠααρράάδδεειιγγμμαα 1188 ((εεππίίλλυυσσηη μμεε LLPP)) Το μοντέλο γραμμικού προγραμματισμού για τον παίκτη Β

Minimize w = y5 με περιορισμούς

y5 200y1 + 250y2 + 300y3 + 300y4 y5 250y1 + 400y2 + 200y3 + 100y4 y5 225y1 + 300y2 + 150y3 + 150y4

y1 + y2 + y3 + y4 = 1 και y1, y2, y3, y4 0 αλλά και y5 0 (;;)

http://users.uom.gr/~acg 131

ΕΕππίίλλυυσσηη ττοουυ ππααρρααδδεείίγγμμααττοοςς 1188 ((ΗΗ//ΥΥ -- QQSSBB))

http://users.uom.gr/~acg 132

ΠΠααρράάδδεειιγγμμαα 1199 Δύο πωλητές παγωτού Α και Β, δραστηριοποιούνται το καλοκαίρι σε μία μακρόστενη παραλία. Τα προϊόντα τους έχουν ίδιες τιμές. Μπορούν να επιλέξουν που θα τοποθετήσουν το κιόσκι τους στην παραλία αυτή. Στο σχήμα της επόμενης σελίδας, η ευθεία παριστάνει την παραλία και τα σημεία, πέντε διαδοχικές ισαπέχουσες θέσεις, όπου μπορούν να τοποθετήσουν ο καθένας το κιόσκι του (ακόμα και στο ίδιο σημείο και οι δύο). Οι πελάτες τους κατανέμονται σχετικά ομοιόμορφα σε όλη τη παραλία (βλ. εικόνα). Επίσης, δεν έχουν διάθεση να περπατούν άσκοπα στον ήλιο. Που πιστεύετε ότι θα τοποθετήσουν τα περίπτερά τους οι πωλητές; Σε ποια γενικότερα συμπεράσματα σας οδηγεί η απάντησή σας;

http://users.uom.gr/~acg 133

ΠΠααρράάδδεειιγγμμαα 1199 ((σσυυννέέχχεειιαα)) Λύση

Στρατηγικές Right Player Στρατηγικές Left Player

A

B

C

D

E

A 0 0,5 1 1,5 2 B 3,5 1 1,5 2 2,5 C 3 2,5 2 2,5 3 D 2,5 2 1,5 3 3,5 E 2 1,5 1 0,5 4

Εντοπίστε το σημείο ισορροπίας

http://users.uom.gr/~acg 134

ΠΠααρράάδδεειιγγμμαα 2200 ((MMaattcchhiinngg PPeennnniieess GGaammee)) Είναι απόγευμα στο κυλικείο. Ο Γιώργος (τεταρτοετής ΟΔΕ, θαμώνας κυλικείου)

συζητά με την Μαρία (πρωτοετής ΟΔΕ, θαμώνας αναγνωστηρίου), την οποία γνώρισε πρόσφατα στις «εγγραφές πρωτοετών». Ακριβέστερα, μόνο ο Γιώργος μιλάει ασταμάτητα, κυρίως για 1 ή 2 θέματα που αφήνουν παγερά αδιάφορη τη Μαρία (π.χ. το ένα είναι το ποδόσφαιρο). Η Μαρία, έτοιμη να «κόψει φλέβες», διακρίνοντας στην είσοδο μία φίλη της, βρίσκει την ευκαιρία να ξεφύγει από τη φλυαρία του Γιώργου και ψελλίζοντας μία δικαιολογία κατευθύνεται προς εκεί. Ο Γιώργος φωνάζει από την άλλη άκρη: «Εντάξει, θα σε δω αύριο στο πάρτι υποδοχής των πρωτοετών», γνωρίζοντας ότι η Μαρία σκεφτόταν να πάει. Αυτή, δεν αντιστέκεται στον πειρασμό να απαντήσει καθώς απομακρύνεται: «Όχι, αν μπορώ να το αποφύγω!». Αργότερα, στο δωμάτιο της παρέα με τη φίλη της, η Μαρία συνειδητοποιεί ότι

βρίσκεται σε δίλημμα. Θέλει να πάει στο πάρτι, όμως υπάρχει κίνδυνος να πέσει πάνω στο Γιώργο. Η εναλλακτική ιδέα είναι να πάει, ως συνήθως, στο αναγνωστήριο για μελέτη αλλά η ζωή δεν είναι μόνο διάβασμα! Λόγω της φράσης που πέταξε φεύγοντας, ο Γιώργος γνωρίζει ότι θέλει να τον αποφύγει. Και είναι πιθανόν αυτός, αντί να πάει στο πάρτι, να της στήσει καρτέρι στο αναγνωστήριο. Από την άλλη πλευρά, αν αυτός πάει στο αναγνωστήριο, τότε εκείνη γιατί να μην πάει στο πάρτι; Βέβαια αν ο Γιώργος ακολουθήσει τη σκέψη της τότε μπορεί να πάει κι αυτός στο πάρτι για να την πετύχει εκεί!

http://users.uom.gr/~acg 135

ΠΠααρράάδδεειιγγμμαα 2200 ((σσυυννέέχχεειιαα--11))

http://users.uom.gr/~acg 136

ΠΠααρράάδδεειιγγμμαα 2200 ((σσυυννέέχχεειιαα--22)) Όταν ο Γιώργος έμεινε μόνος του, σκέφτηκε ότι για μια ακόμη φορά τα έκανε

θάλασσα με αυτή την αδικαιολόγητη έμμονη του με τον ΠΑΟΚ (το ένα από τα δύο θέματα που λέγαμε). Σκέφτεται όμως ότι αν του δοθεί μια δεύτερη ευκαιρία, μπορεί επιτέλους να ωριμάσει και να αλλάξει τη διάθεση της Μαρίας απέναντί του. Έχει βέβαια αντιληφθεί ότι μάλλον θα θελήσει να τον αποφύγει, οπότε εκείνη μπορεί να μην έρθει στο πάρτι. Ο Γιώργος όμως, γνωρίζει ότι η Μαρία συχνάζει εναλλακτικά στο αναγνωστήριο. Από την άλλη πλευρά, συνειδητοποιεί ότι αν και αυτή σκέφτεται τα ίδια –κάτι που πράγματι συμβαίνει όπως είδαμε παραπάνω- τότε η Μαρία μπορεί όντως να πάει στο πάρτι ακριβώς για να τον αποφύγει. Ο Γιώργος έχει ζαλιστεί σε επίπεδο ιλίγγου (δεν φημίζεται άλλωστε για την αναλυτική του σκέψη !)

Είναι άγνωστο αν η αμηχανία του Γιώργου οφείλεται στο γεγονός ότι δεν γνωρίζει από στοιχειώδη θεωρία παιγνίων ώστε να βοηθηθεί να λύσει το πρόβλημά του (το θέμα αυτό δεν διδάσκεται στο κυλικείο). Είναι εξίσου αμφίβολο αν η θεωρία παιγνίων (και γενικά η Ποσοτική Ανάλυση) μπορεί να δώσει λύσεις σε προβλήματα όπως το παραπάνω. Παρ’ όλα αυτά, διαμορφώστε το σενάριο ως παίγνιο και βρείτε την άριστη μεικτή στρατηγική για κάθε παίκτη καθώς και την τιμή του παιγνιδιού. Περιγράψτε το φυσικό νόημα της άριστης λύσης που βρήκατε.

http://users.uom.gr/~acg 137

ΠΠααρράάδδεειιγγμμαα 2200 ((σσυυννέέχχεειιαα--33)) ΗΗ ααρρχχήή ττηηςς κκοοιιννήήςς γγννώώσσηηςς

http://users.uom.gr/~acg 138

ΠΠααρράάδδεειιγγμμαα 2200 ((θθαα σσοοββααρρεευυττοούύμμεε εεππιιττέέλλοουυςς;;)) Λύση

Μαρία Α

Π

Γιώργος Α 1 -1 Π -1 1

ή γενικά Μαρία

Α

Π

Γιώργος Α α -α Π -α α

Εντοπίστε το σημείο ισορροπίας

http://users.uom.gr/~acg 139

ΠΠααρράάδδεειιγγμμαα 2211 Τα κόμματα των Δημοκρατικών και των Ρεπουμπλικάνων διεξάγουν

ταυτοχρόνως συνέδρια για να αναδείξουν τον υποψήφιό τους για τις προεδρικές εκλογές. Υπάρχουν τρεις υποψήφιοι στο ΔΚ για το χρίσμα, ενώ στο ΡΚ οι υποψήφιοι είναι δύο. Στον επόμενο πίνακα υπάρχουν εκτιμήσεις αναλυτών αναφορικά με τα ποσοστά (εκλεκτόρων) που μπορεί να κερδίσει κάθε κόμμα στις επερχόμενες προεδρικές εκλογές, ανάλογα με τον συνδυασμό υποψηφίων που θα πάρουν τελικά το χρίσμα.

Είναι λογικό, κάθε κόμμα να θέλει να αναδείξει τον υποψήφιο που φαίνεται να μπορεί να μεγιστοποιήσει τη διαφορά, σε ποσοστό εκλεκτόρων που θα τον υποστηρίξουν, κατά τις προεδρικές εκλογές. Να διαμορφώσετε το πρόβλημα ως παίγνιο, κατασκευάζοντας κατάλληλο πίνακα πληρωμών (που να αναφέρεται στο Δημοκρατικό κόμμα). Να βρείτε την άριστη στρατηγική για κάθε κόμμα και την τιμή του παιγνιδιού. Σχολιάστε την άριστη λύση.

http://users.uom.gr/~acg 140

ΠΠααρράάδδεειιγγμμαα 2211 ((σσυυννέέχχεειιαα--11)) Υποψήφιος

ΔΚ Υποψήφιος

ΡΚ Ποσοστό εκλεκτόρων

που αναμένεται να κερδίσουν οι Δημοκρατικοί (%)

D1 R1 75 D1 R2 25 D2 R1 30 D2 R2 60 D3 R1 50 D3 R2 20

Να κατασκευαστεί ο πίνακας πληρωμών και να βρεθεί η ισορροπία των δύο κομμάτων. Μην βιαστείς να πας στην επόμενη σελίδα ! Σκέψου πρώτα !

http://users.uom.gr/~acg 141

ΠΠααρράάδδεειιγγμμαα 2211 ((σσυυννέέχχεειιαα--22)) Λύση

Republicans Democrats R1 R2

D1 50 -50 D2 -40 20 D3 0 -60

Ποια είναι η ισορροπία του παιγνίου;

http://users.uom.gr/~acg 142

ΠΠααρράάδδεειιγγμμαα 2211 ((σσυυννέέχχεειιαα--33))

Ήταν απαραίτητη η γραφική επίλυση ;

http://users.uom.gr/~acg 143

ΠΠααρράάδδεειιγγμμαα 2211 ((σσυυννέέχχεειιαα--44)) Μετά την ολοκλήρωση της αλγεβρικής επίλυσης, οι άριστες μεικτές στρατηγικές είναι:

ΔΚ : (3/8, 5/8, 0)

ΡΚ : (7/16, 9/16)

Τιμή του παιγνίου : V(Α) = -6,25 (=-50/8)

Φυσικό νόημα;

http://users.uom.gr/~acg 144

ΠΠααρράάδδεειιγγμμαα 2222 ((CCoouurrnnoott DDuuooppoollyy)) Δύο επιχειρήσεις (Ε1, Ε2) επικρατούν σε μία αγορά και παράγουν ένα όμοιο προϊόν (υποθέτουμε για ευκολία σε ακέραιες μονάδες). Δεν υπάρχει συνεργασία και η (φθίνουσα) συνάρτηση ζήτησης καθορίζει την τιμή του προϊόντος. Οι δύο επιχειρήσεις ανταγωνίζονται σε σχέση με την ποσότητα παραγωγής (που καθορίζει την τιμή του προϊόντος στην αγορά) και φυσικά δρουν ορθολογιστικά. Έστω: P1 = P2 = P, η τιμή του προϊόντος της Ε1 ή της Ε2 Q1 = παραγόμενη ποσότητα της Ε1 και Q2 = ποσότητα της Ε2 C1 = C2 = C = 3 χ.μ., μοναδιαίο κόστος παραγωγής ίδιο Q = Q1 + Q2, συνολική ζήτηση Όπου P = f(Q) = 30 – 4Q για Q ≤ 5 και P = 0 για Q > 5 Π1 = f(Q)*Q1 – C*Q1, συνάρτηση κέρδους της Ε1 Π2 = f(Q)*Q2 – C*Q2, συνάρτηση κέρδους της Ε2

Page 10: Slides11-without-mixed-strategies-for-nonzero-gamesusers.uom.gr/~acg/Courses/QA2/material/Ch11slides-miniatures.pdf · Title: Microsoft Word - Slides11-without-mixed-strategies-for-nonzero-games.doc

http://users.uom.gr/~acg 145

ΠΠααρράάδδεειιγγμμαα 2222 ((σσυυννέέχχεειιαα –– 11)) Οπότε για Q1, Q2 = 0, 1, 2, 3, 4, 5 έχουμε ότι:

Π1 = [30 – 4 (Q1 + Q2)]*Q1 – 3*Q1

Π2 = [30 – 4 (Q1 + Q2)]*Q2 – 3*Q2

όταν Q = Q1 + Q2 ≤ 5 και

Π1 = – 3*Q1

Π2 = – 3*Q2

όταν Q = Q1 + Q2 > 5 Να κατασκευαστεί ο πίνακας πληρωμών και να βρεθεί η άριστη στρατηγική για κάθε επιχείρηση (μην τολμήσετε να γυρίσετε σελίδα αν δεν φτιάξετε πρώτα το δικό σας πίνακα !!)

http://users.uom.gr/~acg 146

ΠΠααρράάδδεειιγγμμαα 2222 ((σσυυννέέχχεειιαα –– 22)) Πίνακας πληρωμών

Μπορείτε να επαληθεύσετε τον πίνακα και να βρείτε την ισορροπία Nash;

http://users.uom.gr/~acg 147

ΠΠααρράάδδεειιγγμμαα 2233 ((BBiigg mmoonnkkeeyy,, LLiittttllee mmoonnkkeeyy)) Δύο μαϊμούδες (μία μεγάλη και μία μικρότερη: BM, LM), συνήθως τρέφονται από καρπούς (καρύδες) που πέφτουν από τα δέντρα. Καμιά φορά όμως, δεν υπάρχουν καθόλου καρύδες στο έδαφος. Τότε, σκαρφαλώνουν στο δέντρο να κόψουν κανένα καρπό (αυστηρά ένας καρπός σε ένα δέντρο) τον οποίο πετάνε στο έδαφος για να τον φάνε. Μία καρύδα αποδίδει συνολικά 10 θερμίδες. Η ΒΜ για ν’ ανέβει στο δέντρο να κόψει τον καρπό καταναλώνει 2 θερμίδες ενώ η LM δεν καταναλώνει καθόλου θερμίδες για το σκοπό αυτό. Αν ανέβει η ΒΜ τότε παίρνει 6 θερμίδες από την καρύδα γιατί η LM προλαβαίνει να φάει ένα μέρος, παίρνοντας 4 θερμίδες. Αν ανέβει η LM τότε η ΒΜ παίρνει 9 θερμίδες και η LM 1 θερμίδα μόνο (που να προλάβει!). Αν ανέβουν και οι δυο στο δέντρο τότε η ΒΜ παίρνει 7 θερμίδες και η LM 3 θερμίδες (η ΒΜ την εμποδίζει να πάρει ίσο μερίδιο). Φυσικά, αν δεν ανέβει καμία στο δέντρο δεν τρώει κανένας! Προσοχή: οι δύο μαϊμούδες αποφασίζουν ταυτόχρονα την κίνησή τους. Να διαμορφωθεί ο πίνακας πληρωμών και να βρεθεί η άριστη στρατηγική για τις δύο μαϊμούδες.

http://users.uom.gr/~acg 148

ΕΕππιιππλλέέοονν ΒΒιιββλλιιοογγρρααφφίίαα ((ααννααζζηηττήήσσττεε εεππιιππλλέέοονν υυλλιικκόό γγιιαα ππααίίγγννιιαα μμηη μμηηδδεεννιικκοούύ ααθθρροοίίσσμμααττοοςς κκααιι ιισσοορρρροοππίίαα NNaasshh))

1. Βαρουφάκης, Γ., Θεωρία Παιγνίων, Gutenberg, Αθήνα, 2007. 2. Μηλολιδάκης Κ., Θεωρία Παιγνίων, Εκδόσεις Σοφία, Θεσσαλονίκη,

2009. 3. Fudenberg D. and Tirole J., Game Theory, MIT Press, Cambridge,

Massachusetts, 1995 4. Hargreaves-Heap S. and Varoufakis Y., Game Theory, a Critical

Introduction, Routledge, London, 1995. 5. McMillan J., Games Strategies and Managers, Oxford University

Press, Oxford, 1992. 6. Osborne M., Μια εισαγωγή στη Θεωρία Παιγνίωv, Κλειδάριθμoς,

2010. 7. Spaniel W., Game Theory 101, The complete Textbook, Kindle ed.,

Amazon.com.