Παπακώστας Μιχάλης ΑΜ:2007030001

11
ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ 2012-2013 ΑΚΡΙΒΗΣ ΣΥΜΠΕΡΑΣΜΟΣ ΔΙΚΤΥΟΥ BAYES ΣΕ ΑΡΘΡΑ ΕΦΗΜΕΡΙΔΑΣ ΠΑΠΑΚΏΣΤΑΣ ΜΙΧΆΛΗΣ ΑΜ:2007030001

description

ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ 2012-2013 ΑΚΡΙΒΗΣ ΣΥΜΠΕΡΑΣΜΟΣ ΔΙΚΤΥΟΥ BAYES ΣΕ ΑΡΘΡΑ ΕΦΗΜΕΡΙΔΑΣ. Παπακώστας Μιχάλης ΑΜ:2007030001. πΕΡΙΛΗΨΗ. Τι υλοποιήσαμε: Δίκτυο Bayes που μοντελοποίει την αρθρογραφία της εφημερίδας Ελευθεροτυπίας για το διάστημα 1/5/2000-31/12/2000 - PowerPoint PPT Presentation

Transcript of Παπακώστας Μιχάλης ΑΜ:2007030001

Page 1: Παπακώστας  Μιχάλης ΑΜ:2007030001

ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ 2012-2013

ΑΚΡΙΒΗΣ ΣΥΜΠΕΡΑΣΜΟΣ ΔΙΚΤΥΟΥ BAYES ΣΕ ΑΡΘΡΑ ΕΦΗΜΕΡΙΔΑΣ

ΠΑΠΑΚΏΣΤΑΣ ΜΙΧΆΛΗΣ

ΑΜ:2007030001

Page 2: Παπακώστας  Μιχάλης ΑΜ:2007030001

ΠΕΡΙΛΗΨΗ

Τι υλοποιήσαμε:

• Δίκτυο Bayes που μοντελοποίει την αρθρογραφία της εφημερίδας Ελευθεροτυπίας για το διάστημα 1/5/2000-31/12/2000

• Άλγορίθμο που πραγματοποιεί Ακριβή Συμπερασμό με τη μέθοδο της Απαρίθμησης στο συγκεκριμένο δίκτυο

Στόχοι:

• Τι απασχολούσε την επικαιρότητα το διάστημα που εξετάζουμε

• Που επικεντρώθηκε η αρθογραφία της συγκεκριμένης εφημερίδας

• Εξαγωγή πληροφοριών για τη δομή των άρθρων

Περιορισμοί:

• Περιορισμένο dataset

• Δυσκολία εξαγωγής μεταβλητών από το συγκεκριμένο dataset

επίτευξη στόχων στα πλαίσια του δικού μας μικρόκοσμου

Page 3: Παπακώστας  Μιχάλης ΑΜ:2007030001

ΕΙΣΑΓΩΓΙΚΑ

Τι είναι ενα δίκτυο Bayes:

• Μέθοδος αντιπροσώευσης ενός συνόλου τυχαίων μεταβλητών και των μεταξύ τους εξαρτήσεων, μέσω ενός κατευθυνόμενου ακυκλικού γράφου

Συνδυασμένη κατανομή πιθανότητας για το X

Για δίκτυο Bayes “S”:

Page 4: Παπακώστας  Μιχάλης ΑΜ:2007030001

ΕΙΣΑΓΩΓΙΚΑ

Ακριβής Συμπερασμός σε δίκτυα Bayes

• Υπολογισμός της εκ των υστέρων κατανομής ενός ερωτήματος, έχοντας ως δεδομένο κάποιο συμβάν

Πιθανότητα του ερωτήματος X δοθέντος του συμβάντος e

X οι μεταβλητή ερωτήματος

E οι μεταβλητές μαρτυρίας

Y οι κρυφές μεταβλητές

,όπου α=P(e) (παράγοντας κανονικοποίησης)

Page 5: Παπακώστας  Μιχάλης ΑΜ:2007030001

ΕΙΣΑΓΩΓΙΚΑ

Mεθοδος της Απαρίθμησης

• Άθροιση των πιθανοτήτων όλων των ατομικών συμβάντων για ένα ερώτημα δοθέντος ενός συμβάντος

• Ατομικά συμβάντα Όλοι οι πιθανοί συνδυασμοί των κρυφών μεταβλητών

• Βάση γνώσης

• Yπολογισμός συνδυασμένων καταχωρήσεων με πολλαπλασιασμό

• Μαθηματική έκφραση:

Δίκτυο Bayes

CPTs

Page 6: Παπακώστας  Μιχάλης ΑΜ:2007030001

ΕΙΣΑΓΩΓΙΚΑ

Το δίκτυό Bayes που υλοποιήθηκε στο συγκεκριμενο project

Page 7: Παπακώστας  Μιχάλης ΑΜ:2007030001

ΥΛΟΠΟΙΗΣΗ

Dataset

• Δείγματά Άρθρα της εφημερίδας Ελευθεροτυπίας από το χρονικό διάστημα 1/5/2000-31/12/2000

• 214 ημερομηνίες

• Κάθε ημ/νία περιέχει τουλάχιστον ένα άρθρο από κάθε θεματική

• Η θεματική υποδηλώνεται από τον τίτλο του εκάστοτε άρθρου

Page 8: Παπακώστας  Μιχάλης ΑΜ:2007030001

ΥΛΟΠΟΙΗΣΗ

Μεταβλητες

πλήθος των ήμερών ενός μήνα

όλες οι ημερομηνίες του dataset (214)

πλήθος των άρθρων που αφορούν μία θεματική για ένα μήνα

σύνολο των άρθρων που γράφτηκαν τον μήνα

MONTH

Πεδίο τιμών : 05 06 07 08 09 10 11 12

Mάιος Ιούν. Ιούλ. Αύγ. Σεπ. Οκτ. Νοεμ. Δεκ.

TOPIC

Πεδίο τιμών : politics art economy sport world Greece

Page 9: Παπακώστας  Μιχάλης ΑΜ:2007030001

ΥΛΟΠΟΙΗΣΗ

Μεταβλητες

πλήθος άρθρων που ανήκουν σε ένα TOPIC και ικανοποιούν τα κριτήρια μίας κατηγορίας

σύνολο των άρθρων που ανήκουν στο συγκεκριμένο TOPIC

RANGE

Πεδίο τιμών : c1 c2 c3 c4 c5 c6

0-200words

201-400words

401-600 words

601-800 words

801-1000 words

1000 <words

Page 10: Παπακώστας  Μιχάλης ΑΜ:2007030001

ΥΛΟΠΟΙΗΣΗ

Μεταβλητες

χρήματα ζωγραφιά πρόοδος

ύφεση ανάπτυξη επιτυχία

γήπεδο αρχή παρακμή

τέρμα παγκοσμιοποίηση θέατρο

αποτυχία υπουργός κόσμος

ταινία μπάλα οικονομία

εστία αρένα ελλάδα

πτώση χρέος δικαιοσύνη

καλλιτέχνης έκθεση κέρδος

δάνειο άνοδος σινεμά

WORDS DOMAIN

Πεδίο τιμών

πλήθος εμφάνισης λέξης δεδομένης μίας θεματικής

σύνολο εμφανίσεων αυτής της λέξης σε όλα τα άρθρα της συγκεκριμένης θεματικής

Page 11: Παπακώστας  Μιχάλης ΑΜ:2007030001

ΥΛΟΠΟΙΗΣΗ

Κώδικας

• Yλοποίηση σε PERL

• Ένα PERL-scrιpt για για τον υπολογισμό του CPT κάθε μεταβλητής

• Υπολογισμός των CPTs γίνεται με βάση:

• Υλοποιήσαμε κώδικα που υπολογίζει τον ακριβή συμπερασμό με τη μέθοδο της απαρίθμησης στα ερωτήματα που θέτει ο χρήστης με βάση το δίκτυο που περιγράψαμε

ενδείκνυται για την επεξεργασία μεγάλου όγκου πληροφορίας σε μορφή κειμένου

δομή του δικτύου Bayes

με τον τύπο της εκάστοτε μεταβλητής