hio

10
Πανεπιστήμιο Αθηνών Τμήμα Πληροφορικής ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Αυτόματη Κατάταξη Μηνυμάτων Ηλεκτρονικού Ταχυδρομείου σε Κατηγορίες Γεώργιος Σάκκης Υπεύθυνος Καθηγητής: Π. Σταματόπουλος

Transcript of hio

Page 1: hio

Πανεπιστήμιο ΑθηνώνΤμήμα Πληροφορικής

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Αυτόματη Κατάταξη ΜηνυμάτωνΗλεκτρονικού Ταχυδρομείου

σε Κατηγορίες

Γεώργιος Σάκκης

Υπεύθυνος Καθηγητής:Π. Σταματόπουλος

Page 2: hio
Page 3: hio

ΕΥΧΑΡΙΣΤΙΕΣ

Θα ήθελα να ευχαριστήσω τον επιβλέποντα καθηγητή μου Παναγιώτη Σταματόπουλογια τη γενική καθοδήγηση και βοήθεια καθόλη τη διάρκεια της εργασίας. Ιδιαίτεραευχαριστώ τους ερευνητές του Ε.ΚΕ.Φ.Ε. “Δημόκριτος” Ίωνα Ανδρουτσόπουλο καιΓεώργιο Παλιούρα για την ουσιαστικότατη συμβολή τους στην εκπόνηση τηςεργασίας και την άριστη συνεργασία που είχαμε. Τα όποια λάθη και παραλείψειςβαρύνουν, φυσικά, εμένα. Ο Ιωάννης Κούτσιας, επίσης από το Ε.ΚΕ.Φ.Ε.“Δημόκριτος”, βοήθησε σημαντικά στο πειραματικό μέρος της εργασίας. Ευχαριστώ,τέλος, το συμφοιτητή και φίλο μου Ορέστη Τελέλη για τις εποικοδομητικέςσυζητήσεις που είχαμε πάνω στην εργασία και την περιοχή της μηχανικής μάθησηςγενικότερα.

Page 4: hio
Page 5: hio

ΠΕΡΙΕΧΟΜΕΝΑ

1. ΕΙΣΑΓΩΓΗ...............................................................................................................1

1.A. Αντικείμενο της πτυχιακής εργασίας................................................................11.B. Στόχοι της πτυχιακής εργασίας.........................................................................21.C. Διάρθρωση της πτυχιακής εργασίας.................................................................3

2. ΕΠΙΣΤΗΜΟΝΙΚΟ ΚΑΙ ΤΕΧΝΟΛΟΓΙΚΟ ΥΠΟΒΑΘΡΟ..................................5

2.A. Αυτόματη κατηγοριοποίηση κειμένου..............................................................52.A.I. Μοντελοποίηση του προβλήματος – Ορισμοί........................................62.A.II. Εφαρμογές της αυτόματης κατηγοριοποίησης κειμένου........................7

Φιλτράρισμα ανεπιθύμητων μηνυμάτων ηλεκτρονικού ταχυδρομείου........92.B. Μηχανική μάθηση...........................................................................................10Αλγόριθμοι μηχανικής μάθησης.........................................................................13

2.B.I. Μπαιυζιανή μάθηση..............................................................................14Απλοϊκός ταξινομητής Μπαίυζ (Naïve Bayes) ...........................................16

2.B.II. Μάθηση βασισμένη στα στιγμιότυπα...................................................18Αλγόριθμος των k κοντινότερων γειτόνων (k-Nearest Neighbor)...............19

2.C. Σχεδίαση συστήματος αυτόματης κατηγοριοποίησης κειμένου.....................232.C.I. Αναπαράσταση κειμένου......................................................................23

Μείωση διαστασιμότητας............................................................................ 252.C.II. Επαγωγική κατασκευή του ταξινομητή..............................................282.C.III. Aξιολόγηση του ταξινομητή...............................................................29

2.C.III.a. Μέτρα αξιολόγησης.................................................................. 292.C.III.b. Εκτίμηση αποτελεσματικότητας και έλεγχος υποθέσεων........ 31

2.C.IV. Σύνοψη της σχεδίασης........................................................................34

3. ΠΕΡΙΒΑΛΛΟΝ ΔΙΕΞΑΓΩΓΗΣ ΤΩΝ ΠΕΙΡΑΜΑΤΩΝ...................................37

3.A. Συλλογή μηνυμάτων........................................................................................373.B. Προεπεξεργασία και αναπαράσταση μηνυμάτων............................................383.C. Αξιολόγηση με βάση το κόστος......................................................................393.D. Αποτελέσματα προηγούμενων πειραμάτων....................................................43

4. ΠΕΙΡΑΜΑΤΑ ΜΕ ΤΟΝ ΑΛΓΟΡΙΘΜΟ ΤΩΝ k-ΚΟΝΤΙΝΟΤΕΡΩΝΓΕΙΤΟΝΩΝ............................................................................................................47

4.A. Παράμετροι προς διερεύνηση.........................................................................484.B. Αποτίμηση χαρακτηριστικών.................................................................... 49

Page 6: hio

4.B.I. Μέτρα αποτίμησης............................................................................. 494.B.II. Πειραματική σύγκριση μέτρων.......................................................... 514.B.III. Θεωρητική διερεύνηση.......................................................................54

4.B.III.a. Ισοβαρής αποτίμηση (EW) ...................................................... 544.B.III.b. Σύγκριση των μέτρων IG – GR – EW.......................................554.B.III.c. Επίδραση της διαστασιμότητας................................................ 57

4.B.IV. Επίδραση της παραμέτρου k...............................................................584.C. Αποτίμηση γειτόνων με βάση την απόσταση ................................................ 63

4.C.I. Συναρτήσεις αποτίμησης γειτόνων.....................................................634.C.II. Επίδραση της παραμέτρου k...............................................................66

4.D. Επίδραση του μεγέθους του σώματος εκπαίδευσης.......................................67

5. ΠΕΙΡΑΜΑΤΑ ΜΕ ΟΜΑΔΕΣ ΤΑΞΙΝΟΜΗΤΩΝ.............................................69

5.A. Ομάδες ταξινομητών.......................................................................................69Συσσωρευμένη γενίκευση...................................................................................72

5.B. Κίνητρο συνδυασμού ΝΒ με k-NN................................................................ 735.C. Σχεδιαστικές επιλογές ................................................................................... 74

5.C.I. Συσσώρευση διασταυρωμένης επικύρωσης.........................................765.C.II. Συσσώρευση δείγματος ελέγχου.......................................................... 78

5.D. Πειραματικά αποτελέσματα............................................................................79Στατιστικά στοιχεία των προβλέψεων................................................................ 83

5.E. Σύγκριση καλύτερων επιδόσεων.....................................................................85Έλεγχος στατιστικής σημαντικότητας................................................................ 86

6. AΝΑΚΕΦΑΛΑΙΩΣΗ........................................................................................... 89

Προοπτικές..........................................................................................................90

ΑΝΑΦΟΡΕΣ...............................................................................................................93

Page 7: hio

1

1) ΕΙΣΑΓΩΓΗ

1.A) Aντικείμενο της πτυχιακής εργασίας

Το αντικείμενο της παρούσας εργασίας είναι η αυτόματη κατηγοριοποίηση μηνυμάτωνηλεκτρονικού ταχυδρομείου (e-mail) με χρήση τεχνικών μηχανικής μάθησης. Το ενδιαφέρονεστιάζεται στη σύνθεση δύο πεδίων γνώσης: Του τεχνολογικού πεδίου της αυτόματηςκατηγοριοποίησης εγγράφων (υποπερίπτωση του οποίου αποτελεί η κατηγοριοποίησημηνυμάτων ηλεκτρονικού ταχυδρομείου) και του επιστημονικού πεδίου της μηχανικήςμάθησης. Και οι δύο τομείς αποτελούν σήμερα ενεργές ερευνητικές περιοχές, οι οποίεςβρίσκονται σε συνεχή ανάπτυξη, ιδιαίτερα κατά τη διάρκεια της τελευταίας δεκαετίας. Τααποτελέσματα αυτής της έρευνας έχουν ήδη αρχίσει να περνούν και στο στάδιο τωνεμπορικών εφαρμογών με αξιόλογη επιτυχία, χωρίς ωστόσο να είναι αρκετά διαδεδομέναακόμα. Είναι σίγουρο πάντως πως η χρήση προϊόντων και ολοκληρωμένων συστημάτωναυτόματης κατηγοριοποίησης εγγράφων θα ενταθεί τα προσεχή χρόνια, καθώς η τεχνογνωσίαστην περιοχή αυτή θα αυξάνεται, ενώ παράλληλα η ανάγκη διαχείρισης ενός όλο καιπερισσότερο διογκούμενου αριθμού εγγράφων διαθέσιμων σε ηλεκτρονική μορφή, κυρίωςλόγω της αλματώδους ανάπτυξης και χρήσης του Διαδικτύου, θα καταστήσει ανέφικτη ήασύμφορη τη χειρωνακτική (manual) κατηγοριοποίηση των ηλεκτρονικών εγγράφων.

Η κατηγοριοποίηση κειμένου (text categorization - ΚΚ), γνωστή και ως κατάταξη κειμένου(text classification), είναι η διαδικασία κατάταξης κειμένων φυσικής γλώσσας σε έναπροκαθορισμένο αριθμό θεματικών κατηγοριών γνωστών εκ των προτέρων. Η ιστορία τηςΚΚ, ως πεδίου έρευνας στην περιοχή της βασισμένης στο περιεχόμενο (content-based)διαχείρισης εγγράφων, ξεκίνησε στις αρχές της δεκαετίας του ’60. Ωστόσο έγινε κύριο πεδίοενασχόλησης ενός σημαντικού αριθμού ερευνητών κατά τις αρχές της δεκαετίας του ’90,λόγω του αυξημένου ενδιαφέροντος πρακτικής αξιοποίησής της και των ισχυρώνυπολογιστικών μέσων που ήταν πλέον διαθέσιμα. Σήμερα, η ΚΚ χρησιμοποιείται σε διάφοραπεριβάλλοντα εφαρμογής, όπως στην ευρετηριοποίηση εγγράφων με βάση ένα ελεγχόμενολεξικό, στο φιλτράρισμα εγγράφων, στην αυτόματη δημιουργία μεταδεδομένων, στηδημιουργία ιεραρχικών καταλόγων για πόρους του Διαδικτύου, κ.α.

Το αντικείμενο της εργασίας αυτής είναι μία ειδική εφαρμογή κατηγοριοποίησης πουπροσπαθεί να αντιμετωπίσει ένα συνεχώς διογκούμενο πρόβλημα: πρόκειται για το μαζικό“βομβαρδισμό” των χρηστών του ηλεκτρονικού ταχυδρομείου με διαφημιστικά μηνύματααπό εταιρείες που προσπαθούν μέσω αυτού του τρόπου να προωθήσουν με ελάχιστο κόστοςκαι κόπο τα προϊόντα και τις υπηρεσίες τους. Για τα μηνύματα αυτά έχει επικρατήσει ηονομασία “spam” e-mail (ή junk e-mail – μηνύματα-“σκουπίδια”)*. Αν και οι περισσότεροιχρήστες τα βρίσκουν ενοχλητικά και τα διαγράφουν αμέσως, χάνουν πολύ χρόνοπροσπαθώντας να εντοπίσουν τη χρήσιμη αλληλογραφία τους. Ένα ακόμα πρόβλημα είναι

* Μια πιο επίσημη ονομασία είναι “Μη αιτηθείσα εμπορική ηλεκτρονική αλληλογραφία” (Unsolicited

Commercial E-mail – UCE)

Page 8: hio

2

πως οι ανήλικοι χρήστες βρίσκονται συχνά εκτεθειμένοι σε ακατάλληλο (π.χ. πορνογραφικό)υλικό μέσω τέτοιων μηνυμάτων.

Για την αντιμετώπιση της κατάστασης, οι εμπορικές λύσεις που διατίθενται μέχρι στιγμήςδίνουν τη δυνατότητα στο χρήστη να ορίσει ο ίδιος λέξεις-κλειδιά και λογικούς κανόνες μεστόχο το φιλτράρισμα των spam e-mails. Αυτή η προσέγγιση είναι προβληματική, γιατίπέραν του ότι απαιτεί εμπειρία στην κατασκευή κανόνων από τους χρήστες, οι τελευταίοιπρέπει να συντηρούν και να εκλεπτύνουν τους κανόνες με την πάροδο του χρόνου, καθώς ημορφή των spam mails δεν είναι σταθερή. Θα ήταν σαφώς προτιμότερη μια λύση πουαυτόματα κατατάσσει τα μηνύματα ως “θεμιτά” (legitimate) ή “αθέμιτα” (spam) και η οποίαθα προσαρμόζεται επίσης αυτόματα στις αλλαγές στα χαρακτηριστικά των μηνυμάτων με τοχρόνο.

Μια πολλά υποσχόμενη λύση σε αυτό το πρόβλημα, όπως και σε πολλά άλλα προβλήματααυτόματης κατηγοριοποίησης κειμένου, αλλά και οποιασδήποτε μορφής πληροφορίας,έρχεται από το χώρο της μηχανικής μάθησης. Η μηχανική μάθηση (machine learning) έχει ωςσκοπό τη δημιουργία μηχανών ικανών να μαθαίνουν, κατά τον τρόπο που χρησιμοποιούμετον όρο “μάθηση” για τον άνθρωπο, δηλαδή τη βελτίωση ικανοτήτων μέσω της αξιοποίησηςτης συσσωρευμένης γνώσης και εμπειρίας. H πρόοδος που έχει συντελεστεί στη μηχανικήμάθηση, ιδιαίτερα την τελευταία δεκαετία, είναι σημαντική και έχει δώσει τόσο αλγορίθμουςκαι θεωρητικά αποτελέσματα, όσο και πρακτικές εφαρμογές με μεγάλη επιτυχία.

Μία από τις περιοχές στις οποίες διείσδυσε η εφαρμογή της μηχανικής μάθησης ήταν και ηΚΚ. Μέχρι τα τέλη της δεκαετίας του ’80, η πιο αποτελεσματική προσέγγιση στην ΚΚ ήτανμέσω μεθόδων γνωσιακής μηχανικής (knowledge-engineering), δηλαδή το χειρωνακτικόορισμό λογικών κανόνων που να κωδικοποιούν την γνώση των ανθρώπων-ειδικών (experts)ως προς την κατηγοριοποίηση κειμένων. Στην επόμενη δεκαετία, η προσέγγιση αυτήξεπεράστηκε μέσω της επικράτησης του παραδείγματος της μηχανικής μάθησης (machinelearning paradigm). Σύμφωνα με το παράδειγμα αυτό, μια γενική επαγωγική διαδικασίαδημιουργεί έναν αυτόματο ταξινομητή, “μαθαίνοντας” τα χαρακτηριστικά κάθε κατηγορίαςμέσω ενός συνόλου προκαταταγμένων κειμένων από ειδικούς. Τα πλεονεκτήματα αυτού τουσχήματος είναι μια ακρίβεια κατάταξης συγκρίσιμη με αυτή των ανθρώπων-ειδικών και ηεξοικονόμηση ανθρώπινου δυναμικού, καθώς δεν απαιτείται η επέμβαση γνωσιολόγων-μηχανικών και ειδικών.

1.B) Στόχοι της πτυχιακής εργασίας

Για το πρόβλημα των spam e-mails, η λύση που παρέχεται σήμερα, όπως περιγράφηκεπαραπάνω, είναι βασισμένη στη λογική της γνωσιακής μηχανικής, με την απαίτηση μάλιστακάθε χρήστης του ηλεκτρονικού ταχυδρομείου να παίζει το ρόλο του “ειδικού” στηναναγνώριση των spam mails, ορίζοντας ο ίδιος κατάλληλους κανόνες και ανανεώνοντάς τουςόποτε κρίνει ότι είναι απαραίτητο. Με δεδομένη την επιτυχία των αλγορίθμων μηχανικήςμάθησης σε άλλες εφαρμογές κατάταξης κειμένου, o πρώτος στόχος της εργασίας είναι ναδείξει πως η χρήση τους και για το αυτόματο φιλτράρισμα των spam e-mails παρέχειικανοποιητική ακρίβεια. Ακόλουθος στόχος ήταν η βελτιστοποίηση της απόδοσης του

Page 9: hio

3

τελικού συστήματος μέσω του συντονισμού κάποιων από τις παραμέτρους που υπάρχουν ωςσχεδιαστικές επιλογές. Επιπλέον, κάποιες από τις παρατηρήσεις που έγιναν κατά τηδιαδικασία της βελτιστοποίησης οδήγησαν σε γενικότερα συμπεράσματα, πέραν τουσυγκεκριμένου πεδίου εφαρμογής, στηριζόμενα τόσο στα πειραματικά αποτελέσματα, όσοκαι σε θεωρητικά και διαισθητικά επιχειρήματα.

Συνοπτικά, οι στόχοι της εργασίας είναι: Να μελετηθεί και να παρουσιαστεί η μέχρι σήμερα δραστηριότητα στους τομείς τηςαυτόματης κατηγοριοποίησης κειμένου, της μηχανικής μάθησης και της εφαρμογής τηςδεύτερης στην πρώτη, μέσω της εκτεταμένης βιβλιογραφίας που έχει δημιουργηθεί, κατάτη διάρκεια των τελευταίων κυρίως ετών.

Να μοντελοποιηθεί το πρόβλημα του φιλτραρίσματος των spam e-mails στο πλαίσιο τηςκατηγοριοποίησης κειμένου.

Να καταδειχθεί πειραματικά η υψηλή απόδοση που επιτυγχάνεται με τη χρήση τεχνικώνμηχανικής μάθησης για την αντιμετώπιση του προβλήματος.

Να βελτιστοποιηθεί η επίδοση της μεθόδου μέσω του συντονισμού κάποιων εκ τωνδιαθέσιμων σχεδιαστικών επιλογών.

Να ερμηνευθούν τα αποτελέσματα των πραγματοποιηθέντων πειραμάτων και νασυγκριθούν με προηγούμενα αποτελέσματα.

Να γενικευτούν όπου είναι δυνατόν τα συμπεράσματα που έχουν προκύψει. Να αναφερθούν και άλλες κατευθύνσεις που δεν διερευνήθηκαν στα πλαίσια τηςεργασίας, αλλά προβάλλουν ως πολλά υποσχόμενες από άλλες έρευνες.

1.C) Διάρθρωση της πτυχιακής εργασίας

Η παρουσίαση της εργασίας είναι οργανωμένη ως εξής:Στο κεφάλαιο 2 σκιαγραφούνται τα γνωστικά πεδία (domains) που αποτελούν το

επιστημονικό και τεχνολογικό υπόβαθρο πάνω στο οποίο στηρίζεται η εργασία. Στο κεφάλαιο3 περιγράφεται το περιβάλλον εκτέλεσης των πειραμάτων που έγιναν, με αναφορά στησυλλογή των ηλεκτρονικών μηνυμάτων που χρησιμοποιήθηκαν και στον τρόποπροεπεξεργασίας και αναπαράστασής τους πριν τη χρήση τους από τους αλγορίθμουςμάθησης, ορίζονται κατάλληλα μέτρα αξιολόγησης της αποτελεσματικότητας ενός φίλτρουκαι παρουσιάζονται με βάση τα μέτρα αυτά προηγούμενα αποτελέσματα πειραμάτων πάνωστην ίδια συλλογή. Στο κεφάλαιο 4 περιγράφονται τα πειράματα που έγιναν με διάφορεςπαραλλαγές του αλγορίθμου μάθησης των k-κοντινότερων γειτόνων (k-Νearest Νeighboralgorithm). Στο κεφάλαιο 5 αναλύεται η συνδυαστική χρήση αλγορίθμων μάθησης μέσω τωνομάδων ταξινομητών (classifier ensembles) και παρουσιάζονται τα αποτελέσματαπειραμάτων με συνδυασμό δύο αλγορίθμων μάθησης. Τέλος, στο κεφάλαιο 6ανακεφαλαιώνονται τα κύρια ζητήματα που θίχτηκαν στην εργασία, τα καλύτερααποτελέσματα και τα συμπεράσματα που προέκυψαν, μνημονεύονται τα σημεία πουπαρέμειναν ανοιχτά και προτείνονται άλλες πειραματικές κατευθύνσεις που δεδιερευνήθηκαν. Η εργασία κλείνει με αναφορές στη σχετική βιβλιογραφία.

Page 10: hio