Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό...

Post on 09-Feb-2016

45 views 0 download

description

Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης. Ειρήνη Καλδέλη Διπλωματική Εργασία. Αντικείμενο. Κατάταξη κειμένου με βάση την άποψη που αυτό εκφράζει πάνω σε ένα θέμα με χρήση τεχνικών Μηχανικής Μάθησης Στόχοι Βελτίωση της αποτελεσματικότητας της ταξινόμησης - PowerPoint PPT Presentation

Transcript of Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό...

Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Ειρήνη ΚαλδέληΔιπλωματική Εργασία

Αντικείμενο

Κατάταξη κειμένου με βάση την άποψη που αυτό εκφράζει πάνω σε ένα θέμα με χρήση τεχνικών Μηχανικής Μάθησης

Στόχοι Βελτίωση της αποτελεσματικότητας της

ταξινόμησης Διερεύνηση των παραμέτρων του προβλήματος

Περιεχόμενα

Περιγραφή του προβλήματοςΑλγόριθμος SVMΜεθοδολογίεςΠειραματική ΑξιολόγησηΣυμπεράσματα

Κατηγοριοποίηση κειμένου

Παγκόσμιος ιστός μεγάλος όγκος πληροφορίας,

προσβάσιμης σε μεγάλο αριθμό χρηστών έλλειψη δομής, δυσκολία εντοπισμού της

κατάλληλης πληροφορίας

Ανάγκη οργάνωσης των πληροφοριών σε κατηγορίες

Κατηγοριοποίηση Κειμένου με βάση την άποψη (sentiment classification)

Στόχοι ο προσδιορισμός:της υποκειμενικότητας

(αντικειμενικό/υποκειμενικό)του προσανατολισμού άποψης

(θετικό/αρνητικό)της έντασης του προσανατολισμού (πολύ,

αρκετά, λίγο θετικό/αρνητικό)

Εφαρμογές της Κατηγοριοποίησης Κειμένου με βάση την άποψη Αυτόματη αναγνώριση της άποψης που εκφράζεται

στο διαδίκτυο για κάποιο προϊόν, πολιτικό γεγονός κ.ά.

Οργάνωση κειμένων (π.χ. κριτικών ταινιών) σε θετικά και αρνητικά

Περιγραφή του προβλήματος

Κατηγοριοποίηση με βάση τη συνολική άποψη που απηχεί ένα κείμενο

Θεωρούμε δύο κατηγορίες (θετική-αρνητική)

Ιδιαιτερότητες του προβλήματος

Περίπλοκοι εκφραστικοί τρόποι (ειρωνεία, ιδιωματισμοί, μεταφορές) Δεν μπορούμε να βασιστούμε σε λέξεις-κλειδιά

Διαφορετική σημασιολογική απόχρωση μιας λέξης ανάλογα με τα συμφραζόμενα Π.χ. “unpredictable plot” vs. “unpredictable function”

Αντιθετικό σχήμα: Π.χ. “This film should be brilliant. It sounds like a great plot,

the actors are first grade, and the supporting cast is good as well. […] However, it can't hold up.”

“[…] Still, despite these flaws, I’d go with this laptop”

Προσεγγίσεις

Με γλωσσολογική ανάλυση Εντοπισμός συγκεκριμένων γλωσσικών δομώνμε βάση κανόνες και πρότυπα Υπολογισμός στατιστικών

Με Μηχανική Μάθηση Αυτόματος συμπερασμός των χρήσιμων

χαρακτηριστικών του κειμένου

SVM (Support Vectors Machines)

Αλγόριθμος ταξινόμησης (classification) διανυσματική αναπαράσταση του χώρου του

προβλήματος επιλογή των διανυσμάτων υποστήριξης, που

συνορεύουν με στιγμιότυπα άλλων κλάσεων

Υπολογισμός γραμμικής συνάρτησης διάκρισης ώστε να επιτυγχάνεται βέλτιστος διαχωρισμός

Δυαδική αναπαράσταση σακιδίου λέξεωνΣύνολο χαρακτηριστικών Διανυσματική αναπαράσταση κειμένου:

όπου αν το εμφανίζεται στοκείμενο , αλλιώςΕίδη χαρακτηριστικών

Λεκτικές μονάδες (unigrams) Θέματα λέξεων (stems)

Μείωση διαστασιμότητας

1 ,...,( ) ( )mt n nt t

1( )in t ift 0( )in t

1,.., mF f f

Αναπαράσταση με συχνότητες και TFIDFΑναπαράσταση κειμένου ως όπου ο αριθμός εμφανίσεων του

στο κείμενο

1 ,...,( ) ( )mt n nt t

( )in t ift

, , log( )i i

i

DTFIDF f t TF f t

DF w

Αριθμός κειμένων

αριθμός κειμένων στα οποία εμφανίζεται η wi

αριθμός εμφανίσεων του fi στο κείμενο t

Όροι άρνησης

Λέξεις όπως “not”, “don’t”, “hasn’t” κ.τ.λ. οι οποίες αντιστρέφουν τον προσανατολισμό άλλων λέξεων

Π.χ. “This movie is not good”Δύσκολο να προσδιοριστεί η εμβέλειά τους

Όροι άρνησηςΕμβέλεια άρνησης: Προσθήκη του _NOT μόνο στην επόμενη λέξη

“it doesn’t entertain” “this is not a horror or teen slasher flick”

σε όλα τις λέξεις μέχρι το πρώτο σημείο στίξης που ακολουθεί “won’t appreciate the delicacy of the emotional scenes”

στο πρώτο επίθετο ή ουσιαστικό που ακολουθεί “none of them are remotely interesting” “isn't nearly as dull as this”

Χρήση λεξικού υποκειμενικότητας

Λεξικά με λήμματα που έχουν έντονη αρνητική ή θετική χροιά

Παρέχουν εκ των προτέρων γνώση για τον προσανατολισμό κάποιων λέξεων

Π.χ. Also, the ending, while having you fooled for a moment, is rather contrived, and somewhat disappointing. Still, I found the cable guy to be a worthwhile venture.

Απόδοση μεγαλύτερου βάρους στις λέξεις που περιλαμβάνονται στο λεξικό

Διάκριση υποκειμενικών και αντικειμενικών προτάσεωνΈνα κείμενο περιλαμβάνει εκτός από

υποκειμενική και αντικειμενική-περιγραφική πληροφορία

Οι αντικειμενικές προτάσεις μπορεί να αποπροσανατολίσουν τον ταξινομητή

Ταξινομητής υποκειμενικότητας για την απομάκρυνση των αντικειμενικών προτάσεων

Διάκριση υποκειμενικών και αντικειμενικών προτάσεων

π1

π2

π3

.

.

.

πν

υποκειμενική

αντικειμενική

υποκειμενική

υποκειμενική

π1

π3...

πν

Ταξ

ινομ

ητής

προ

σαν

τολι

σμο

ύάπ

οψης

+/-

Κείμενα Νπροτάσεων

Ταξινομητήςυποκειμενικότητας

Υπόλοιπο Μπροτάσεων (Μ<=Ν)

Διγράμματα του Turney

Οι μεμονωμένες λέξεις δεν αρκούν Συχνά ο προσανατολισμός εξαρτάται από τα

συμφραζόμενα

Δυάδες λέξεων συγκεκριμένης μορφής, που περιλαμβάνουν επίθετο ή επίρρημα Π.χ. “really surprises”, “genuine tenderness”

Αναμένεται ότι δηλώνουν πληρέστερα το θετικό ή αρνητικό προσανατολισμό

Ένταξή τους στο σακίδιο λέξεων

Τιμές SO_PMI

Λέξεις με παρόμοιο προσανατολισμό άποψης τείνουν να εμφανίζονται κοντά η μία στην άλλη

Τιμή συσχέτισης

όπου η πιθανότητα οι και

να συνεμφανίζονται

1 21 2 2

1 2

&, log

p w wPMI w w

p w p w

1 2&p w w 1w 2w

Τιμές SO_PMI

Συσχέτιση μιας λέξης ή φράσης με ένα σύνολο θετικών και ένα σύνολο αρνητικών λέξεων

Εκτίμηση της τιμής PMI Υποβολή ερωτήσεων σε μια μηχανή αναζήτησης με

χρήση τελεστών όπως οι AND και ΝEARΠροσανατολισμός

_ , ,pword Pwords nword Nwords

SO PMI w PMI w pword PMI w nword

Τιμές SO_PMI

Προσανατολισμός SO_PMI

Π.χ. Με χρήση του τελεστή AND του google SO_PMI(“clever”) = +1.73 SO_PMI(“so clever”) = -0.75 SO_PMI(“good intentions”) = -5.26 SO_PMI(“independent film”) = +0.39

2

NEAR NEAR _ log

pword Pwords nword Nwords

pword Pwords nword Nwords

hits w pword hits w nwordSO PMI w

hits pword hits nword

Μοντέλο μεταταξινομητή

Συνδυασμός ταξινομητών που βασίζονται σε ετερογενείς πληροφορίες

Τ1

Τ2

Τν

.

.

.

μεταταξινομητής

τιμέςαπόφασης

+/-

Μοντέλο μεταταξινομητή

Συνδυασμός ταξινομητή σακιδίου λέξεων με ταξινομητή που βασίζεται στο ποσοστό

θετικών-αρνητικών λέξεων με βάση το λεξικό υποκειμενικότητας

με ταξινομητή που βασίζεται στο μέσο όρο των SO_PMI τιμών των διγραμμάτων του Turney που περιλαμβάνονται σε κάθε κείμενο

Συνδυασμός και των τριών ταξινομητών

Πειραματική αξιολόγηση – Σώματα κειμένων Βάση με κριτικές ταινιών

Μεγάλης έκτασης, καλά δομημένα κείμενα Βάση με έγγραφα που συλλέχτηκαν από φόρα και

blog και αναφέρονται σε αλυσίδα καταστημάτων Μικρής έκτασης, άναρχα δομημένα Αφαιρέθηκαν οι ετικέτες html Απομονώθηκαν οι προτάσεις που αναφέρονται στην

εταιρεία Βάση θετικών και αρνητικών προτάσεων

Πειραματική αξιολόγηση

Μέτρο αποτελεσματικότητας ταξινόμησης:ορθότητα (accuracy)

Δοκιμή 3-πλής σταυρωτής επικύρωσης: κάθε

στιγμιότυπο χρησιμοποιείται μία φορά ως μέλος του συνόλου δοκιμής και 2 φορές ως μέλος του συνόλου εκπαίδευσης

cTP TNA

TP TN FN FP

Πειραματική αξιολόγηση – Κριτικές ταινιώνΣακίδιο λέξεων Καλύτερα αποτελέσματα η δυαδική

αναπαράσταση με χρήση λεκτικών μονάδων Ορθότητα 84.1% Η μείωση διαστασιμότητας δε βελτιώνει τα

αποτελέσματα Συνυπολογισμός των όρων άρνησης Ορθότητα 84.9% Συμπερίληψη των διγραμμάτων του Turney Ορθότητα 82.4%

Πειραματική αξιολόγηση – Κριτικές ταινιώνΑπόδοση μεγαλύτερου βάρους στις λέξεις

που περιλαμβάνονται στο λεξικό υποκειμενικότητας Μείωση ορθότητας (83.1%)

Πολλές λέξεις χωρίς προφανή προσανατολισμό, όπως “else”, “because”, “then”, συμβάλλουν καθοριστικά στη διαμόρφωση του συνολικού προσανατολισμού των κειμένων

Πειραματική αξιολόγηση – Κριτικές ταινιώνΦίλτρο αντικειμενικών προτάσεων

74.70%

82.95%

80.25%

85.45%

84.45%84.20%

74.00%

76.00%

78.00%

80.00%

82.00%

84.00%

86.00%

0 5 10 15 20 25 30 35

M πιο υποκειμενικές προτάσεις

ορθό

τητα

Πειραματική αξιολόγηση – Κριτικές ταινιώνΜεταταξινομητής: Συνδυασμός ταξινομητώνμε σακίδιο λέξεων – με τιμές SO_PMI Ορθότητα 86.25%με σακίδιο λέξεων – με χρήση λεξικών

υποκειμενικότητας Ορθότητα 85.3%και των τριών Ορθότητα 86.35%

Πειραματική αξιολόγηση – Κριτικές ταινιών

Συμβολή της επιπλέον πληροφορίας από τα λεξικά ή το διαδίκτυο:

Απ’ ευθείας ένταξή της στο σακίδιο λέξεων Μείωση της αποτελεσματικότητας Αξιοποίησή της σε ξεχωριστό ταξινομητή

και συνδυασμός με το σακίδιο λέξεων μέσω του μεταταξινομητή

Βελτίωση της αποτελεσματικότητας

Πειραματική αξιολόγηση – Έγγραφα που αναφέρονται στην αλυσίδα καταστημάτωνΚαλύτερα αποτελέσματα το σακίδιο

λέξεων με δυαδική αναπαράσταση και μείωση διαστασιμότητας

Ορθότητα 64.3%Χαμηλές τιμές ορθότητας λόγω

Μεγάλης διασποράς των λεκτικών μονάδων Μικρού διαθέσιμου σώματος εκπαίδευσης Άναρχης δομής

Πειραματική αξιολόγηση - Προτάσεις

Καλύτερα αποτελέσματα το σακίδιο λέξεων με δυαδική αναπαράσταση, χωρίς μείωση διαστασιμότητας

Ορθότητα 74.4%Παρά το μεγάλο διαθέσιμο σώμα

εκπαίδευσης, τα χαρακτηριστικά είναι διεσπαρμένα και δεν επαρκούν για να «μάθει» ο ταξινομητής

Συμπεράσματα

Απλό σακίδιο λέξεων με δυαδική αναπαράσταση αρκετά καλά αποτελέσματα (84.1%)

Φίλτρο αντικειμενικών προτάσεων: μικρή βελτίωση της ορθότητας (85.45%) σημαντικός περιορισμός του όγκου των

κειμένων

Συμπεράσματα

Απόδοση μεγαλύτερου βάρους στις λέξεις που περιλαμβάνονται στο λεξικό

Μεταταξινομητές βελτίωση της ορθότητας (86.25%) ευελιξία για το συνδυασμό διαφορετικών

ταξινομητών και την αξιοποίηση εξωγενούς πληροφορίας

Συμπεράσματα

Κριτικές ταινιών Ικανοποιητικά αποτελέσματα Αλλά κατώτερα της θεματικής

κατηγοριοποίησης κειμένων Μικρής έκτασης αποσπάσματα

Χαμηλές τιμές ορθότητας

Μελλοντικές κατευθύνσεις

Απαραίτητη η γλωσσολογική ανάλυση των κειμένων

Συνδυασμός ταξινομητών που βασίζονται σε κανόνες με ταξινομητές Μηχανικής Μάθησης Αξιοποίηση του μοντέλου του μεταταξινομητή

Προσδιορισμός άποψης για πιο εντοπισμένα θέματα