Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό...

36
Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης Ειρήνη Καλδέλη Διπλωματική Εργασία

description

Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης. Ειρήνη Καλδέλη Διπλωματική Εργασία. Αντικείμενο. Κατάταξη κειμένου με βάση την άποψη που αυτό εκφράζει πάνω σε ένα θέμα με χρήση τεχνικών Μηχανικής Μάθησης Στόχοι Βελτίωση της αποτελεσματικότητας της ταξινόμησης - PowerPoint PPT Presentation

Transcript of Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό...

Page 1: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Ειρήνη ΚαλδέληΔιπλωματική Εργασία

Page 2: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Αντικείμενο

Κατάταξη κειμένου με βάση την άποψη που αυτό εκφράζει πάνω σε ένα θέμα με χρήση τεχνικών Μηχανικής Μάθησης

Στόχοι Βελτίωση της αποτελεσματικότητας της

ταξινόμησης Διερεύνηση των παραμέτρων του προβλήματος

Page 3: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Περιεχόμενα

Περιγραφή του προβλήματοςΑλγόριθμος SVMΜεθοδολογίεςΠειραματική ΑξιολόγησηΣυμπεράσματα

Page 4: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Κατηγοριοποίηση κειμένου

Παγκόσμιος ιστός μεγάλος όγκος πληροφορίας,

προσβάσιμης σε μεγάλο αριθμό χρηστών έλλειψη δομής, δυσκολία εντοπισμού της

κατάλληλης πληροφορίας

Ανάγκη οργάνωσης των πληροφοριών σε κατηγορίες

Page 5: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Κατηγοριοποίηση Κειμένου με βάση την άποψη (sentiment classification)

Στόχοι ο προσδιορισμός:της υποκειμενικότητας

(αντικειμενικό/υποκειμενικό)του προσανατολισμού άποψης

(θετικό/αρνητικό)της έντασης του προσανατολισμού (πολύ,

αρκετά, λίγο θετικό/αρνητικό)

Page 6: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Εφαρμογές της Κατηγοριοποίησης Κειμένου με βάση την άποψη Αυτόματη αναγνώριση της άποψης που εκφράζεται

στο διαδίκτυο για κάποιο προϊόν, πολιτικό γεγονός κ.ά.

Οργάνωση κειμένων (π.χ. κριτικών ταινιών) σε θετικά και αρνητικά

Page 7: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Περιγραφή του προβλήματος

Κατηγοριοποίηση με βάση τη συνολική άποψη που απηχεί ένα κείμενο

Θεωρούμε δύο κατηγορίες (θετική-αρνητική)

Page 8: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Ιδιαιτερότητες του προβλήματος

Περίπλοκοι εκφραστικοί τρόποι (ειρωνεία, ιδιωματισμοί, μεταφορές) Δεν μπορούμε να βασιστούμε σε λέξεις-κλειδιά

Διαφορετική σημασιολογική απόχρωση μιας λέξης ανάλογα με τα συμφραζόμενα Π.χ. “unpredictable plot” vs. “unpredictable function”

Αντιθετικό σχήμα: Π.χ. “This film should be brilliant. It sounds like a great plot,

the actors are first grade, and the supporting cast is good as well. […] However, it can't hold up.”

“[…] Still, despite these flaws, I’d go with this laptop”

Page 9: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Προσεγγίσεις

Με γλωσσολογική ανάλυση Εντοπισμός συγκεκριμένων γλωσσικών δομώνμε βάση κανόνες και πρότυπα Υπολογισμός στατιστικών

Με Μηχανική Μάθηση Αυτόματος συμπερασμός των χρήσιμων

χαρακτηριστικών του κειμένου

Page 10: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

SVM (Support Vectors Machines)

Αλγόριθμος ταξινόμησης (classification) διανυσματική αναπαράσταση του χώρου του

προβλήματος επιλογή των διανυσμάτων υποστήριξης, που

συνορεύουν με στιγμιότυπα άλλων κλάσεων

Υπολογισμός γραμμικής συνάρτησης διάκρισης ώστε να επιτυγχάνεται βέλτιστος διαχωρισμός

Page 11: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Δυαδική αναπαράσταση σακιδίου λέξεωνΣύνολο χαρακτηριστικών Διανυσματική αναπαράσταση κειμένου:

όπου αν το εμφανίζεται στοκείμενο , αλλιώςΕίδη χαρακτηριστικών

Λεκτικές μονάδες (unigrams) Θέματα λέξεων (stems)

Μείωση διαστασιμότητας

1 ,...,( ) ( )mt n nt t

1( )in t ift 0( )in t

1,.., mF f f

Page 12: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Αναπαράσταση με συχνότητες και TFIDFΑναπαράσταση κειμένου ως όπου ο αριθμός εμφανίσεων του

στο κείμενο

1 ,...,( ) ( )mt n nt t

( )in t ift

, , log( )i i

i

DTFIDF f t TF f t

DF w

Αριθμός κειμένων

αριθμός κειμένων στα οποία εμφανίζεται η wi

αριθμός εμφανίσεων του fi στο κείμενο t

Page 13: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Όροι άρνησης

Λέξεις όπως “not”, “don’t”, “hasn’t” κ.τ.λ. οι οποίες αντιστρέφουν τον προσανατολισμό άλλων λέξεων

Π.χ. “This movie is not good”Δύσκολο να προσδιοριστεί η εμβέλειά τους

Page 14: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Όροι άρνησηςΕμβέλεια άρνησης: Προσθήκη του _NOT μόνο στην επόμενη λέξη

“it doesn’t entertain” “this is not a horror or teen slasher flick”

σε όλα τις λέξεις μέχρι το πρώτο σημείο στίξης που ακολουθεί “won’t appreciate the delicacy of the emotional scenes”

στο πρώτο επίθετο ή ουσιαστικό που ακολουθεί “none of them are remotely interesting” “isn't nearly as dull as this”

Page 15: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Χρήση λεξικού υποκειμενικότητας

Λεξικά με λήμματα που έχουν έντονη αρνητική ή θετική χροιά

Παρέχουν εκ των προτέρων γνώση για τον προσανατολισμό κάποιων λέξεων

Π.χ. Also, the ending, while having you fooled for a moment, is rather contrived, and somewhat disappointing. Still, I found the cable guy to be a worthwhile venture.

Απόδοση μεγαλύτερου βάρους στις λέξεις που περιλαμβάνονται στο λεξικό

Page 16: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Διάκριση υποκειμενικών και αντικειμενικών προτάσεωνΈνα κείμενο περιλαμβάνει εκτός από

υποκειμενική και αντικειμενική-περιγραφική πληροφορία

Οι αντικειμενικές προτάσεις μπορεί να αποπροσανατολίσουν τον ταξινομητή

Ταξινομητής υποκειμενικότητας για την απομάκρυνση των αντικειμενικών προτάσεων

Page 17: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Διάκριση υποκειμενικών και αντικειμενικών προτάσεων

π1

π2

π3

.

.

.

πν

υποκειμενική

αντικειμενική

υποκειμενική

υποκειμενική

π1

π3...

πν

Ταξ

ινομ

ητής

προ

σαν

τολι

σμο

ύάπ

οψης

+/-

Κείμενα Νπροτάσεων

Ταξινομητήςυποκειμενικότητας

Υπόλοιπο Μπροτάσεων (Μ<=Ν)

Page 18: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Διγράμματα του Turney

Οι μεμονωμένες λέξεις δεν αρκούν Συχνά ο προσανατολισμός εξαρτάται από τα

συμφραζόμενα

Δυάδες λέξεων συγκεκριμένης μορφής, που περιλαμβάνουν επίθετο ή επίρρημα Π.χ. “really surprises”, “genuine tenderness”

Αναμένεται ότι δηλώνουν πληρέστερα το θετικό ή αρνητικό προσανατολισμό

Ένταξή τους στο σακίδιο λέξεων

Page 19: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Τιμές SO_PMI

Λέξεις με παρόμοιο προσανατολισμό άποψης τείνουν να εμφανίζονται κοντά η μία στην άλλη

Τιμή συσχέτισης

όπου η πιθανότητα οι και

να συνεμφανίζονται

1 21 2 2

1 2

&, log

p w wPMI w w

p w p w

1 2&p w w 1w 2w

Page 20: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Τιμές SO_PMI

Συσχέτιση μιας λέξης ή φράσης με ένα σύνολο θετικών και ένα σύνολο αρνητικών λέξεων

Εκτίμηση της τιμής PMI Υποβολή ερωτήσεων σε μια μηχανή αναζήτησης με

χρήση τελεστών όπως οι AND και ΝEARΠροσανατολισμός

_ , ,pword Pwords nword Nwords

SO PMI w PMI w pword PMI w nword

Page 21: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Τιμές SO_PMI

Προσανατολισμός SO_PMI

Π.χ. Με χρήση του τελεστή AND του google SO_PMI(“clever”) = +1.73 SO_PMI(“so clever”) = -0.75 SO_PMI(“good intentions”) = -5.26 SO_PMI(“independent film”) = +0.39

2

NEAR NEAR _ log

pword Pwords nword Nwords

pword Pwords nword Nwords

hits w pword hits w nwordSO PMI w

hits pword hits nword

Page 22: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Μοντέλο μεταταξινομητή

Συνδυασμός ταξινομητών που βασίζονται σε ετερογενείς πληροφορίες

Τ1

Τ2

Τν

.

.

.

μεταταξινομητής

τιμέςαπόφασης

+/-

Page 23: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Μοντέλο μεταταξινομητή

Συνδυασμός ταξινομητή σακιδίου λέξεων με ταξινομητή που βασίζεται στο ποσοστό

θετικών-αρνητικών λέξεων με βάση το λεξικό υποκειμενικότητας

με ταξινομητή που βασίζεται στο μέσο όρο των SO_PMI τιμών των διγραμμάτων του Turney που περιλαμβάνονται σε κάθε κείμενο

Συνδυασμός και των τριών ταξινομητών

Page 24: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Πειραματική αξιολόγηση – Σώματα κειμένων Βάση με κριτικές ταινιών

Μεγάλης έκτασης, καλά δομημένα κείμενα Βάση με έγγραφα που συλλέχτηκαν από φόρα και

blog και αναφέρονται σε αλυσίδα καταστημάτων Μικρής έκτασης, άναρχα δομημένα Αφαιρέθηκαν οι ετικέτες html Απομονώθηκαν οι προτάσεις που αναφέρονται στην

εταιρεία Βάση θετικών και αρνητικών προτάσεων

Page 25: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Πειραματική αξιολόγηση

Μέτρο αποτελεσματικότητας ταξινόμησης:ορθότητα (accuracy)

Δοκιμή 3-πλής σταυρωτής επικύρωσης: κάθε

στιγμιότυπο χρησιμοποιείται μία φορά ως μέλος του συνόλου δοκιμής και 2 φορές ως μέλος του συνόλου εκπαίδευσης

cTP TNA

TP TN FN FP

Page 26: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Πειραματική αξιολόγηση – Κριτικές ταινιώνΣακίδιο λέξεων Καλύτερα αποτελέσματα η δυαδική

αναπαράσταση με χρήση λεκτικών μονάδων Ορθότητα 84.1% Η μείωση διαστασιμότητας δε βελτιώνει τα

αποτελέσματα Συνυπολογισμός των όρων άρνησης Ορθότητα 84.9% Συμπερίληψη των διγραμμάτων του Turney Ορθότητα 82.4%

Page 27: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Πειραματική αξιολόγηση – Κριτικές ταινιώνΑπόδοση μεγαλύτερου βάρους στις λέξεις

που περιλαμβάνονται στο λεξικό υποκειμενικότητας Μείωση ορθότητας (83.1%)

Πολλές λέξεις χωρίς προφανή προσανατολισμό, όπως “else”, “because”, “then”, συμβάλλουν καθοριστικά στη διαμόρφωση του συνολικού προσανατολισμού των κειμένων

Page 28: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Πειραματική αξιολόγηση – Κριτικές ταινιώνΦίλτρο αντικειμενικών προτάσεων

74.70%

82.95%

80.25%

85.45%

84.45%84.20%

74.00%

76.00%

78.00%

80.00%

82.00%

84.00%

86.00%

0 5 10 15 20 25 30 35

M πιο υποκειμενικές προτάσεις

ορθό

τητα

Page 29: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Πειραματική αξιολόγηση – Κριτικές ταινιώνΜεταταξινομητής: Συνδυασμός ταξινομητώνμε σακίδιο λέξεων – με τιμές SO_PMI Ορθότητα 86.25%με σακίδιο λέξεων – με χρήση λεξικών

υποκειμενικότητας Ορθότητα 85.3%και των τριών Ορθότητα 86.35%

Page 30: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Πειραματική αξιολόγηση – Κριτικές ταινιών

Συμβολή της επιπλέον πληροφορίας από τα λεξικά ή το διαδίκτυο:

Απ’ ευθείας ένταξή της στο σακίδιο λέξεων Μείωση της αποτελεσματικότητας Αξιοποίησή της σε ξεχωριστό ταξινομητή

και συνδυασμός με το σακίδιο λέξεων μέσω του μεταταξινομητή

Βελτίωση της αποτελεσματικότητας

Page 31: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Πειραματική αξιολόγηση – Έγγραφα που αναφέρονται στην αλυσίδα καταστημάτωνΚαλύτερα αποτελέσματα το σακίδιο

λέξεων με δυαδική αναπαράσταση και μείωση διαστασιμότητας

Ορθότητα 64.3%Χαμηλές τιμές ορθότητας λόγω

Μεγάλης διασποράς των λεκτικών μονάδων Μικρού διαθέσιμου σώματος εκπαίδευσης Άναρχης δομής

Page 32: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Πειραματική αξιολόγηση - Προτάσεις

Καλύτερα αποτελέσματα το σακίδιο λέξεων με δυαδική αναπαράσταση, χωρίς μείωση διαστασιμότητας

Ορθότητα 74.4%Παρά το μεγάλο διαθέσιμο σώμα

εκπαίδευσης, τα χαρακτηριστικά είναι διεσπαρμένα και δεν επαρκούν για να «μάθει» ο ταξινομητής

Page 33: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Συμπεράσματα

Απλό σακίδιο λέξεων με δυαδική αναπαράσταση αρκετά καλά αποτελέσματα (84.1%)

Φίλτρο αντικειμενικών προτάσεων: μικρή βελτίωση της ορθότητας (85.45%) σημαντικός περιορισμός του όγκου των

κειμένων

Page 34: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Συμπεράσματα

Απόδοση μεγαλύτερου βάρους στις λέξεις που περιλαμβάνονται στο λεξικό

Μεταταξινομητές βελτίωση της ορθότητας (86.25%) ευελιξία για το συνδυασμό διαφορετικών

ταξινομητών και την αξιοποίηση εξωγενούς πληροφορίας

Page 35: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Συμπεράσματα

Κριτικές ταινιών Ικανοποιητικά αποτελέσματα Αλλά κατώτερα της θεματικής

κατηγοριοποίησης κειμένων Μικρής έκτασης αποσπάσματα

Χαμηλές τιμές ορθότητας

Page 36: Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Μελλοντικές κατευθύνσεις

Απαραίτητη η γλωσσολογική ανάλυση των κειμένων

Συνδυασμός ταξινομητών που βασίζονται σε κανόνες με ταξινομητές Μηχανικής Μάθησης Αξιοποίηση του μοντέλου του μεταταξινομητή

Προσδιορισμός άποψης για πιο εντοπισμένα θέματα