Download - Mining Sequential Patterns and Tree Patterns to Detect Erroneous Sentences

Transcript
Page 1: Mining Sequential Patterns and Tree Patterns to Detect Erroneous Sentences

Authored by

Guihua Sun │ Gao Cong │ Xiaohua Liu │ Chin-Yew Lin │ Ming ZhouMicrosoft Research Asia

Παρουσίαση

Στέλιος ΚαραμπασάκηςΕθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών

Τμήμα Πληροφορικής και Τηλεπικοινωνιών

Mining Sequential PatternsMining Sequential Patternsand Tree Patternsand Tree Patterns

to Detect Erroneous Sentencesto Detect Erroneous Sentences

Page 2: Mining Sequential Patterns and Tree Patterns to Detect Erroneous Sentences

ΕΚΠΑ – Τμήμα Πληροφορικής και ΤηλεπικοινωνιώνΠροηγμένη Τεχνητή Νοημοσύνη (ΠΜΣ508)

2

Το πρόβλημαΤο πρόβλημα

Αναγνώριση λανθασμένων προτάσεων χρηστών

που χρησιμοποιούν τα Αγγλικά ως ξένη γλώσσα

Page 3: Mining Sequential Patterns and Tree Patterns to Detect Erroneous Sentences

ΕΚΠΑ – Τμήμα Πληροφορικής και ΤηλεπικοινωνιώνΠροηγμένη Τεχνητή Νοημοσύνη (ΠΜΣ508)

3

Προηγούμενες Προηγούμενες προσεγγίσειςπροσεγγίσεις

Χειροποίητοι κανόνες

•Πολύ μεγάλος αριθμός σφαλμάτων προς κωδικοποίηση

•Ειδικοί γλωσσολόγοι χρειάζονται για την παραγωγή κανόνων υψηλής ποιότητας

•Δύσκολη η συντήρηση και η αποτροπή των συγκρούσεων μεταξύ των κανόνων

•Ορισμένοι τύποι σφαλμάτων δεν εκφράζονται εύκολα με κανόνες

Στατιστικά μοντέλα (π.χ. τεχνικές βασισμένες σε N-grams)

•Απαγορευτικό υπολογιστικό κόστος για μεγάλες τιμές του N

•Αναγκαστικός περιορισμός σε συγκεκριμένους τύπους σφαλμάτων

•Μέτρια αποτελέσματα στην πράξη

Page 4: Mining Sequential Patterns and Tree Patterns to Detect Erroneous Sentences

ΕΚΠΑ – Τμήμα Πληροφορικής και ΤηλεπικοινωνιώνΠροηγμένη Τεχνητή Νοημοσύνη (ΠΜΣ508)

4

Η δική μας προσέγγισηΗ δική μας προσέγγιση

Από ένα σώμα προτάσεων που έχουν

χαρακτηριστεί ως σωστές ή εσφαλμένες,

εξάγουμε αυτόματα τα πιο αντιπροσωπευτικά χαρακτηριστικά

που καθιστούν μια πρόταση σωστή ή εσφαλμένη

και τα αξιοποιούμε σε ένα μοντέλο κατηγοριοποίησης για να

κατηγοριοποιήσουμε άγνωστες προτάσεις ως σωστές ή εσφαλμένες.

Labeled Tree Patterns

Labeled Sequential Patterns

Αντιπροσωπευτικά χαρακτηριστικά

Page 5: Mining Sequential Patterns and Tree Patterns to Detect Erroneous Sentences

ΕΚΠΑ – Τμήμα Πληροφορικής και ΤηλεπικοινωνιώνΠροηγμένη Τεχνητή Νοημοσύνη (ΠΜΣ508)

5

Labeled Tree Patterns Labeled Tree Patterns (LTP)(LTP)

This presentation be boring .

DT NN VB

JJ

.NP

ADJP

VP

S

DT NN VB

JJ

.NP

ADJP

VP

S

VB

NP VP

S

E

Labeled Tree Pattern (tp)

Αριστερό τμήμα:Tree pattern (tp.t)

Δεξί τμήμα: Class Label (tp.c)(C correct, E erroneous)

Page 6: Mining Sequential Patterns and Tree Patterns to Detect Erroneous Sentences

ΕΚΠΑ – Τμήμα Πληροφορικής και ΤηλεπικοινωνιώνΠροηγμένη Τεχνητή Νοημοσύνη (ΠΜΣ508)

6

Labeled Sequential Patterns Labeled Sequential Patterns (LSP)(LSP)

This presentation is so boredom .

This NNVBZ soNN

< so, NN > ELabeled Sequential Pattern (sp)

Αριστερό τμήμα:Sequential pattern (sp.s)

Δεξί τμήμα: Class Label (sp.c)

Πώς παράγουμε την ακολουθία των συμβόλων μιας πρότασης;• Περνάμε την πρόταση από έναν part-of-speech (POS) tagger• Διατηρούμε

function words (άρθρα, αντωνυμίες, συνδέσμους, βοηθητικά ρήματα, μόρια κ.α.) time words (π.χ. yesterday, during, afterward κ.α)

Τα sequential patterns• μπορεί να έχουν οποιοδήποτε μήκος• επιτρέπεται να απαρτίζονται από όρους που δεν είναι γειτονικοί στην πρόταση• αν περιέχουν ζεύγη διαδοχικών όρων της μορφής function word + POS tag, αυτά

πρέπει να είναι γειτονικά στην πρόταση

NNso

Page 7: Mining Sequential Patterns and Tree Patterns to Detect Erroneous Sentences

ΕΚΠΑ – Τμήμα Πληροφορικής και ΤηλεπικοινωνιώνΠροηγμένη Τεχνητή Νοημοσύνη (ΠΜΣ508)

7

ΣημαντικάΣημαντικά patterns patterns

Υποστήριξη (support):

Εμπιστοσύνη (confidence):

Πιο σημαντικό pattern• είναι αυτό που έχει το μεγαλύτερο confidence• αν δύο patterns έχουν το ίδιο confidence, πιο σημαντικό είναι αυτό με το

μεγαλύτερο support.

Θέτουμε ένα όριο για το ελάχιστο support (minsup) που πρέπει να έχει ένα pattern για να θεωρηθεί σημαντικό.

Page 8: Mining Sequential Patterns and Tree Patterns to Detect Erroneous Sentences

ΕΚΠΑ – Τμήμα Πληροφορικής και ΤηλεπικοινωνιώνΠροηγμένη Τεχνητή Νοημοσύνη (ΠΜΣ508)

8

Εξόρυξη των Εξόρυξη των Top-k Top-k PatternsPatterns

Στόχος: Ο εντοπισμός των top-k LTP (TkLTP) και των top-k LSP (TkLSP) για κάθε πρόταση ξεχωριστά.

Αφελής αλγόριθμος (αποτελεσματικός, αλλά όχι αποδοτικός):

Για κάθε πρόταση του σώματος προτάσεωνκαι για κάθε pattern p της πρότασης που έχει sup(p) > minsup

επίστρεψε τα k πιο σημαντικά patterns από κάθε είδος.

Μπορούμε να μειώσουμε το χώρο αναζήτησης κάνοντας χρήση ευριστικών μεθόδων

•Καθώς αναζητούμε patterns, ενημερώνουμε δυναμικά το ελάχιστο confidence που πρέπει να έχει ένα pattern για να ανήκει στα πιο σημαντικά.•Αναζητούμε πρώτα patterns με μέγεθος 1, έπειτα patterns με μέγεθος 2,...

Αν ένα pattern έχει μικρότερο από το ελάχιστο confidence, πριονίζουμε το χώρο αναζήτησης κάτω από αυτό.

Page 9: Mining Sequential Patterns and Tree Patterns to Detect Erroneous Sentences

ΕΚΠΑ – Τμήμα Πληροφορικής και ΤηλεπικοινωνιώνΠροηγμένη Τεχνητή Νοημοσύνη (ΠΜΣ508)

9

ΚατηγοριοποίησηΚατηγοριοποίηση

Γενικά μοντέλα κατηγοριοποίησης• Naïve Bayes (NB)• Support Vector Machines (SVM)

Εξειδικευμένο μοντέλο κατηγοριοποίησης:Pattern Based Classification (PBC)

• Ιεραρχική κατηγοριοποίηση k επιπέδων Επίπεδο 1: main classifier Επίπεδα 2..k: stand-by classifiers

• Τα top-k patterns μοιράζονται στα k επίπεδα του κατηγοριοποιητή, με τέτοιο τρόπο ώστε τα πιο σημαντικά να βρίσκονται σε ψηλότερα επίπεδα

• Η κλάση μιας άγνωστης πρότασης καθορίζεται από το πρώτο επίπεδο που διαθέτει τουλάχιστον ένα κανόνα που ταιριάζει σε αυτή

Η κλάση καθορίζεται με βεβαρημένη ψήφο μεταξύ των κανόνων που ταιριάζουν

Αν κανένα επίπεδο δεν καταφέρει να κατηγοριοποιήσει την πρόταση, αυτή ανατίθεται σε μία default κλάση.

Page 10: Mining Sequential Patterns and Tree Patterns to Detect Erroneous Sentences

ΕΚΠΑ – Τμήμα Πληροφορικής και ΤηλεπικοινωνιώνΠροηγμένη Τεχνητή Νοημοσύνη (ΠΜΣ508)

10

Παράδειγμα:Παράδειγμα:Top-3 Pattern Based Top-3 Pattern Based ClassifierClassifier

S1 S2 S3

tp1 1 2

tp2 2 3 1

tp3 2

tp4 6

tp5 6 6

sp1 1

sp2 3

sp3 4

sp4 4 5 3

sp5 5 4

sp6 5

Προτάσεις

Tre

ePatt

ern

s CL1

Sequen

tial

Patt

ern

s

CL2

CL3

default

main classifier

stand-by classifiers

S1 S2 S3

tp1 1 2

tp2 2 3 1

tp3 2

tp4 6

tp5 6 6

sp1 1

sp2 3

sp3 4

sp4 4 5 3

sp5 5 4

sp6 5

S1 S2 S3

tp1 1 2

tp2 2 3 1

tp3 2

tp4 6

tp5 6 6

sp1 1

sp2 3

sp3 4

sp4 4 5 3

sp5 5 4

sp6 5

S1 S2 S3

tp1 1 2

tp2 2 3 1

tp3 2

tp4 6

tp5 6 6

sp1 1

sp2 3

sp3 4

sp4 4 5 3

sp5 5 4

sp6 5

S1 S2 S3

tp1 1 2

tp2 2 3 1

tp3 2

tp4 6

tp5 6 6

sp1 1

sp2 3

sp3 4

sp4 4 5 3

sp5 5 4

sp6 5

S1 S2 S3

tp1 1 2

tp2 2 3 1

tp3 2

tp4 6

tp5 6 6

sp1 1

sp2 3

sp3 4

sp4 4 5 3

sp5 5 4

sp6 5

S1 S2 S3

tp1 1 2

tp2 2 3 1

tp3 2

tp4 6

tp5 6 6

sp1 1

sp2 3

sp3 4

sp4 4 5 3

sp5 5 4

sp6 5

Page 11: Mining Sequential Patterns and Tree Patterns to Detect Erroneous Sentences

ΕΚΠΑ – Τμήμα Πληροφορικής και ΤηλεπικοινωνιώνΠροηγμένη Τεχνητή Νοημοσύνη (ΠΜΣ508)

11

Πειραματικά αποτελέσματαΠειραματικά αποτελέσματα

PBC οριακά καλύτερη από SVM, ως προς την ορθότητα των αποτελεσμάτων.

Η μέθοδος PBC μπορεί να προσφέρει επεξήγηση των αποφάσεών της, κάτι που δεν ισχύει για την SVN.

Page 12: Mining Sequential Patterns and Tree Patterns to Detect Erroneous Sentences

ΕΚΠΑ – Τμήμα Πληροφορικής και ΤηλεπικοινωνιώνΠροηγμένη Τεχνητή Νοημοσύνη (ΠΜΣ508)

12

ΤέλοςΤέλος

ΕρωτήσειςΕρωτήσεις