Post on 21-Jun-2015
description
Authored by
Guihua Sun │ Gao Cong │ Xiaohua Liu │ Chin-Yew Lin │ Ming ZhouMicrosoft Research Asia
Παρουσίαση
Στέλιος ΚαραμπασάκηςΕθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών
Τμήμα Πληροφορικής και Τηλεπικοινωνιών
Mining Sequential PatternsMining Sequential Patternsand Tree Patternsand Tree Patterns
to Detect Erroneous Sentencesto Detect Erroneous Sentences
ΕΚΠΑ – Τμήμα Πληροφορικής και ΤηλεπικοινωνιώνΠροηγμένη Τεχνητή Νοημοσύνη (ΠΜΣ508)
2
Το πρόβλημαΤο πρόβλημα
Αναγνώριση λανθασμένων προτάσεων χρηστών
που χρησιμοποιούν τα Αγγλικά ως ξένη γλώσσα
ΕΚΠΑ – Τμήμα Πληροφορικής και ΤηλεπικοινωνιώνΠροηγμένη Τεχνητή Νοημοσύνη (ΠΜΣ508)
3
Προηγούμενες Προηγούμενες προσεγγίσειςπροσεγγίσεις
Χειροποίητοι κανόνες
•Πολύ μεγάλος αριθμός σφαλμάτων προς κωδικοποίηση
•Ειδικοί γλωσσολόγοι χρειάζονται για την παραγωγή κανόνων υψηλής ποιότητας
•Δύσκολη η συντήρηση και η αποτροπή των συγκρούσεων μεταξύ των κανόνων
•Ορισμένοι τύποι σφαλμάτων δεν εκφράζονται εύκολα με κανόνες
Στατιστικά μοντέλα (π.χ. τεχνικές βασισμένες σε N-grams)
•Απαγορευτικό υπολογιστικό κόστος για μεγάλες τιμές του N
•Αναγκαστικός περιορισμός σε συγκεκριμένους τύπους σφαλμάτων
•Μέτρια αποτελέσματα στην πράξη
ΕΚΠΑ – Τμήμα Πληροφορικής και ΤηλεπικοινωνιώνΠροηγμένη Τεχνητή Νοημοσύνη (ΠΜΣ508)
4
Η δική μας προσέγγισηΗ δική μας προσέγγιση
Από ένα σώμα προτάσεων που έχουν
χαρακτηριστεί ως σωστές ή εσφαλμένες,
εξάγουμε αυτόματα τα πιο αντιπροσωπευτικά χαρακτηριστικά
που καθιστούν μια πρόταση σωστή ή εσφαλμένη
και τα αξιοποιούμε σε ένα μοντέλο κατηγοριοποίησης για να
κατηγοριοποιήσουμε άγνωστες προτάσεις ως σωστές ή εσφαλμένες.
Labeled Tree Patterns
Labeled Sequential Patterns
Αντιπροσωπευτικά χαρακτηριστικά
ΕΚΠΑ – Τμήμα Πληροφορικής και ΤηλεπικοινωνιώνΠροηγμένη Τεχνητή Νοημοσύνη (ΠΜΣ508)
5
Labeled Tree Patterns Labeled Tree Patterns (LTP)(LTP)
This presentation be boring .
DT NN VB
JJ
.NP
ADJP
VP
S
DT NN VB
JJ
.NP
ADJP
VP
S
VB
NP VP
S
E
Labeled Tree Pattern (tp)
Αριστερό τμήμα:Tree pattern (tp.t)
Δεξί τμήμα: Class Label (tp.c)(C correct, E erroneous)
ΕΚΠΑ – Τμήμα Πληροφορικής και ΤηλεπικοινωνιώνΠροηγμένη Τεχνητή Νοημοσύνη (ΠΜΣ508)
6
Labeled Sequential Patterns Labeled Sequential Patterns (LSP)(LSP)
This presentation is so boredom .
This NNVBZ soNN
< so, NN > ELabeled Sequential Pattern (sp)
Αριστερό τμήμα:Sequential pattern (sp.s)
Δεξί τμήμα: Class Label (sp.c)
Πώς παράγουμε την ακολουθία των συμβόλων μιας πρότασης;• Περνάμε την πρόταση από έναν part-of-speech (POS) tagger• Διατηρούμε
function words (άρθρα, αντωνυμίες, συνδέσμους, βοηθητικά ρήματα, μόρια κ.α.) time words (π.χ. yesterday, during, afterward κ.α)
Τα sequential patterns• μπορεί να έχουν οποιοδήποτε μήκος• επιτρέπεται να απαρτίζονται από όρους που δεν είναι γειτονικοί στην πρόταση• αν περιέχουν ζεύγη διαδοχικών όρων της μορφής function word + POS tag, αυτά
πρέπει να είναι γειτονικά στην πρόταση
NNso
ΕΚΠΑ – Τμήμα Πληροφορικής και ΤηλεπικοινωνιώνΠροηγμένη Τεχνητή Νοημοσύνη (ΠΜΣ508)
7
ΣημαντικάΣημαντικά patterns patterns
Υποστήριξη (support):
Εμπιστοσύνη (confidence):
Πιο σημαντικό pattern• είναι αυτό που έχει το μεγαλύτερο confidence• αν δύο patterns έχουν το ίδιο confidence, πιο σημαντικό είναι αυτό με το
μεγαλύτερο support.
Θέτουμε ένα όριο για το ελάχιστο support (minsup) που πρέπει να έχει ένα pattern για να θεωρηθεί σημαντικό.
ΕΚΠΑ – Τμήμα Πληροφορικής και ΤηλεπικοινωνιώνΠροηγμένη Τεχνητή Νοημοσύνη (ΠΜΣ508)
8
Εξόρυξη των Εξόρυξη των Top-k Top-k PatternsPatterns
Στόχος: Ο εντοπισμός των top-k LTP (TkLTP) και των top-k LSP (TkLSP) για κάθε πρόταση ξεχωριστά.
Αφελής αλγόριθμος (αποτελεσματικός, αλλά όχι αποδοτικός):
Για κάθε πρόταση του σώματος προτάσεωνκαι για κάθε pattern p της πρότασης που έχει sup(p) > minsup
επίστρεψε τα k πιο σημαντικά patterns από κάθε είδος.
Μπορούμε να μειώσουμε το χώρο αναζήτησης κάνοντας χρήση ευριστικών μεθόδων
•Καθώς αναζητούμε patterns, ενημερώνουμε δυναμικά το ελάχιστο confidence που πρέπει να έχει ένα pattern για να ανήκει στα πιο σημαντικά.•Αναζητούμε πρώτα patterns με μέγεθος 1, έπειτα patterns με μέγεθος 2,...
Αν ένα pattern έχει μικρότερο από το ελάχιστο confidence, πριονίζουμε το χώρο αναζήτησης κάτω από αυτό.
ΕΚΠΑ – Τμήμα Πληροφορικής και ΤηλεπικοινωνιώνΠροηγμένη Τεχνητή Νοημοσύνη (ΠΜΣ508)
9
ΚατηγοριοποίησηΚατηγοριοποίηση
Γενικά μοντέλα κατηγοριοποίησης• Naïve Bayes (NB)• Support Vector Machines (SVM)
Εξειδικευμένο μοντέλο κατηγοριοποίησης:Pattern Based Classification (PBC)
• Ιεραρχική κατηγοριοποίηση k επιπέδων Επίπεδο 1: main classifier Επίπεδα 2..k: stand-by classifiers
• Τα top-k patterns μοιράζονται στα k επίπεδα του κατηγοριοποιητή, με τέτοιο τρόπο ώστε τα πιο σημαντικά να βρίσκονται σε ψηλότερα επίπεδα
• Η κλάση μιας άγνωστης πρότασης καθορίζεται από το πρώτο επίπεδο που διαθέτει τουλάχιστον ένα κανόνα που ταιριάζει σε αυτή
Η κλάση καθορίζεται με βεβαρημένη ψήφο μεταξύ των κανόνων που ταιριάζουν
Αν κανένα επίπεδο δεν καταφέρει να κατηγοριοποιήσει την πρόταση, αυτή ανατίθεται σε μία default κλάση.
ΕΚΠΑ – Τμήμα Πληροφορικής και ΤηλεπικοινωνιώνΠροηγμένη Τεχνητή Νοημοσύνη (ΠΜΣ508)
10
Παράδειγμα:Παράδειγμα:Top-3 Pattern Based Top-3 Pattern Based ClassifierClassifier
S1 S2 S3
tp1 1 2
tp2 2 3 1
tp3 2
tp4 6
tp5 6 6
sp1 1
sp2 3
sp3 4
sp4 4 5 3
sp5 5 4
sp6 5
Προτάσεις
Tre
ePatt
ern
s CL1
Sequen
tial
Patt
ern
s
CL2
CL3
default
main classifier
stand-by classifiers
S1 S2 S3
tp1 1 2
tp2 2 3 1
tp3 2
tp4 6
tp5 6 6
sp1 1
sp2 3
sp3 4
sp4 4 5 3
sp5 5 4
sp6 5
S1 S2 S3
tp1 1 2
tp2 2 3 1
tp3 2
tp4 6
tp5 6 6
sp1 1
sp2 3
sp3 4
sp4 4 5 3
sp5 5 4
sp6 5
S1 S2 S3
tp1 1 2
tp2 2 3 1
tp3 2
tp4 6
tp5 6 6
sp1 1
sp2 3
sp3 4
sp4 4 5 3
sp5 5 4
sp6 5
S1 S2 S3
tp1 1 2
tp2 2 3 1
tp3 2
tp4 6
tp5 6 6
sp1 1
sp2 3
sp3 4
sp4 4 5 3
sp5 5 4
sp6 5
S1 S2 S3
tp1 1 2
tp2 2 3 1
tp3 2
tp4 6
tp5 6 6
sp1 1
sp2 3
sp3 4
sp4 4 5 3
sp5 5 4
sp6 5
S1 S2 S3
tp1 1 2
tp2 2 3 1
tp3 2
tp4 6
tp5 6 6
sp1 1
sp2 3
sp3 4
sp4 4 5 3
sp5 5 4
sp6 5
ΕΚΠΑ – Τμήμα Πληροφορικής και ΤηλεπικοινωνιώνΠροηγμένη Τεχνητή Νοημοσύνη (ΠΜΣ508)
11
Πειραματικά αποτελέσματαΠειραματικά αποτελέσματα
PBC οριακά καλύτερη από SVM, ως προς την ορθότητα των αποτελεσμάτων.
Η μέθοδος PBC μπορεί να προσφέρει επεξήγηση των αποφάσεών της, κάτι που δεν ισχύει για την SVN.
ΕΚΠΑ – Τμήμα Πληροφορικής και ΤηλεπικοινωνιώνΠροηγμένη Τεχνητή Νοημοσύνη (ΠΜΣ508)
12
ΤέλοςΤέλος
ΕρωτήσειςΕρωτήσεις