Bootstrapping Ontology Evolution A generic approach ...

54
«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα Ευάγγελος Καρκαλέτσης, Γεώργιος Πετάσης Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού, Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών, Ε.Κ.Ε.Φ.Ε. “Δημόκριτος” Τηλ.: 210-6503197, Fax: 210-6532175, {vangelis, petasis}@iit.demokritos.gr Ακαδημαϊκό Έτος: 2013 2014 Διεπιστημονικό-Διαπανεπιστημιακό ΠΜΣ «Τεχνογλωσσία», VIII κύκλος, 2013 2014 Σεμινάριο 7: Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας

Transcript of Bootstrapping Ontology Evolution A generic approach ...

Page 1: Bootstrapping Ontology Evolution A generic approach ...

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Ευάγγελος Καρκαλέτσης, Γεώργιος Πετάσης Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού,

Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών, Ε.Κ.Ε.Φ.Ε. “Δημόκριτος” Τηλ.: 210-6503197, Fax: 210-6532175, {vangelis, petasis}@iit.demokritos.gr

Ακαδημαϊκό Έτος: 2013 – 2014

Διεπιστημονικό-Διαπανεπιστημιακό ΠΜΣ «Τεχνογλωσσία», VIII κύκλος, 2013 – 2014

Σεμινάριο 7: Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας

Page 2: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41 «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 1

Οι διαφάνειες αυτού του μαθήματος βασίζονται σε διαφάνειες του Δρ. Γεώργιου Παλιούρα, για τον κύκλο σεμιναρίων «Τεχνογλωσσία» V

http://users.iit.demokritos.gr/~paliourg/index.shtml

Page 3: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Εξαγωγή Πληροφορίας

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 2

Αγοραστής Αγοραζόμενος Ποσοστό Έκδοση Albio Βιοκαρπέτ Πέρσικα ΑΕ 100% 04/10/01

Groupe Danone StonyField Farm 40% 04/10/01 …

Γεγονός: Εξαγορές Επιχειρήσεων

...

Page 4: Bootstrapping Ontology Evolution A generic approach ...

ΑΠΟΚΤΗΣΗ ΓΝΩΣΗΣ ΑΠΟ ΚΕΙΜΕΝΑ Για εξαγωγή πληροφορίας

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας

Page 5: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Γιατί μηχανική μάθηση; • Η εξαγωγή πληροφορίας κάνει ευρεία χρήση

γλωσσικών πόρων (λεξικών, κανόνων και γραμματικών)

• Στην καλύτερη περίπτωση αυτοί οι πόροι καλύπτουν μια θεματική περιοχή

• Συνήθως καλύπτουν ένα συγκεκριμένο σύνολο δεδομένων

• Πώς μπορούμε να φτιάξουμε «οικονομικά» συστήματα ΕΠ όσο το δυνατόν γενικότερης χρήσης;

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 4

Page 6: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Γιατί μηχανική μάθηση;

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 5

Page 7: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Γιατί μηχανική μάθηση; • Η γλωσσικοί πόροι για ΕΠ τέτοιας κλίμακας (αλλά

και μικρότερης) δεν μπορούν να φτιαχτούν με το χέρι

• Η απόκτηση γνώσης από δεδομένα με μηχανική μάθηση και στατιστική είναι μία πιθανή λύση

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 6

Page 8: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Τι (δεν) είναι απόκτηση γνώσης

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 7

Δεδομένα (κείμενα)

Πληροφορία (π.χ. στοιχεία

εξαγορών επιχειρήσεων)

Γνώση (π.χ. γραμματικές

και λεξικά)

Ανάκτηση & Εξαγωγή

Πληροφορίας

Απόκτηση Γνώσης

Page 9: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Διαδικασία απόκτησης γνώσης

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 8

Κατανόηση προβλήματος

Συλλογή και διαμόρφωση δεδομένων

Μάθηση

Παρουσίαση και αξιολόγηση

αποτελεσμάτων

Εφαρμογή

τεχνικός κύκλος

κύκλος εφαρμογής

Page 10: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Ανάπτυξη Εφαρμογών ΕΠ

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 9

Κείμενα

Μορφολογική Ανάλυση

Συντακτική Ανάλυση

Σημασιολογική Ανάλυση

Ανάλυση Πραγματείας

Πληροφορία

Μηχανική μάθηση Αναγνώριση μερών του

λόγου

Αναγνώριση ονομάτων οντοτήτων

Αποσαφήνιση εννοιών λέξεων

Επίλυση αναφορών

Δημιουργία προτύπων

Page 11: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Παράδειγμα: Αναγνώριση ΜτΛ

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 10

1/6/98 έως 5/6/98 Ο Δημήτρης Βουρνάς, με πολυετή προϋπηρεσία στο χώρο των Μέσων και ειδικότερα στην αγορά Μέσων, ξεκίνησε συνεργασία με την Adel/S&S έχοντας την ευθύνη για το Buying Ραδιοφώνου και Εντύπων.

1/6/98/CD έως/IN 5/6/98/CD Ο/DDT Δημήτρης/NNPM Βουρνάς/NNPM ,/, με/IN πολυετή/JJF προϋπηρεσία/NNF στο/DDT χώρο/NNM των/DDT Μέσων/NNSN και/CC ειδικότερα/RB στην/IDT αγορά/NNF Μέσων/NNSN ,/, ξεκίνησε/VBD συνεργασία/NNF με/IN την/DDT Adel/S&S/FW έχοντας/VBG την/DDT ευθύνη/NNF για/IN το/DDT Buying/FW Ραδιοφώνου/NNPM και/CC Εντύπων/NNSM ./.

Κατανόηση προβλήματος

Page 12: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Συλλογή και διαμόρφωση δεδομένων • Πηγές δεδομένων: εταιρικά, δημόσια, Διαδίκτυο, κτλ. • Μορφή δεδομένων: emails, ιστοσελίδες, encoding

(ASCII, UNICODE, Binary), εικόνα (PDF, PS), χαρτί, κτλ. • Προεπεξεργασία δεδομένων: διαχωρισμός

προτάσεων, κατηγοριοποίηση λεκτικών μονάδων, διαχωρισμός προθεμάτων & καταλήξεων, κτλ.

• Επισημείωση δεδομένων: χειρωνακτική επισημείωση μερών του λόγου σε κάθε λεκτική μονάδα

• Εξαγωγή παραδειγμάτων: μετατροπή των δεδομένων σε μορφή πίνακα (διανύσματα χαρακτηριστικών)

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 11

Page 13: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Επισημείωση δεδομένων

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 12

1/6/98/CD έως/IN 5/6/98/CD Ο/DDT Δημήτρης/NNPM Βουρνάς/NNPM ,/, με/IN πολυετή/JJF προϋπηρεσία/NNF στο/DDT χώρο/NNM των/DDT Μέσων/NNSN και/CC ειδικότερα/RB στην/IDT αγορά/NNF Μέσων/NNSN ,/, ξεκίνησε/VBD συνεργασία/NNF με/IN την/DDT Adel/S&S/FW έχοντας/VBG την/DDT ευθύνη/NNF για/IN το/DDT Buying/FW Ραδιοφώνου/NNPM και/CC Εντύπων/NNSM ./.

DDT: Οριστικό άρθρο, ΙDT: Αόριστο άρθρο, NNM: Ουσιαστικό, ενικός, αρσενικό, NNF: Ουσιαστικό, ενικός, θηλυκό, …, NNSM: Ουσιαστικό, πληθυντικός, αρσενικό, ..., JJM: Επίθετο, ενικός, αρσενικό, …, CD: Απόλυτα αριθμητικά, …, VB: Ρήμα παροντικού χρόνου, …, VBG: Μετοχή ενεργητικής φωνής, …, ΙΝ: Πρόθεση, …, FW: Ξένη λέξη

Page 14: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Εξαγωγή παραδειγμάτων

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 13

• Επιλογή χαρακτηριστικών: – Μορφολογία: κατάληξη, πρόθεμα – Συμφραζόμενα: 3 λεκτικές μονάδες πριν/μετά, τύπος λεκτικών

μονάδων πριν/μετά – Κατηγορία: Μέρος του λόγου & γένος, πρόσωπο, πτώση

• Παράδειγμα: ... και ειδικότερα στην αγορά Μέσων , ξεκίνησε ...

(ά ? και GLW ειδικότερα GLW στην GLW Μέσων GFW , PUNC ξεκίνησε GLW NNF)

GLW: Ελληνικοί πεζοί χαρακτήρες, GFW: Ελληνικοί χαρακτήρες, ο πρώτος κεφαλαίος και οι υπόλοιποι πεζοί, …, PUNC: Σημείο στίξης, ...

Page 15: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Παράδειγμα: Αναγνώριση Οντοτήτων

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 14

H Γιούλη Πιερράκου ανέλαβε καθήκοντα Media Manager στην Tempo Optimum προερχόμενη από την The Media Corp.

Ο Βαγγέλης Κατσαΐτης, Brand Manager στην Β.Σ. Καρούλιας για το ουίσκι Cutty Sark, αποχώρησε από την εταιρεία.

Κατανόηση προβλήματος

H <PER Γιούλη Πιερράκου> ανέλαβε καθήκοντα Media Manager στην <ORG Tempo Optimum> προερχόμενη από την <ORG The Media Corp>.

Ο <PER Βαγγέλης Κατσαΐτης>, Brand Manager στην <ORG Β.Σ. Καρούλιας> για το ουίσκι Cutty Sark, αποχώρησε από την εταιρεία.

Page 16: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Εξαγωγή παραδειγμάτων

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 15

• Επιλογή χαρακτηριστικών: – Μέρος του λόγου, ετικέτα από κατάλογο ονομάτων – Σημαντικές λεκτικές μονάδες: 2 πρώτες και 2 τελευταίες της

οντότητας, προηγούμενη και επόμενη – Κατηγορία: Οργανισμός, Πρόσωπο, Μη-ονοματική οντότητα

• Παράδειγμα: ... στην <ORG Tempo Optimum> προερχόμενη ...

(DDT NOGAZ FW ORG FW NOGAZ FW ORG FW NOGAZ VBP NOGAZ ORG)

DDT: Οριστικό άρθρο, …, VBP: Μετοχή παθητικής φωνής, …, FW: Ξένη λέξη ORG: στον κατάλογο οργανισμών, NOGAZ: σε κανένα κατάλογο

Page 17: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Εξαγωγή παραδειγμάτων (εναλλ. αναπαράσταση)

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 16

0 0 1 0 0 0 1 0 0

Διάνυσμα μήκους Npos Διάνυσμα μήκους Ngz

Μέρη του λόγου CC JJR POS VB

CD MD PPS VBD

COMMA NN PRP VBG

DATE NNP RB VBN

DT NNPS RBR VBP

EX NNS RP VBZ

IN PDT SYM WDT

JJ PERIOD TO WP

Κατάλογοι cdg

current_unit

date

govern_key

location

org_base

org_key

org

person

title

Page 18: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Εξαγωγή παραδειγμάτων (εναλλ. αναπαράσταση)

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 17

0 1 0 0

Κατάλογος ΜτΛ

0 0 1 0

Λ.Μ.

0 1 0 0 0 0 1 0

Διάνυσμα μήκους Npos +Ngz 1

3 6 0

0

1 0 0

1

0 1 0

Λ.Μ. m

Φράση

0

1 0 0

Λ.Μ. 2 Λ.Μ. 1

Page 19: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Εξαγωγή παραδειγμάτων (εναλλ. αναπαράσταση)

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 18

Επόμενα Φράση Προηγούμενα

2 1 0 0 1 3 6 0 0 1 2 0

Φράση με συμφραζόμενα

2 1 0 0 1 3 6 0 0 1 2 0

Page 20: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Παράδειγμα: Αποσαφήνιση εννοιών

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 19

Κατανόηση προβλήματος

Τα πτωτικά, που συνοδεύονται από προθέσεις, μπαίνουν κανονικά σε πτώση αιτιατική. Η πρόθεση ‘σε’ παθαίνει ανακοπή μπροστά από το ‘τ’ των άρθρων … Η κυβέρνηση εξέφρασε την πρόθεση να μειώσει τα επιτόκια. Παρακαλώ εκφράστε γραπτά την πρόθεσή σας να συμμετάσχετε.

Τα πτωτικά, που συνοδεύονται από προθέσεις/1, μπαίνουν κανονικά σε πτώση αιτιατική. Η πρόθεση/1 ‘σε’ παθαίνει ανακοπή μπροστά από το ‘τ’ των άρθρων … Η κυβέρνηση εξέφρασε την πρόθεση/2 να μειώσει τα επιτόκια. Παρακαλώ εκφράστε γραπτά την πρόθεσή/2 σας να συμμετάσχετε.

Page 21: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Εξαγωγή παραδειγμάτων

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 20

• Επιλογή χαρακτηριστικών: – Πρώτο ρήμα πριν και μετά την λέξη – Πρώτο ουσιαστικό πριν και μετά τη λέξη – Δύο προηγούμενες και δύο επόμενες λεκτικές μονάδες – Κατηγορία: η έννοια της λέξης, σύμφωνα με κάποιο λεξικό

• Παράδειγμα:

Η κυβέρνηση εξέφρασε την πρόθεση να μειώσει τα επιτόκια.

(εκφράζω μειώνω κυβέρνηση επιτόκιο εξέφρασε την να μειώσει έννοια2)

Page 22: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Εξαγωγή παραδειγμάτων (εναλλ. αναπαράσταση)

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 21

• Επιλογή χαρακτηριστικών: – Κάθε λέξη που εμφανίζεται στο κείμενο αντιστοιχεί σε ένα δυαδικό

χαρακτηριστικό, δηλ. υπάρχει ή δεν υπάρχει η λέξη στα συμφραζόμενα (bag-of-words)

– Κατηγορία: η έννοια της λέξης, σύμφωνα με κάποιο λεξικό

• Παράδειγμα:

Η κυβέρνηση εξέφρασε την πρόθεση να μειώσει τα επιτόκια.

κυβέρν πτωτικ εξέφρ μειώσ ανακοπ παθαίν επιτόκ έννοια 1 0 1 1 0 0 1 2

Page 23: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Εξαγωγή παραδειγμάτων (εναλλ. αναπαράσταση)

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 22

• Επιλογή χαρακτηριστικών: – Κάθε λέξη που εμφανίζεται στο κείμενο σε ένα χαρακτηριστικό – Η τιμή του χαρακτηριστικού είναι συνάρτηση της απόστασης του από την

αμφίσημη λέξη – Κατηγορία: η έννοια της λέξης, σύμφωνα με κάποιο λεξικό

• Παράδειγμα:

Η κυβέρνηση εξέφρασε την πρόθεση να μειώσει τα επιτόκια.

κυβέρν πτωτικ εξέφρ μειώσ ανακοπ παθαίν επιτόκ έννοια 3 ? 2 2 ? ? 4 2

Page 24: Bootstrapping Ontology Evolution A generic approach ...

ΕΙΔΗ ΚΑΙ ΤΕΧΝΙΚΕΣ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ Η μηχανική μάθηση ως διαδικασία αναζήτησης Κατηγορίες τεχνικών μηχανικής μάθησης Τρεις τεχνικές μηχανικής μάθησης: κατασκευή δέντρων απόφασης, naive Bayesian ταξινομητής, ταξινομητής βασισμένος στην απομνημόνευση Αξιολόγηση μεθόδων μηχανικής μάθησης

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας

Page 25: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Μηχανική μάθηση ως αναζήτηση • Στόχος: απόκτηση λειτουργικής και κατανοητής

στον άνθρωπο γνώσης από περιορισμένο σύνολο δεδομένων

• Προσέγγιση: αναζήτηση στον χώρο των γενικευμένων μοντέλων για τα δεδομένα

• Πρόβλημα: εκθετικός χώρος αναζήτησης • Λύση: ευριστικές μέθοδοι αναζήτησης

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 24

Page 26: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Μηχανική μάθηση ως αναζήτηση • Αρχική κατάσταση: το κενό μοντέλο (πιο γενικό) ή

τα δεδομένα (πιο ειδικό) • Τελεστές: εξειδίκευσης ή γενίκευσης • Ευριστικά: κάλυψη των δεδομένων και

απλότητα/γενικότητα του μοντέλου • Στόχος: εύρεση ενός καλού μοντέλου σε

πολυωνυμικό χρόνο

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 25

Page 27: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Μηχανική μάθηση ως αναζήτηση

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 26

πιο γενικό μοντέλο

πιο ειδικό μοντέλο

εξειδίκευση

γενίκευση

ένα καλό μοντέλο

Page 28: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Είδη και τεχνικές μάθησης Υπό επίβλεψη

Κατηγοριοποίηση (classification) decision trees & rules, multi-layer perceptrons, logistic regression

Πρόβλεψη (prediction) regression trees, multi-layer perceptrons, time-series analysis

Χωρίς επίβλεψη Ομαδοποίηση (clustering)

conceptual clustering, self-organising maps, statistical clustering

Συσχέτιση (associations) association rules, association networks

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 27

Page 29: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Προσεγγίσεις μοντελοποίησης

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 28

Συμβολικές Δέντρα Αποφάσεων Κανόνες Αποφάσεων

Αριθμητικές/Στατιστικές

Νευρωνικά δίκτυα Στατιστικοί ταξινομητές GAZ1:ORG

GAZ1:PER

NE

NON-NE

(GAZ1:ORG) & (POS1:NNM) -> (NE)

(GAZ1:NOGAZ) & (POS-1:DDT) -> (NE)

...

GAZ1

POS1 POS-1 NE

ΝE NON-NE NON-NE NON-NE

ORG PER

NOGAZ

NNM

NE

DDT NNF NNM NNF

DDT 2

2 1 1 1 1 0

G1P P1M P-1D

NE NN

G1O G1N P-1M P1D P1F P-1F

Page 30: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Δέντρα Αποφάσεων

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 29

POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF PER DDT NOGAZ NE NNM PER NNM NOGAZ NE NNM ORG NNF PER NE DDT NOGAZ DDT NOGAZ NE NNF ORG DDT NOGAZ NON-NE NNF ORG NNF PER NON-NE DDT NOGAZ NNF NOGAZ NON-NE NNM NOGAZ NNM ORG NON-NE

3 3 3 2

Page 31: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Δέντρα Αποφάσεων

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 30

POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF PER DDT NOGAZ NE NNM PER NNM NOGAZ NE NNM ORG NNF PER NE DDT NOGAZ DDT NOGAZ NE NNF ORG DDT NOGAZ NON-NE NNF ORG NNF PER NON-NE DDT NOGAZ NNF NOGAZ NON-NE NNM NOGAZ NNM ORG NON-NE

0 1 1

Page 32: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Δέντρα Αποφάσεων

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 31

POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF PER DDT NOGAZ NE NNM PER NNM NOGAZ NE NNM ORG NNF PER NE DDT NOGAZ DDT NOGAZ NE NNF ORG DDT NOGAZ NON-NE NNF ORG NNF PER NON-NE DDT NOGAZ NNF NOGAZ NON-NE NNM NOGAZ NNM ORG NON-NE

1 0 1

Page 33: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Δέντρα Αποφάσεων

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 32

GAZ1

POS1 POS-1 NE

ΝE NON-NE NON-NE NON-NE

ORG PER

NOGAZ

NNM

NE

DDT NNF NNM NNF DDT

2

2 1 1 1 1 0

POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF NOGAZ DDT NOGAZ ?

Page 34: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Δέντρα Αποφάσεων • Χώρος αναζήτησης: Δέντρα απόφασης • Αρχική κατάσταση: Πιο γενικό μοντέλο (κενό δέντρο) • Τελεστής αναζήτησης: Εξειδίκευση μέσω επιλογής

χαρακτηριστικών (information gain ή gain ratio) • Αποφυγή απομνημόνευσης μέσω κλαδέματος του

δέντρου: – Κατά την μάθηση (minNumObjects) – Μετά την μάθηση (confidence)

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 33

Page 35: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Naive Bayesian ταξινομητής

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 34

POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF PER DDT NOGAZ NE NNM PER NNM NOGAZ NE NNM ORG NNF PER NE DDT NOGAZ DDT NOGAZ NE NNF ORG DDT NOGAZ NON-NE NNF ORG NNF PER NON-NE DDT NOGAZ NNF NOGAZ NON-NE NNM NOGAZ NNM ORG NON-NE

Page 36: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Naive Bayesian ταξινομητής

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 35

POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF PER DDT NOGAZ NE NNM PER NNM NOGAZ NE NNM ORG NNF PER NE DDT NOGAZ DDT NOGAZ NE NNF ORG DDT NOGAZ NON-NE NNF ORG NNF PER NON-NE DDT NOGAZ NNF NOGAZ NON-NE NNM NOGAZ NNM ORG NON-NE

Page 37: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Naive Bayesian ταξινομητής POS1:NNF | NE = 1/4 = 0.25 POS1:NNF | NON-NE = 2/4 = 0.5

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 36

Page 38: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Naive Bayesian ταξινομητής

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 37

POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF PER DDT NOGAZ NE NNM PER NNM NOGAZ NE NNM ORG NNF PER NE DDT NOGAZ DDT NOGAZ NE NNF ORG DDT NOGAZ NON-NE NNF ORG NNF PER NON-NE DDT NOGAZ NNF NOGAZ NON-NE NNM NOGAZ NNM ORG NON-NE

Page 39: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Naive Bayesian ταξινομητής POS1:NNF | NE = 1/4 = 0.25 POS1:NNF | NON-NE = 2/4 = 0.5 POS1:NNM | NE = 2/4 = 0.5 POS1:NNM | NON-NE = 1/4 = 0.25

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 38

Page 40: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Naive Bayesian ταξινομητής

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 39

POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF PER DDT NOGAZ NE NNM PER NNM NOGAZ NE NNM ORG NNF PER NE DDT NOGAZ DDT NOGAZ NE NNF ORG DDT NOGAZ NON-NE NNF ORG NNF PER NON-NE DDT NOGAZ NNF NOGAZ NON-NE NNM NOGAZ NNM ORG NON-NE

Page 41: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Naive Bayesian ταξινομητής POS1:NNF | NE = 1/4 = 0.25 POS1:NNF | NON-NE = 2/4 = 0.5 POS1:NNM | NE = 2/4 = 0.5 POS1:NNM | NON-NE = 1/4 = 0.25 POS1:DDT | NE = 1/4 = 0.25 POS1:DDT | NON-NE = 1/4 = 0.25 …

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 40

Page 42: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Naive Bayesian ταξινομητής

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 41

POS1:NNF 0.25 POS1:NNM 0.5 POS1:DDT 0.25 GAZ1:PER 0.5 GAZ1:ORG 0.25 GAZ1:NOGAZ 0.25 POS-1:NNF 0.25 POS-1:NNM 0.25 POS-1:DDT 0.5 GAZ-1:PER 0.25 GAZ-1:ORG 0 GAZ-1:NOGAZ 0.75

POS1:NNF 0.5 POS1:NNM 0.25 POS1:DDT 0.25 GAZ1:PER 0 GAZ1:ORG 0.5 GAZ1:NOGAZ 0.5 POS-1:NNF 0.5 POS-1:NNM 0.25 POS-1:DDT 0.25 GAZ-1:PER 0.25 GAZ-1:ORG 0.25 GAZ-1:NOGAZ 0.5

NE NON-NE

Page 43: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Naive Bayesian ταξινομητής

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 42

POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF NOGAZ DDT NOGAZ ?

0.25 0.25 0.5 0.75 0.023

0.5 0.5 0.25 0.5 0.016

NE: NON-NE:

NE

Page 44: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Naive Bayesian ταξινομητής • Προσέγγιση: υπολογισμός συσχέτισης κάθε τιμής

χαρακτηριστικού με κάθε κατηγορία • Ταξινόμηση:

– Απλοϊκός (naive) συνδυασμός τιμών συσχέτισης των επιμέρους τιμών χαρακτηριστικών

– Επιλογή της κατηγορίας με τη μέγιστη πιθανότητα

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 43

Page 45: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Ταξινόμηση μέσω απομνημόνευσης

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 44

POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF PER DDT NOGAZ NE NNM PER NNM NOGAZ NE NNM ORG NNF PER NE DDT NOGAZ DDT NOGAZ NE NNF ORG DDT NOGAZ NON-NE NNF ORG NNF PER NON-NE DDT NOGAZ NNF NOGAZ NON-NE NNM NOGAZ NNM ORG NON-NE

NNF NOGAZ DDT NOGAZ ?

1 3 4 1 1 3 2 3

NE

Page 46: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Ταξινόμηση μέσω απομνημόνευσης

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 45

? NE

NE

NON-NE

NE

NON-NE NON-NE NON-NE

NE

NE

? NON-NE ?

Page 47: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Ταξινόμηση μέσω απομνημόνευσης • Lazy learning: Μην κάνεις τίποτα μέχρι να χρειαστεί να

πάρεις απόφαση • Προβλήματα:

– Καθυστέρηση κατά τη λήψη αποφάσεων – Μεγάλες απαιτήσεις σε μνήμη

• Βελτιώσεις: – Ζύγιση χαρακτηριστικών με βάση την απόσταση – Ζύγιση γειτόνων με βάση κάποιο μέτρο αξιολόγησης (π.χ.

information gain)

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 46

Page 48: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Αξιολόγηση μεθόδων μάθησης • Μέθοδος 1: Αξιολόγηση στα κείμενα εκπαίδευσης • Πρόβλημα: Επιβραβεύει την απομνημόνευση

• Μέθοδος 2: Χωρισμός του σύνολο δεδομένων, που έχουν επισημειώσει οι ειδικοί σε δεδομένα εκπαίδευσης και δεδομένα αξιολόγησης

• Προβλήματα: – Επάρκεια των δεδομένων χωρίς επιπλέον βάρος στους ειδικούς – Σχετικό μέγεθος των δύο συνόλων – Διαχωρισμός των δύο συνόλων (τυχαιότητα των αποτελεσμάτων)

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 47

Page 49: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Αξιολόγηση μεθόδων μάθησης

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 48

• Μέθοδος 3: n-fold cross validation.

Train

Test

Page 50: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Αξιολόγηση μεθόδων μάθησης

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 49

• Μέθοδος 3: n-fold cross validation.

Train

Test

Page 51: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Αξιολόγηση μεθόδων μάθησης

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 50

• Μέθοδος 3: n-fold cross validation.

Train

Test

Page 52: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Αξιολόγηση μεθόδων μάθησης

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 51

• Μέθοδος 3: n-fold cross validation.

Train

Test

Page 53: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Αξιολόγηση μεθόδων μάθησης

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 52

• Μέθοδος 3: n-fold cross validation.

Page 54: Bootstrapping Ontology Evolution A generic approach ...

< > 23:41

Σωστές απαντήσεις συστήματος Ανάκληση (Recall) = Συνολικές σωστές απαντήσεις Σωστές απαντήσεις συστήματος Ακρίβεια (Precision) = Συνολικές απαντήσεις συστήματος

Αξιολόγηση μεθόδων μάθησης

«Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 53

• Μέτρα αξιολόγησης: