Γλωσσικη τεχνολογια

34
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 8 ο : Πεδία ενδιαφέροντος κ’ εφαρμογών (2)

description

Μάθημα 8 ο : Πεδία ενδιαφέροντος κ’ εφαρμογών ( 2 ). Γλωσσικη τεχνολογια. Οι διαφάνειες αυτού του μαθήματος βασίζονται στα κεφάλαια 6, 7 του βιβλίου: «Η τεχνολογία της πληροφορίας στην επεξεργασία φυσικής γλώσσας», Κ. Φράγγος και Αν. Κουτσούκος, εκδόσεις ΜΥΡΜΙΔΟΝΕΣ, 2010. - PowerPoint PPT Presentation

Transcript of Γλωσσικη τεχνολογια

Page 1: Γλωσσικη τεχνολογια

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ

Μάθημα 8ο: Πεδία ενδιαφέροντος κ’ εφαρμογών (2)

Page 2: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

2

Οι διαφάνειες αυτού του μαθήματος βασίζονται στα κεφάλαια 6, 7 του βιβλίου: «Η τεχνολογία της πληροφορίας στην επεξεργασία φυσικής γλώσσας», Κ. Φράγγος και Αν. Κουτσούκος, εκδόσεις ΜΥΡΜΙΔΟΝΕΣ, 2010.

Page 3: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

3

ΠΕΔΙΑ ΕΦΑΡΜΟΓΩΝ Ανάκτηση πληροφορίας (1) Εξαγωγή πληροφορίας (1) Αποσαφήνιση εννοιών λέξεων (Word Sense

Disambiguation- WSD) Αυτόματη παραγωγή περιλήψεων

(Summarization)

Page 4: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

4

Αποσαφήνιση εννοιών λέξεωνΠΕΔΙΑ ΕΦΑΡΜΟΓΩΝ

Page 5: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

5

ΑΣΑΦΕΙΑ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ Οι περισσότερες λέξεις στις φυσικές

γλώσσες είναι πολύσημες: Ποντίκι: τρωκτικό, εξάρτημα Η/Υ, μυς Βιβλιοθήκη: έπιπλο, κτήριο

Η άρση της ασάφειας γίνεται στο πλαίσιο του περιβάλλοντος (context): Απόδοση της σωστής σημασίας σε μια

λέξη (target word) μέσα στο πλαίσιο που αποτελείται από τις περιβάλλουσες λέξεις

Page 6: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

6

ΠΑΡΑΔΟΣΙΑΚΗ ΠΡΟΣΕΓΓΙΣΗ(1) Εισαγωγή συντακτικών ή/και

σημασιολογικών περιορισμών στο πώς συνδυάζονται οι λέξεις Τρώω: το υποκείμενο πρέπει να είναι ζωντανός

οργανισμός και το αντικείμενο κάτι φαγώσιμο Κίτρινος: μπορεί να προσδιορίζει φυσικά

αντικείμενα αλλά όχι αφηρημένες έννοιες Οι κανόνες αυτοί καλούνται περιορισμοί

επιλογής (selectional restrictions)

Page 7: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

7

ΠΑΡΑΔΟΣΙΑΚΗ ΠΡΟΣΕΓΓΙΣΗ(2) Η απόδοση της παραδοσιακής προσέγγισης

έχει δοκιμαστεί σε μικρά σώματα κειμένων Ταυτόχρονα, είναι περιοριστική, αφού μας

επιτρέπει μόνο να ελέγξουμε αν κάτι είναι επιτρεπτό

Και δεν μας βοηθά ιδιαίτερα να βρούμε το επιτρεπτό Η διαθεσιμότητα μεγάλων ηλεκτρονικών

λεξικών, όπως το Wordnet έδωσε μεγάλη ώθηση στην ανάπτυξη συστημάτων αποσαφήνισης εννοιών λέξεων

Page 8: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

8

WORDNET Το λεξικό περιλαμβάνει το πλήρες σύνολο

εννοιών για μια λέξη Κάθε έννοια αποδίδεται σαν ένα σύνολο από

συνώνυμες λέξεις (synsets) Οι λέξεις είναι ιεραρχημένες σε υπερώνυμα –

υπώνυμα Διακριτές ιεραρχίες για ουσιαστικά, επίθετα,

ρήματα, επιρρήματα Υπάρχουν και άλλες σχέσεις

Π.χ. μερώνυμα

Page 9: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

9

ΑΕΛ ΜΕΣΩ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ Η ΑΕΛ μπορεί να θεωρηθεί πρόβλημα

ταξινόμησης Κατάταξη των εμφανίσεων κάθε λέξης σε κατηγορίες

Έννοιες της λέξης, από τις διαθέσιμες έννοιες ενός λεξικού Ουσιαστικά, χρειαζόμαστε έναν ταξινομητή για κάθε

λέξη Το οποίο είναι εφικτό μόνο για μικρά σύνολα λέξεων

Χαρακτηριστικά που είναι χρήσιμα: Ποιες λέξεις ή/και ποια μέρη του λόγου εμφανίζονται στα

συμφραζόμενα (βάσει παραθύρου), ή/και σε συγκεκριμένες θέσεις στο περιβάλλον

Page 10: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

10

Η ΜΕΘΟΔΟΣ ΑΕΛ ΤΟΥ LESK Βασίζεται στην σύγκριση «υπογραφών» για

κάθε έννοια, με την πρόταση που εμφανίζεται μια λέξη Σαν «υπογραφή» μιας έννοιας, θεωρείται το “gloss”

της έννοιας (simplified Lesk) Επίσης, μπορεί να θεωρηθεί το “gloss” μαζί με άλλες

προτάσεις που εμφανίζεται η λέξη με την συγκεκριμένη έννοια (corpus Lesk)

Η σύγκριση γίνεται με μέτρα ομοιότητας Όπως το edit distance (μεταξύ πρότασης και υπογραφής),

ή το cosine similarity (των διανυσμάτων πρότασης και υπογραφής)

Page 11: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

11

ΔΙΑΝΥΣΜΑΤΙΚΗ ΠΑΡΑΣΤΑΣΗ ΚΕΙΜΕΝΩΝ Παριστάνουμε τα δύο κείμενα (π.χ. υπογραφή και

πρόταση στη μέθοδο Lesk) ως δύο διανύσματα Boolean διανύσματα

Δείχνουν ποιες λέξεις ενός λεξιλογίου εμφανίζονται ή όχι σε κάθε κείμενο

Διανύσματα συχνοτήτων (term frequency, TF) Δείχνουν πόσες φορές εμφανίζεται κάθε λέξη του λεξιλογίου

Διανύσματα TF-IDF Για κάθε λέξη W του λεξιλογίου, το διάνυσμα περιέχει την τιμή 𝑖

(βάρος) TF ⋅ 𝑖 IDF𝑖 Θέλουμε οι συχνές στο κείμενο και σπάνιες στη γλώσσα

λέξεις να έχουν μεγάλα βάρη Το IDF𝑖 δείχνει πόσο σπάνια είναι η W𝑖 στη γλώσσα

Page 12: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

12

ΜΕΤΡΑ ΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (1) Μέτρα σημασιολογικής ομοιότητας λέξεων

ή εννοιών λέξεων τα οποία βασίζονται σε θησαυρούς λέξεων Π.χ. «αγοράζω» – «αποκτώ», «πτήση» –

«αεροπλάνο» Π.χ. εξετάζουν το μήκος του συντομότερου

μονοπατιού που ενώνει δύο έννοιες στο Wordnet Πολλές παραλλαγές

Επεκτείνονται και σε μέτρα που εξετάζουν την ομοιότητα λέξεων (αντί συγκεκριμένων εννοιών λέξεων), προτάσεων, κειμένων

Page 13: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

13

ΜΕΤΡΑ ΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (2) Μέτρα σημασιολογικής ομοιότητας λέξεων ή

εννοιών λέξεων που χρησιμοποιούν συχνότητες συνεμφανίσεων Λέξεις με παρόμοια σημασία τείνουν να εμφανίζονται

με παρόμοια συμφραζόμενα (distributional hypothesis) Μπορούμε να αναπαραστήσουμε κάθε λέξη με ένα

διάνυσμα Που δείχνει πόσο συχνά συνεμφανίζεται η συγκεκριμένη λέξη

με κάθε άλλη λέξη ενός λεξιλογίου Πρέπει να αποφασίσουμε τι ακριβώς μετρήσεις θα

περιλαμβάνει το διάνυσμα κάθε λέξης w Μέτρηση της ομοιότητας των διανυσμάτων

Page 14: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

14

Χ-ΤΕΤΡAΓΩΝΟ EΛΕΓΧΟΣ Συγκρίνει τους παρατηρηθέντες και αναμενόμενους

αριθμούς, όταν οι δυνατές εκβάσεις ενός πειράματος υποδιαιρούνται σε αμοιβαία αποκλειόμενες κατηγορίες Π.χ. “art”

1. Art, fine art 2. Art, artistic creation, artistic production 3. Art, artistry, prowess 4. Artwork, art, graphics, nontextual matter

Χρησιμοποιώντας τις σχέσεις του Wordnet, εμπλουτίζω κάθε synset και με άλλες λέξεις

Μετρώ συχνότητες εμφάνισης στο περιβάλλον του “art” Υπολογίζω τον χ-τετράγωνο έλεγχο, και επιλέγω την έννοια

με την μικρότερη τιμή

Page 15: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

15

Αυτόματη εξαγωγή περίληψηςΠΕΔΙΑ ΕΦΑΡΜΟΓΩΝ

Page 16: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

16

ΕΞΑΓΩΓΗ ΠΕΡΙΛΗΨΕΩΝ

Τι είναι η αυτόματη εξαγωγή περιλήψεων;

Η διαδικασία της διήθησης της πιο σημαντικής πληροφορίας από ένα κείμενο, ώστε να δημιουργηθεί μια σύντομη εκδοχή, για μια συγκεκριμένη εργασία και χρήστη

Page 17: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

17

ΧΡΗΣΙΜΗ ΓΙΑ ΠΟΛΛΕΣ ΕΡΓΑΣΙΕΣ.. Δημιουργία «περιγράμματος» (outline) εγγράφων Περίληψη/σύνοψη επιστημονικών άρθρων Τίτλοι άρθρων εφημερίδων Μικρά αποσπάσματα (snippets) ιστοσελίδων

Π.χ. στα αποτελέσματα μηχανών αναζήτησης Αποφάσεις ενεργειών (action items) συναντήσεων,

πρακτικά συναντήσεων Περιλήψεις από αλληλουχίες e-mail Εκτενέστερες απαντήσεις σε ερωτήσεις ορισμού ή

τρόπου Π.χ. «Ποιος ήταν ο Σωκράτης;», «Πώς ετοιμάζω το φαγητό

Χ;»

Page 18: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

18

ΚΑΤΗΓΟΡΙΕΣ ΠΕΡΙΛΗΨΕΩΝ (1) Τρεις βασικές διαστάσεις:

Από ένα ή πολλά έγγραφα a) Single-document summarization: εξαγωγή

περίληψης από ένα μόνο έγγραφο b) Multiple-document summarization:

εξαγωγή περίληψης από πολλά έγγραφα, συμπτύσσοντας πληροφορία από πολλές πηγές Π.χ. περίληψη γεγονότος από πολλά

ειδησεογραφικά πρακτορεία

Page 19: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

19

ΚΑΤΗΓΟΡΙΕΣ ΠΕΡΙΛΗΨΕΩΝ (2) Γενική ή εστιασμένη σε ερώτημα a) Generic summary: εξαγωγή περίληψης χωρίς να

ληφθεί υπ’ όψιν μια συγκεκριμένη πληροφοριακή ανάγκη, ή ένας χρήστης

b) Query-based summarization: η περίληψη εξάγεται σαν απάντηση σε κάποιο ερώτημα χρήστη

Συχνά θεωρείται σαν μια εκτενής/λεπτομερής απάντηση σε κάποιο ερώτημα

Συνώνυμα: focused-summarization, topic-based summarization, user-focused summarization

Page 20: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

20

ΚΑΤΗΓΟΡΙΕΣ ΠΕΡΙΛΗΨΕΩΝ (3) Επιλογή αποσπασμάτων ή

αναδιατύπωση a) Extract: παράγεται από συνδυασμό

φράσεων/προτάσεων που έχουν επιλεγεί (εξαχθεί) από το κείμενο

b) Abstract: χρησιμοποίηση διαφορετικών λέξεων/φράσεων για να περιγραφούν τα περιεχόμενα ενός εγγράφου

Page 21: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

21

ΑΝΑΔΙΑΤΥΠΩΣΗ Ή ΕΠΙΛΟΓΗ ΑΠΟΣΠΑΣΜΑΤΩΝ;

Page 22: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

22

ΑΥΤOΜΑΤΗ ΠΑΡΑΓΩΓH ΠΕΡΙΛHΨΕΩΝ (1) Τα συστήματα αυτόματης παραγωγής περιλήψεων

είναι και συστήματα παραγωγής φυσικής γλώσσας

Κυριότερα στάδια: Επιλογή περιεχομένου (content selection)

Επιλογή της πληροφορίας για την περίληψη Συνήθως επιλογή φράσεων/προτάσεων

Σχεδιασμός κειμένου (information ordering) Ταξινόμηση και διάταξη των επιλεγμένων μονάδων

Επιφανειακή πραγμάτωση (sentence realization) Εργασίες όπως συνένωση μονάδων, επισκευή αναφορικών

εκφράσεων, κλπ.

Page 23: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

23

ΑΥΤOΜΑΤΗ ΠΑΡΑΓΩΓH ΠΕΡΙΛHΨΕΩΝ (2) Όταν παράγεται περίληψη από ένα

έγγραφο, πολλά συστήματα: Απλά επιλέγουν προτάσεις Ενδεχομένως τις συντομεύουν Τις εμφανίζουν με τη σειρά που είχαν στο

έγγραφο Συχνά, το πρόβλημα διατυπώνεται σαν

πρόβλημα επιλογής προτάσεων Στο οποίο μπορεί να εφαρμοστεί μηχανική

μάθηση

Page 24: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

24

ΕΞΑΓΩΓH ΑΠO EΝΑ EΓΓΡΑΦΟ (1) Επιλογή περιεχομένου

Επιλογή φράσεων/προτάσεων από το κείμενο Σχεδιασμός κειμένου

Επιλογή σειράς εμφάνισης των επιλεγμένων προτάσεων στην περίληψη

Επιφανειακή πραγμάτωση Καθαρισμός προτάσεων

Π.χ. αφαίρεση μη απαραίτητων τμημάτων Συνένωση προτάσεων σε μια πρόταση Βελτίωση συνεκτικότητας (coherence)

Page 25: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

25

ΕΞΑΓΩΓH ΑΠO EΝΑ EΓΓΡΑΦΟ (2)

Page 26: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

26

ΕΠΙΛΟΓH ΠΕΡΙΕΧΟΜEΝΟΥ ΑΠO EΝΑ EΓΓΡΑΦΟ (1)

Μέσω μηχανικής μάθησης Πρόβλημα ταξινόμησης προτάσεων/φράσεων σε

δύο κατηγορίες Σημαντική ή όχι, άξια/ανάξια επιλογής

Επιβλεπόμενη ή μη-επιβλεπόμενη μηχανική μάθηση Παραδείγματα χαρακτηριστικών

TF-IDF Log-likelihood ratio (LLR)

Σκοπός η αξιοποίηση σημαντικών (salient) ή πληροφοριακών (informative) λέξεων

Page 27: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

27

ΕΠΙΛΟΓH ΠΕΡΙΕΧΟΜEΝΟΥ ΑΠO EΝΑ EΓΓΡΑΦΟ (2)

Μη-επιβλεπόμενη μέθοδος Luhn, 1958 Η μέθοδος υπολογίζει το βάρος κάθε πρότασης Επιλέγει ν προτάσεις με το καλύτερο βάρος

Η μέθοδος ανήκει στην κατηγορία των centroid-based summarization αλγορίθμων Αν θεωρήσουμε τους όρους «υπογραφής» σαν

ψευδο-πρόταση, που αποτελεί το κεντροειδές (centroid)

Επιλέγουμε τις προτάσεις που βρίσκονται πιο κοντά στο «κέντρο»

Page 28: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

28

ΕΠΙΛΟΓH ΠΕΡΙΕΧΟΜEΝΟΥ ΑΠO EΝΑ EΓΓΡΑΦΟ (3)

Κεντρικότητα (centrality) Πολλές οι μέθοδοι που βασίζονται σε

αποστάσεις από ένα κεντροειδές Αντί να χρησιμοποιηθούν σημαντικές

λέξεις, μπορεί απλά να μετρηθεί το πόσο μοιάζουν οι προτάσεις μεταξύ τους

Και να επιλεγούν προτάσεις που μοιάζουν μεταξύ τους (clustering)

Vector-space model

Page 29: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

29

ΕΠΙΒΛΕΠOΜΕΝΗ ΜΗΧΑΝΙΚH ΜAΘΗΣΗ Επιλογή περιεχομένου μέσω

επιβλεπόμενης μηχανικής μάθησης Δεδομένα εκπαίδευσης:

Κείμενα και προτάσεις που επέλεξαν άνθρωποι, ή

Προτάσεις περιλήψεων που έγραψαν άνθρωποι ευθυγραμμισμένες με τις αρχικές (αναδιατύπωση)

Η ευθυγράμμιση μεταξύ περίληψης και αρχικού κειμένου είναι σημαντική

Page 30: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

30

ΕΠΙΦΑΝΕΙΑΚH ΠΡΑΓΜAΤΩΣΗ Απλούστευση/συμπίεση προτάσεων

(sentence simplification/compression) Χρήση κανόνων για την επιλογή φράσεων

που θα κρατηθούν ή θα απορριφθούν

Page 31: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

31

ΕΞΑΓΩΓH ΑΠO ΠΟΛΛA EΓΓΡΑΦΑ Πρέπει να επιλεγούν προτάσεις που

είναι σημαντικές Αλλά δεν λένε το ίδιο πράγμα

Ομαδοποιούμε τις προτάσεις που λένε το ίδιο πράγμα, και επιλέγουμε μόνο μία

Επιλέγουμε προτάσεις σαν να είχαμε ένα έγγραφο, και απορρίπτουμε αυτές που μοιάζουν μεταξύ τους

Page 32: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

32

ΠΕΡΙΛΗΨΕΙΣ ΕΣΤΙΑΣΜΕΝΕΣ ΣΕ ΕΡΩΤΗΜΑΤΑ Το ερώτημα επηρεάζει την επιλογή των εγγράφων

Αν χρησιμοποιείται σύστημα ανάκτησης πληροφοριών Η επιλογή μπορεί να γίνει μέσω ομοιότητας

προτάσεων με το ερώτημα Το ερώτημα μπορεί να καταταχθεί σε κατηγορίες

Και να δημιουργούνται απαντήσεις με βάση σχεδιότυπα (templates) απαντήσεων

Π.χ. για το ερώτημα «Ποιος ήταν ο Σωκράτης;», το σύστημα εντοπίζει πληροφορίες για γέννηση, θάνατο, επιτεύγματα κλπ., και τις διατάσει με προκαθορισμένο τρόπο

Μέσω μηχανικής μάθησης να εξαχθεί διαφορετικό μοντέλο επιλογής και διάταξης ανά κατηγορία ερώτησης

Page 33: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

33

ΑΞΙΟΛΟΓΗΣΗ Ανοιχτό ερευνητικό ζήτημα Η πιο αξιόπιστη αξιολόγηση γίνεται

μέσω ανθρώπων-κριτών Οι οποίοι εξετάζουν αν διατηρούνται οι

σημαντικότερες πληροφορίες, την ποιότητα της περίληψης, αν είναι κατανοητή, κλπ.

Δεν είναι πρακτικός τρόπος αξιολόγησης Δεν είναι εύκολο να επαναλαμβάνεται ή

διαδικασία κάθε φορά που ελέγχεται μια παραλλαγή του συστήματος

Page 34: Γλωσσικη τεχνολογια

Ακαδημαϊκό Έτος: 2013-2014

34

ΑΞΙΟΛΟΓΗΣΗ ΠΕΡΙΛΗΨΕΩΝ Το πρόβλημα:

Με δεδομένο ένα σύνολο από περιλήψεις αναφοράς, καθόρισε την ποιότητα μιας αυτόματα παραχθείσας περίληψης

Η λύση Αναπαράσταση όλων των περιλήψεων σαν γράφους ν-

γραμμάτων Εξαγωγή της ομοιότητας των γράφων μεταξύ της

αυτόματης περίληψης, και των περιλήψεων αναφοράς Υπολογισμός του μέσου όρου ομοιότητας

Εναλλακτικά: δημιουργία ενός γράφου για όλες τις περιλήψεις αναφοράς

Σύγκριση μόνο δύο γράφων