Ανάκτηση και Εξαγωγή Πληροφορίας από Πολυμεσικές και...

24
Ανάκτηση και Εξαγωγή Πληροφορίας Ανάκτηση και Εξαγωγή Πληροφορίας από από Πολυμεσικές και Πολυγλωσσικές Πολυμεσικές και Πολυγλωσσικές Βάσεις Δεδομένων Βάσεις Δεδομένων Στέλιος Πιπερίδης Στέλιος Πιπερίδης Ινστιτούτο Επεξεργασίας Λόγου Ινστιτούτο Επεξεργασίας Λόγου [email protected] [email protected]

description

Ανάκτηση και Εξαγωγή Πληροφορίας από Πολυμεσικές και Πολυγλωσσικές Βάσεις Δεδομένων Στέλιος Πιπερίδης Ινστιτούτο Επεξεργασίας Λόγου [email protected]. Περιεχόμενα. Διαχείριση Περιεχομένου Γλωσσική Τεχνολογία στην Ανάκτηση Πληροφορίας Εξαγωγή Πληροφορίας - PowerPoint PPT Presentation

Transcript of Ανάκτηση και Εξαγωγή Πληροφορίας από Πολυμεσικές και...

Page 1: Ανάκτηση και Εξαγωγή Πληροφορίας   από Πολυμεσικές και Πολυγλωσσικές  Βάσεις Δεδομένων

Ανάκτηση και Εξαγωγή Πληροφορίας Ανάκτηση και Εξαγωγή Πληροφορίας

απόαπό

Πολυμεσικές και Πολυγλωσσικές Πολυμεσικές και Πολυγλωσσικές

Βάσεις ΔεδομένωνΒάσεις Δεδομένων

Στέλιος ΠιπερίδηςΣτέλιος Πιπερίδης

Ινστιτούτο Επεξεργασίας Λόγου Ινστιτούτο Επεξεργασίας Λόγου

[email protected]@ilsp.gr

Page 2: Ανάκτηση και Εξαγωγή Πληροφορίας   από Πολυμεσικές και Πολυγλωσσικές  Βάσεις Δεδομένων

ΠεριεχόμεναΠεριεχόμενα

Διαχείριση Περιεχομένου

Γλωσσική Τεχνολογία στην Ανάκτηση Πληροφορίας

Εξαγωγή Πληροφορίας

Πολυγλωσσική Εξαγωγή Πληροφορίας

Page 3: Ανάκτηση και Εξαγωγή Πληροφορίας   από Πολυμεσικές και Πολυγλωσσικές  Βάσεις Δεδομένων

...Where is the Life we have lost in living?Where is the wisdom we have lost in knowledge?Where is the knowledge we have lost in information?...

-- T.S. Eliot, 1934, “The Rock”, I:14-16

Page 4: Ανάκτηση και Εξαγωγή Πληροφορίας   από Πολυμεσικές και Πολυγλωσσικές  Βάσεις Δεδομένων

ΙεραρχίαΙεραρχία ; ;

…..

Knowledge

Information

Data

Δεδομένα

Πληροφορία

Γνώση

...

Page 5: Ανάκτηση και Εξαγωγή Πληροφορίας   από Πολυμεσικές και Πολυγλωσσικές  Βάσεις Δεδομένων

Ιεραρχία ΠληροφορίαςΙεραρχία Πληροφορίας

...

Γνώσηπληροφορία που έχουμε αντιληφθεί

(ανάγνωση[κείμενο] / ακοή[φωνή] / όραση[εικόνα, κίνηση]) και ‘κατανοήσει’

Πληροφορίαδεδομένα οργανωμένα και παρουσιασμένα με

συγκεκριμένο τρόπο

Δεδομένα

ανεπεξέργαστο υλικό

Page 6: Ανάκτηση και Εξαγωγή Πληροφορίας   από Πολυμεσικές και Πολυγλωσσικές  Βάσεις Δεδομένων

Ανάκτηση πολυμεσικών πληροφοριώνΑνάκτηση πολυμεσικών πληροφοριών

κείμενο, φωνή, εικόνες δρουν συνεργατικά για τη δημιουργία καιμεταφορά πληροφορίας και γνώσης η επεξεργασία πολυμεσικών πληροφοριών φαίνεται ότι είναι το σκηνικό στο οποίο θα λειτουργούμε στο μέλλον, τη στιγμή που αναπαριστά ότι είναι πλησιέστερο σε πραγματικά σενάρια επικοινωνίας (φυσικοί διάλογοι άνθρωπος-με-άνθρωπο/άνθρωπος-με-μηχανή, αλληλοδραστική/ψηφιακή τηλεόραση, κλπ)

η επεξεργασία πολυμεσικών δεδομένων απαιτεί τη συνεργασίατεχνολογιών μετατροπής μέσου σε μέσο (π.χ. φωνή σε κείμενο) με τις τεχνολογίες επεξεργασίας γραπτού λόγου

Page 7: Ανάκτηση και Εξαγωγή Πληροφορίας   από Πολυμεσικές και Πολυγλωσσικές  Βάσεις Δεδομένων

Διαχείριση ΠεριεχομένουΔιαχείριση Περιεχομένου

Γιατί χρησιμοποιείται κυρίως η γλώσσα

επειδή η γλώσσα είναι ένα λειτουργικό σύστημα που επειδή η γλώσσα είναι ένα λειτουργικό σύστημα που βασίζεται σε αυτο-ρυθμιζόμενες μονάδες, δηλ. έκτυπα πουβασίζεται σε αυτο-ρυθμιζόμενες μονάδες, δηλ. έκτυπα πουχωρίζονται μεταξύ τους από κενάχωρίζονται μεταξύ τους από κενά

Τεχνικές διαχείρισης περιεχομένου

μετατροπή όλων των μέσων περιεχομένου σε κείμενο

ισχυρή απαίτηση ευρωστίας για τις τεχνολογίες μετατροπής (π.χ. αναγνώριση φωνής, εικόνας, κλπ) αλλά κυρίως για τις τεχνολογίες επεξεργασίας γραπτού λόγου

Page 8: Ανάκτηση και Εξαγωγή Πληροφορίας   από Πολυμεσικές και Πολυγλωσσικές  Βάσεις Δεδομένων

Ανάκτηση – Εξαγωγή ΠληροφορίαςΑνάκτηση – Εξαγωγή Πληροφορίας

Διαχείριση περιεχομένου μέσω κειμένου

διαχείριση σε επίπεδο εγγράφου έγγραφα και μονάδες τους, π.χ. παράγραφοι

ανάκτηση πληροφορίας

ΕΡΩΤΗΣΗ Ανάκτηση ΕΓΓΡΑΦΩΝ

διαχείριση σε επίπεδο περιεχομένου προτάσεις και σχέσεις τους μέσα στα έγγραφα

εξαγωγή πληροφορίας

Προκαθορισμένο ΠΛΑΙΣΙΟ Εξαγωγή ΠΛΗΡΟΦΟΡΙΑΣ από ΕΓΓΡΑΦΑ

Page 9: Ανάκτηση και Εξαγωγή Πληροφορίας   από Πολυμεσικές και Πολυγλωσσικές  Βάσεις Δεδομένων

Εξόρυξη πληροφορίαςΕξόρυξη πληροφορίας

αριθμητικά δεδομένα κειμενικά δεδομένα

εξαγωγή κανόνων που συσχετίζουν τα δεδομένα με σκοπό την μετατροπή των δεδομένων σε γνώση

βάση οικονομικών δεδομένωνβάση πελατώνβάση ιατρικών δεδομένωνκλπ.

κειμενικές βάσεις δεδομένων για ένα θεματικό πεδίοπ.χ. εξαγωγή του κανόναΤο φάρμακο Α χρησιμοποιείται για την ασθένεια Β.

Page 10: Ανάκτηση και Εξαγωγή Πληροφορίας   από Πολυμεσικές και Πολυγλωσσικές  Βάσεις Δεδομένων

ΠεριεχόμεναΠεριεχόμενα

Διαχείριση Περιεχομένου

Γλωσσική Τεχνολογία στην Ανάκτηση Πληροφορίας

Εξαγωγή Πληροφορίας

Πολυγλωσσική Εξαγωγή Πληροφορίας

Page 11: Ανάκτηση και Εξαγωγή Πληροφορίας   από Πολυμεσικές και Πολυγλωσσικές  Βάσεις Δεδομένων

Ανάκτηση Πληροφορίας με γλωσσική τεχνολογίαΑνάκτηση Πληροφορίας με γλωσσική τεχνολογία

τυπικές διαδικασίες:αναγνώριση δομής κειμένου (text structure)

τίτλοι, κεφάλαια, παράγραφοι, κλπ.

λεκτική ανάλυση (tokenisation)αναγνώριση λέξεων, προτάσεων (ιδιαίτερες δυσκολίες

κυρίως όταν δεν ακολουθείται κάποια γραμματική στίξης)

κανονικοποίηση μορφήςαποκοπή καταλήξεων/μορφολογική

ανάλυση/λημματοποίηση

δεικτοδότηση

Page 12: Ανάκτηση και Εξαγωγή Πληροφορίας   από Πολυμεσικές και Πολυγλωσσικές  Βάσεις Δεδομένων

Κανονικοποίηση μορφήςΚανονικοποίηση μορφής

ο στόχος είναι να ‘υπολογίσουμε’ (κανονικοποιήσουμε) μορφογραφημικά παρόμοιες λέξεις

μορφολογία (“μορφή” των λέξεων)κλιτική μορφολογία (inflectional morphology)παραγωγική μορφολογία (derivational

morphology)

λημματοποίηση (lemmatisation)

αποκοπή καταλήξεων (stemming)

συγχώνευση όρων (term conflation)

Page 13: Ανάκτηση και Εξαγωγή Πληροφορίας   από Πολυμεσικές και Πολυγλωσσικές  Βάσεις Δεδομένων

Δεικτοδότηση (με γλωσσική τεχνολογία)Δεικτοδότηση (με γλωσσική τεχνολογία) δεικτοδότηση όρων εξαγωγή όρων από

(term indexing) κείμενα δεικτοδότηση με θησαυρούς κατασκευή θησαυρών

(thesaurus indexing) από κείμενα δεικτοδότηση ονομάτων αναγνώριση και

(name indexing) κατηγοριοποίηση

ονοματικών οντοτήτων κατηγοριοποίηση κειμένωναπόδοση θεματικής

(text classification) κατηγορίας,(κλειστή ή

ανοιχτή λίστα) κατασκευή περίληψης εξαγωγή σημαντικών

(text summarisation) προτάσεων από κείμενα

Page 14: Ανάκτηση και Εξαγωγή Πληροφορίας   από Πολυμεσικές και Πολυγλωσσικές  Βάσεις Δεδομένων

Δεικτοδότηση και Ανάλυση ΠεριεχομένουΔεικτοδότηση και Ανάλυση Περιεχομένου αναγνώριση συναναφορών (coreference) σε κείμενα

συναναφορά αντωνυμιών(pronouns) και οριστικών ονοματικών φράσεων(definite noun phrases)

απαιτείται συντακτική, σημασιολογική και πραγματολογική ανάλυση για συνολική επίλυση των φαινομένων συναναφοράς

Διαγραμματικά

δεικτ/ηση όρων δεικτ/ηση ονομάτων επίλυση συναναφορών

ευφυής δεικτοδότηση

Page 15: Ανάκτηση και Εξαγωγή Πληροφορίας   από Πολυμεσικές και Πολυγλωσσικές  Βάσεις Δεδομένων

ΠεριεχόμεναΠεριεχόμενα

Διαχείριση Περιεχομένου

Γλωσσική Τεχνολογία στην Ανάκτηση Πληροφορίας

Εξαγωγή Πληροφορίας

Πολυγλωσσική Εξαγωγή Πληροφορίας

Page 16: Ανάκτηση και Εξαγωγή Πληροφορίας   από Πολυμεσικές και Πολυγλωσσικές  Βάσεις Δεδομένων

Παράδειγμα Εξαγωγής ΠληροφορίαςΠαράδειγμα Εξαγωγής Πληροφορίας

Εξαγωγή Πληροφορίας

ΠΡΟΚΑΘΟΡΙΣΜΕΝΟ ΠΛΑΙΣΙΟ ΓΕΓΟΝΟΤΩΝ : <organisation, location, money, type, percent…>

ΠΛΗΡΟΦΟΡΙΑ ΑΠΟ ΕΓΓΡΑΦΑ

<EVENT-01>:=ORGANISATION : ‘Venture capital Corp.’LOCATION : ‘Νέα Υόρκη’MONEY : ‘$100.000’TYPE : ‘χρηματοδότηση νέας τεχνολογίας’PERCENT: ‘60%-40%’...

Page 17: Ανάκτηση και Εξαγωγή Πληροφορίας   από Πολυμεσικές και Πολυγλωσσικές  Βάσεις Δεδομένων

Στάδια Εξαγωγής ΠληροφορίαςΣτάδια Εξαγωγής Πληροφορίας

Κατασκευή Πλαισίου

Λίστες ονομάτων

Λεκτική Ανάλυση

Μορφοσυντακτικός σχολιασμός

Λημματοποίηση-Κανονικοποίηση

Αναγνώριση Ονομάτων

Συντακτική Ανάλυση

Ανάλυση βάσει σεναρίου

Επίλυση συναναφορών

Συμπερασμός

Λεξικό

Γραμματικοί κανόνες

Κανόνες

Κανόνεςσεναρίου

ΜοντέλοΠεδίου

Κανόνες συμπερασμού

Κειμένο Εισόδου

Πλαίσιο

Λεκτικός Αναλυτής

Μορφοσυντακτικός σχολιαστής & Λημματοποιητής

Αναγνωριστής ονομάτων

Συντακτικός και σημασιολογικός επεξεργαστής

Διερμηνευτής Λόγου

Κανόνες ονομάτων

Page 18: Ανάκτηση και Εξαγωγή Πληροφορίας   από Πολυμεσικές και Πολυγλωσσικές  Βάσεις Δεδομένων

Ονοματικές Οντότητες σε ελληνικά κείμενα (2) Ονοματικές Οντότητες σε ελληνικά κείμενα (2)

Page 19: Ανάκτηση και Εξαγωγή Πληροφορίας   από Πολυμεσικές και Πολυγλωσσικές  Βάσεις Δεδομένων

Ανάκτηση καιΑνάκτηση και Εξαγωγή πληροφορίαςΕξαγωγή πληροφορίας

Σύστημα Εξαγωγής Πληροφορίας

Ανάκτηση και φιλτράρισμα πληροφορίας

ΔΙΑΔΙΚΤΥΟ

Βάση δεδομένων

Page 20: Ανάκτηση και Εξαγωγή Πληροφορίας   από Πολυμεσικές και Πολυγλωσσικές  Βάσεις Δεδομένων

Ανάκτηση καιΑνάκτηση και Εξαγωγή πληροφορίαςΕξαγωγή πληροφορίας

ΔΙΑΔΙΚΤΥΟ

Σύστημα ΕΠ 1

ΒΔ 1

Σύστημα ΕΠ 2

ΒΔ 2

Σύστημα ΕΠ 3

ΒΔ N

Ταξινόμηση και δρομολόγηση πληροφορίας

Page 21: Ανάκτηση και Εξαγωγή Πληροφορίας   από Πολυμεσικές και Πολυγλωσσικές  Βάσεις Δεδομένων

ΠεριεχόμεναΠεριεχόμενα

Διαχείριση Περιεχομένου

Γλωσσική Τεχνολογία στην Ανάκτηση Πληροφορίας

Εξαγωγή Πληροφορίας

Πολυγλωσσική Εξαγωγή Πληροφορίας

Page 22: Ανάκτηση και Εξαγωγή Πληροφορίας   από Πολυμεσικές και Πολυγλωσσικές  Βάσεις Δεδομένων

Κατανομή περιεχομένου στο διαδίκτυο ανά γλώσσαΚατανομή περιεχομένου στο διαδίκτυο ανά γλώσσα

Αγγλικά ΙαπωνικάΓερμανικά ΓαλλικάΚινεζικά ΙσπανικάΙταλικά ΣουηδικάΜαλαισιανά ΚορεατικάΠορτογαλικά ΟλλανδικάΔανέζικα ΤσέχικαΦινλανδικά ΡωσικάΠολωνικά ΟυγγρικάΝορβηγικά ΕσθονικάΕλληνικά ΒουλγαρικάΚροατικά ΒασκικάΤαυλανδέζικα ΤουρκικάΑραβικά ΑλβανικάΑλλες & Αγνωστες

Page 23: Ανάκτηση και Εξαγωγή Πληροφορίας   από Πολυμεσικές και Πολυγλωσσικές  Βάσεις Δεδομένων

Πολυγλωσσική Εξαγωγή ΠληροφοριώνΠολυγλωσσική Εξαγωγή Πληροφοριών

πολλές φορές η αναζητούμενη πληροφορία βρίσκεται σε κείμενα διαφορετικών γλωσσών 

Δύο δυνατότητες χειρισμού της πολυγλωσσίας στην εξαγωγή πληροφορίας:  μονογλωσσικό σύστημα ΕΠ εξάγει πληροφορία σε διαφορετικές γλώσσες 

μονογλωσσικό σύστημα ΕΠ : γλώσσα κειμένου και γλώσσα πλαισίου είναι ίδιες

 γλώσσα πλαισίου : η γλώσσα στην οποία συμπληρώνονται

οι τιμές του πλαισίου  διαγλωσσικό σύστημα εξαγωγής πληροφορίας 

διαγλωσσικό σύστημα ΕΠ : γλώσσα κειμένου και γλώσσα πλαισίου διαφορετικές

Page 24: Ανάκτηση και Εξαγωγή Πληροφορίας   από Πολυμεσικές και Πολυγλωσσικές  Βάσεις Δεδομένων

Προσεγγίσεις στη διαγλωσσική εξαγωγή πληροφορίαςΠροσεγγίσεις στη διαγλωσσική εξαγωγή πληροφορίας

σύστημα αυτόματης μετάφρασης μεταφράζει το κείμενο και ένα μονογλωσσικό σύστημα ΕΠ εξάγει πληροφορία από το μετάφρασμα

πλαίσιο στη γλώσσα στόχοκείμενο πηγή κείμενο στόχοςΜηχανική Μετάφραση

Εξαγωγή Πληροφορίας

μονογλωσσικό σύστημα ΕΠ εξάγει πληροφορία από το κείμενο πηγή και σύστημα μετάφρασης μεταφράζει την πληροφορία του πλαισίου

πλαίσιο στη γλώσσα στόχοκείμενο πηγή πλαίσιο στη γλώσσα πηγή

Εξαγωγή Πληροφορίας

Μηχανική Μετάφραση

μονογλωσσικοί επεξεργαστές αντιστοιχίζουν το κείμενο σε γλωσσικά ανεξάρτητο μοντέλο λόγου

κείμενο πηγή πλαίσιο στη γλώσσα στόχο

διερμηνευτής περιεχομένου

λόγου

αναπαράσταση περιεχομένου

ανεξάρτητη γλώσσας