Ανάκτηση και Εξαγωγή Πληροφορίας από Πολυμεσικές και...

Post on 17-Jan-2016

44 views 0 download

description

Ανάκτηση και Εξαγωγή Πληροφορίας από Πολυμεσικές και Πολυγλωσσικές Βάσεις Δεδομένων Στέλιος Πιπερίδης Ινστιτούτο Επεξεργασίας Λόγου spip@ilsp.gr. Περιεχόμενα. Διαχείριση Περιεχομένου Γλωσσική Τεχνολογία στην Ανάκτηση Πληροφορίας Εξαγωγή Πληροφορίας - PowerPoint PPT Presentation

Transcript of Ανάκτηση και Εξαγωγή Πληροφορίας από Πολυμεσικές και...

Ανάκτηση και Εξαγωγή Πληροφορίας Ανάκτηση και Εξαγωγή Πληροφορίας

απόαπό

Πολυμεσικές και Πολυγλωσσικές Πολυμεσικές και Πολυγλωσσικές

Βάσεις ΔεδομένωνΒάσεις Δεδομένων

Στέλιος ΠιπερίδηςΣτέλιος Πιπερίδης

Ινστιτούτο Επεξεργασίας Λόγου Ινστιτούτο Επεξεργασίας Λόγου

spip@ilsp.grspip@ilsp.gr

ΠεριεχόμεναΠεριεχόμενα

Διαχείριση Περιεχομένου

Γλωσσική Τεχνολογία στην Ανάκτηση Πληροφορίας

Εξαγωγή Πληροφορίας

Πολυγλωσσική Εξαγωγή Πληροφορίας

...Where is the Life we have lost in living?Where is the wisdom we have lost in knowledge?Where is the knowledge we have lost in information?...

-- T.S. Eliot, 1934, “The Rock”, I:14-16

ΙεραρχίαΙεραρχία ; ;

…..

Knowledge

Information

Data

Δεδομένα

Πληροφορία

Γνώση

...

Ιεραρχία ΠληροφορίαςΙεραρχία Πληροφορίας

...

Γνώσηπληροφορία που έχουμε αντιληφθεί

(ανάγνωση[κείμενο] / ακοή[φωνή] / όραση[εικόνα, κίνηση]) και ‘κατανοήσει’

Πληροφορίαδεδομένα οργανωμένα και παρουσιασμένα με

συγκεκριμένο τρόπο

Δεδομένα

ανεπεξέργαστο υλικό

Ανάκτηση πολυμεσικών πληροφοριώνΑνάκτηση πολυμεσικών πληροφοριών

κείμενο, φωνή, εικόνες δρουν συνεργατικά για τη δημιουργία καιμεταφορά πληροφορίας και γνώσης η επεξεργασία πολυμεσικών πληροφοριών φαίνεται ότι είναι το σκηνικό στο οποίο θα λειτουργούμε στο μέλλον, τη στιγμή που αναπαριστά ότι είναι πλησιέστερο σε πραγματικά σενάρια επικοινωνίας (φυσικοί διάλογοι άνθρωπος-με-άνθρωπο/άνθρωπος-με-μηχανή, αλληλοδραστική/ψηφιακή τηλεόραση, κλπ)

η επεξεργασία πολυμεσικών δεδομένων απαιτεί τη συνεργασίατεχνολογιών μετατροπής μέσου σε μέσο (π.χ. φωνή σε κείμενο) με τις τεχνολογίες επεξεργασίας γραπτού λόγου

Διαχείριση ΠεριεχομένουΔιαχείριση Περιεχομένου

Γιατί χρησιμοποιείται κυρίως η γλώσσα

επειδή η γλώσσα είναι ένα λειτουργικό σύστημα που επειδή η γλώσσα είναι ένα λειτουργικό σύστημα που βασίζεται σε αυτο-ρυθμιζόμενες μονάδες, δηλ. έκτυπα πουβασίζεται σε αυτο-ρυθμιζόμενες μονάδες, δηλ. έκτυπα πουχωρίζονται μεταξύ τους από κενάχωρίζονται μεταξύ τους από κενά

Τεχνικές διαχείρισης περιεχομένου

μετατροπή όλων των μέσων περιεχομένου σε κείμενο

ισχυρή απαίτηση ευρωστίας για τις τεχνολογίες μετατροπής (π.χ. αναγνώριση φωνής, εικόνας, κλπ) αλλά κυρίως για τις τεχνολογίες επεξεργασίας γραπτού λόγου

Ανάκτηση – Εξαγωγή ΠληροφορίαςΑνάκτηση – Εξαγωγή Πληροφορίας

Διαχείριση περιεχομένου μέσω κειμένου

διαχείριση σε επίπεδο εγγράφου έγγραφα και μονάδες τους, π.χ. παράγραφοι

ανάκτηση πληροφορίας

ΕΡΩΤΗΣΗ Ανάκτηση ΕΓΓΡΑΦΩΝ

διαχείριση σε επίπεδο περιεχομένου προτάσεις και σχέσεις τους μέσα στα έγγραφα

εξαγωγή πληροφορίας

Προκαθορισμένο ΠΛΑΙΣΙΟ Εξαγωγή ΠΛΗΡΟΦΟΡΙΑΣ από ΕΓΓΡΑΦΑ

Εξόρυξη πληροφορίαςΕξόρυξη πληροφορίας

αριθμητικά δεδομένα κειμενικά δεδομένα

εξαγωγή κανόνων που συσχετίζουν τα δεδομένα με σκοπό την μετατροπή των δεδομένων σε γνώση

βάση οικονομικών δεδομένωνβάση πελατώνβάση ιατρικών δεδομένωνκλπ.

κειμενικές βάσεις δεδομένων για ένα θεματικό πεδίοπ.χ. εξαγωγή του κανόναΤο φάρμακο Α χρησιμοποιείται για την ασθένεια Β.

ΠεριεχόμεναΠεριεχόμενα

Διαχείριση Περιεχομένου

Γλωσσική Τεχνολογία στην Ανάκτηση Πληροφορίας

Εξαγωγή Πληροφορίας

Πολυγλωσσική Εξαγωγή Πληροφορίας

Ανάκτηση Πληροφορίας με γλωσσική τεχνολογίαΑνάκτηση Πληροφορίας με γλωσσική τεχνολογία

τυπικές διαδικασίες:αναγνώριση δομής κειμένου (text structure)

τίτλοι, κεφάλαια, παράγραφοι, κλπ.

λεκτική ανάλυση (tokenisation)αναγνώριση λέξεων, προτάσεων (ιδιαίτερες δυσκολίες

κυρίως όταν δεν ακολουθείται κάποια γραμματική στίξης)

κανονικοποίηση μορφήςαποκοπή καταλήξεων/μορφολογική

ανάλυση/λημματοποίηση

δεικτοδότηση

Κανονικοποίηση μορφήςΚανονικοποίηση μορφής

ο στόχος είναι να ‘υπολογίσουμε’ (κανονικοποιήσουμε) μορφογραφημικά παρόμοιες λέξεις

μορφολογία (“μορφή” των λέξεων)κλιτική μορφολογία (inflectional morphology)παραγωγική μορφολογία (derivational

morphology)

λημματοποίηση (lemmatisation)

αποκοπή καταλήξεων (stemming)

συγχώνευση όρων (term conflation)

Δεικτοδότηση (με γλωσσική τεχνολογία)Δεικτοδότηση (με γλωσσική τεχνολογία) δεικτοδότηση όρων εξαγωγή όρων από

(term indexing) κείμενα δεικτοδότηση με θησαυρούς κατασκευή θησαυρών

(thesaurus indexing) από κείμενα δεικτοδότηση ονομάτων αναγνώριση και

(name indexing) κατηγοριοποίηση

ονοματικών οντοτήτων κατηγοριοποίηση κειμένωναπόδοση θεματικής

(text classification) κατηγορίας,(κλειστή ή

ανοιχτή λίστα) κατασκευή περίληψης εξαγωγή σημαντικών

(text summarisation) προτάσεων από κείμενα

Δεικτοδότηση και Ανάλυση ΠεριεχομένουΔεικτοδότηση και Ανάλυση Περιεχομένου αναγνώριση συναναφορών (coreference) σε κείμενα

συναναφορά αντωνυμιών(pronouns) και οριστικών ονοματικών φράσεων(definite noun phrases)

απαιτείται συντακτική, σημασιολογική και πραγματολογική ανάλυση για συνολική επίλυση των φαινομένων συναναφοράς

Διαγραμματικά

δεικτ/ηση όρων δεικτ/ηση ονομάτων επίλυση συναναφορών

ευφυής δεικτοδότηση

ΠεριεχόμεναΠεριεχόμενα

Διαχείριση Περιεχομένου

Γλωσσική Τεχνολογία στην Ανάκτηση Πληροφορίας

Εξαγωγή Πληροφορίας

Πολυγλωσσική Εξαγωγή Πληροφορίας

Παράδειγμα Εξαγωγής ΠληροφορίαςΠαράδειγμα Εξαγωγής Πληροφορίας

Εξαγωγή Πληροφορίας

ΠΡΟΚΑΘΟΡΙΣΜΕΝΟ ΠΛΑΙΣΙΟ ΓΕΓΟΝΟΤΩΝ : <organisation, location, money, type, percent…>

ΠΛΗΡΟΦΟΡΙΑ ΑΠΟ ΕΓΓΡΑΦΑ

<EVENT-01>:=ORGANISATION : ‘Venture capital Corp.’LOCATION : ‘Νέα Υόρκη’MONEY : ‘$100.000’TYPE : ‘χρηματοδότηση νέας τεχνολογίας’PERCENT: ‘60%-40%’...

Στάδια Εξαγωγής ΠληροφορίαςΣτάδια Εξαγωγής Πληροφορίας

Κατασκευή Πλαισίου

Λίστες ονομάτων

Λεκτική Ανάλυση

Μορφοσυντακτικός σχολιασμός

Λημματοποίηση-Κανονικοποίηση

Αναγνώριση Ονομάτων

Συντακτική Ανάλυση

Ανάλυση βάσει σεναρίου

Επίλυση συναναφορών

Συμπερασμός

Λεξικό

Γραμματικοί κανόνες

Κανόνες

Κανόνεςσεναρίου

ΜοντέλοΠεδίου

Κανόνες συμπερασμού

Κειμένο Εισόδου

Πλαίσιο

Λεκτικός Αναλυτής

Μορφοσυντακτικός σχολιαστής & Λημματοποιητής

Αναγνωριστής ονομάτων

Συντακτικός και σημασιολογικός επεξεργαστής

Διερμηνευτής Λόγου

Κανόνες ονομάτων

Ονοματικές Οντότητες σε ελληνικά κείμενα (2) Ονοματικές Οντότητες σε ελληνικά κείμενα (2)

Ανάκτηση καιΑνάκτηση και Εξαγωγή πληροφορίαςΕξαγωγή πληροφορίας

Σύστημα Εξαγωγής Πληροφορίας

Ανάκτηση και φιλτράρισμα πληροφορίας

ΔΙΑΔΙΚΤΥΟ

Βάση δεδομένων

Ανάκτηση καιΑνάκτηση και Εξαγωγή πληροφορίαςΕξαγωγή πληροφορίας

ΔΙΑΔΙΚΤΥΟ

Σύστημα ΕΠ 1

ΒΔ 1

Σύστημα ΕΠ 2

ΒΔ 2

Σύστημα ΕΠ 3

ΒΔ N

Ταξινόμηση και δρομολόγηση πληροφορίας

ΠεριεχόμεναΠεριεχόμενα

Διαχείριση Περιεχομένου

Γλωσσική Τεχνολογία στην Ανάκτηση Πληροφορίας

Εξαγωγή Πληροφορίας

Πολυγλωσσική Εξαγωγή Πληροφορίας

Κατανομή περιεχομένου στο διαδίκτυο ανά γλώσσαΚατανομή περιεχομένου στο διαδίκτυο ανά γλώσσα

Αγγλικά ΙαπωνικάΓερμανικά ΓαλλικάΚινεζικά ΙσπανικάΙταλικά ΣουηδικάΜαλαισιανά ΚορεατικάΠορτογαλικά ΟλλανδικάΔανέζικα ΤσέχικαΦινλανδικά ΡωσικάΠολωνικά ΟυγγρικάΝορβηγικά ΕσθονικάΕλληνικά ΒουλγαρικάΚροατικά ΒασκικάΤαυλανδέζικα ΤουρκικάΑραβικά ΑλβανικάΑλλες & Αγνωστες

Πολυγλωσσική Εξαγωγή ΠληροφοριώνΠολυγλωσσική Εξαγωγή Πληροφοριών

πολλές φορές η αναζητούμενη πληροφορία βρίσκεται σε κείμενα διαφορετικών γλωσσών 

Δύο δυνατότητες χειρισμού της πολυγλωσσίας στην εξαγωγή πληροφορίας:  μονογλωσσικό σύστημα ΕΠ εξάγει πληροφορία σε διαφορετικές γλώσσες 

μονογλωσσικό σύστημα ΕΠ : γλώσσα κειμένου και γλώσσα πλαισίου είναι ίδιες

 γλώσσα πλαισίου : η γλώσσα στην οποία συμπληρώνονται

οι τιμές του πλαισίου  διαγλωσσικό σύστημα εξαγωγής πληροφορίας 

διαγλωσσικό σύστημα ΕΠ : γλώσσα κειμένου και γλώσσα πλαισίου διαφορετικές

Προσεγγίσεις στη διαγλωσσική εξαγωγή πληροφορίαςΠροσεγγίσεις στη διαγλωσσική εξαγωγή πληροφορίας

σύστημα αυτόματης μετάφρασης μεταφράζει το κείμενο και ένα μονογλωσσικό σύστημα ΕΠ εξάγει πληροφορία από το μετάφρασμα

πλαίσιο στη γλώσσα στόχοκείμενο πηγή κείμενο στόχοςΜηχανική Μετάφραση

Εξαγωγή Πληροφορίας

μονογλωσσικό σύστημα ΕΠ εξάγει πληροφορία από το κείμενο πηγή και σύστημα μετάφρασης μεταφράζει την πληροφορία του πλαισίου

πλαίσιο στη γλώσσα στόχοκείμενο πηγή πλαίσιο στη γλώσσα πηγή

Εξαγωγή Πληροφορίας

Μηχανική Μετάφραση

μονογλωσσικοί επεξεργαστές αντιστοιχίζουν το κείμενο σε γλωσσικά ανεξάρτητο μοντέλο λόγου

κείμενο πηγή πλαίσιο στη γλώσσα στόχο

διερμηνευτής περιεχομένου

λόγου

αναπαράσταση περιεχομένου

ανεξάρτητη γλώσσας