Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της...

36
Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου Ινστιτούτο Επεξεργασίας Λόγου {spip, maria}@ilsp.gr

description

Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας. Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου Ινστιτούτο Επεξεργασίας Λόγου {spip, maria}@ilsp.gr. Εισαγωγή & Σκοπός (1). Ο αυξανόμενος όγκος ηλεκτρονικών κειμένων δημιουργεί νέες απαιτήσεις για τη διαχείριση και επεξεργασία τους. - PowerPoint PPT Presentation

Transcript of Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της...

Page 1: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης

πληροφορίας

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου

Ινστιτούτο Επεξεργασίας Λόγου

{spip, maria}@ilsp.gr

Page 2: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 2

Εισαγωγή & Σκοπός (1)

• Ο αυξανόμενος όγκος ηλεκτρονικών κειμένων δημιουργεί νέες απαιτήσεις για τη διαχείριση και επεξεργασία τους.

• Τα υπολογιστικά συστήματα (ιδιαίτερα τα συστήματα γλωσσικής τεχνολογίας) χρειάζεται να προσαρμοστούν στη θεματική περιοχή και στο αντικείμενο των υπό επεξεργασία κειμένων.

Page 3: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 3

Εισαγωγή & Σκοπός (2) Η εξαγωγή όρων προσφέρει μια έγκυρη και γρήγορη

λύση στη διαδικασία προσαρμογής των συστημάτων γλωσσικής τεχνολογίας στις καινούργιες αυτές απαιτήσεις.

Οι όροι πραγματώνουν γλωσσικά τις βασικές έννοιες του κειμένου αλλά και του γνωστικού αντικειμένου στο οποίο υπάγεται το κείμενο. Είναι συνεπώς αρκετά αντιπροσωπευτικοί του περιεχομένου του.

Page 4: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 4

Χρήσεις-Εφαρμογές

Ανάκτηση Πληροφορίας

Κατηγοριοποίηση και Ταξινόμηση κειμένων

Εξαγωγή Πληροφορίας

Κατασκευή περίληψης

Πολύγλωσσες εφαρμογές (παραλληλοποίηση

κειμένων)

Page 5: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 5

Ανάκτηση και Εξαγωγή Πληροφορίας

Ανάκτηση Πληροφορίας (Information Retrieval)

ΕΡΩΤΗΣΗ Ανάκτηση ΕΓΓΡΑΦΩΝ

Εξαγωγή Πληροφορίας (Information Extraction)

Προκαθορισμένο ΠΛΑΙΣΙΟ Εξαγωγή ΠΛΗΡΟΦΟΡΙΑΣ από ΕΓΓΡΑΦΑ

Page 6: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 6

Παράδειγμα Ανάκτησης Πληροφορίας

Ανάκτηση Πληροφορίας

ΕΡΩΤΗΣΗ : χρηματοδότηση νέας τεχνολογίας

ΑΝΑΚΤΗΣΗ : έγγραφα

t001.txt …\…\MS VC fundingt002.txt …\…\ New Technology VCt001.txt …\VC new technology funding

Page 7: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 7

Παράδειγμα Εξαγωγής Πληροφορίας

Εξαγωγή Πληροφορίας

ΠΡΟΚΑΘΟΡΙΣΜΕΝΟ ΠΛΑΙΣΙΟ ΓΕΓΟΝΟΤΩΝ : <organisation, location, money, type, percent…>

ΠΛΗΡΟΦΟΡΙΑ ΑΠΟ ΕΓΓΡΑΦΑ

<EVENT-01>:=ORGANISATION : ‘Venture capital Corp.’LOCATION : ‘Νέα Υόρκη’MONEY : ‘$100.000’TYPE : ‘χρηματοδότηση νέας τεχνολογίας’PERCENT: ‘60%-40%’...

Page 8: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 8

Εξόρυξη πληροφορίας

αριθμητικά δεδομένα κειμενικά δεδομένα

εξαγωγή κανόνων που συσχετίζουν τα δεδομένα με σκοπό την μετατροπή των δεδομένων σε γνώση

βάση οικονομικών δεδομένωνβάση πελατώνβάση ιατρικών δεδομένωνκλπ.

κειμενικές βάσεις δεδομένων για ένα θεματικό πεδίοπ.χ. εξαγωγή του κανόναΑν μια Venture Capital Company χρηματοδοτεί μια επιχείρηση με >$ 1bn, τότε η επιχείρηση δραστηριοποιείται στο χώρο της νέας τεχνολογίας

Page 9: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 9

Σύγχρονες Προσεγγίσεις (1)

Χρήση γλωσσικών προτύπων

γραμματικοί κανόνες (συνήθως υποσύνολο των

κανόνων περιγραφής ονοματικών φράσεων)

αναγνώριση πολυλεκτικών όρων, αδυναμία

αναγνώρισης μονολεκτικών όρων

Page 10: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 10

Σύγχρονες Προσεγγίσεις (2)

Στατιστική μοντελοποίηση

χρήση συχνότητας λέξεων, βάρη τύπου TFIDF,

συμφράσεις κτλ.

αναγνώριση τόσο μονολεκτικών όσο και

πολυλεκτικών όρων

απαιτούμενο: σώμα κειμένων

Page 11: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 11

Σύγχρονες Προσεγγίσεις (3)

Υβριδικά μοντέλα

• συνδυάζουν τα πλεονεκτήματα και των δύο

προσεγγίσεων: εξαγωγή υποψήφιων όρων βάσει γραμματικής όρων φιλτράρισμα βάσει στατιστικής πληροφορίας

Page 12: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 12

Περιγραφή της μεθόδου

•Εφαρμογή

– ενός συνόλου γλωσσικών κανόνων με στόχο την εξαγωγή υποψήφιων όρων

– στατιστικού φιλτραρίσματος

Page 13: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 13

Διάγραμμα ροής

Σώμακειμένων

Γραμματικήπροτύπων

Κατάλογος όρωνΓραμματικός

χαρακτηριστήςΛίστα όρων σε

κανονική μορφή

Λίστα υποψήφιων όρωνσε κανονική μορφή

Γραμματικόςχαρακτηριστής

Λημματοποιητής

Υπολογισμόςανάκτησης/ακρίβειας

(recall/precision)

Κανόνες της γραμματικήςπροτύπων

Μετατροπή σε πεπερασμένα αυτόματα

Επεξεργασία

Αξιολόγηση

Page 14: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 14

Το Σώμα κειμένων• Εγχειρίδια και ευρετήριο του HP-VUE της

Hewlett Packard (Ελληνική έκδοση)

• Μέγεθος: 90K λέξεις

• Στατιστικές πληροφορίες για τα κείμενα:Λεκτικοί τύποι 35.726Μοναδικές εμφανίσεις 4.512Λήμματα 2.588Λεξικές λέξεις 27.091

Page 15: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 15

Ελληνικό κείμενο εισόδου Êáëùóüñéóìá óôï HP VUE <S> #Ôï HP VUE åßíáé Ýíá êáôáîéùìÝíï ðåñéâÜëëïí ôï ïðïßï óáò äßíåé ôç äõíáôüôçôáíá xñçóéìïðïéÞóåôå ôïí õðïëïãéóôÞ óáò xùñßò íá ìÜèåôå ðåñßðëïêåò åíôïëÝò. <S>Ãéá íá ìÜèåôå ôï HP VUE, äéáëÝîôå Ýíá áðü ôïõò ðáñáêÜôù õðåñóõíäÝôås : <S>#Áí äå ãíùñßæåôå ðùò íá åðéëÝîåôå Ýíá õðåñóõíäÝôç, ðáôÞóôå ôï <N>F1</N> ãéá ïäçãßåò. <S>ÆùôéêÜ èÝìáôá ãéá íÝïõò xñÞóôåò <S> #Áí åßóáóôå íÝïò óôï HP VUE, áõôÜ åßíáé ôá èåìåëéþäç èÝìáôá ãéá íá áñ÷ßóåôå: <S> #Ãéá íá ëÜâåôå ïäçãßåò êáèþò åßóôå óå Ýíá ïðïéïäÞðïôå ðáñÜèõñï: ÐáôÞóôåôï F<N>1.</N> (ÄïêéìÜóôå ôï ôþñá ãéá íá ëÜâåôå ïäçãßåò óôçí xñçóéìïðïßçóç ôùí ðáñáèýñùí ïäçãéþí). <S>

Page 16: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 16

Αποτελέσματα μορφολογικού χαρακτηρισμού και λημματοποίησης 

ÃåíéêÞ ãåíéêüò AjBaFeSgNm Äéáìüñöùóç äéáìüñöùóç NoCmFeSgNm <s> <s> puncÔá ï AtNePlNmåðüìåíá åðüìåíïò AjBaNePlNm èÝìáôá èÝìá NoCmNePlNm ðáñÝxïõí ðáñÝxù Vb03PlFiIdPrIpAvðëçñïöïñßåò ðëçñïöïñßá NoCmFePlAcðïõ ðïõ Poäå äå PtOtóxåôßæïíôáé óxåôßæù Vb03PlFiIdPrIpPvìå ìå PpSp êÜðïéá êÜðïéïò PnId03FeSgAc óõãêåêñéìÝíç óõãêåêñéìÝíïò AjBaFeSgAcåöáñìïãÞ åöáñìïãÞ NoCmFeSgAc

Page 17: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 17

Αποτελέσματα εξαγωγής Ονοματικών Φράσεων (1)

Äéáìüñöùóç / [äéáìüñöùóç]ÃåíéêÞ Äéáìüñöùóç / [ãåíéêüò,äéáìüñöùóç] èÝìáôá / [èÝìá]åðüìåíá èÝìáôá / [åðüìåíïò,èÝìá]ðëçñïöïñßåò / [ðëçñïöïñßá]åöáñìïãÞ / [åöáñìïãÞ]óõãêåêñéìÝíç åöáñìïãÞ / [óõãêåêñéìÝíïò,åöáñìïãÞ]Åýñåóç / [åýñåóç]ÐñïâëçìÜôùí / [ðñüâëçìá]Åýñåóç ÐñïâëçìÜôùí / [åýñåóç,ðñüâëçìá]Äéáìüñöùóç / [äéáìüñöùóç]Ôåñìáôéêïý / [ôåñìáôéêü]Äéáìüñöùóç Ôåñìáôéêïý / [äéáìüñöùóç,ôåñìáôéêü]  

Page 18: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 18

Αποτελέσματα εξαγωγής Ονοματικών Φράσεων (2)

Ôáxõäñïìåßïõ / [ôáxõäñïìåßï]ÅðéìåëçôÞ / [åðéìåëçôÞò]ÊåéìÝíùí / [êåßìåíï]ÅðéìåëçôÞ ÊåéìÝíùí / [åðéìåëçôÞò,êåßìåíï]ÅêôõðùôÞ / [åêôõðùôÞò]ÅíÝñãåéåò / [åíÝñãåéá]Ôýðïé / [ôýðïò]Áñxåßùí / [áñxåßï]Ôýðïé Áñxåßùí / [ôýðïò,áñxåßï]ÌåôáâëçôÝò/ [ìåôáâëçôÞ]ÐåñéâÜëëïíôïò / [ðåñéâÜëëïí]ÌåôáâëçôÝò ÐåñéâÜëëïíôïò / [ìåôáâëçôÞ, ðåñéâÜëëïí]

Page 19: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 19

Χαρακτηρισμένο κείμενο εισόδου με εξαχθείσες ΟΦ

<ÃåíéêÞ <Äéáìüñöùóç>>Ôá <åðüìåíá <èÝìáôá>> ðáñÝxïõí <ðëçñïöïñßåò> ðïõ äå óxåôßæïíôáé ìå êÜðïéá <óõãêåêñéìÝíç <åöáñìïãÞ>> ôïõ HP VUE<<Åýñåóç> <ÐñïâëçìÜôùí>> <<Äéáìüñöùóç> <Ôåñìáôéêïý>>, <Ôáxõäñïìåßïõ>, <<ÅðéìåëçôÞ> <ÊåéìÝíùí>> êáé <ÅêôõðùôÞ> <ÅíÝñãåéåò> êáé <<Ôýðïé> <Áñxåßùí>> <<ÌåôáâëçôÝò> <ÐåñéâÜëëïíôïò>>Ãéá <âïÞèåéá> óå ìéá <éäéáßôåñç <åöáñìïãÞ>> HP VUE áíáæçôÞóôå <ïäçãßåò> ìÝóá áðü ôçí <åöáñìïãÞ>, Þ áíïßîôå ôéò <ïäçãßåò> xñçóéìïðïéþíôáò ôï <<ÄéáxåéñéóôÞ> <Ïäçãéþí>> áðü ôïí <<Êåíôñéêü <<Ðßíáêá>> <Åðéëïãþí>>>

Page 20: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 20

Δομές δεδομένων

A BA/catdet

C

B2/catadj,B2/genB1/gen, B2/numB1/num, B2/caseB1/case

C/catnoun, C/genB/gen,C/numB/num, C/caseB/case

Grammar rule ::- Det[Gen,Num,Case]?(Adj[Gen,Num,Case])* Noun[Gen,Num,Case]

? = optional, * = zero or more times

null

Page 21: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 21

Αποτελέσματα - Αξιολόγηση (1)

Ο έλεγχος και η αξιολόγηση έγινε με βάση τον κατάλογο όρων που περιείχε το εγχειρίδιο. Όροι στον κατάλογο

(εξαιρουμένων των μονολεκτικών): 204 Σύνολο εξαχθέντων ‘όρων’: 3.596

Σύνολο όρων που αναγνωρίστηκαν

σωστά: 130

Page 22: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 22

Αποτελέσματα - Αξιολόγηση (2)

Ποσοστό 17% δεν εντοπίστηκε εξαιτίας λαθών του λημματοποιητή και αγγλικών λέξεων στους όρους.

Ποσοστό 8,8% είναι όροι με περισσότερες από 3 λέξεις.

Η γενικότητα των κανόνων που λειτουργούν μόνο σε συντακτικό επίπεδο συντείνει στην εξαγωγή μεγάλου αριθμού όρων.

Page 23: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 23

Στατιστική αξιολόγηση

• Περαιτέρω επαλήθευση των εξαχθέντων όρων βάσει πινάκων συνεκδοχής.

• Χρησιμοποιήθηκαν 10 διαφορετικά σκορ αξιολόγησης δίλεκτων όρων, και τα αποτελέσματα μετρήθηκαν στους πρώτους 200 υποψήφιους όρους για κάθε σκορ.

• Δύο μετρήσεις ανάκλησης, μια σε σχέση με τους 134 δίλεκτους όρους του ευρετηρίου, και μια σε σχέση με τους 77 δίλεκτους όρους που αναγνωρίστηκαν από την γραμματική.

Page 24: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 24

Πίνακες συνεκδοχής (1) 

  wj wj', jj'

wi a b

wi', ii' c d 

a η συχνότητα των ζευγών που περιλαμβάνουν τόσο την wi όσο και την wj (αριθμός εμφανίσεων του

ζεύγους)

b η συχνότητα των ζευγών που περιλαμβάνουν την wi

και την wj' (αριθμός εμφανίσεων των ζευγών στα

οποία μία δεδομένη λέξη είναι το πρώτο συστατικό)

Page 25: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 25

Πίνακες συνεκδοχής (2)

c η συχνότητα των ζευγών που περιλαμβάνουν την wi'

και την wj, (αριθμός εμφανίσεων των ζευγών στα

οποία μία δεδομένη λέξη είναι το δεύτερο συστατικό)

d η συχνότητα των ζευγών που περιλαμβάνουν την wi'

και την wj’ (αριθμός εμφανίσεων των ζευγών στα

οποία καμία δεδομένη λέξη δεν αποτελεί συστατικό)

Page 26: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 26

Στατιστικό φιλτράρισμα (1) 

Fager and McGowan Coefficient (FAG)  

Cubic Association ratio (IM3)  

Log-likelihood (LLH)

 

bacaba

a

2

1

))((

))((log

3

2caba

a

)log()(

)log()()log()(

)log()()log()(

loglogloglog

dcbadcba

dcdcdbdb

cacababa

ddccbbaa

Page 27: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 27

Στατιστικό φιλτράρισμα (2)

NC Value

μια φόρμουλα που λαμβάνει υπόψη τόσο τον αριθμό εμφανίσεων όσο και την πληροφορία του περιβάλλοντος του υποψήφιου όρου, δηλ. ρήματα, επίθετα και ουσιαστικά που περιβάλλουν (συντάσσονται με) τους υποψήφιους όρους 

Page 28: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 28

ΑποτελέσματαBest-

performing Precision Recall (1) Recall (2)

NC-value 20% 30% 52%

Log-likelihood

18% 28% 48%

Fager and McGowan Coefficient

17%

26%

45%

Cubic Association ratio

14%

22%

38%

Page 29: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 29

Ολοκλήρωση σε υπολογιστικά λεξικά

• οι αυτόματα εξαγόμενοι ορολογικοί πόροι μπορούν να χρησιμοποιηθούν είτε ως έχουν σε μια εφαρμογή ανάκτησης πληροφορίας, είτε σε συνδυασμό με άλλους γλωσσικούς πόρους (γενικά υπολογιστικά λεξικά) σε εφαρμογές εξαγωγής πληροφορίας

• ο συνδυασμός με υπολογιστικά λεξικά απαιτεί την κωδικοποίηση πολυεπίπεδης γλωσσολογικής πληροφορίας

Page 30: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 30

Το μοντέλο ΛΕΞΙΣ (1)

• Υπολογιστικό λεξικό γενικής γλώσσας της Νέας Ελληνικής για συστήματα ΕΦΓ (60.000 εγγραφές [30.000 με συντακτική πληροφορία, 15.000 με σημασιολογική πληροφορία])

• Αρθρώνεται σε 3 επίπεδα (μορφολογικό, συντακτικό και σημασιολογικό επίπεδο)

• Βασίζεται στο λεξικό Parole/Simple (κοινές προδιαγραφές για 12 ευρωπαϊκές γλώσσες)

Page 31: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 31

Το μοντέλο ΛΕΞΙΣ (2)

MU

•κλιτικό παράδειγμα

•θέματα

•….

SynU

SynU

•συμπληρώματα (λειτουργία, μορφοσυντακτικές πραγματώσεις)

•εαυτός (μορφοσυντακτικοί περιορισμοί)

SynU

SemU

SemU

SemU

σημασιολογική πληροφορία

Page 32: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 32

Δείγμα της οντολογίας SIMPLE• LOCATION (3_D_Location, Opening, Building, Area,

Artifactual_area, Geopolitical_Location)• MATERIAL• ARTIFACT (Artifactual_material, Furniture, Clothing, Artwork,

Money, Container, Instrument, Vehicle, Semiotic_artifact)• FOOD (Artifact_food, Flavouring)• PHYSICAL_OBJECT• ORGANIC_OBJECT• LIVING_ENTITY

– Animal (Earth_animal, Air_animal, Water_animal)– Human (Profession, People, Role [Ideo, Kinship, Social_Status],

Agent_of_temporary_activity, Agent_of_persistent_activity)– Vegetal_entity (Plant, Flower, Fruit)– Micro_organism

• SUBSTANCE

Page 33: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 33

Σημασιολογικό επίπεδο - Ρόλοι Qualia

• Formal– isa

• Constitutive– made_of, has_as_part, habitat, dimension, …

• Agentive– created_by, derived_from, source, …

• Telic– used_for, used_as, purpose, …

Page 34: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 34

Παράδειγμα της εγγραφής “πολυθρόνα”FurnitureS. type

used_for (πολυθρόνα, κάθομαι)Telic

created_by (πολυθρόνα, κατασκευάζω)Agentive

made_of (πολυθρόνα, ξύλο)

made_of (πολυθρόνα, ύφασμα)

has_as_part (πολυθρόνα, μπράτσο)

has_as_part (πολυθρόνα, πλάτη)Constitutive

isa (πολυθρόνα, έπιπλο)Formal

Page 35: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 35

Σημασιολογικό επίπεδο – Δομή κατηγορήματος

SemU = χτίζω1

Predicate = χτίζω

Type_of_link = master

Correspondence = ISObivalent

Arg1={SemRole = ProtoAgent, SelPref =

[Human]}

Arg2={SemRole =ProtoPatient, SelPref

=[Building]}

Page 36: Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

9-10.03.2001 Διημερίδα Ανθρωπίνου Δικτύου Πολιτισμικής Πληροφορικής

Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ) 36

Τρέχουσα εργασία

• Χρήση συχνότητας υποψήφιων όρων σε σώμα κειμένων αναφοράς (TFIDF scoring - Salton)

• Χρήση συντακτικής πληροφορίας(π.χ. κεφαλές ονοματικών φράσεων)

• Επέκταση του υπάρχοντος μηχανισμού με γλωσσικές πράξεις πάνω στους όρους [σύνθεση (composition), παράθεση (juxtaposition), σύζευξη (coordination)]