Δημήτρης Ρουσίδης - drousid@gmail , Εμμανουήλ Γαρουφάλλου - ...

18
Ένα εργαλείο σε Java για την ανάκτηση πληροφοριών και τον εντοπισμό ομοιοτήτων σε ακαδημαϊκές εκδόσεις με τη χρήση τεχνικών εξόρυξης δεδομένων Δημήτρης Ρουσίδης - [email protected], Εμμανουήλ Γαρουφάλλου - [email protected] Πάνος Μπαλατσούκας - [email protected]

description

Ένα εργαλείο σε Java για την ανάκτηση πληροφοριών και τον εντοπισμό ομοιοτήτων σε ακαδημαϊκές εκδόσεις με τη χρήση τεχνικών εξόρυξης δεδομένων. Δημήτρης Ρουσίδης - [email protected] , Εμμανουήλ Γαρουφάλλου - [email protected] Πάνος Μπαλατσούκας - [email protected]. Κύρια Σημεία. - PowerPoint PPT Presentation

Transcript of Δημήτρης Ρουσίδης - drousid@gmail , Εμμανουήλ Γαρουφάλλου - ...

Page 1: Δημήτρης Ρουσίδης  -  drousid@gmail ,  Εμμανουήλ Γαρουφάλλου  -  mgarou@libd.teithe.gr

Ένα εργαλείο σε Java για την ανάκτηση πληροφοριών και τον

εντοπισμό ομοιοτήτων σε ακαδημαϊκές εκδόσεις με τη χρήση τεχνικών εξόρυξης

δεδομένων

Δημήτρης Ρουσίδης - [email protected], Εμμανουήλ Γαρουφάλλου - [email protected]

Πάνος Μπαλατσούκας - [email protected]

Page 2: Δημήτρης Ρουσίδης  -  drousid@gmail ,  Εμμανουήλ Γαρουφάλλου  -  mgarou@libd.teithe.gr

2

Κύρια Σημεία

• Δεδομένα – Στατιστικά – Μελέτες Περίπτωσης που οδήγησαν στη δημιουργία του εργαλείου

• Σκοπός-Στόχοι Εργαλείου• Κύρια Χαρακτηριστικά - Μεθοδολογία

Page 3: Δημήτρης Ρουσίδης  -  drousid@gmail ,  Εμμανουήλ Γαρουφάλλου  -  mgarou@libd.teithe.gr

3

Δεδομένα για τις ακαδημαϊκές εκδόσεις

• Αριθμός peer-reviewed άρθρων (2010) = 2,5 εκατ.

• Συνολικός αριθμός δημοσιευμένων άρθρων σε περιοδικά μέχρι το 2009 = 50 εκατ.

• Πλούτος γνώσης• Οι χρήστες χρησιμοποιούν διαφορετικά

κριτήρια για να αξιολογήσουν τη συνάφεια ενός άρθρου πέρα από τα κριτήρια που περιλαμβάνουν λέξεις κλειδιά (keywords) σε κάποιο ερώτημα (query)

• Δεν είναι πάντα δυνατή η αξιολόγηση όλων των σχετικών πληροφοριών

Page 4: Δημήτρης Ρουσίδης  -  drousid@gmail ,  Εμμανουήλ Γαρουφάλλου  -  mgarou@libd.teithe.gr

4

Στατιστικά

• 144.000 πλήρους απασχόλησης επαγγελματίες στον ακαδημαϊκό χώρο

• 10-15 εκατ. το αναγνωστικό κοινό των περιοδικών• 5,5 εκατ. ερευνητές• Συνολικό κόστος διεξαγωγής και κοινοποίησης της

έρευνας που δημοσιεύεται σε περιοδικά 219,3 δισ. €– 145,4 δισ. € για την έρευνα– 31,3 δισ. € για τη δημοσίευση, διανομή και πρόσβαση– 42,6 δισ. € για την ανάγνωση των άρθρων

• Έρευνα JISC 2011: Τρομερά οφέλη από την εφαρμογή εξόρυξης κειμένου σε ακαδημαϊκές εκδόσεις

Page 5: Δημήτρης Ρουσίδης  -  drousid@gmail ,  Εμμανουήλ Γαρουφάλλου  -  mgarou@libd.teithe.gr

5

Μελέτες Περίπτωσης Στατιστικών

• Αυτοματοποιημένη περίληψη που να υποστηρίζει την ανασκόπηση βιβλιογραφίας– Χρόνος ανάγνωσης και σύνοψης περιεχομένου ενός

ακαδ. άρθρου = 31 λεπτά– Χρόνος για να διαβαστεί μια αυτοματοποιημένη

περίληψη = 5 λεπτά– Χρόνος που εξοικονομείται 26 λεπτά– Εξοικονόμηση κόστους ανά περίληψη = 15,8 €

• 131 εργαλεία εξόρυξης κειμένου στο SciVerse– 22 χρησιμοποιούν association rules, classification ή

clustering– 12 από αυτά αναφέρονται σε ακαδημαϊκές εκδόσεις– 5 επικεντρώνονται μόνο στους συγγραφείς– 2 μόνο βρίσκουν ομοιότητες αλλά χρησιμοποιούν

ελάχιστα μεταδεδομένα

Page 6: Δημήτρης Ρουσίδης  -  drousid@gmail ,  Εμμανουήλ Γαρουφάλλου  -  mgarou@libd.teithe.gr

6

Μελέτη Περίπτωσης Αναζήτησης

• Αναζήτηση στο Google για το θέμα «Συμπεριφορά αναζήτησης πληροφοριών»

• 7 εκ. σελίδες – 700 χιλ. Pdf• Συνήθης τακτική: download από τις πρώτες

σελίδες αποτελεσμάτων• Λόγοι: Περιορισμοί στη λήψη αποφάσεων –

έλλειψη γνωστικής προσπάθειας στην ανάπτυξη ερωτημάτων μέσω κριτηρίων

• Συμπέρασμα: Η διαδικασία της αξιολόγησης ανακτώμενων εγγράφων στα πλαίσια των διερευνητικών αναζητήσεων είναι απαιτητική τόσο από πλευράς χρόνου όσο και γνωστικής προσπάθειας που ξοδεύεται

Page 7: Δημήτρης Ρουσίδης  -  drousid@gmail ,  Εμμανουήλ Γαρουφάλλου  -  mgarou@libd.teithe.gr

7

Σκοπός-Στόχοι Εργαλείου

• Υποστήριξη και βελτιστοποίηση της διαδικασίας λήψης αποφάσεων των χρηστών

• Μείωση χρόνου που ξοδεύεται για την σύγκριση και ανακάλυψη ομοιότητας μεταξύ ακαδημαϊκών άρθρων

• Διευκόλυνση στη κρίση για τη χρησιμότητα ανάγνωσης συγκεκριμένων ακαδημαϊκών άρθρων

• Κατανόηση του περιεχομένου ενός επιλεγμένου συνόλου εκδόσεων

• Συμπληρωματικό (plug-in) στα IR συστήματα, μηχανές αναζήτησης και όχι υποκατάστατο

Page 8: Δημήτρης Ρουσίδης  -  drousid@gmail ,  Εμμανουήλ Γαρουφάλλου  -  mgarou@libd.teithe.gr

8

Κύρια Χαρακτηριστικά Εργαλείου

• Προτείνεται ένα εργαλείο σε Java (στο στάδιο υλοποίησης):– Αυτοματοποιημένο – Αγγλική Γλώσσα– Θα εντοπίζει σημασιολογικές ομοιότητες μεταξύ

ανακτώμενων συγγραμμάτων μέσω συμβατικών και μη κριτηρίων (π.χ. Μέθοδοι έρευνας και τεχνικές ανάλυσης αποτελεσμάτων)

– Μέσω συνδυασμών μεταδεδομένων θα ανακαλύπτει και θα οπτικοποιεί

• Κρυμμένα μοτίβα• Κανόνες σχέσεις (association rules) – π.χ. 80% των άρθρων του

συγγραφέα Χ περιέχουν την λέξη Υ στις λέξεις-κλειδιά• Κατηγοριοποίηση (classification)• Συσταδοποίηση (clustering) – Οπτικοποίηση ομαδοποίησης

εγγράφων απάντησης D ενός ερωτήματος q του χρήστη – Θα δημιουργεί μια βάση ορολογιών μέσω ανάλυσης

ευρετηρίων από e-books– Προβλέπεται ενσωμάτωση σε υπάρχοντα εργαλεία και

μηχανές εργαλείων ακαδημαϊκών εκδόσεων

Page 9: Δημήτρης Ρουσίδης  -  drousid@gmail ,  Εμμανουήλ Γαρουφάλλου  -  mgarou@libd.teithe.gr

9

Μεθοδολογία Εργαλείου

• Γραμμένο σε Java (Write Once, Run Anywhere)

• Desktop application με σκοπό την ενσωμάτωση σε ακαδημαϊκά αποθετήρια, ακαδημαϊκές ψηφιακές βιβλιοθήκες και μηχανές αναζήτησης

• Μεταφόρτωση αρχείων κειμένου και μετατροπή σε .xml

• Δημιουργία πινάκων μεταδεδομένων• Επιλογή και ανάθεση κριτηρίων ομοιότητας

Page 10: Δημήτρης Ρουσίδης  -  drousid@gmail ,  Εμμανουήλ Γαρουφάλλου  -  mgarou@libd.teithe.gr

10

Πίνακες Μεταδεδομένων

• Μεταδεδομένα:– Άρθρου– Λέξεων – Κλειδιά– Περίληψης– Κυρίου Σώματος– Συγγραφέων– Αναφορών

• Η συντριπτική πλειοψηφία θα εισάγονται αυτοματοποιημένα και ορισμένα manually

Page 11: Δημήτρης Ρουσίδης  -  drousid@gmail ,  Εμμανουήλ Γαρουφάλλου  -  mgarou@libd.teithe.gr

11

Δομή Πινάκων Μεταδεδομένων

Page 12: Δημήτρης Ρουσίδης  -  drousid@gmail ,  Εμμανουήλ Γαρουφάλλου  -  mgarou@libd.teithe.gr

12

Κριτήρια Ομοιότητας

• Άρθρο πηγή (υψίστης χρησιμότητας για τον χρήστη)• Τιμές με ένα δεκαδικό μεταξύ 0 και 1• Αυτόματη Εισαγωγή (προεπιλεγμένη από τον

προγραμματιστή)• Εισαγωγή από το χρήστη

• Ημιαυτόματη Εισαγωγή (μέσω scroll bars)

Page 13: Δημήτρης Ρουσίδης  -  drousid@gmail ,  Εμμανουήλ Γαρουφάλλου  -  mgarou@libd.teithe.gr

Αλγόριθμοι Ομοιότητας & Εξόρυξης Δεδομένων

• Αρχικός Αλγόριθμος:

• όπου: Wi = η βαρύτητα, N = ο αριθμός των άρθρων στη βάση δεδομένων και Xij = ο αριθμός όλων των άρθρων (j) που μοιράζονται μια κοινή τιμή μεταδεδομένου με το άρθρο «πηγή»

• Μελέτη αλγόριθμων εξόρυξης δεδομένων όπως C4.5, K-Means, SVM: Support Vector Machines, EM, PageRank, AdaBoost, k-Nearest Neighbors, Naïve Bayes and CART

Page 14: Δημήτρης Ρουσίδης  -  drousid@gmail ,  Εμμανουήλ Γαρουφάλλου  -  mgarou@libd.teithe.gr

14

Ροή Εργασίας Μεταδεδομένων

Page 15: Δημήτρης Ρουσίδης  -  drousid@gmail ,  Εμμανουήλ Γαρουφάλλου  -  mgarou@libd.teithe.gr

15

Προσδιορισμός Μεθοδολογιών Ακαδημαϊκών Άρθρων

• Αποθετήριο γλωσσάριων και υπο-γλωσσάριων – Δημιουργία μέσω ευρετηρίων e-books

• Δενδροειδής μορφή• Χρήση των labels και headers της .xml• Ανίχνευση της μεθοδολογίας μέσω

αντιστοίχησης των λέξεων του άρθρου με τα γλωσσάρια

Page 16: Δημήτρης Ρουσίδης  -  drousid@gmail ,  Εμμανουήλ Γαρουφάλλου  -  mgarou@libd.teithe.gr

16

Δοκιμή & Αξιολόγηση

• Μερικές δεκάδες χιλιάδες ακαδημαϊκά άρθρα, περιοδικά, πρακτικά, e-books.

• Πηγές: open access ηλεκτρονικές βιβλιοθήκες, καταλόγους, βάσεις δεδομένων διατριβών, πανεπιστημιακές βιβλιοθήκες και ακαδημαϊκές προσωπικές συλλογές

• Αξιολόγηση μέσω τεστ χρηστικότητας και μελετών χρηστών από φοιτητές, πανεπιστημιακούς και ειδικούς

Page 17: Δημήτρης Ρουσίδης  -  drousid@gmail ,  Εμμανουήλ Γαρουφάλλου  -  mgarou@libd.teithe.gr

17

Συμπεράσματα – Τρέχουσα Εργασία

• Εφαρμογή data mining και text mining τεχνικών προκειμένου να αποκαλυφθούν ομοιότητες μεταξύ ακαδημαϊκών συγγραμμάτων

• Επιλογή πληθώρας κριτηρίων• Δημιουργία γλωσσαρίων• Έρευνα και υλοποίηση σε εξέλιξη• Προσπάθεια για αυτόματη τροφοδότηση

άρθρων μέσω Web

Page 18: Δημήτρης Ρουσίδης  -  drousid@gmail ,  Εμμανουήλ Γαρουφάλλου  -  mgarou@libd.teithe.gr

Ένα εργαλείο σε Java για την ανάκτηση πληροφοριών και τον

εντοπισμό ομοιοτήτων σε ακαδημαϊκές εκδόσεις με τη χρήση τεχνικών εξόρυξης

δεδομένων

Δημήτρης Ρουσίδης - [email protected], Εμμανουήλ Γαρουφάλλου - [email protected]

Πάνος Μπαλατσούκας - [email protected]