Download - Ψηφιακή Βιβλιοθήκη Ιστορικών Εγγράφων

Transcript

http://www.ics.forth.gr/isl

ΚΕΝΤΡΟ ΠΟΛΙΤΙΣΜΙΚΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣIΔΡΥΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΡΕΥΝΑΣ IΝΣΤΙΤΟΥΤΟ ΠΛΗΡΟΦΟΡΙΚΗΣ

Ψηφιακή Βιβλιοθήκη Ιστορικών Εγγράφων

Martin Doerr, Μαρία Θεοδωρίδου, Αναστασία Αξαρίδου, Γιώργος Μαρκάκης

Κέντρο Πολιτισμικής Πληροφορικής

http://www.ics.forth.gr/isl

ΚΕΝΤΡΟ ΠΟΛΙΤΙΣΜΙΚΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣIΔΡΥΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΡΕΥΝΑΣ IΝΣΤΙΤΟΥΤΟ ΠΛΗΡΟΦΟΡΙΚΗΣ

Έργο: Ψηφιακή Βιβλιοθήκη Ιστορικών Εγγράφων Υποέργο: Τεκμηρίωση και προβολή αρχειακού υλικού

Στόχος:• Αποτελεσματική πρόσβαση στις πρωτoγενείς πηγές• Αποδοτική διαχείριση μεγάλου όγκου αρχειακού υλικού Αναπτύχθηκε σύστημα για τεκμηρίωση, διάδοση και διάχυσητου ψηφιοποιημένου συνόλου του Αρχειακού Υλικού της ΒΔΒ

– ηλεκτρονική τεκμηρίωση και θεματική ταξινόμηση ιστορικών εγγράφων

– καταγραφή των στοιχείων αρχειακού καταλόγου των εγγράφων– δικτυακός τόπος πληροφόρησης

• Χρηματοδότηση: ΕΠ «Κοινωνία της Πληροφορίας»

http://www.ics.forth.gr/isl

ΚΕΝΤΡΟ ΠΟΛΙΤΙΣΜΙΚΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣIΔΡΥΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΡΕΥΝΑΣ IΝΣΤΙΤΟΥΤΟ ΠΛΗΡΟΦΟΡΙΚΗΣ

Καινοτόμα χαρακτηριστικά• τεκμηρίωση και αναζήτηση του περιεχομένου εγγράφων σε

επίπεδο θέματος/άρθρου

• τεκμηρίωση και αναζήτηση βάσει CIDOC-CRM (ISO 21127:2006) συμβατών μεταδεδομένων

• αρχειακός κατάλογος βάσει EAD (Encoded Archival Description)

• Ενσωματωμένο σύστημα διαχείρισης θησαυρών όρων

• εργονομική βελτιστοποίηση τεκμηρίωσης και αναζήτησης εγγράφου, με δενδρική αναπαράσταση θησαυρών όρων για την ευκολότερη συμπλήρωση πεδίων μεταδεδομένων

http://www.ics.forth.gr/isl

ΚΕΝΤΡΟ ΠΟΛΙΤΙΣΜΙΚΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣIΔΡΥΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΡΕΥΝΑΣ IΝΣΤΙΤΟΥΤΟ ΠΛΗΡΟΦΟΡΙΚΗΣ

Καινοτόμα χαρακτηριστικά

• Οπτική Αναγνώρισης Χαρακτήρων (OCR)

• Αποθήκευση, διαχείριση και αναζήτηση των ψηφιακών εγγράφων και του αντίστοιχου κειμένου

• Αναζήτηση βάσει αποτελεσμάτων Οπτικής Αναγνώρισης Χαρακτήρων (OCR) σε ψηφιοποιημένα έγγραφα

• Διαδικτυακός μηχανισμός τεκμηρίωσης, αναζήτησης και προβολής θεμάτων / άρθρων και εγγράφων

http://www.ics.forth.gr/isl

ΚΕΝΤΡΟ ΠΟΛΙΤΙΣΜΙΚΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣIΔΡΥΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΡΕΥΝΑΣ IΝΣΤΙΤΟΥΤΟ ΠΛΗΡΟΦΟΡΙΚΗΣ

Συνήθης πρακτική τεκμηρίωσης, αναζήτησηςσε επίπεδο τεύχους

Ημερομηνία, Έκδοση, Αρ. Τεύχους, Τίτλοι άρθρων,Δράστες, Τοποθεσίες, Γεγονότα

Μεταδεδομένασελίδας/τεύχους

http://www.ics.forth.gr/isl

ΚΕΝΤΡΟ ΠΟΛΙΤΙΣΜΙΚΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣIΔΡΥΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΡΕΥΝΑΣ IΝΣΤΙΤΟΥΤΟ ΠΛΗΡΟΦΟΡΙΚΗΣ

Καινοτομία: τεκμηρίωση εγγράφου σε επίπεδο άρθρου/θέματος

Μεταδεδομένα τμήματος:Τίτλοι άρθρωνΕνέργειεςΔράστεςΤοποθεσίεςΓεγονότα

+ Πλήρες Κείμενο (μέσω OCR)

http://www.ics.forth.gr/isl

ΚΕΝΤΡΟ ΠΟΛΙΤΙΣΜΙΚΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣIΔΡΥΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΡΕΥΝΑΣ IΝΣΤΙΤΟΥΤΟ ΠΛΗΡΟΦΟΡΙΚΗΣ

Τεχνολογίες Αιχμής και Διεθνή Πρότυπα• CIDOC-CRM (ISO 21127:2006) • Αρχειακό πρότυπο EAD• Τεχνολογίες ανοικτού κώδικα

– Μηχανισμός αποθήκευσης Fedora Digital Library System– SVG, Ajax

• Παραμετροποίηση – Μονάδα τεκμηρίωσης: Τεύχος, Άρθρο, Θέμα– Μεταδεδομένα Τεκμηρίωσης: Τίτλος, Δράστες, Αντικείμενα, Θέμα– Θησαυροί Όρων– Διεπαφή Χρήσης: Λογότυπο, Χρώματα, Γραμματοσειρές

• Πλήρως Web based Interface (διαδικτυακή διεπαφή)• Έξυπνος μηχανισμός αποθήκευσης και προβολής δεδομένων• Μηχανισμός τοπικής αποθήκευσης για την αποφυγή απώλειας

δεδομένων

http://www.ics.forth.gr/isl

ΚΕΝΤΡΟ ΠΟΛΙΤΙΣΜΙΚΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣIΔΡΥΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΡΕΥΝΑΣ IΝΣΤΙΤΟΥΤΟ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΔΙΑΘΕΣΙΣ: Σύστημα Τεκμηρίωσης, Διαχείρισης και Διάθεσης Ψηφιακών Εγγράφων

ΒΙΚΕΛΑΙΑ ΔΗΜΟΤΙΚΗ ΒΙΒΛΙΟΘΗΚΗ ΗΡΑΚΛΕΙΟΥΨηφιακή Βιβλιοθήκη Ιστορικών Εγγράφων

ΙΣΤΟΡΙΚΑ ΑΡΧΕΙΑ

Τούρκικο Αρχείο Ηρακλείου Αρχείο Δημογεροντίας Αρχείο Εφημερίδων και Περιοδικών

Ψηφιοποιημένο υλικό ~500.000 σελίδεςΤεκμηριωμένα θέματα ~20.0002500 εφημερίδες, ~8 θέματα/εφημερίδα, ~5 θέματα/ώρα

http://www.ics.forth.gr/isl

ΚΕΝΤΡΟ ΠΟΛΙΤΙΣΜΙΚΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣIΔΡΥΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΡΕΥΝΑΣ IΝΣΤΙΤΟΥΤΟ ΠΛΗΡΟΦΟΡΙΚΗΣ

Σύστημα Μαζικής Εισαγωγής Δεδομένων

ΣύστημαΤεκμηρίωσης

Εγγράφων

Σύστημα Αναζήτησης & Προβολής

Ψηφιακή Ψηφιακή ΒιβλιοθήκηΒιβλιοθήκη

Οπτική Αναγνώριση Χαρακτήρων

Αρχεία κειμένου(XML)

Αρχεία εικόνων πρωτότυπα προβολής

Ψηφιοποίηση εγγράφων

http://www.ics.forth.gr/isl

ΚΕΝΤΡΟ ΠΟΛΙΤΙΣΜΙΚΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣIΔΡΥΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΡΕΥΝΑΣ IΝΣΤΙΤΟΥΤΟ ΠΛΗΡΟΦΟΡΙΚΗΣ

Διεθνείς Δημοσιεύσεις του Συστήματος

• DIATHESIS: OCR based semantic annotation of newspapers, Martin Doerr, Georgios Markakis, Maria Theodoridou, Minas Tsikritzis, SEEDI International Conference: Digitization of cultural and scientific heritage, September 13-15, 2007, Cetinje, Montenegro

• Digital Library of Historical Newspapers, by Martin Doerr, Georgios Markakis, Maria Theodoridou ERCIM News No. 66, July 2006

http://www.ics.forth.gr/isl

ΚΕΝΤΡΟ ΠΟΛΙΤΙΣΜΙΚΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣIΔΡΥΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΡΕΥΝΑΣ IΝΣΤΙΤΟΥΤΟ ΠΛΗΡΟΦΟΡΙΚΗΣ

Συμπεράσματα

• Καινοτόμος συνδυασμός των καλύτερων μηχανισμών πρόσβασης

• Κάλυψη μεγάλου όγκου δεδομένων

• Εφικτή η χειρωνακτική τεκμηρίωση

• Εργονομική βελτιστοποίηση