ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ
description
Transcript of ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ
ΘΕΜΑ:
Πολυγλωσσικές & Πολυπολιτισμικές
Ψηφιακές Βιβλιοθήκες
Τι περιλαμβάνει το θέμα; Γενικά ζητήματα του πολιτισμού και της γλώσσας
Μετάβαση από τοπικά σε παγκόσμια συστήματα & οι σχεδιαστικές προκλήσεις τους
Πολυγλωσσική ανάκτηση πληροφοριών (CLIR)
Τεχνικά ζητήματα (σετ χαρακτήρων γλωσσών- μονογλωσσικά & πολυγλωσσικά)
Τρέχουσες χρήσεις & προσεγγίσεις στο διεθνή & ελληνικό χώρο
Περιορισμοί του σήμερα
Κριτική & σχόλια
Σημαντικές πηγές, προσπάθειες και θέματα
Ερωτήματα και προβληματισμοί
Πώς εντάσσεται το θέμα στην ενότητα; Ψηφιακές Βιβλιοθήκες (DLs) προσβάσιμες μέσω WWW χωρίς εθνικά όρια και
σύνορα
Αποτελεσματικότερη ανταλλαγή δεδομένων και επικοινωνία
Διεθνής βιβλιοθηκονομική κοινότητα
Κατάργηση αποκλεισμών ή περιορισμών πρόσβασης στη γνώση
Επιβίωση μη κυρίαρχων (non-dominant) γλωσσών και των ψηφιακών βιβλιοθηκών που διαθέτουν υλικό σε αυτές
Γιατί είναι σημαντικό ως θέμα; Ως τώρα, προσπάθειες επικεντρωμένες σε μονογλωσσικές ψηφιακές
βιβλιοθήκες
Δεσπόζουσα γλώσσα η Αγγλική
Επιτακτική ανάγκη για διαλειτουργικότητα, φορητότητα και ανταλλαγή δεδομένων
Ανάπτυξη πληροφοριακής υποδομής και προτύπων
Ενημέρωση επιστημόνων της πληροφόρησης, σχεδιαστών και ειδικών στις τεχνολογίες επικοινωνίας
Στατιστικά Στοιχεία Οι on-line γλώσσες που χρησιμοποιούνται για τη διάχυση γνώσης
στο WWW έχουν ως εξής:
1. Αγγλική: 40.2%2. Κινεζική: 9.8%3. Γιαπωνέζικη: 9.2%4. Ισπανική: 7.2%
Αν θέλαμε να μεταφράσουμε τις 400.000.000 μη Αγγλικές σελίδες του WWW θα χρειάζονταν 100.000 ημέρες ( 300 χρόνια) σε ένα πολύ γρήγορο Η/Υ. Ή αλλιώς 1 μήνα σε 3.600 Η/Υ.
Οι χρήστες του Internet που δεν μιλούν Αγγλικά:2003: 54%2005: 59%
Η 1η διδακτορική διατριβή πολυγλωσσικής ανάκτησης πληροφοριών: 1994 του Khaled Radwan
Πολιτισμός και Γλώσσα Πλούτος ανθρώπινης επικοινωνίας (προφορική, γραπτή,
μεταφράσεις)
Ιδιαίτεροι τρόποι έκφρασης
Πολύπλοκη η αναζήτηση & ανάκτηση πληροφοριών
Ακριβείς αναπαραστάσεις
Ελάχιστες αλλοιώσεις των προθέσεων του δημιουργού
Εναρμόνιση των αναγκών και εκφράσεων των δημιουργών και των χρηστών της πληροφορίας
Ορολογία Πολυγλωσσικών Ψηφιακών Βιβλιοθηκών Internationalization: παγκόσμια επικοινωνία ανεξαρτήτως γλώσσας
Localization: προσαρμογή στις τοπικές ανάγκες
Multilingual Digital Library: πολυγλωσσική ψηφιακή βιβλιοθήκη
Multilingual Document: πολυγλωσσικό τεκμήριο
Cross-Language Information Retrieval (CLIR): πολυγλωσσική ανάκτηση πληροφοριών
Transliteration (TL): μεταγραφή
Large Passive Vocabulary: η 2η γλώσσα που μπορούν να διαβάζουν οι χρήστες≠Small active vocabulary
Από τοπικά συστήματα σε παγκόσμιαΤΟΠΙΚΑ ΣΥΣΤΗΜΑΤΑ: Εύκολα για σχεδιασμό Προορισμένα για συγκεκριμένες εφαρμογές & κοινότητες χρηστών
ΠΑΓΚΟΣΜΙΑ ΣΥΣΤΗΜΑΤΑ: Ανοικτά συστήματα Εξυπηρετούν απομακρυσμένους πληθυσμούς & πολλές τοπικές
γλώσσες (minority languages)
ΠΑΡΑΔΕΙΓΜΑΤΑ: Ψηφιακές Βιβλιοθήκες Πανεπιστημίων Εταιρικά sites Επιστημονικές βάσεις δεδομένων
Σχεδιαστικές ΠροκλήσειςΣτα τοπικά συστήματα:
Προσαρμογή:
Διεπιφάνειας χρήστη (GUI)
Παράμετροι εισόδου (input) & εξόδου (output)
Πληκτρολόγια, οθόνες, εκτυπωτές, γραμματοσειρά
Σχεδιαστικές ΠροκλήσειςΣτα Παγκόσμια συστήματα:
Απίστευτη ποικιλία υλικού & λογισμικού
Ποικιλία συστημάτων κωδικοποίησης χαρακτήρων
Λιγότερος έλεγχος από τους σχεδιαστές
Σχεδιαστικές προδιαγραφές (trade-offs)
Διλήμματα
Πολυγλωσσική Ανάκτηση Πληροφοριών (Cross-Language Information Retrieval: CLIR) Ανερχόμενος και αναπτυσσόμενος κλάδος (http://www.clis.umd.edu/dlrg/clir)
3 προσεγγίσεις:
Μετάφραση κειμένου μέσω μηχανών μετάφρασης (Machine Translation-MT): μη υψηλά αποτελέσματα και ακριβή σε κόστος
Τεχνικές βασισμένες στη γνώση (λεξικά- MRD: machine readable dictionaries,πολυγλωσσικοί θησαυροί): δόμηση & διατήρηση ακριβή, υψηλή εκπαίδευση
Χρήση οντολογιών (EuroWordNet project- http://www.illc.uva.nl/EuroWordNet) : δύσκολες στην ενημέρωση, ακριβή δόμηση
Μεταγραφή (Transliteration) Αντιστοιχεί χαρακτήρες από μια γλώσσα σε άλλη
Δεν μεταφράζει νοήματα
Απώλεια αξιοσημείωτων δεδομένων (π.χ. Mao Tse-tung έναντι Mao Zedong στα Κινέζικα)
Παράλειψη διακριτικών σημείων-γνωρισμάτων (accents, διαλυτικά, κ.ά.)
Μη ολοκληρωμένες μορφές λέξεων
Ανέφικτη η αντιστοίχιση & το ταίριασμα λέξεων
Μονογλωσσικά, πολυγλωσσικά & παγκόσμια σετ χαρακτήρωνΜονογλωσσικά (ASCII, ALA) - Παγκόσμια (Unicode)
HTTP 1.1, HTML 2.0
Universal Character Set (UCS) του ISO 10646:1993
Unicode
Συγχώνευση του Unicode με το ISO 10646
Unicode 4.0 (15η έκδοση)
Κωδικοποιεί αλφάβητα (χαρακτήρες), όχι γλώσσες Ένας μοναδικός αριθμός για κάθε χαρακτήρα Ανεξάρτητο από λειτουργικά συστήματα, λογισμικά &
γλώσσες Απαιτεί 16 bits δηλ. >65.000 χαρακτήρες Κύριες γλώσσες Αμερικής, Ευρώπης, Μέσης Ανατολής,
Αφρικής, Ινδίας, Ασίας Ελληνικό αλφάβητο: U+0370-U+03FF Υψηλότερες απαιτήσεις- Χρόνοι μετάδοσης Υιοθέτηση & υποστήριξη από κορυφαίους παράγοντες
(IBM, Oracle, κ.ά.)
Τρέχουσες Εφαρμογές-Διεθνής Χώρος Πολυγλωσσικές ψηφιακές βιβλιοθήκες: 1960
Ενεργή συμμετοχή Ευρώπης & Ασίας
OCLC (www.oclc.org): Σετ χαρακτήρων της ALA
Βιβλιοθήκη Κογκρέσσου (www.loc.gov) & RLIN (http://www.rlg.org/rlin.html): πρωτότυπη καταλογογράφηση & κωδικοποίηση μη Ρωμαϊκών αλφαβήτων
Υποστήριξη Unicode (Ευρωπαϊκή Ένωση)
Ερευνητικά έργα φορέων, όπως: IFLA, Mellon Foundation, κ.ά.
Τρέχουσες Εφαρμογές-Ελλάδα Πρότυπο ISO 843:1997 της επιτροπής ISO/TC46/SC2 για τη
μεταγραφή των Ελληνικών χαρακτήρων σε Λατινικούς
Working Group 5 της ISO/TC46/SC2για μεταγραφή Ελληνικών
HELEN Project (1993-1995): προβλήματα μεταγραφής των Ελληνικών στις βιβλιογραφικές εγγραφές
Περιορισμοί & Όρια Μαζικός όγκος κειμένων
Ποικιλία λογισμικού & υλικού (έλλειψη διαλειτουργικότητας)
Κάθε ψηφιακή βιβλιοθήκη= ξεχωριστές εφαρμογές, εργαλεία, αρχιτεκτονική, χρήστες, γλώσσα & πολιτισμό
Έλλειψη προτυποποίησης
Κριτική και Σχόλια Ενημέρωση ευρύτερου κοινού - Πρωτοβουλίες
Εκπαίδευση & εμπειρία επί του αντικειμένου
Εμφάνιση νέων προκλήσεων (πολυγλωσσική ανάκτηση λόγου και ομιλίας)
Τελική επιδίωξη: παγκόσμια (global) ψηφιακή βιβλιοθήκη
Σημαντικές Πηγές CLEF (Cross-Language Evaluation Forum-
http://www.clef-campaign.org) TREC (Text Retrieval Conference- http://trec.nist.gov) NTCIR (NII-NACSIS Test Collection for IR Systems – http://reserach/
nii.ac.jp/ntcir/) ELRA (Evaluations and Languages Resources Distribution
Association): http://www.elra.info
Ερευνητικά προγράμματα: HLT Central: Human Language Technologies on the Web (European
Commission) (http://www.elra.info) TIDES: Transligual Information Detection, Extraction and
Summarization (DARPA) (http://www.darpa.mil/iao/TIDES.htm)
Ερωτήματα & Προβληματισμοί Όλες οι προαναφερόμενες τεχνικές βρίσκονται σε
πειραματικό στάδιο Συνεκδοχικά, ποιος ο ρυθμός υιοθέτησης καθολικά
αποδεκτών & εφαρμόσιμων μεθόδων; Πόσο ικανοποιητικά αποτελέσματα αποφέρουν οι
λύσεις αυτές; Η ανάπτυξη νέων γλωσσικών εργαλείων και
τεχνικών πολυγλωσσικής ανάκτησης πληροφοριών χρήζει μείζονος προσοχής
Βιβλιογραφία1. Borgman C.L., Multi-Media, Multi-Cultural, and Multi-Lingual Digital
Libraries or How Do We Exchange Data in 400 Languages?, D-Lib, June 1997 (available at: http://www.dlib.org/dlib/june97/06borgman.html )
2. Oard D.W., Ruiz M., Klavans J., Multi-lingual Information Discovery and AccesS (MIDAS), D-Lib, October 1999 (available at: http://www.dlib.org/dlib/october99/10oard.html)
3. Murthy T., Interoperability among Multi-Lingual Digital Libraries through Unicode based metadata: a model for India, Indo-US Workshop on Open Digital Libraries and Interoperability, Virginia Tech, USA, 23-25 June 2003 (available at: http://fox.cs.vt.edu/IndoUSdl/ )
4. Oard D.W., Multilingual Information Access: the user’s perspective )available at: http://www.iei.pi.cnr.it/DELOS/CLEF/workshop00.html)
5. Clews J., Digital Language Access: scripts, transliteration, and computer access, D-Lib, March 1997 (available at: http://www.dlib.org/dlib/march97/sesame/03clews.html)
Βιβλιογραφία6. Peters C., Picchi E., Across Languages, Across Cultures: issues in
multilinguality and digital libraries, D-Lib, May 1997 (available at: http://www.dlib.org/dlib/may97/peters/05peters.html)
7. Pavani A., A Model of Multilingual Digital Library, Ci.Inf., Brasilia, v.30, n.3.,p.73-81, Sep./Dec. 2001 (available at: http://www.dlib.org/dlib/may97/peters/05peters.html)
8. Maeda A., Multi-lingual Information Processing for Digital Libraries (available at http://pnclink.org/annual/annual2002/pdf/0921/12/c21/206-1.pdf)
9. Peters C., Cross-Language Evaluation Forum (CLEF): agenda for 2002, D-Lib, February 2002 (available at http://www.dlib.org/dlib/february02/02inbrief.html)
10. Peters C., ECDL 2003 Workshop Report: cross-language evaluation forum (CLEF 2003), D-Lib, September 2003 (available at: http://www.dlib.org/dlib/september03/09inbrief.html)
Βιβλιογραφία11. Peters C., Cross-Language Evaluation Forum, D-Lib, February 2000
(available at: http://www.dlib.org/dlib/february00/02inbrief.html)12. Caidi N., Komlodi A., Cross-cultural Considerations in Digital Library
ResearchL report for the JCDL 2003 workshop, D-Lib, July/August 2003 (available at: http://www.dlib.org/dlib/july03/07inbrief.html)
13. Dartois M., Maeda A., Sakaguchi T., A Multilingual Electronic Text Collection of Folk Tales for Casual Users Using Off-the-Shelf Browsers, D-Lib, October 1997 (available at: http://www.dlib.org/dlib/october97/sugimoto/10sugimoto.html)
14. Croft W.B., What Do People Want from Information Retrieval?, D-Lib, November 1995 (available at: http://www.dlib.org/dlib/november95/11croft.html)
15. Java: how to program/ Deitel H.M., Deitel P.J., Prentice Hall PTRM, 5th ed., 2002
Βιβλιογραφία16. Osawa N., A Multilingual Information Processing Infrastructure for
Global Digital Libraries: EPICIST, D-Lib, 1997 (available at: http://www.dl.ulis.ac.jp/ISDL97/proceedings/osawa/osawa.html)
17. Powell J., Fox E.A., Multilingual Fedearted Searching Across Heterogeneous Collections, D-Lib, September 1998 (available at: http://www.dlib.org/dlib/septemeber98/powell/09powell.html)
18. Anderson D., Unicode and Historic Scripts, Ariadne (available at: http://www.ariadne.ac.uk/issue37/anderson/)