Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας Ιόνιο...
description
Transcript of Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας Ιόνιο...
Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας
Ιόνιο Πανεπιστήμιο
Μεταπτυχιακό Πρόγραμμα στην Επιστήμη της Πληροφορίας
Ηλεκτρονική Δημοσίευση
ΔιδάσκοντεςΣαράντος Καπιδάκης
Μανόλης Γεργατσούλης
Εργασία με θέμα:Αρχειοθέτηση του Ιστού: η περίπτωση
του UK Web Archiving Consortium
Εισηγητής:Σταμάτιος Γιαννουλάκης
19 Ιουνίου 2006 UK Web Archive Consortium 3 από 29
Σημεία Παρουσίασης Λόγοι αρχειοθέτησης ιστού Τεχνικές αρχειοθέτησης Προβλήματα αρχειοθέτησης UK Web Archiving Consortium
Ιστορία Στόχοι Μεθοδολογία Λογισμικό Πνευματικά δικαιώματα Οφέλη Δυσκολίες Ψηφιακή διατήρηση
Συμπεράσματα
19 Ιουνίου 2006 UK Web Archive Consortium 4 από 29
Λόγοι αρχειοθέτησης Ιστού 1/2 Ο ιστός μετατρέπεται σε μέσο δημοσίευσης
νέας πληροφορίας, η οποία τώρα είναι διαθέσιμη μόνο σε ψηφιακή μορφή
Ο όγκος του ιστού είναι τεράστιος, πάνω από 8,4 δισεκατομμύρια σελίδες το 2001
550 δισεκατομμύρια συνδεδεμένα τεκμήρια που αποτελούν τον ονομαζόμενο «Βαθύ» Ιστό
Ο όγκος του αυξάνεται κατά 7 εκατομμύρια σελίδες καθημερινά
19 Ιουνίου 2006 UK Web Archive Consortium 5 από 29
Λόγοι αρχειοθέτησης Ιστού 2/2Όμως ταυτόχρονα Το ψηφιακό υλικό έχει αποδειχθεί παροδικό, εύθραυστο και εφήμερο Ο μέσος όρος ζωής μιας σελίδας είναι περίπου 6 εβδομάδες Αρκετό υλικό έχει χαθεί 44% των σελίδων δεν μπορούσαν να εντοπιστούν τον επόμενο
χρόνο Έρευνα έδειξε ότι σχεδόν το 20% των ιστοσελίδων που
αναφερόντουσαν στις επιτομές της Medline, την δεκαετία πριν το 2004 είχαν εξαφανιστεί
Από τους 175 κατόχους ιστοσελίδας που έχουν μέχρι τώρα δώσει την άδεια τους στην Wellcome Library, ώστε ο ιστοχώρος τους να είναι μέρος του UKWAC:
70% δήλωσε ότι δεν αρχειοθετούσε τους ιστοχώρους του 24% δήλωσε ότι αρχειοθετούσε τους ιστοχώρους του
6% δεν δήλωσε τίποτα
19 Ιουνίου 2006 UK Web Archive Consortium 6 από 29
Αρχειοθέτηση
19 Ιουνίου 2006 UK Web Archive Consortium 7 από 29
Τεχνικές αρχειοθέτησης Εκτεταμένη ή Αυτόματη Συγκομιδή
Περιλαμβάνει τη συλλογή των ιστοχώρων και των απευθείας πόρων χρησιμοποιώντας crawlers για να ανακτήσει αυτόματα το υλικό
Επιλεκτική ή Θεματική Οι επιλεκτικές προσεγγίσεις στοχεύουν στην
αρχειοθέτηση καθορισμένων περιοχών του Ιστού η συγκεκριμένους πόρους σύμφωνα με τα διευκρινισμένα κριτήρια
19 Ιουνίου 2006 UK Web Archive Consortium 8 από 29
Τεχνικές αρχειοθέτησης Κατάθεση
Σ’ αυτή τη προσέγγιση οι εκδότες καταθέτουν το δικτυακό υλικό τους σ’ ένα αποθετήριο που μπορεί να είναι ένα εθνικό αρχείο ή μια βιβλιοθήκη
Συνδυασμένες προσεγγίσεις Ουσιαστικά πρόκειται για ένα συνδυασμό
επιλεκτικών και θεματικών τεχνικών συλλογής για τη βέλτιστη κάλυψη του υλικου
19 Ιουνίου 2006 UK Web Archive Consortium 9 από 29
Προβλήματα αρχειοθέτησης Το πολιτιστικό πρόβλημα. Ο ίδιος ο ρυθμός της τεχνικής
αλλαγής παρασύρει μαζί του πολλά έγγραφα. Ποία από αυτά αργότερα θα γίνουν ιστορικά και πως θα μπορέσουν να συντηρηθούν
Το τεχνικό πρόβλημα. Ένα αρχείο Ιστού πρέπει να λύσει τα τεχνικά προβλήματα που αντιμετωπίζουν όλα τα ψηφιακά έγγραφα καθώς επίσης και τα μοναδικά προβλήματά του.
Το οικονομικό πρόβλημα. Ποιος έχει την ευθύνη για την διατήρηση και την συντήρηση του Ιστού και τους πόρους για να το κάνει αυτό
Το νομικό πρόβλημα. Το θέμα των πνευματικών δικαιωμάτων στον ψηφιακό κόσμο ακόμα δεν είναι απόλυτα ξεκάθαρο
19 Ιουνίου 2006 UK Web Archive Consortium 10 από 29
UK Web Archiving Consortium Το UKWAC δημιουργεί το πρώτο
δημόσιο διαθέσιμο αρχείο των βρετανικών ιστοχώρων.
912 τίτλοι στο αρχείο 3067 στιγμές ιστοχώρων
19 Ιουνίου 2006 UK Web Archive Consortium 11 από 29
19 Ιουνίου 2006 UK Web Archive Consortium 12 από 29
Συνεργασία
19 Ιουνίου 2006 UK Web Archive Consortium 13 από 29
Ιστορία Ιστός έχει γίνει η πηγή πληροφοριών, ωστόσο
πολύ λίγη προσοχή έχει δοθεί στη μακροπρόθεσμη συντήρηση των ιστοχώρων
Με αφορμή το παραπάνω έξη κορυφαία βρετανικά λειτούργησαν ώστε να αναπτυχθεί μια δοκιμή για την αρχειοθέτηση των βρετανικών ιστοχώρων.
Η ιστορία του προγράμματος αρχίζει τον Ιούνιο του 2004 και αποφασίζεται αρχικά να διαρκέσει δυο χρόνια
19 Ιουνίου 2006 UK Web Archive Consortium 14 από 29
Στόχοι Να προμηθευτεί μια άδεια από την Εθνική Βιβλιοθήκη της
Αυστραλίας για να χρησιμοποιήσει το λογισμικό PANDAS για το πρόγραμμα.
Να αναθέσει μια σύμβαση σε έναν εξωτερικό ανάδοχο για να παρέχει την κοινή υποδομή για το πιλοτικό έργο.
Να εργαστεί σε συνεργασία στο επίτευγμα ενός κοινού εξερευνήσιμου αρχείου των επιλεγμένων ιστοχώρων που ερευνούν τις λύσεις στα ζητήματα όπως, την επιλογή, τη διαχείριση δικαιωμάτων και την ψηφιακή συντήρηση.
Να αξιολογήσει την ανάπτυξη της συνεργάσιμης υποδομής για την αρχειοθέτηση Ιστού σε σχέση με την αξιολόγηση της μονιμότητας και της μακροπρόθεσμης δυνατότητας πραγματοποίησης μιας τέτοιας συνεργάσιμης επιχείρησης.
19 Ιουνίου 2006 UK Web Archive Consortium 15 από 29
Μεθοδολογία Η μέθοδος που χρησιμοποιείται για την συλλογή των ιστοσελίδων
είναι η επιλεκτική. Η διαδικασία αρχειοθέτησης ιστοχώρων ακολουθεί τις βασικές
αρχειακές αρχές της Επιλογής, της Απόκτησης, της Περιγραφής και της Πρόσβασης
Πλεονεκτήματα Κάθε ντοκουμέντο του αρχείου ελέγχεται ώστε να διασφαλίζεται
αφενός μεν η ποιότητά του, αφετέρου δε ότι έχει αντιγραφεί σωστά και με τη μέγιστη λειτουργικότητα όσο αυτό είναι δυνατό
Κάθε ντοκουμέντο μπορεί να καταλογογραφηθεί πλήρως και να αποτελέσει έτσι μέρος της εθνικής βιβλιογραφίας
Η επιλεκτική αρχειοθέτηση υποστηρίζει τη συνεννόηση με τους εκδότες ώστε να συμπεριληφθούν τα ψηφιακά τους δημοσιεύματα στο αρχείο. Αυτό είναι απαραίτητο αφού δεν υπάρχει ακόμη το νομικό πλαίσιο της υποχρεωτικής κατάθεσης όπως συμβαίνει με το έντυπο υλικό
19 Ιουνίου 2006 UK Web Archive Consortium 16 από 29
Μεθοδολογία Μειονεκτήματα
Υποκειμενική κρίση για την αξία των πόρων, είναι αναπόφευκτη
Η επιλεκτική προσέγγιση απαιτεί χρόνο, κόπο και έχει υψηλό κόστος
Η επιλεκτική προσέγγιση κοστίζει σε απώλεια εύρους και ποικιλομορφίας των δημοσιευμάτων
19 Ιουνίου 2006 UK Web Archive Consortium 17 από 29
Λογισμικό Το λογισμικό που χρησιμοποιήθηκε είναι
το PANDAS(PANDORA Digital Archiving System)
PANDORA(Preserving and Accessing Networked DOcumentary Resources of Australia)
19 Ιουνίου 2006 UK Web Archive Consortium 18 από 29
Λογισμικό Διαχείριση των μεταδεδομένων για τους τίτλους που και έχουν
επιλεχτεί και έχουν απορριφθεί για το συνυπολογισμό στο αρχείο. Αρχικά συλλέγει τους τίτλους που αρχειοθετούνται. Διαχείριση της ποιότητας ελέγχου και της διαδικασίας επίλυσης
προβλήματος. Προετοιμασία του τεκμηρίου για τη δημόσια επίδειξη και παραγωγή
μιας σελίδας τίτλου. Διαχείριση των περιορισμών πρόσβασης. Παροχή διοικητικών εκθέσεων. Επίσης στον HTML της σελίδας εισάγει μια κεφαλίδα σαν και αυτή: <html lang="eng"><!--Gathered with permission by UKWAC from
www.history.ac.uk/ihr/Resources/ at Tue, 28 Jun 2005 09:05:17 GMT--><head><title>History On-Line</title><meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"><!--owner_name="Nicole Harris"-->
19 Ιουνίου 2006 UK Web Archive Consortium 19 από 29
Λογισμικό Το λογισμικό που χρησιμοποιείται για την
πρόσκτηση των ιστοσελίδων είναι το HTTrack Επιτρέπει τη μεταφόρτωση της περιοχής από
το Διαδίκτυο σε έναν τοπικό κατάλογο Συνεχώς δημιουργεί όλους τους καταλόγους Φορτώνει το HTML, τις εικόνες, και άλλα αρχεία
από τον κεντρικό υπολογιστή Τακτοποιεί τη δομή των συνδέσεων της αρχικής
ιστοσελίδας
19 Ιουνίου 2006 UK Web Archive Consortium 20 από 29
Σελίδα τίτλου
19 Ιουνίου 2006 UK Web Archive Consortium 21 από 29
19 Ιουνίου 2006 UK Web Archive Consortium 22 από 29
Πνευματικά δικαιώματα Οι πληροφορίες που φυλάσσονται στο αρχείο
κοινοπραξίας αρχειοθέτησης βρετανικού Ιστού φυλάσσονται με την άδεια των κατόχων πνευματικών δικαιωμάτων. Οι οποίοι και είναι κάτοχοι των πνευματικών δικαιωμάτων
Εάν επιθυμεί ο χρήστης να αντιγράψει οποιεσδήποτε πληροφορίες που περιλαμβάνονται στο αρχείο πρέπει να έρθει σε επαφή με τον κάτοχο πνευματικών δικαιωμάτων και να επιδιώξει την άδειά του
Μια σύνδεση με τη δήλωση πνευματικών δικαιωμάτων κάθε εκδότη, όπου παρέχονται και οι όροι για αρχείο
19 Ιουνίου 2006 UK Web Archive Consortium 23 από 29
Πνευματικά δικαιώματα Το UKWAC έχει αποκλείσει σκόπιμα τις
μηχανές αναζήτησης από το περιεχόμενο του. Αυτό για να εξασφαλιστεί η αποφυγή σύγχυσης μεταξύ των "ζωντανών" και αρχειοθετημένων εκδόσεων των ιστοχώρων
Το λογισμικό πρόσκτησης ιστοχώρων δεν μπορεί να συλλέξει οποιοδήποτε υλικό που προστατεύεται πίσω από έναν κωδικό πρόσβασης, ούτε μπορεί αυτό "να ραγίσει" ή "να σπάσει" τους κωδικούς πρόσβασης
19 Ιουνίου 2006 UK Web Archive Consortium 24 από 29
Οφέλη Ανοιχτή πρόσβαση Εύρεση σημαντικού υλικού Εντοπισμός υλικού που δεν είναι πλέον διαθέσιμο Έλεγχος παραπομπών Για τους παραγωγούς των ιστοχώρων Μεγαλύτερη έκθεση για την οργάνωσή και την
ιστοσελίδα Διατήρηση της ιδρυματικής μνήμης Διατήρηση των διανοητικών προτερημάτων του
ιδρύματος
19 Ιουνίου 2006 UK Web Archive Consortium 25 από 29
Δυσκολίες Υπήρξαν λίγες εφαρμογές από τις οποίες
UKWAC θα μπορούσε να επιλέξει κατά τον έρευνα μιας κατάλληλης εφαρμογής αρχειοθέτησης Ιστού
Το Διαδίκτυο είναι ένα μέσο που εκτίθεται στην ανάπτυξη και αλλαγές
Ανάγκη για νέες δεξιότητες
19 Ιουνίου 2006 UK Web Archive Consortium 26 από 29
Ψηφιακή διατήρηση Το θέμα της ψηφιακής διατήρησης είναι
σημαντικό ζήτημα για το UKWAC Το UKWAC στηρίζεται στη διεθνή συνεργασία
στην εργασία του και μοιράζεται την πείρα με την κοινότητα αρχειοθέτησης Ιστού
British Library μέλος του International Internet Preservation Consortium (IIPC), μέλη του UKWAC έχουν λειτουργήσει με το IIPC στις προδιαγραφές και τις απαιτήσεις για το επερχόμενο "εργαλείο διατήρησης"
19 Ιουνίου 2006 UK Web Archive Consortium 27 από 29
Συμπεράσματα Η αρχειοθέτηση του ιστού είναι μια πολύπλοκη
εργασία που απαιτεί κόπο και πόρους. Το κυριότερο ίσως ζήτημα που αντιμετωπίζουμε
είναι η ψηφιακή διατήρηση Πως μπορούμε να διατηρήσουμε τα ψηφιακά
τεκμήρια με τις προκλήσεις που παρουσιάζουν; Σίγουρα το μέλλον, η πείρα και τα λάθη του
παρελθόντος, καθώς και η σταθεροποίηση της τεχνολογίας θα βοηθήσουν στην καλύτερη αρχειοθέτηση των ψηφιακών τεκμηρίων στον (Ιστό;)
19 Ιουνίου 2006 UK Web Archive Consortium 28 από 29
Βιβλιογραφία1. National Library of Australia. Preservation Services Branch.(12 Απριλίου 2006). PADI - Web archiving.
Ανακτήθηκε 12 Απριλίου, 2006, από http://www.nla.gov.au/padi/topics/92.html 2. Day, M. (25 Φεβρουαρίου 2005). Collecting and preserving the World Wide Web: A feasibility study
undertaken for the JISC and Wellcome Trust. Ανακτήθηκε 16 Απριλίου, 2006, από http://www.jisc.ac.uk/uploaded_documents/archiving_feasibility.pdf
3. UK Web Archiving Consortium. UK Web Archiving Consortium: Archive. Ανακτήθηκε 12 Μαρίου, 2006, από http://www.webarchive.org.uk/
4. Bailey, S. & Thompson, D. (Ιανουάριος 2006). UKWAC: Building the UK's First Public Web Archive. D-Lib Magazine, 12 . Ανακτήθηκε 13 Μαρτίου, 2006, από http://www.dlib.org/dlib/january06/thompson/01thompson.html
5. Phillips, M. PANDORA, Australia's Web Archive, and the Digital Archiving System that Supports it . Ανακτήθηκε 16 Απριλίου, 2006, από http://www.nla.gov.au/nla/staffpaper/2003/mphillips1.html
6. Cathro, W., Webb, C. & Whiting, J. Archiving the Web: The PANDORA Archive at the National Library of Australia. Ανακτήθηκε 15 Απριλίου, 2006, από http://www.nla.gov.au/nla/staffpaper/2001/cathro3.html
7. National Library of Australia. Pandora Archive - NLA Selection Guidelines. Ανακτήθηκε 19 Απριλίου, 2006, από http://pandora.nla.gov.au/selectionguidelines.html
8. OCLC(14 Οκτωβρίου 2001). On the size of the World Wide Web. Ανακτήθηκε 12 Ιουνίου, 2006, από http://www.pandia.com/sw-2001/57-websize.html
9. Rauber, A., Aschenbrenner, A., Witvoet, O., Bruckner, O. & Kaiser, M. (Δεκέμβριος 2002). Uncovering Information Hidden in Web Archives: A Glimpse at Web Analysis building on Data Warehouses. D-Lib Magazine, 8. Ανακτήθηκε 21 Απριλίου, 2006, από http://www.dlib.org/dlib/december02/rauber/12rauber.html
10. Lyman, P. Archiving the World Wide Web: Problem Statement: Why Archive the Web? . Ανακτήθηκε 12 Απριλίου, 2006, από http://www.clir.org/pubs/reports/pub106/web.html
11. Thompson, D. Future Proofing your Website an UKWAC Perspective. Ανακτήθηκε 11 Ιουνίου, 2006, από http:// www.dcc.ac.uk/events/fpw-2006/fpw_2006_UKWAC.ppt
19 Ιουνίου 2006 UK Web Archive Consortium 29 από 29
Ευχαριστώ πολύ για την προσοχή και την
υπομονή σας