Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας Ιόνιο...

29
Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας Ιόνιο Πανεπιστήμιο Μεταπτυχιακό Πρόγραμμα στην Επιστήμη της Πληροφορίας Ηλεκτρονική Δημοσίευση Διδάσκοντες Σαράντος Καπιδάκης Μανόλης Γεργατσούλης

description

Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας Ιόνιο Πανεπιστήμιο. Μεταπτυχιακό Πρόγραμμα στην Επιστήμη της Πληροφορίας Ηλεκτρονική Δημοσίευση Διδάσκοντες Σαράντος Καπιδάκης Μανόλης Γεργατσούλης. Εργασία με θέμα: Αρχειοθέτηση του Ιστού: η περίπτωση του UK Web Archiv ing Consortium. Εισηγητής: - PowerPoint PPT Presentation

Transcript of Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας Ιόνιο...

Page 1: Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας  Ιόνιο Πανεπιστήμιο

Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας

Ιόνιο Πανεπιστήμιο

Μεταπτυχιακό Πρόγραμμα στην Επιστήμη της Πληροφορίας

Ηλεκτρονική Δημοσίευση

ΔιδάσκοντεςΣαράντος Καπιδάκης

Μανόλης Γεργατσούλης

Page 2: Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας  Ιόνιο Πανεπιστήμιο

Εργασία με θέμα:Αρχειοθέτηση του Ιστού: η περίπτωση

του UK Web Archiving Consortium

Εισηγητής:Σταμάτιος Γιαννουλάκης

Page 3: Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας  Ιόνιο Πανεπιστήμιο

19 Ιουνίου 2006 UK Web Archive Consortium 3 από 29

Σημεία Παρουσίασης Λόγοι αρχειοθέτησης ιστού Τεχνικές αρχειοθέτησης Προβλήματα αρχειοθέτησης UK Web Archiving Consortium

Ιστορία Στόχοι Μεθοδολογία Λογισμικό Πνευματικά δικαιώματα Οφέλη Δυσκολίες Ψηφιακή διατήρηση

Συμπεράσματα

Page 4: Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας  Ιόνιο Πανεπιστήμιο

19 Ιουνίου 2006 UK Web Archive Consortium 4 από 29

Λόγοι αρχειοθέτησης Ιστού 1/2 Ο ιστός μετατρέπεται σε μέσο δημοσίευσης

νέας πληροφορίας, η οποία τώρα είναι διαθέσιμη μόνο σε ψηφιακή μορφή

Ο όγκος του ιστού είναι τεράστιος, πάνω από 8,4 δισεκατομμύρια σελίδες το 2001

550 δισεκατομμύρια συνδεδεμένα τεκμήρια που αποτελούν τον ονομαζόμενο «Βαθύ» Ιστό

Ο όγκος του αυξάνεται κατά 7 εκατομμύρια σελίδες καθημερινά

Page 5: Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας  Ιόνιο Πανεπιστήμιο

19 Ιουνίου 2006 UK Web Archive Consortium 5 από 29

Λόγοι αρχειοθέτησης Ιστού 2/2Όμως ταυτόχρονα Το ψηφιακό υλικό έχει αποδειχθεί παροδικό, εύθραυστο και εφήμερο Ο μέσος όρος ζωής μιας σελίδας είναι περίπου 6 εβδομάδες Αρκετό υλικό έχει χαθεί 44% των σελίδων δεν μπορούσαν να εντοπιστούν τον επόμενο

χρόνο Έρευνα έδειξε ότι σχεδόν το 20% των ιστοσελίδων που

αναφερόντουσαν στις επιτομές της Medline, την δεκαετία πριν το 2004 είχαν εξαφανιστεί

Από τους 175 κατόχους ιστοσελίδας που έχουν μέχρι τώρα δώσει την άδεια τους στην Wellcome Library, ώστε ο ιστοχώρος τους να είναι μέρος του UKWAC:

70% δήλωσε ότι δεν αρχειοθετούσε τους ιστοχώρους του 24% δήλωσε ότι αρχειοθετούσε τους ιστοχώρους του

6% δεν δήλωσε τίποτα

Page 6: Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας  Ιόνιο Πανεπιστήμιο

19 Ιουνίου 2006 UK Web Archive Consortium 6 από 29

Αρχειοθέτηση

Page 7: Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας  Ιόνιο Πανεπιστήμιο

19 Ιουνίου 2006 UK Web Archive Consortium 7 από 29

Τεχνικές αρχειοθέτησης Εκτεταμένη ή Αυτόματη Συγκομιδή

Περιλαμβάνει τη συλλογή των ιστοχώρων και των απευθείας πόρων χρησιμοποιώντας crawlers για να ανακτήσει αυτόματα το υλικό

Επιλεκτική ή Θεματική Οι επιλεκτικές προσεγγίσεις στοχεύουν στην

αρχειοθέτηση καθορισμένων περιοχών του Ιστού η συγκεκριμένους πόρους σύμφωνα με τα διευκρινισμένα κριτήρια

Page 8: Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας  Ιόνιο Πανεπιστήμιο

19 Ιουνίου 2006 UK Web Archive Consortium 8 από 29

Τεχνικές αρχειοθέτησης Κατάθεση

Σ’ αυτή τη προσέγγιση οι εκδότες καταθέτουν το δικτυακό υλικό τους σ’ ένα αποθετήριο που μπορεί να είναι ένα εθνικό αρχείο ή μια βιβλιοθήκη

Συνδυασμένες προσεγγίσεις Ουσιαστικά πρόκειται για ένα συνδυασμό

επιλεκτικών και θεματικών τεχνικών συλλογής για τη βέλτιστη κάλυψη του υλικου

Page 9: Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας  Ιόνιο Πανεπιστήμιο

19 Ιουνίου 2006 UK Web Archive Consortium 9 από 29

Προβλήματα αρχειοθέτησης Το πολιτιστικό πρόβλημα. Ο ίδιος ο ρυθμός της τεχνικής

αλλαγής παρασύρει μαζί του πολλά έγγραφα. Ποία από αυτά αργότερα θα γίνουν ιστορικά και πως θα μπορέσουν να συντηρηθούν

Το τεχνικό πρόβλημα. Ένα αρχείο Ιστού πρέπει να λύσει τα τεχνικά προβλήματα που αντιμετωπίζουν όλα τα ψηφιακά έγγραφα καθώς επίσης και τα μοναδικά προβλήματά του.

Το οικονομικό πρόβλημα. Ποιος έχει την ευθύνη για την διατήρηση και την συντήρηση του Ιστού και τους πόρους για να το κάνει αυτό

Το νομικό πρόβλημα. Το θέμα των πνευματικών δικαιωμάτων στον ψηφιακό κόσμο ακόμα δεν είναι απόλυτα ξεκάθαρο

Page 10: Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας  Ιόνιο Πανεπιστήμιο

19 Ιουνίου 2006 UK Web Archive Consortium 10 από 29

UK Web Archiving Consortium Το UKWAC δημιουργεί το πρώτο

δημόσιο διαθέσιμο αρχείο των βρετανικών ιστοχώρων.

912 τίτλοι στο αρχείο 3067 στιγμές ιστοχώρων

Page 11: Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας  Ιόνιο Πανεπιστήμιο

19 Ιουνίου 2006 UK Web Archive Consortium 11 από 29

Page 13: Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας  Ιόνιο Πανεπιστήμιο

19 Ιουνίου 2006 UK Web Archive Consortium 13 από 29

Ιστορία Ιστός έχει γίνει η πηγή πληροφοριών, ωστόσο

πολύ λίγη προσοχή έχει δοθεί στη μακροπρόθεσμη συντήρηση των ιστοχώρων

Με αφορμή το παραπάνω έξη κορυφαία βρετανικά λειτούργησαν ώστε να αναπτυχθεί μια δοκιμή για την αρχειοθέτηση των βρετανικών ιστοχώρων.

Η ιστορία του προγράμματος αρχίζει τον Ιούνιο του 2004 και αποφασίζεται αρχικά να διαρκέσει δυο χρόνια

Page 14: Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας  Ιόνιο Πανεπιστήμιο

19 Ιουνίου 2006 UK Web Archive Consortium 14 από 29

Στόχοι Να προμηθευτεί μια άδεια από την Εθνική Βιβλιοθήκη της

Αυστραλίας για να χρησιμοποιήσει το λογισμικό PANDAS για το πρόγραμμα.

Να αναθέσει μια σύμβαση σε έναν εξωτερικό ανάδοχο για να παρέχει την κοινή υποδομή για το πιλοτικό έργο.

Να εργαστεί σε συνεργασία στο επίτευγμα ενός κοινού εξερευνήσιμου αρχείου των επιλεγμένων ιστοχώρων που ερευνούν τις λύσεις στα ζητήματα όπως, την επιλογή, τη διαχείριση δικαιωμάτων και την ψηφιακή συντήρηση.

Να αξιολογήσει την ανάπτυξη της συνεργάσιμης υποδομής για την αρχειοθέτηση Ιστού σε σχέση με την αξιολόγηση της μονιμότητας και της μακροπρόθεσμης δυνατότητας πραγματοποίησης μιας τέτοιας συνεργάσιμης επιχείρησης.

Page 15: Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας  Ιόνιο Πανεπιστήμιο

19 Ιουνίου 2006 UK Web Archive Consortium 15 από 29

Μεθοδολογία Η μέθοδος που χρησιμοποιείται για την συλλογή των ιστοσελίδων

είναι η επιλεκτική. Η διαδικασία αρχειοθέτησης ιστοχώρων ακολουθεί τις βασικές

αρχειακές αρχές της Επιλογής, της Απόκτησης, της Περιγραφής και της Πρόσβασης

Πλεονεκτήματα Κάθε ντοκουμέντο του αρχείου ελέγχεται ώστε να διασφαλίζεται

αφενός μεν η ποιότητά του, αφετέρου δε ότι έχει αντιγραφεί σωστά και με τη μέγιστη λειτουργικότητα όσο αυτό είναι δυνατό

Κάθε ντοκουμέντο μπορεί να καταλογογραφηθεί πλήρως και να αποτελέσει έτσι μέρος της εθνικής βιβλιογραφίας

Η επιλεκτική αρχειοθέτηση υποστηρίζει τη συνεννόηση με τους εκδότες ώστε να συμπεριληφθούν τα ψηφιακά τους δημοσιεύματα στο αρχείο. Αυτό είναι απαραίτητο αφού δεν υπάρχει ακόμη το νομικό πλαίσιο της υποχρεωτικής κατάθεσης όπως συμβαίνει με το έντυπο υλικό

Page 16: Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας  Ιόνιο Πανεπιστήμιο

19 Ιουνίου 2006 UK Web Archive Consortium 16 από 29

Μεθοδολογία Μειονεκτήματα

Υποκειμενική κρίση για την αξία των πόρων, είναι αναπόφευκτη

Η επιλεκτική προσέγγιση απαιτεί χρόνο, κόπο και έχει υψηλό κόστος

Η επιλεκτική προσέγγιση κοστίζει σε απώλεια εύρους και ποικιλομορφίας των δημοσιευμάτων

Page 17: Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας  Ιόνιο Πανεπιστήμιο

19 Ιουνίου 2006 UK Web Archive Consortium 17 από 29

Λογισμικό Το λογισμικό που χρησιμοποιήθηκε είναι

το PANDAS(PANDORA Digital Archiving System)

PANDORA(Preserving and Accessing Networked DOcumentary Resources of Australia)

Page 18: Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας  Ιόνιο Πανεπιστήμιο

19 Ιουνίου 2006 UK Web Archive Consortium 18 από 29

Λογισμικό Διαχείριση των μεταδεδομένων για τους τίτλους που και έχουν

επιλεχτεί και έχουν απορριφθεί για το συνυπολογισμό στο αρχείο. Αρχικά συλλέγει τους τίτλους που αρχειοθετούνται. Διαχείριση της ποιότητας ελέγχου και της διαδικασίας επίλυσης

προβλήματος. Προετοιμασία του τεκμηρίου για τη δημόσια επίδειξη και παραγωγή

μιας σελίδας τίτλου. Διαχείριση των περιορισμών πρόσβασης. Παροχή διοικητικών εκθέσεων. Επίσης στον HTML της σελίδας εισάγει μια κεφαλίδα σαν και αυτή: <html lang="eng"><!--Gathered with permission by UKWAC from

www.history.ac.uk/ihr/Resources/ at Tue, 28 Jun 2005 09:05:17 GMT--><head><title>History On-Line</title><meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"><!--owner_name="Nicole Harris"-->

Page 19: Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας  Ιόνιο Πανεπιστήμιο

19 Ιουνίου 2006 UK Web Archive Consortium 19 από 29

Λογισμικό Το λογισμικό που χρησιμοποιείται για την

πρόσκτηση των ιστοσελίδων είναι το HTTrack Επιτρέπει τη μεταφόρτωση της περιοχής από

το Διαδίκτυο σε έναν τοπικό κατάλογο Συνεχώς δημιουργεί όλους τους καταλόγους Φορτώνει το HTML, τις εικόνες, και άλλα αρχεία

από τον κεντρικό υπολογιστή Τακτοποιεί τη δομή των συνδέσεων της αρχικής

ιστοσελίδας

Page 20: Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας  Ιόνιο Πανεπιστήμιο

19 Ιουνίου 2006 UK Web Archive Consortium 20 από 29

Σελίδα τίτλου

Page 21: Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας  Ιόνιο Πανεπιστήμιο

19 Ιουνίου 2006 UK Web Archive Consortium 21 από 29

Page 22: Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας  Ιόνιο Πανεπιστήμιο

19 Ιουνίου 2006 UK Web Archive Consortium 22 από 29

Πνευματικά δικαιώματα Οι πληροφορίες που φυλάσσονται στο αρχείο

κοινοπραξίας αρχειοθέτησης βρετανικού Ιστού φυλάσσονται με την άδεια των κατόχων πνευματικών δικαιωμάτων. Οι οποίοι και είναι κάτοχοι των πνευματικών δικαιωμάτων

Εάν επιθυμεί ο χρήστης να αντιγράψει οποιεσδήποτε πληροφορίες που περιλαμβάνονται στο αρχείο πρέπει να έρθει σε επαφή με τον κάτοχο πνευματικών δικαιωμάτων και να επιδιώξει την άδειά του

Μια σύνδεση με τη δήλωση πνευματικών δικαιωμάτων κάθε εκδότη, όπου παρέχονται και οι όροι για αρχείο

Page 23: Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας  Ιόνιο Πανεπιστήμιο

19 Ιουνίου 2006 UK Web Archive Consortium 23 από 29

Πνευματικά δικαιώματα Το UKWAC έχει αποκλείσει σκόπιμα τις

μηχανές αναζήτησης από το περιεχόμενο του. Αυτό για να εξασφαλιστεί η αποφυγή σύγχυσης μεταξύ των "ζωντανών" και αρχειοθετημένων εκδόσεων των ιστοχώρων

Το λογισμικό πρόσκτησης ιστοχώρων δεν μπορεί να συλλέξει οποιοδήποτε υλικό που προστατεύεται πίσω από έναν κωδικό πρόσβασης, ούτε μπορεί αυτό "να ραγίσει" ή "να σπάσει" τους κωδικούς πρόσβασης

Page 24: Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας  Ιόνιο Πανεπιστήμιο

19 Ιουνίου 2006 UK Web Archive Consortium 24 από 29

Οφέλη Ανοιχτή πρόσβαση Εύρεση σημαντικού υλικού Εντοπισμός υλικού που δεν είναι πλέον διαθέσιμο Έλεγχος παραπομπών Για τους παραγωγούς των ιστοχώρων Μεγαλύτερη έκθεση για την οργάνωσή και την

ιστοσελίδα Διατήρηση της ιδρυματικής μνήμης Διατήρηση των διανοητικών προτερημάτων του

ιδρύματος

Page 25: Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας  Ιόνιο Πανεπιστήμιο

19 Ιουνίου 2006 UK Web Archive Consortium 25 από 29

Δυσκολίες Υπήρξαν λίγες εφαρμογές από τις οποίες

UKWAC θα μπορούσε να επιλέξει κατά τον έρευνα μιας κατάλληλης εφαρμογής αρχειοθέτησης Ιστού

Το Διαδίκτυο είναι ένα μέσο που εκτίθεται στην ανάπτυξη και αλλαγές

Ανάγκη για νέες δεξιότητες

Page 26: Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας  Ιόνιο Πανεπιστήμιο

19 Ιουνίου 2006 UK Web Archive Consortium 26 από 29

Ψηφιακή διατήρηση Το θέμα της ψηφιακής διατήρησης είναι

σημαντικό ζήτημα για το UKWAC Το UKWAC στηρίζεται στη διεθνή συνεργασία

στην εργασία του και μοιράζεται την πείρα με την κοινότητα αρχειοθέτησης Ιστού

British Library μέλος του International Internet Preservation Consortium (IIPC), μέλη του UKWAC έχουν λειτουργήσει με το IIPC στις προδιαγραφές και τις απαιτήσεις για το επερχόμενο "εργαλείο διατήρησης"

Page 27: Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας  Ιόνιο Πανεπιστήμιο

19 Ιουνίου 2006 UK Web Archive Consortium 27 από 29

Συμπεράσματα Η αρχειοθέτηση του ιστού είναι μια πολύπλοκη

εργασία που απαιτεί κόπο και πόρους. Το κυριότερο ίσως ζήτημα που αντιμετωπίζουμε

είναι η ψηφιακή διατήρηση Πως μπορούμε να διατηρήσουμε τα ψηφιακά

τεκμήρια με τις προκλήσεις που παρουσιάζουν; Σίγουρα το μέλλον, η πείρα και τα λάθη του

παρελθόντος, καθώς και η σταθεροποίηση της τεχνολογίας θα βοηθήσουν στην καλύτερη αρχειοθέτηση των ψηφιακών τεκμηρίων στον (Ιστό;)

Page 28: Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας  Ιόνιο Πανεπιστήμιο

19 Ιουνίου 2006 UK Web Archive Consortium 28 από 29

Βιβλιογραφία1. National Library of Australia. Preservation Services Branch.(12 Απριλίου 2006). PADI - Web archiving.

Ανακτήθηκε 12 Απριλίου, 2006, από http://www.nla.gov.au/padi/topics/92.html 2. Day, M. (25 Φεβρουαρίου 2005). Collecting and preserving the World Wide Web: A feasibility study

undertaken for the JISC and Wellcome Trust. Ανακτήθηκε 16 Απριλίου, 2006, από http://www.jisc.ac.uk/uploaded_documents/archiving_feasibility.pdf

3. UK Web Archiving Consortium. UK Web Archiving Consortium: Archive. Ανακτήθηκε 12 Μαρίου, 2006, από http://www.webarchive.org.uk/

4. Bailey, S. & Thompson, D. (Ιανουάριος 2006). UKWAC: Building the UK's First Public Web Archive. D-Lib Magazine, 12 . Ανακτήθηκε 13 Μαρτίου, 2006, από http://www.dlib.org/dlib/january06/thompson/01thompson.html

5. Phillips, M. PANDORA, Australia's Web Archive, and the Digital Archiving System that Supports it . Ανακτήθηκε 16 Απριλίου, 2006, από http://www.nla.gov.au/nla/staffpaper/2003/mphillips1.html

6. Cathro, W., Webb, C. & Whiting, J. Archiving the Web: The PANDORA Archive at the National Library of Australia. Ανακτήθηκε 15 Απριλίου, 2006, από http://www.nla.gov.au/nla/staffpaper/2001/cathro3.html

7. National Library of Australia. Pandora Archive - NLA Selection Guidelines. Ανακτήθηκε 19 Απριλίου, 2006, από http://pandora.nla.gov.au/selectionguidelines.html

8. OCLC(14 Οκτωβρίου 2001). On the size of the World Wide Web. Ανακτήθηκε 12 Ιουνίου, 2006, από http://www.pandia.com/sw-2001/57-websize.html

9. Rauber, A., Aschenbrenner, A., Witvoet, O., Bruckner, O. & Kaiser, M. (Δεκέμβριος 2002). Uncovering Information Hidden in Web Archives: A Glimpse at Web Analysis building on Data Warehouses. D-Lib Magazine, 8. Ανακτήθηκε 21 Απριλίου, 2006, από http://www.dlib.org/dlib/december02/rauber/12rauber.html

10. Lyman, P. Archiving the World Wide Web: Problem Statement: Why Archive the Web? . Ανακτήθηκε 12 Απριλίου, 2006, από http://www.clir.org/pubs/reports/pub106/web.html

11. Thompson, D. Future Proofing your Website an UKWAC Perspective. Ανακτήθηκε 11 Ιουνίου, 2006, από http:// www.dcc.ac.uk/events/fpw-2006/fpw_2006_UKWAC.ppt

Page 29: Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας  Ιόνιο Πανεπιστήμιο

19 Ιουνίου 2006 UK Web Archive Consortium 29 από 29

Ευχαριστώ πολύ για την προσοχή και την

υπομονή σας