Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο...

36
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ.ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ ΚΑΙ ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΤΕΥΘΥΝΣΗ «ΟΡΓΑΝΩΣΗ ΚΑΙ ΔΙΟΙΚΗΣΗ ΒΙΒΛΙΟΘΗΚΩΝ ΜΕ ΕΜΦΑΣΗ ΣΤΙΣ ΝΕΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ» Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του ResearchIndex Παναγιωτοπούλου Δανάη Διδάσκων: Σ. Καπιδάκης M. Γεργατσούλης Αθήνα 2006

description

ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ.ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ ΚΑΙ ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΤΕΥΘΥΝΣΗ «ΟΡΓΑΝΩΣΗ ΚΑΙ ΔΙΟΙΚΗΣΗ ΒΙΒΛΙΟΘΗΚΩΝ ΜΕ ΕΜΦΑΣΗ ΣΤΙΣ ΝΕΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ». Μάθημα: Ηλεκτρονική δημοσίευση - PowerPoint PPT Presentation

Transcript of Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο...

Page 1: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ.ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ ΚΑΙ ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣΚΑΤΕΥΘΥΝΣΗ «ΟΡΓΑΝΩΣΗ ΚΑΙ ΔΙΟΙΚΗΣΗ ΒΙΒΛΙΟΘΗΚΩΝ ΜΕ ΕΜΦΑΣΗ ΣΤΙΣ ΝΕΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ»

Μάθημα: Ηλεκτρονική δημοσίευση

Παραπομπές στο Διαδίκτυο: Η περίπτωση του ResearchIndex

Παναγιωτοπούλου Δανάη

Διδάσκων: Σ. Καπιδάκης M. Γεργατσούλης

Αθήνα 2006

Page 2: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

Περιεχόμενα

1. Συστήματα ανάλυσης παραπομπών -Βιβλιογραφική Επισκόπηση

2. Σύστημα Αυτόνομης Ανάλυσης Παραπομπών

3. ResearchIndex-CiteSeer

4. CiteSeerx

5. Συστήματα που υιοθέτησαν το μοντέλο CiteSeer

6. Συμπέρασμα

7. Χρήσιμες ιστοσελίδες

8. Βιβλιογραφία

Page 3: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

ΕΡΕΥΝΑ

Αναζήτηση βιβλιογραφίας

Δημοσίευση

Ερευνητής

Page 4: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

Συστήματα ανάλυσης παραπομπών -Βιβλιογραφική Επισκόπηση (1/2)

1954: Πρώτη μέθοδος ανάλυσης παραπομπών – Eugene Garfield

Ανάλυση παραπομπών vs. συμβατική ευρετηρίαση Πλεονεκτήματα:

Αντικειμενική πρόσβαση Μείωση χρόνου & κόπου που απαιτούνταν για τη δημιουργία

ευρετηρίου Δυνατότητα επισήμανσης περισσοτέρων άρθρων Μείωση μη σχετικών άρθρων

1964: Υλοποίηση της μεθόδου – ISI Science Citation Index

Page 5: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

Συστήματα ανάλυσης παραπομπών -Βιβλιογραφική Επισκόπηση (2/2)

(Ενδεικτικά)

Web of Science

JSTOR

PsychInfo

High Wire Press

CiteBase

Page 6: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

Σύστημα Αυτόνομης Ανάλυσης Παραπομπών

Αυτόνομο σύστημα που κατατάσσει τις παραπομπές που γίνονται σε άρθρα και τις συνδέει με τα τεκμήρια προς τα οποία έγινε η παραπομπή (χωρίς ανθρώπινο ενδιάμεσο)

Εντοπίζει επιστημονική βιβλιογραφία

Εξάγει παραπομπές από άρθρα, τεχνικές εκθέσεις, προσχέδια δημοσιεύσεων κ.λ.π.

Αναγνωρίζει παραπομπές που αναφέρονται στο ίδιο άρθρο

Αναγνωρίζει το περιεχόμενο των παραπομπών μέσα στο σώμα κειμένων

Υλοποίηση ΣΑΑΠ: Research Index - CiteSeer

Page 7: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex
Page 8: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex
Page 9: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

CiteSeer: Εντοπισμός τεκμηρίων

Εντοπισμός άρθρων με αναζήτηση στο Διαδίκτυο:

Μηχανές αναζήτησης (Altavista, HotBot, Excite) Ηλεκτρονικές λίστες Ομάδες συζητήσεων Ιστοσελίδες εκδοτών (Περιορισμός λόγω πνευματικών

δικαιωμάτων)

Αναζήτηση σε ιστοσελίδες που περιέχουν τις λέξεις: publications, papers, postscript. Το σύστημα αναγνωρίζει postscript αρχεία λόγω των επεκτάσεών τους: .ps, ps.Z, ps.gz

Page 10: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

CiteSeer: Επεξεργασία τεκμηρίων

«Κατεβάζει» αρχεία PS και PDF, τα μετατρέπει σε κείμενο ASCII (με τη χρήση του Prescript)

Πιστοποιεί την επιστημονική φύση των κειμένων (με την ύπαρξη βιβλιογραφίας ή αναφορών)

Πληροφορίες που αντλούνται από τα τεκμήρια: URL Επικεφαλίδα Περίληψη Εισαγωγή Παραπομπές Περιεχόμενο παραπομπής Πλήρες κείμενο

Page 11: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

CiteSeer: Εντοπισμός διαφορετικών παραπομπών για το ίδιο άρθρο

Παράδειγμα:[7] L. Brieman, J.H. Friedman, R.A. Olshen, and C.J. Stone. Classification and Regression

Trees. Wadsworth, Pacific Grove, California, 1984.

 6.      L. Brieman, J. Friedman, R. Olshen, and C. Stone, Classification and Regression Trees, Wadsworth and Brooks, 1984.

 [1] L. Brieman, et al. Classification and Regression Trees. Wadsworth, 1984.

Κανονικοποίηση:Απομάκρυνση

διακριτικών παύλας (-) ετικετών παραπομπών (π.χ. το 6 στην αρχή της παραπομπής) λέξεων (π.χ. p.p., pages, in press, vol., volume, et al.) χαρακτήρων (π.χ. - , &, : , ( ), [ ]) Ανάλυση διάφορων συντομεύσεων (π.χ. η λέξη conf. γίνεται Conference)

Page 12: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

CiteSeer: Αναζήτηση και ανάκτηση

Αναζήτηση παραπομπών (Citation search)

Αναζήτηση ευρετηριασμένου άρθρου (Indexed article search)

Page 13: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

CiteSeer: Δυνατότητες συστήματος

Περιεχόμενο

Διόρθωσης στοιχείων άρθρων

Υποβολής άρθρων

Στατιστικά στοιχεία: Συγγραφείς Δημοσιεύσεις Παραπομπές Impact Rating περιοδικών Αναμενόμενος χρόνος δημοσίευσης

Page 14: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

Παράδειγμα αναζήτησης με λέξη-κλειδί στο τεκμήριο

Page 15: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

Παράδειγμα αναζήτησης συγγραφέα (πριν από το άρθρο δίνεται ο αριθμός παραπομπών ενώ στην παρένθεση οι εκτιμώμενες παραπομπές που κάνει ο συγγραφέας στον εαυτό του)

Page 16: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

Παράδειγμα αναζήτησης με συγγραφέα – Στατιστικά στοιχεία παραπομπών

Page 17: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

Παράδειγμα καταμέτρησης παραπομπών

Page 18: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

Παράδειγμα ανάκτησης άρθρου

Page 19: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

Παράδειγμα κατάταξης συγγραφέα ανάλογα με τον αριθμό των παραπομπών που του έχουν γίνει (εξαιρούνται οι παραπομπές που έχει κάνει ο ίδιος ο συγγραφέας προς τα άρθρα του)

Page 20: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

• Παράδειγμα παραπομπής άρθρου μέσα στο σώμα κειμένου

Page 21: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

Παράδειγμα διόρθωσης στοιχείων δημοσίευσης 1

Page 22: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

Παράδειγμα διόρθωσης στοιχείων δημοσίευσης 2

Page 23: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

Αρχιτεκτονική του CiteSeer

Page 24: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

DocumentRepositorypdf/ps/txt

DownloadStatus &

ChecksumDB

Pub Filter

Parser

Doc Parser Cite Parser

Doc Adder

DocumentIndex

CitationIndex

Meta-dataDatabase

Web-application

CrawlerCrawler

CrawlerCrawler

DownloaderDownloader

Downloader

ConverterConverter

Converter

Query Daemon

Rankcache

Resp.cache

Indexcache

Page 25: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

Ανακάλυψη εργασιών με URLs

Παράλληλα «κατέβασμα» των εργασιών

Μετατροπή των εργασιών σε κείμενο ASCII

Απόσυρση μη επιστημονικών δημοσιεύσεων

Διατήρηση του download και αποφυγή διπλοκαταχωρήσεων τεκμηρίων

Αποθετήριο τεκμηρίων

Page 26: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

Διαδικασία εισαγωγής τεκμηρίου: αναγνωρίζει όσα «κατεβασμένα» τεκμήρια βρίσκονται στο αποθετήριο τεκμηρίων και είναι πλέον έτοιμα για εισαγωγή εφόσον προηγουμένως έχουν μετατραπεί σε ASCII κείμενο

Αποδόμηση του τεκμηρίου σε σώμα κειμένου και τμήμα αναφορών του τεκμηρίου

Αποδόμηση τεκμηρίου: εξάγει τα μεταδεδομένα από τον τίτλο του τεκμηρίου και το περιεχόμενο των παραπομπών

Αποδόμηση παραπομπών: εξάγει μεταδεδομένα για κάθε παραπομπή που βρίσκεται στο τμήμα των αναφορών

Ευρετήρια τεκμηρίων και παραπομπών: ευρετηριάζουν το σώμα του τεκμηρίου και τα κείμενα των παραπομπών. Διατηρούν το id του αντικειμένου.

Αποθήκευση όλων των εξαγομένων και παραγόμενων μεταδεδομένων: τεκμήριο/παραπομπή …

Page 27: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

Διαχειρίζεται τα ερωτήματα που υποβάλλει ο χρήστης, τα οποία ευρετηριάζονται σε id καταλόγους τεκμηρίων/παραπομπών. Χρησιμοποιεί μεταδεδομένα για την κατάταξη των παραπομπών

Αποκρυπτογραφεί πλήρεις απαντήσεις σε HTML. Η ευρετηρίαση βασίζεται στο ζητούμενο URL

Χρησιμοποιείται για αναζήτηση κειμένων τεκμηρίων (Booleans ή Relevance)

Χρησιμοποιείται για αναζήτηση σε κείμενο παραπομπών (μόνο με Booleans)

Αποκρυπτογραφεί τις απαντήσεις από τα ευρετήρια, π.χ. Id τεκμηρίων /παραπομπών

Αποκρυπτογραφεί τα μεταδεδομένα των τεκμηρίων/παραπομπών που βρίσκονται στη ΒΔ με σειρά κατάταξης

Page 28: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

CiteSeer: Μεταδεδομένα

ΟΑΙ (Open Archives Initiative)

Παρέχονται αυτόματα από το σύστημα

Page 29: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

Εξέλιξη: CiteSeerx (Beta Version)

Νέα χαρακτηριστικά:

Εκτεταμένα μοντέλα δεδομένων Εικονικά τεκμήρια Ψηφιακά αντικείμενα

Αρχιτεκτονική:

Επίπεδο αποθήκευσης Επίπεδο εφαρμογής Επίπεδο διεπαφής με το χρήστη (MyCiteSeer)

Page 30: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

Συστήματα που υιοθέτησαν το μοντέλο CiteSeer

SmealSearch

eBizSearch

RePec

Page 31: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

Συμπέρασμα (1/2)

Είναι κοινώς αποδεκτό ότι οι ερευνητές συχνά αγνοούν πολύτιμη για την έρευνά τους βιβλιογραφία λόγου της ανεπαρκούς ευρετηρίασης άρθρων. Η βιβλιογραφική κάλυψη από εμπορικές υπηρεσίες πληροφόρησης (π.χ. ISI Citation Index) επικεντρώνεται σε συγκεκριμένα ηλεκτρονικά περιοδικά.

Συστήματα Αυτόματης Ευρετηρίασης, όπως το ResearchIndex, ενισχύουν τη χρήση περιοδικών στα οποία δεν γίνονται συχνά παραπομπές (π.χ. στα δωρεάν περιοδικά) καθώς και σχετικής βιβλιογραφίας άλλης φύσεως (π.χ. γκρίζας, πρακτικά συνεδρίων).

Για τους ερευνητές, η γκρίζα βιβλιογραφία είναι εξαιρετικά πολύτιμη καθώς η έρευνα εξελίσσεται με γοργούς ρυθμούς και ο χρόνος δημοσίευσης των τεκμηρίων δεν είναι ανάλογος με την πρόοδό της.

Page 32: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

Συμπέρασμα (2/2)

Παράλληλα με την αναζήτηση, η εξοικείωση με ένα ΣΑΑΠ, δίνει τη δυνατότητα στον ερευνητή να ενημερώνει το σύστημα απευθείας για νέες εκδόσεις οι οποίες ευρετηριάζονται αμέσως. Ως εκ τούτου, η διάχυση και διάδοση των πληροφοριών διευρύνεται αυτόματα και γίνεται περισσότερο αποτελεσματική.

Η υπηρεσία του ResearchIndex αναφέρεται σε τεκμήρια του τομέα της πληροφορικής. Ανάλογες προσπάθειες θα μπορούσαν να εφαρμοστούν και σε άλλους τομείς όπως της δασολογίας, της βιολογίας κ.λ.π.

Page 33: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

Χρήσιμες ιστοσελίδες

http://citeseer.ist.psu.edu/citeseer.html

http://hcl.harvard.edu/research/guides/citationindex/

http://en.wikipedia.org

http://www.isinet.com/products/citation/citationdp.html

http://en.wikipedia.org/wiki/Citeseer

http://www.nzdl.org/

Page 34: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

Βιβλιογραφία (1/2)

Barrueco Cruz, José Manuel and Krichel, Thomas (2004) Building an autonomous citation index for grey literature : the economics working papers case. In Proceedings GL6 : Sixth International Conference on Grey Literature, New York (USA).

Bollacker, K., Lawrence, S. and C. L. Giles. “CiteSeer: An autonomous web agent for automatic retrieval and identification of interesting publications”. In Proceedings of the Second International Conference on Autonomous Agents, pages 116--123, New York, 1998. ACM Press.

Cronin, B., Snyder, H. “Comparative citation rankings of authors in monographic and journal literature: A study of sociology”, Journal of Documentation 53, 3, pp.263-73. 

Feitelson, Dror, Yovel, Uri. “Predictive ranking of computer scientists using CiteSeer data”, Journal of Documentation 60, 1, (2004): 44-61.

 Fong, A, Hui, S., Vu, H. “Effective techniques for automatic extraction of Web publications”, Online Information Review 26, 1, (2002): 4-18.

 Garfield, E. 1955. Citation indexes for science: A new dimension in documentation through association of ideas. Science, 122 (3159): 108-111. Available at: http://www.garfield.library.upenn.edu/essays/v6p468y1983.pdf

Garfield, E. (1979/1983). “Citation Indexing: Its theory and Application in Science, Technology and Humanities”. New York: Wiley & Sons.  (Reprinted by ISI Press, 1983). Available at: http://www.garfield.library.upenn.edu/ci/title.pdf

Garfield, E. “Science Citation Index: A new dimension in indexing”, Science 144, 3619, (1964): 649-54. 

Page 35: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

Βιβλιογραφία (2/2)

Giles, Lee C., Bollacker, Kurt and Steve, Lawrence. “CiteSeer: An Automatic Citation Indexing System”, Digital Libraries 98 – Third ACM Conference on Digital Libraries, edited by I. Witten, R. Akseyn, F. Shipman III, ACM Press, New York, pp. 89-98, 1998. 

Hui, S., Fong, A. “Document retrieval from a citation database using conceptual clustering and co-word analysis”, Online Information Review 28, 1, (2004): 22-32. 

Hitchcock, Steve et al. “Open Citation Linking:The Way forward”, D-Lib Magazine 8, 10, (2002). 

Jacso, Peter. “Options for presenting search results: Part 2: options for citation searching”, Online Information Review 20, 4, (2005): 412-418. 

Lawrence, Steve. “Access to scientific literature”, The Nature Yearbook of Science and Technology, edited by Declan Butler, Macmillan, London, England, (2001): 86-88. 

Lawrence, Steve, Giles, C. et al. “Digital Libraries and Autonomous Citation Indexing”, IEE Computer 32, 6, (1999): 67-71.  

Lawrence, Steve. “Online or invisible?”, Nature 411, 6837, (2001): 521. 

McKiernan, Gerry. “ResearchIndex: autonomous citation indexing on the Web”, The International Journal on Grey Literature 1, 1, (2000): 41-46.

OpCit-The Open Citation Project (2001) [Available at: http://opcit.eprints.org/]

Petinot, Yves et al. “A Service-Oriented Architecture for Digital Libraries” [Available at: http://www.cse.psu.edu/~petinot/presentations/thesis_defense.ppt]

Thelwall, Mike. “Research dissemination and invocation on the Web”, Online Information Review 26, 6, (2002): 413-420.

Page 36: Μάθημα: Ηλεκτρονική δημοσίευση Παραπομπές στο Διαδίκτυο: Η περίπτωση του  ResearchIndex

Σας ευχαριστώ για την προσοχή σας!!!