Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και...

38
1 Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων Μελισσάς Μιλτιάδης [email protected]

description

Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων. Μελισσάς Μιλτιάδης [email protected]. Εισαγωγή. Πληροφορία είναι η γνώση η οποία έχει αποκτηθεί από γεγονότα και δεδομένα - PowerPoint PPT Presentation

Transcript of Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και...

Page 1: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

1

Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

Μελισσάς Μιλτιάδης[email protected]

Page 2: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

2

Εισαγωγή Πληροφορία είναι η γνώση η οποία έχει

αποκτηθεί από γεγονότα και δεδομένα Επίσης η πληροφορία θεωρείται περιουσία και

πάγιο για το άτομο ή τον οργανισμό που την κατέχει

Στην εργασία αυτή: Περιγράφουμε τον τρόπο δόμησης των ιατρικών

ψηφιακών τεκμηρίων (ιατρικά άρθρα, δημοσιεύσεις, επιστημονικά ιατρικά επιτεύγματα)

Την διαδικασία συλλογής και επεξεργασίας τους Και όλα αυτά μέσα σε μια από τις μεγαλύτερες ιατρικές

ψηφιακές βιβλιοθήκες της Αμερικής την PubMED

Page 3: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

3

Εισαγωγή (συν.) Συγκεκριμένα βλέπουμε στο 1ο μέρος:

Τη δομή και το περιεχόμενο της PubMED Τον τρόπο ευρετηρίασης των τεκμηρίων της Την μεθοδολογία αναζήτησης μέσα στο σχεσιακό

μοντέλο των βάσεων δεδομένων που περιέχει Τέλος, τον τρόπο χρήσης της PubMed από τους χρήστες

της μέσα από απλά αλλά και σύνθετα ερωτήματα που αυτοί θέτουν στην βάση της

Στο 2ο μέρος επιχειρούμε: Μια πρώτη προσέγγιση, περιγράφοντας το σύστημα

Entrez του NCBI (National Center for Biotechnological Information), που είναι και το βασικό σύστημα αναζήτησης και ανάκτησης ιατρικών τεκμηρίων σε όλες τις Β.Δ του NCBI συμπεριλαμβανομένης και της PubMED

Page 4: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

4

PubMed: Η Ιατρική Βιβλιογραφική Βάση Δεδομένων

NIHNational Institutes of Health

NCBINational Center for

Biotechnology Information

PubMedMedical Citations

MEDLINE Non-MEDLINE

Page 5: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

5

PubMED (συν.) Η PubMED είναι ουσιαστικά μια Β.Δ η οποία

αναπτύχθηκε από το NCBI (National Center for Biotechnology Information)

Είναι σχεδιασμένη κατά τέτοιο τρόπο ώστε: να παρέχει πρόσβαση σε δημοσιευμένες ιατρικές

πληροφορίες (με τις παραπομπές και περιλήψεις τους) που προέρχονται από βιο-ιατρικά περιοδικά της τρέχουσας επικαιρότητας

Ενώ ταυτόχρονα παρέχεται η δυνατότητα με τη χρήση υπέρ-συνδέσμων της πρόσβασης στο πλήρες κείμενο όπως αυτό δημοσιεύεται στο διαδίκτυο από τους εκδότες

Page 6: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

6

Πηγές πληροφόρησης ιατρικών τεκμηρίων της PubMED Δύο βασικά είναι οι πηγές πληροφόρησης

ιατρικών τεκμηρίων της PubMED:

MEDLINE

Non-MEDLINE

Page 7: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

7

MEDLINE Αποτελεί την πρωταρχική πηγή πληροφόρησης

της PubMED και είναι η αρχαιότερη βιβλιογραφική Β.Δ της NLM (National Library of Medicine) καλύπτοντας τα πεδία της φαρμακευτικής, παιδιατρικής, οδοντιατρικής, κτηνιατρικής και τέλος της προ-κλινικής έρευνας όπως η μοριακή βιολογία (συμπεριλαμβάνονται επίσης οι μελέτες που προέρχονται από το σύστημα υγείας)

Περιέχει βιβλιογραφικές αναφορές (citations) σε δημοσιευμένες ιατρικές πληροφορίες από περίπου 4600 βιο-ιατρικά περιοδικά της τρέχουσας επικαιρότητας

Η Β.Δ της περιέχει περίπου 12 εκατομμύρια δημοσιεύματα τα οποία χρονολογούνται από τα μέσα της δεκαετίας του 1960

Page 8: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

8

Non-MEDLINE

Πηγές δηλαδή εκτός της MEDLINE, όπως: Δημοσιεύματα εκτός των συγκεκριμένων πεδίων που

ορίσαμε παραπάνω Αναφορές σε δημοσιευμένες ιατρικές πληροφορίες που

προηγούνται της MEDLINE (πριν το 1960) Ιατρικά δημοσιεύματα της PubMED Central* Ποιο συγκεκριμένα τα ιατρικά αυτά τεκμήρια

προέρχονται από το πεδίο της επιστήμης γενικότερα Άλλες βάσεις δεδομένων όπως: HealthSTAR, AIDSLINE,

HISTLINE, SPACELINE, BIOTHICSLINE και τέλος POPLINE. *PubMED Central αποτελείται από δημοσιεύματα πλήρους κειμένου κυρίως

από τον χώρο της βιολογίας και της ιατρικής

Page 9: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

9

Κριτήρια συλλογής ιατρικών περιοδικών της τρέχουσας επικαιρότητας

Για τον τρόπο επιλογής των ιατρικών περιοδικών της τρέχουσας επικαιρότητας αλλά και τον τρόπο αξιολόγησης των τεκμηρίων που περιλαμβάνονται στη Β.Δ της PubMED ο ερευνητής μπορεί να ανατρέξει στην διεύθυνση: http://www.nim.nih.gov/pubs/factsheets/jsel.html

Page 10: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

10

Ηλεκτρονική υποβολή ιατρικών δεδομένων Τα ιατρικά άρθρα και περιοδικά υποβάλλονται

ηλεκτρονικά και αυτό ωφελεί όλους: τους εκδότες

Τα ιατρικά δημοσιεύματα εμφανίζονται με ταχύτητα και ακρίβεια στην PubMED

τους χρήστες οι οποίοι αποκτούν άμεση πρόσβαση σε αυτά

την ίδια την ψηφιακή ιατρική βιβλιοθήκη (PubMED) η οποία εμπλουτίζεται άμεσα

Η ηλεκτρονική υποβολή επιτρέπει ακόμη στους εκδότες να δημιουργούν υπέρ-συνδέσμους με το πλήρες κείμενο στον δικτυακό τόπο τους με την χρήση του εργαλείου LinkOut:

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?call=bv.View..ShowTOC&rid=handbook.TOC&depth=2

Page 11: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

11

Διαδικασία ηλεκτρονικής υποβολής ιατρικών δεδομένων Η υποβολή γίνεται μέσω FTP στο

μορφότυπο XML που «υπακούει» στο Schema DTD (Document Type Definition)

Οι παραπάνω προδιαγραφές ορίζονται από το έγγραφο Standard Publisher Data Format

Για παραπάνω οδηγίες οι ενδιαφερόμενοι μπορούν να στείλουν email στην διεύθυνση: [email protected]

Page 12: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

12

Διαδικασία ηλεκτρονικής υποβολής ιατρικών δεδομένων (συν.) Με την επιτυχή υποβολή τους τα ιατρικά άρθρα

και οι δημοσιεύσεις αποκτούν ένα μοναδικό αριθμό για την PubMED τον:PMID (δηλ. τον PubMED ID number)*

Επίσης εκείνη την στιγμή μια αναφορά στέλνεται στον αποστολέα για την επιβεβαίωση της επιτυχής καταχώρησης

Την υποβολή των ιατρικών δημοσιευμάτων ακολουθεί η προώθησή τους στο Τμήμα Ευρετηρίασης (Indexing Section)

* Η απόδοση του PMID γίνεται εντελώς αυτοματοποιημένα με την εκτέλεση ενός script (Δευτ.-Παρασκ. γύρω στις 9:00 π.μ). Τα τεκμήρια είναι διαθέσιμα μετά τις 11:00 πμ της επόμενης μέρας δηλ. από Τρίτη μέχρι και Σαββάτο

Page 13: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

13

Διαχείριση της Β.Δ και του Υλικού (hardware) Η PubMED είναι όπως έχουμε ήδη δει μια από τις πολλές Β.Δ της NCBI

(National Center for Biotechnology Information) Όλες οι αιτήσεις προς τις υπηρεσίες της NCBI

απευθύνονται πρωταρχικά σε 3 διακομιστές-proxy της εταιρίας DELL, τους Dell PowerEdge 1650 Με 2 CPU’s ο καθένας

Οι proxy προωθούν τα αιτήματα (αναζητήσεις) στους διακομιστές της PubMed και των άλλων υπηρεσιών της NCBI Εδώ έχουμε 8 διακομιστές Dell PowerEdge 8450 με:

8 CPU’s έκαστος, 8GB μνήμης και 300GB αποθηκευτικό χώρο, όλοι εκτελούν το Λ.Σ Linux

Οι 8 αυτοί διακομιστές ανακτούν τα ιατρικά αρχεία από 2 Sybase SQL Servers της εταιρία Sun τύπου Enterprise 450

Page 14: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

14

Ταχύτητες Διασύνδεσης Προκειμένου να ανταποκριθεί στη μεγάλη

ροή πληροφοριών η NLM διατηρεί συνδέσεις υψηλών ταχυτήτων προς το Internet: OC-3 με ταχύτητες που αγγίζουν τα 155

Mbits/sec Καθώς επίσης και συνδέσεις OC-12 για

διασύνδεση με το Internet2, το μη εμπορικό δίκτυο δηλαδή που χρησιμοποιείται από πολλά ερευνητικά πανεπιστήμια σήμερα

Page 15: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

15

Ευρετηρίαση Δομή ιατρικών τεκμηρίων της PubMED και

εκχώρηση όρων-λημμάτων από την MeSH (Medical Subject Headings)

H αυτοματοποιημένη διαδικασία καταλογράφισης

Εκτέλεση Ερωτημάτων (Queries)

Page 16: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

16

Δομή ιατρικών τεκμηρίων της PubMED Σε κάθε τεκμήριο της PubMED δίνεται μια

μοναδική ετικέτα η οποία τοποθετείται δίπλα στο PMID

Οι ετικέτες <tags> προσδιορίζουν την τρέχουσα κατάσταση του άρθρου μέσα στο σύστημα ευρετηρίασης και καταλογράφισης της PubMED. Έχουμε λοιπόν: PubMED-as supplied by publisher PubMed-in process PubMed-indexed for MEDLINE

Page 17: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

17

Δομή ιατρικών τεκμηρίων της PubMED (συν.) PubMED-as supplied by publisher

Ετικέτα που τοποθετείται σε πρόσφατα καταχωρημένα άρθρα που μπορούν να μην ευρετηριαστούν τελικά δηλ. μπορούν να αποκτήσουν ή να μην αποκτήσουν κάποια συγκεκριμένη Ιατρική Θεματολογική Επιγραφή

[MeSH-Medical Subject Heading] PubMed-in process

Ετικέτα που τοποθετείται σε άρθρα που έχουν περάσει το πρώτο στάδιο ελέγχου το οποίο πιστοποιεί ότι το:

Δημοσίευμα, η ημερομηνία, ο τόμος και το τεύχος είναι σωστά

PubMed-indexed for MEDLINE Ετικέτα για άρθρα που έχουν καταλογραφηθεί και έχουν

αποκτήσει συγκεκριμένη Ιατρική Θεματολογική Επιγραφή [MeSH], με του απαραίτητους βιβλιογραφικούς όρους, τον τύπο δημοσίευσης και αριθμό καταχώρισης

Page 18: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

18

Η αυτοματοποιημένη διαδικασία καταλογράφισης Οι ιατρικές αναφορές καταχωρούνται στη

Β.Δ της PubMED μέσα από: το DCMS (Data Creation and Maintenance

System) ή όπως ήδη έχουμε περιγράψει κατευθείαν από

τους εκδότες Και οι δύο τρόποι καταχώρησης των

ιατρικών αναφορών (citations) γίνεται στη γλώσσα XML

Page 19: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

19

Η αυτοματοποιημένη διαδικασία καταλογράφισης (συν.)

Page 20: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

20

Η αυτοματοποιημένη διαδικασία καταλογράφισης (συν.) Κατά την διαδικασία καταλογράφισης από τον

Η/Υ το άρθρο ή το δημοσίευμα «σπάζει» στα πεδία καταλογράφισης του: Ονομασία περιοδικού, Όνομα Συγγραφέα,

Τίτλος/Περίληψη κ.τ.λ. Οι λέξεις σε κάθε πεδίο ελέγχονται σε σχέση με

το αντίστοιχο πεδίο του Ευρετηρίου π.χ οι λέξεις του τίτλου του άρθρου αναζητούνται μέσα

στο πεδίο του Τίτλου του Ευρετηρίου Εάν η λέξη υπάρχει τότε, το PMID της αναφοράς

καταχωρείται δίπλα στο ευρετήριο αυτού του όρου.

Εάν η λέξη δεν υπάρχει τότε προστίθεται σαν ένας νέος δείκτης Ευρετηρίου με την νέα ορολογία και τον PMID δίπλα σε αυτόν. Έτσι αυξάνεται και το Ευρετήριο της PubMED

Page 21: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

21

Εκτέλεση ερωτημάτων στη PubMED Η PubMED χρησιμοποιεί ένα αυτοματοποιημένο

σύστημα χαρτογράφησης (Automatic Term Mapping) για την εκτέλεση των ερωτημάτων (queries) που υποβάλλονται στη Β.Δ της με λέξεις κλειδιά

Υπάρχουν για τον σκοπό αυτό 3 πίνακες μετασχηματισμών πεδίων: ο πίνακας μετασχηματισμών των όρων MeSH [Medical

Subject Heading Translation Table] ο πίνακας μετασχηματισμών ιατρικών περιοδικών και

δημοσιεύσεων [Journals Translation Table] και τέλος ο πίνακας ευρετηρίου των Συγγραφέων-Συντακτών

[Author Index]

Page 22: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

22

Τι περιλαμβάνουν οι πίνακες μετασχηματισμών

MeSH Translation Table Journals Translation Table Authors Index

MeSH Terms Full Journal Title Name

SubHeading MEDLINE Abbreviation Initials

See-Reference Mappings ISSN

UMLS-Substances

Supplementary Concept-Substances Names

Page 23: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

23

Διαδικασία αναζήτησης των όρων μέσα στην PubMED Ο αλγόριθμος αναζήτησης πρωταρχικά αναζητά

τον όρο στο πίνακα μετασχηματισμών MeSH, αν δεν το εντοπίσει εκεί τότε ο αλγόριθμος …

Αναζητά τον όρο στον πίνακα μετασχηματισμών ιατρικών άρθρων ο οποίος περιέχει τον πλήρη τίτλο του άρθρου (full journal title), την συντομογραφία του κατά MEDLINE (MEDLINE abbreviation) και τον ISSN (International Standard Serial Number). Εφόσον ο όρος δεν εντοπιστεί ούτε εκεί…

ο αλγόριθμος «καταφεύγει» στο ευρετήριο συγγραφέων

Page 24: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

24

Κανόνες Αναζήτησης και Συντομογραφίες Πεδίων Είναι δυνατόν κανείς να παραμερίσει τον τρόπο

Αυτοματοποιημένης Αναζήτησης των Όρων από την PubMED χρησιμοποιώντας κανόνες, συντακτικό και ειδικούς όρους μέσα στα πεδία αναζήτησης

Οι λογικοί τελεστές ΚΑΙ, Ή και ΌΧΙ πρέπει να γράφονται στην περίπτωση αυτή με κεφαλαίους χαρακτήρες και εκτελούνται κατά σειρά προτεραιότητας από αριστερά προς τα δεξιά. Προηγούνται οι λογικές πράξεις μέσα στις παρενθέσεις

Επίσης οι όροι αναζήτησης μπορούν να προσδιοριστούν ακόμη περισσότερο ως προς συγκεκριμένο πεδίο ή πεδία αναζήτησης

Page 25: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

25

Επιπρόσθετες λειτουργίες της PubMED Μπορεί να γίνει απευθείας αναζήτηση στη Β.Δ των όρων

MeSH. Οι χρήστες μπορούν να επιλέξουν κατάλληλους όρους αναζήτησης, όρους που πριν δεν μπορούσαν να γνωρίζουν, όπως και να έχουν μια ιεραρχική επισκόπηση των όρων αυτών

Μπορούν να υποβληθούν ερωτήματα που αφορούν Κλινικά δεδομένα – που ουσιαστικά αποτελούν ομάδα «φίλτρων» αναζήτησης που αναπτύχθηκαν από κλινικούς ιατρούς

Μπορεί να γίνει αναζήτηση στη Β.Δ των ονομάτων των τεκμηρίων ή του συντομευμένου όρου τους ή ακόμη και στο ISSN

Μπορεί να γίνει ο εντοπισμός του PMID ενός άρθρου μέσα από την αναζήτηση συγκεκριμένων όρων που περιγράφουν το τεκμήριο προς αναζήτηση

Page 26: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

26

Αποτελέσματα Η PubMED ανακτά και παρουσιάζει τα

αποτελέσματα της αναζήτησης σε μορφή περιλήψεων (Summary format) με την ίδια σειρά που τα δημοσιεύματα αυτά αρχικά καταχωρήθηκαν σε αυτήν

Τα τεκμήρια αυτά καθ’ αυτά μπορούν να επισκοπηθούν με πολλά είδη μορφοτύπων, να ταξινομηθούν, να αποθηκευτούν και να εκτυπωθούν ή να παραγγελθεί το πλήρες κείμενό τους

Page 27: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

27

Το σύστημα Entrez αναζήτησης και ανάκτησης πληροφοριών της NCBI Το Entrez είναι το σύστημα αναζήτησης και

ανάκτησης κειμένου που χρησιμοποιείται από το National Center for Biotechnology Information (NCBI) για όλες τις μεγάλες Β.Δ του όπως: PubMED Nucleotide Sequences Protein Sequences Complete Genomes Taxonomy ΟΜΙΜ κτλ

To Entrez αποτελεί ταυτόχρονα ένα τρόπο οργάνωσης των βιο-ιατρικών πληροφοριών και μια συλλογή δεδομένων αυτών των πληροφοριών από πολλές πηγές

Page 28: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

28

Το ιστορικό του Entrez Η πρώτη έκδοση του Entrez διανεμήθηκε

από το NCBI το 1991 σε μορφή CD-ROM Η πρώτη αυτή έκδοση περιείχε δεδομένα

για την αλληλουχία των νουκλεοτιδίων από την GenBank και την PDB, δεδομένα για την αλληλουχία των πρωτεϊνών από την GenBank, PIR, SWISS-PROT, PDB και PRF καθώς και συναφή τεκμήρια και περιλήψεις από την MEDLINE

Page 29: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

29

Οι κόμβοι (nodes) του Entrez αναπαριστούν δεδομένα Τα δεδομένα στο Entrez οργανώνονται και

ταξινομούνται όλα μαζί με την μορφή κόμβων (nodes)

Ένας κόμβος στο Entrez είναι λοιπόν μια συλλογή από δεδομένα τα οποία έχουν ταξινομηθεί και ευρετηριαστεί όλα μαζί

Στην πρώτη έκδοση του το Entrez (1991) είχε 3 μόνον κόμβους: Δημοσιευμένα άρθρα Ακολουθίες νουκλεοτιδίων Ακολουθίες πρωτεϊνών

Κάθε κόμβος αναπαριστά συγκεκριμένα αντικείμενα δεδομένων του ιδίου τύπου για κάθε ένα από τα οποία δίνεται και ένα μοναδικός αριθμός ID (UID)

Page 30: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

30

Οι κόμβοι του Entrez σήμερα

Page 31: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

31

Ο σκοπός των κόμβων του Entrez είναι η διασυνδεσιμότητα Ένα άλλο κριτήριο για την επιλογή ενός

συγκεκριμένου τύπου δεδομένου για κόμβο είναι η δυνατότητα δημιουργίας συνδέσμου σε άλλους κόμβους του με ένα χρήσιμο και αξιόπιστο τρόπο π.χ δεδομένης μια αλληλουχίας πρωτεϊνών

είναι πολύ χρήσιμο να μπορούμε να βρούμε γρήγορα την αλληλουχία των νουκλεοτιδίων που αυτή περιέχει και κωδικοποιεί

ή δεδομένου ενός ερευνητικού άρθρου είναι χρήσιμο να βρούμε τις συνέπειες που αυτό περιγράφει, εάν βέβαια υπάρχουν

Page 32: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

32

Οι σύνδεσμοι μεταξύ των κόμβων Κατά κάποιον τρόπο μπορούμε να πούμε

ότι το Entrez αντιγράφει την φιλοσοφία σχεδιασμού του Web και με τον ίδιο τρόπο συνδέει του κόμβους που το αποτελούν μεταξύ τους

Η διασυνδεσιμότητα των κόμβων βελτιστοποιεί τα χαρακτηριστικά και τις δυνατότητες κάθε κόμβου, ενώ ταυτόχρονα συναφή δεδομένα μπορούν να προσπελαστούν σε κόμβους με διαφορετικό περιεχόμενο

Page 33: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

33

Σύνδεσμοι μέσα στους κόμβους

Κατά παρόμοιο τρόπο τα τεκμήρια ιδίου τύπου συνδέονται μεταξύ τους μέσα στο ίδιο κόμβο

Page 34: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

34

Το Entrez είναι ένα σύστημα ανακάλυψης πληροφοριών Ένα σύστημα ανάκτησης δεδομένων θεωρείται

επιτυχημένο όταν ανακτά ακριβώς την πληροφορία που αναζητά κανείς (the same data you put in)

Επίσης ένα σύστημα εύρεσης πληροφοριών επιδιώκει να εμφανίσει περισσότερα δεδομένα από αυτά που αρχικά αναζήτησε κάποιος

Με την δημιουργία συνδέσμων μεταξύ επιλεγμένων κόμβων και πραγματοποιώντας τεχνικές συσχέτισης ανάμεσα στους κόμβους, το Entrez είναι σχεδιασμένο να τεκμηριώνει σχέσεις ανάμεσα σε διαφορετικού τύπου δεδομένα τα οποία μπορούν να υποστηρίξουν πειράματα στο μέλλον ή να βοηθήσουν στην εκμετάλλευση των ήδη διαθέσιμων πληροφοριών που προέρχονται από διαφορετικές πηγές

Page 35: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

35

Πως λειτουργεί το σύστημα Entrez Το Entrez ενσωματώνει ένα μεγάλο αριθμό

πηγών ιατρικών δεδομένων, μορφοτύπων και Β.Δ σε ένα ομογενοποιημένο μοντέλο πληροφόρησης και ανάκτησης πληροφοριών

Οι πραγματικές Β.Δ από τις οποίες τα τεκμήρια ανακτώνται και πάνω στα οποία βασίζονται οι δείκτες του Entrez, έχουν διαφορετικούς σχεδιασμούς, που βασίζονται στο τύπο δεδομένων, και είναι αποθηκευμένες σε διαφορετικό εξοπλισμό (Hardware)

Page 36: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

36

Βασικοί κανόνες διαμοιρασμού της εργασίας Ένα ερώτημα του Entrez είναι μια έκφραση της άλγεβρας

του Bool το οποίο αξιολογείται από τη μηχανή του Entrez και εκφράζεται με μια λίστα από μοναδικά νούμερα (UIDs), τα οποία ουσιαστικά αναγνωρίζουν τα τεκμήρια (DocSum) μέσα σε ένα κόμβο του συστήματος

Το πρόγραμμα το οποίο παρακολουθεί την προσθήκη νέων τεκμηρίων ή την ανανέωσή τους ή που αναγνωρίζει εκείνα τα οποία πρέπει να διαγραφούν από το Entrez μπορεί να είναι μοναδικό για κάθε Β.Δ του συστήματος

Ο συνδυασμός των συγκεκριμένων Β.Δ και ενός σετ ρουτινών του Entrez καθώς και οι εφαρμογές επιτρέπουν τον διαμοιρασμό του κώδικα και την ανάκτηση στοιχείων από μεγάλους διακομιστές αλλά ταυτόχρονα την απλότητα και την ευχρηστία ανάκτησής τους σ’ ένα μεγάλο πλήθος δεδομένων

Page 37: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

37

Χρήση του Entrez Το Entrez αποτελεί το βασικό εργαλείο αναζήτησης

πληροφοριών σε όλες τις βάσεις δεδομένων του NCBI Σε κάθε μια από τις βάσεις αυτές το Entrez μπορούμε να

πούμε ότι αποτελεί την μηχανή αναζήτησης με την χαρακτηριστική μπάρα εργαλείων (toolbar) να εμφανίζεται στις σελίδες τους σαν βασικό εργαλείο αναζήτησης και ανάκτησης των ψηφιακών ιατρικών τεκμηρίων

Για αναζήτηση ταυτόχρονα όλων των Β.Δ του NCBI ο ερευνητής μπορεί να προσπελάσει την διεύθυνση:

http://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi?itool=toolbar όπου υπάρχει και η αρχική σελίδα της μηχανής αναζήτησης του Entrez

Από την σελίδα αυτή γίνεται κατανοητό ότι η μηχανή αναζήτησης του Entrez μπορεί να διατρέξει και οριζόντια όλες τις Β.Δ αποτελώντας έτσι ένα πανίσχυρο εργαλείο αναζήτησης ιατρικών τεκμηρίων

Page 38: Τεχνικές Επεξεργασίας στις Ψηφιακές Βιβλιοθήκες και δομές ιατρικών ψηφιακών τεκμηρίων

38

Συμπεράσματα Η μεγάλη απόκτηση γνώσης στο τομέα της

Ιατρικής αλλά και σε άλλες σύγχρονες επιστήμες – όπως π.χ της Βιοιατρικής, της Νανοτεχνολογίας, της Μοριακής Βιολογίας κ.α δημιουργεί δυσχέρειες στην διαχείριση της γνώσης και της αποκτηθείσας εμπειρίας

Ειδικότερα στο τομέα της ιατρικής δημοσιεύονται: 600.000 άρθρα το χρόνο 80.000 επιστημονικά περιοδικά 200 άρθρα το χρόνο ανά έμπειρο αναγνώστη

Τα δεδομένα αυτά στο σύγχρονο περιβάλλον της ιατρικής πληροφόρησης οδηγούν στην ανάγκη: Κωδικοποίησης της πληροφορίας Σε «έξυπνες» αναζητήσεις για την ανάγνωση μόνο των

σημαντικών για αυτών άρθρων