Εργαστηριακές Ασκήσεις Υπολογιστικής...

83
Εργαστηριακές Ασκήσεις Υπολογιστικής Βιολογίας και Βιοπληροφορικής Βασίλης Προμπονάς Λευκωσία, 2009

Transcript of Εργαστηριακές Ασκήσεις Υπολογιστικής...

  • Εργαστηριακές Ασκήσεις ΥπολογιστικήςΒιολογίας και Βιοπληροφορικής

    Βασίλης Προμπονάς

    Λευκωσία, 2009

  • ii

  • Περιεχόμενα

    Πρόλογος v

    I Θεωρητικό μέρος 1

    1 Βάσεις δεδομένων μοριακής βιολογίας 31.1 Λίγη ιστορία ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2 Στόχος . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.3 Τί είναι μια βάση δεδομένων; . . . . . . . . . . . . . . . . . . . . . . . . 61.4 Χαρακτηριστικά βιολογικών ΒΔ . . . . . . . . . . . . . . . . . . . . . . 81.5 Κατηγορίες ΒΔ μοριακής βιολογίας . . . . . . . . . . . . . . . . . . . . 9

    1.5.1 Κατηγορίες ΒΔ: Τύποι δεδομένων . . . . . . . . . . . . . . . . . 91.5.2 Κατηγορίες ΒΔ: Μοντέλο λειτουργίας . . . . . . . . . . . . . . 101.5.3 Κατηγορίες ΒΔ: Τεχνικά χαρακτηριστικά . . . . . . . . . . . . . 111.5.4 Κατηγορίες ΒΔ: Πηγή δεδομένων . . . . . . . . . . . . . . . . . 201.5.5 Κατηγορίες ΒΔ: Μέθοδος πρόσβασης . . . . . . . . . . . . . . 211.5.6 Κατηγορίες ΒΔ: Άλλες παράμετροι . . . . . . . . . . . . . . . . 21

    1.6 Συστήματα ενοποίησης βιολογικών δεδομένων . . . . . . . . . . . . . 22

    2 Βάσεις δεδομένων αλληλουχιών 292.1 ΒΔ νουκλεοτιδικών αλληλουχιών . . . . . . . . . . . . . . . . . . . . . 29

    2.1.1 EMBL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302.1.2 GenBank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302.1.3 DDBJ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322.1.4 INSDC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322.1.5 Κωδικοί καταχώρησης - accession numbers . . . . . . . . . . . . 342.1.6 Μορφοποίηση δεδομένων νουκλεοτιδικών αλληλουχιών . . . 35

    iii

  • iv ΠΕΡΙΕΧΟΜΕΝΑ

    2.1.7 Δευτερογενείς ΒΔ νουκλεοτιδικών αλληλουχιών . . . . . . . 432.2 ΒΔ αμινοξικών αλληλουχιών . . . . . . . . . . . . . . . . . . . . . . . . 45

    2.2.1 UniProt Knowledgebase - UniProtKB . . . . . . . . . . . . . . . . . 452.2.2 Δευτερογενείς ΒΔ . . . . . . . . . . . . . . . . . . . . . . . . . . 50

    3 Βάσεις δομικών δεδομένων 533.1 Εισαγωγή . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533.2 Protein Data Bank - PDB (http://www.rcsb.org) . . . . . . . . . . . . . . . 54

    3.2.1 Μορφοποίηση καταγραφών της PDB . . . . . . . . . . . . . . . 543.3 Ταξινόμηση πρωτεϊνικών διπλωμάτων . . . . . . . . . . . . . . . . . . . 56

    3.3.1 Το σύστημα δομικής κατηγοριοποίησης SCOP . . . . . . . . . 573.3.2 Το σύστημα δομικής κατηγοριοποίησης CATH . . . . . . . . . . 59

    4 Συστήματα ενοποιημένης πρόσβασης 614.1 SRS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 614.2 Entrez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

    II Πρακτικό μέρος 65

    5 Διαδικτυακές πηγές για τη μοριακή βιολογία 675.1 Ερωτήσεις με βάση το κείμενο του φυλλαδίου . . . . . . . . . . . . . 675.2 Ανάκτηση δεδομένων από βιολογικές βάσεις δεδομένων . . . . . . . 68

    5.2.1 NCBI - Entrez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 685.2.2 EBI - SRS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 685.2.3 Δομικές Βάσεις Δεδομένων . . . . . . . . . . . . . . . . . . . . 695.2.4 BONUS!! . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

    6 Παράρτημα: Μορφοποίηση PDB 71

  • Πρόλογος

    Μόλις τελείωσε μια κουραστική ημέρα στο εργαστήριο! Απομονώσατε ένα άγνω-στο τεμάχιο DNA από μια πηκτή (gel) και η αλληλούχισή του φαίνεται ότι προχώ-ρησε τέλεια σύμφωνα με το πρωτόκολλο που ακολουθήσατε.

    Παρόλη τη σκληρή δουλειά, δε γνωρίζετε ακόμη εάν το DNA αυτό αποτελεί τμήμαενός ήδη γνωστού γονιδίου, για την πιθανή κυτταρική λειτουργία του, για ομό-λογά του σε άλλους οργανισμούς, για το προϊόν του στο κύτταρο και τα μόριαμε τα οποία αλληλεπιδρά ώστε να λειτουργήσει με τον τρόπο που είναι επιθυ-μητό. Ακόμα χειρότερα, δε γνωρίζετε εάν η αλληλουχία που προσδιορίσατε έχειεπιμολυνθεί από το φορέα κλωνοποίησης που χρησιμοποιήσατε.

    Σκοπός των εργαστηριακών ασκήσεων Υπολογιστικής Βιολογίας και Βιοπληρο-φορικής 1 που περιγράφονται αναλυτικά στα επόμενα είναι να διδαχτείτε συνο-πτικά μεθοδολογίες, εργαλεία λογισμικού και διαδικτυακές πηγές που μπορούννα σας οδηγήσουν στο να απαντήσετε σε ερωτήματα όπως τα παραπάνω. Το ση-μαντικότερο είναι ότι θα τα χρησιμοποιήσετε κιόλας!

    1Στο φυλλάδιο αυτό περιλαμβάνονται εισαγωγικές ασκήσεις για την εξοικείωση σας με μερι-κές από τις πιο βασικές διαδικτυακές πηγές που σχετίζονται με τη μοριακή βιολογία και τα κυριό-τερα εργαλεία που μπορείτε να χρησιμοποιείτε για να ανακτήσετε δεδομένα από αυτές. Περισ-σότερο εξειδικευμένες ασκήσεις θα ακολουθήσουν στο εργαστηριακό μέρος του μαθήματος BIO331-Αρχές και Μέθοδοι Βιοπληροφορικής I στο επόμενο εξάμηνο. Κάντε υπομονή λοιπόν!

    v

  • vi ΠΡΟΛΟΓΟΣ

  • Μέρος I

    Θεωρητικό μέρος

    1

  • Κεφάλαιο 1

    Βάσεις δεδομένων μοριακήςβιολογίας

    1.1 Λίγη ιστορία ...

    Οι βιολογικές επιστήμες είναι αναμφισβήτητα ο επιστημονικός κλάδος που συ-γκεντρώνει τα βλέματα παγκοσμίως. Πέρα από το καθόλου ευκαταφρόνητο βά-ρος της διανοητικής διαδικασίας της κατανόησης των μηχανισμών που διέπουντη ζωή σε όλα τα επίπεδά της (κύτταρα, ιστοί, οργανισμοί, οικοσυστήματα), κα-θοριστικό ρόλο για τη σημαντική θέση των βιολογικών επιστημών έχει φυσικάπαίξει η συνεισφορά τους στη βελτίωση της ποιότητας της ανθρώπινης ζωής.Εκτός από τις προφανείς καθαρά ιατρικές εφαρμογές της βασικής βιολογικήςέρευνας, η συσσωρευμένη γνώση των βιολογικών συστημάτων ήδη παρέχει πι-θανούς τρόπους εξεύρεσης λύσεων σε καίρια προβλήματα που απασχολούν τοσύγχρονο άνθρωπο: παραγωγή ενέργειας φιλικής προς το περιβάλλον, εξεύρεσηνέων βελτιωμένων μεθόδων παραγωγής τροφίμων, αειφόρος διαχείριση του πε-ριβάλλοντος κτλ.

    Η μεγάλη αλλαγή η οποία έχει υπεισέθλει στις βιολογικές επιστήμες τα τελευ-ταία χρόνια και η οποία καθιστά δυνατές τις παραπάνω εφαρμογές, έχει κυρίωςνα κάνει με τη δυνατότητα της ποσοτικοποίησης μετρήσιμων παραμέτρων τωνβιολογικών συστημάτων και μάλιστα σε μεγάλη κλίμακα. Σε αντιδιαστολή με πα-ραδοσιακές πρακτικές κατά τις οποίες, με βάση τον αναγωγισμό, η μελέτη τωνπολύπλοκων συστημάτων που αποτελούν αντικείμενο της βιολογικής έρευνας

    3

  • 4 ΚΕΦΑΛΑΙΟ 1. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ

    πραγματοποιείται με μελέτη των συνιστωσών τους, νέες τεχνολογικές ανακα-λύψεις παρέχουν τη δυνατότητα ολιστικής μελέτης των βιολογικών συστημά-των.

    Αυτή η αλλαγή παραγείγματος, συνοδεύεται από την εκκρηκτική αύξηση τουόγκου των παραγόμενων δεδομένων, τοποθετώντας τις βιολογικές επιστήμεςστην κατηγορία των επιστημονικών κλάδων πλούσιων σε πληροφορίες (information-rich). Προκειμένου να μετατρέψουμε αυτά τα δεδομένα σε πραγματικά αξιοποι-ήσημη γνώση, οφείλουμε να έχουμε αξιόπιστους και αποδοτικούς μηχανισμούςδιαχείρισης (αποθήκευσης, ανάκλησης, ενημέρωσης) και ανάλυσης. Το πεδίο τηςβιολογικής έρευνας το οποίο καλύπτει αυτές τις ανάγκες είναι το πεδίο της βιο-πληροφορικής. Με τη “συστράτευση” δυνάμεων από διαφορετικά γνωστικά πε-δία (βιολογία, πληροφορική, στατιστική, φυσική, χημεία, μηχανική) η βιοπληρο-φορική έχει καταστήσει εφικτή τη μετάβαση στη “νέα βιολογία” που αναμένεταινα επικρατήσει τον 21ο αιώνα.

    Η ιστορία των βάσεων δεδομένων (ΒΔ) στις βιολογικές επιστήμες συχνά συν-δέεται με τη δουλειά της Margaret Dayhoff (1925 – 1983) και των συνεργατώντης (εργάζονταν στο National Biomedical Research Foundation - Protein InformationResource/ NBRF-PIR, Washington DC), οι οποίοι στις αρχές της δεκαετίας του 1960συγκέντρωσαν όλες τις γνωστές πρωτεϊνικές αλληλουχίες που ήταν γνωστέςεκείνη την εποχή. Η εργασία αυτή δημοσιεύτηκε (σε διάφορους τόμους) με τηνoνομασία Atlas of Protein Sequence and Structure 1 (Εικόνα 1.1).

    Όταν μέσα στη δεκαετία του 1970 συγκεντρώθηκε επίσης σημαντικό πλήθος νου-κλεοτιδικών αλληλουχιών, συμπεριλήφθηκαν και αυτές στον Άτλαντα. Εκτός απότις αλληλουχίες καθεαυτές, για κάθε πρωτεΐνη καταχωρούνταν συνοδευτικέςπληροφορίες με τη μορφή κειμένου σχετικά με τη γνώση για την εξέλιξη και τηδομή αρκετών πρωτεϊνικών οικογενειών. Σύντομα, το πλήθος των πληροφοριώνκατέστη τόσο μεγάλο, ώστε η έντυπη μορφή διανομής του Άτλαντα δεν ήτανπρακτική και έτσι, η PIR ξεκίνησε τη διανομή του σε ηλεκτρονική μορφή, παρέ-χοντας μάλιστα πολύ απλό λογισμικό το οποίο μπορούσε να χρησιμοποιηθεί γιατην αναζήτηση και ανάλυση των δεδομένων.

    Η έλευση των ΒΔ νουκλεϊκών οξέων πραγματοποιήθηκε πολύ αργότερα, επίσηματο 1982, αρχικά από το Ευρωπαϊκό Ινστιτούτο Μοριακής Βιολογίας (European

    1Γι’αυτό δεν είναι τυχαίο ότι η Dayhoff θεωρείται μεταξύ των πρωτοπόρων της βιοπληροφορι-κής...

  • 1.1. ΛΙΓΗ ΙΣΤΟΡΙΑ ... 5

    Εικόνα 1.1: Η πρώτη ΒΔ βιολογικών ακολουθιών. Αναλογιστείτε πόσο χαρτί (καιαποθηκευτικός χώρος) θα χρειαζόταν ώστε να είχαμε τις σύγχρονες βιολογικέςΒΔ σε αυτή τη μορφή!

    Molecular Biology Laboratory - EMBL) και λίγο αργότερα από τη GenBank 2 . Πλέον,ο προσδιορισμός της αλληλουχίας των βάσεων νουκλεϊκών οξέων ξεκίνησε τηνξέφρενη κούρσα (την οποία σε αυξημένο ρυθμό ζούμε και σήμερα) και ολοένακαι μεγαλύτερο πλήθος νουκλεοτιδικών αλληλουχιών κατατίθεται καθημερινάαπό ερευνητικές ομάδες από όλον τον κόσμο.

    Βέβαια, στην πορεία, ακολούθησε η ίδρυση/ανάπτυξη ολοένα και μεγαλύτερουπλήθους ΒΔ με επίκεντρο τις βιολογικές επιστήμες. Δεν είναι τυχαίο ότι ένα απότα πολύ έγκυρα περιοδικά στο ευρύτερο πεδίο της μοριακής βιολογίας, το NucleicAcids Research (http://nar.oxfordjournals.org/), αφιερώνει τα τελευταία χρόνια έναολόκληρο ειδικό τεύχος (το οποίο εκδίδεται στη αρχή κάθε χρόνου) στο οποίοπαρουσιάζονται επιλεγμένες ΒΔ σχετικές με τη μοριακή βιολογία (μόνο ...).

    2Σύντομα, ακολούθησαν και οι Ιάπωνες συνάδελφοι με τη DDBJ. Ευτυχώς έγινε γρήγορα αντι-ληπτό ότι ο συντονισμός των προσπαθειών ήταν απαραίτητος και έτσι το 1988 οι τρεις ΒΔ άρχισαντη συνεργασία (δείτε τα επόμενα).

  • 6 ΚΕΦΑΛΑΙΟ 1. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ

    1.2 Στόχος

    Στόχος αυτού του κεφαλαίου είναι να παρέχει ορισμένα βασικά στοιχεία που αφο-ρούν ένα σημαντικό εύρος από κοινά χρησιμοποιούμενες μεθόδους, βάσεις δε-δομένων και εργαλείων, τα οποία βρίσκονται διαθέσιμα για ελεύθερη χρήση στοδιαδίκτυο.

    Πριν αρχίσει κανείς να χρησιμοποιεί αυτές τις διαδικυακές πηγές είναι απαραί-τητο

    • να γνωρίζει τα χαρακτηριστικά των ΒΔ,

    • να κατανοεί τον τρόπο αποθήκευσης δεδομένων σε μια ΒΔ,

    • να γνωρίζει σε βασικό επίπεδο τη χρήση των πιο κύριων συστημάτων ανά-κτησης δεδομένων,

    • να γνωρίζει τις βασικές ΒΔ μοριακής βιολογίας.

    Σε πιο προχωρημένο επίπεδο απαιτείται η γνώση

    • του σχεδιασμού και υλοποίησης μιας ΒΔ

    • της διαχείρισης μιας ΒΔ

    Φυσικά, πρώτα από όλα, οφείλει κανείς να γνωρίζει τι είναι γενικά μια ΒΔ. Σε αυτότο ερώτημα απαντά η αμέσως επόμενη ενότητα.

    1.3 Τί είναι μια βάση δεδομένων;

    Υπάρχουν (τουλάχιστον) τρία διαφορετικά νοήματα που μπορεί να εκφράζει οόρος “βάση δεδομένων”. Το πρώτο και πιο διαδεδομένο είναι αυτό μιας οργανω-μένης συλλογής σχετιζόμενων μεταξύ τους πληροφοριών. Ο όρος επίσης μπορεί(ατυχώς3) να αναφέρεται σε ένα πρόγραμμα λογισμικού το οποίο χρησιμοποιεί-ται για την επίτευξη αυτής της παραπάνω οργάνωσης των δεδομένων και τηναναζήτησή τους. Ένας τρίτος και ίσως περισσότερο ατυχής ορισμός (ο οποίος

    3Στα επόμενα θα καταλάβετε ότι αυτή η σημασία ταιριάζει καλύτερα με ένα “σύστημα διαχεί-ρισης βάσεων δεδομένων”, οπότε μπορεί να θεωρηθεί ότι πρόκειται για μια ατυχή συντόμευσηαυτού του όρου, αφού από τεχνική πλευρά αυτό είναι απλά το λογισμικό μέρος της υλοποίησηςμιας ΒΔ.

  • 1.3. ΤΙ ΕΙΝΑΙ ΜΙΑ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ; 7

    δυστυχώς χρησιμοποιείται αρκετά συχνά) οριζει ως ΒΔ ένα σύνολο αρχείων πουβρίσκονται αποθηκευμένα σε ένα υπολογιστικό σύστημα. Σύμφωνα με αυτόν τονορισμό, ένας κατάλογος (folder/directory) ο οποίος περιέχει αρχεία με αλληλου-χίες, θεωρείται από ορισμένους ως μια ΒΔ.

    Είναι ξεκάθαρο από τα παραπάνω, ότι θα κρατήσουμε τον πρώτο ορισμό, ο οποίοςδίνει σε μια ΒΔ πολύ περισσότερα χαρακτηριστικά από τις πληροφορίες που πε-ριέχει. Και αυτό επιτυγχάνεται με την οργάνωση. Τα δεδομένα αποθηκεύονταιμε συστηματικό τρόπο, έτσι ώστε ένα κατάλληλο σύστημα λογισμικού να έχειτη δυνατότητα να πραγματοποιεί σύνθετες πολλές φορές αναζητήσεις και ναμπορεί να ανακτά τις εγγραφές εκείνες που ανταποκρίνονται στους όρους τηςαναζήτησης, αλλά και να αλληλεπιδρά και με άλλους τρόπους διαμορφώνονταςτο περιχόμενο της ΒΔ.

    Κεντρικό θέμα σε μια ΒΔ είναι η ίδια η συλλογή των πληροφοριών. Τυπικά, γιαμια ορισμένη ΒΔ, υπάρχει μια δομική περιγραφή που καθορίζει ποια είναι τα αντι-κείμενα τα οποία παριστάνονται στη ΒΔ και τις μεταξύ τους σχέσεις: αυτή η πε-ριγραφή ονομάζεται σχήμα (schema). Το σχήμα μιας ΒΔ στην ουσία καθορίζειτον τρόπο με τον οποίο επιτυγχάνεται η οργάνωση των δεδομένων. Υπάρχουνδιάφοροι τρόποι με τους οποίους μπορούμε να συστηματοποιήσουμε ένα σχήμα,δηλαδή να έχουμε ένα πρότυπο (ή αλλοιώς μοντέλο) της δομής της ΒΔ: αυτάονομάζονται μοντέλα ΒΔ (ή μοντέλα δεδομένων).

    Ένα πολύ απλό και συνηθισμένο μοντέλο ΒΔ είναι το σχεσιακό μοντέλο. Οι ΒΔπου ακολουθούν αυτό το πρότυπο οργανώνονται σε πεδία, εγγραφές και πίνακες.Ένα πεδίο είναι ένα απλό “τεμάχιο” πληροφορίας, ενώ μια εγγραφή αποτελεί έναπλήρες σύνολο πεδίων. Αντίστοιχα, ένας πίνακας με βάση αυτό μοντέλο αποτελείμια συλλογή (ομοειδών) εγγραφών. Ακόμα και με αυτό το σχετικά απλό μοντέλο,μπορεί να αναπαρασταθεί σχεδόν οποιαδήποτε σχέση μεταξύ οποιωνδήποτε συλ-λογών δεδομένων.

    Οι ΒΔ είναι εξαιρετικά χρήσιμα εργαλεία σε όλα τα πεδία της σύγχρονης ζωής, καικατ’ επέκταση και σε όλο το εύρος των βιολογικών επιστημών: στην οικολογία, τημοριακή βιολογία, τη μικροβιολογία, τη γονιδιωματική, την αναπτυξιακή βιολογίακτλ. Μέσα από την ανάπτυξη κατάλληλλων ΒΔ παρέχονται σημαντικά εφόδια σταοποία οι επιστήμονες μπορούν να αναζητήσουν απαντήσεις σε πολλά και ποικίλαερωτήματα.

  • 8 ΚΕΦΑΛΑΙΟ 1. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ

    1.4 Χαρακτηριστικά βιολογικών ΒΔ

    Τα βιολογικά δεδομένα, και κατά συνέπεια και οι αντίστοιχες ΒΔ, έχουν ορισμένακοινά χαρακτηριστικά.

    Πολύπλοκοι τύποι δεδομένων: τα δεδομένα της πειραματικής μοριακής βιολο-γίας 4 μπορεί, για παράδειγμα, να είναι οι αλληλουχίες βιολογικών μακρομο-ρίων (DNA, RNA, πρωτεΐνες) ή οι τρισδιάστατες δομές τους, δυαδικά αρχείαεικόνων από κύτταρα, ιστούς ή δεδομένα από πειράματα μικροσυστοιχιών,κτλ. Τα δεδομένα αυτά, είναι δυνατόν να συσχετίζονται μεταξύ τους με ποι-κίλους και ορισμένες φορές μη-προφανείς τρόπους.

    Ιεραρχική οργάνωση δεδομένων: οι βιολογικές ΒΔ συχνά περιέχουν δεδομένατα οποία περιγράφουν τα βιολογικά συστήματα σε διαφορετικό επίπεδο, π.χ.μόρια, μοριακά μονοπάτια, κύτταρα, ιστοί, οργανισμοί, πληθυσμοί.

    Ετερογένεια: οι περισσότερες βιολογικές ΒΔ έχουν ετερογενή χαρακτηριστικά.Τόσο ως προς τα γενικά στοιχεία τους (μέγεθος, τρόπος υλοποίησης κλπ.)όσο και ως προς τα τεχνικά χαρακτηριστικά τους (μορφοποίηση αποθήκευ-σης, τρόπος πρόσβασης).

    Δυναμικό περιεχόμενο: δεδομένης της αλματώδους ανάπτυξης των τεχνικώναπόκτησης των δεδομένων, οι βιολογικές ΒΔ απαιτείται να ενημερώνονταιδιαρκώς. Αυτό πρακτικά υλοποιείται τόσο με την προσθήκη νέων εγγραφώνκαι τη διόρθωση παλαιοτέρων όσο και με την ανάγκη ενσωμάτωσης νέωντύπων δεδομένων όταν αυτά γίνονται διαθέσιμα.

    Ένα χαρακτηριστικό εξέχουσας σημασίας για την πρόοδο που συντελείται στιςβιολογικές επιστήμες είναι η ελεύθερη προσβασιμότητα, η οποία παρέχεται συ-νήθως μέσω του διαδικτύου. Το πως ακριβώς έχει επιτευθεί αυτό θα το δείτε σταεπόμενα.

    Καίριας επίσης σημασίας είναι η ποιότητα των δεδομένων, η οποία εξασφαλίζεταιτόσο πιο δύσκολα όσο αυξάνει ο όγκος των δεδομένων.

    4Στο σημείο αυτό, ας ξεκαθαρίσουμε ότι όταν μιλάμε για “πειραματική” βιολογία αναφερόμα-στε για εργαστηριακό πειραματισμό (wet lab experiments) ή έρευνα πεδίου (field research) δίχωςνα υπονοείται ότι η βιοπληροφορική δεν είναι πειραματική επιστήμη. Η μόνη διαφορά είναι ότι οιβιοπληροφορικοί δεν πραγματοποιούν (συνήθως) πειράματα in vivo ή in vitro αλλά in silico.

  • 1.5. ΚΑΤΗΓΟΡΙΕΣ ΒΔ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ 9

    1.5 Κατηγορίες ΒΔ μοριακής βιολογίας

    Οι ΒΔ που μας ενδιαφέρουν και υπάρχουν σήμερα μπορούν να κατηγοριοποιη-θούν με βάση διάφορα χαρακτηριστικά, όπως

    • τον τύπο δεδομένων,

    • τον οργανισμό/ομάδα που έχει την ευθύνη για τη λειτουργία και την ενημε-ρωσή της,

    • τα τεχνικά της χαρακτηριστικά,

    • την πηγή των δεδομένων,

    • τη μέθοδο πρόσβασης,

    • άλλες παραμέτρους.

    1.5.1 Κατηγορίες ΒΔ: Τύποι δεδομένων

    Ο παρακάτω κατάλογος σίγουρα δεν είναι εξαντλητικός αλλά απεικονίζει σε με-γάλο βαθμό την ποικιλομορφία των βιολογικών ΒΔ

    • ΒΔ ταξινομικής

    • Γονιδιωματικές βάσεις δεδομένων

    – Κατάλογοι προγραμμάτων προσδιορισμού αλληλουχίας γονιδιωμάτων

    – ΒΔ γονιδιωμάτων σχετιζόμενων ταξινομικών ομάδων

    • Βάσεις δεδομένων αλληλουχιών

    – ΒΔ νουκλεοτιδικών αλληλουχιών

    – ΒΔ αμινοξικών αλληλουχιών

    • Δομικές ΒΔ

    • ΒΔ πρωτεωμικής

    • ΒΔ μικροσυστοιχιών

    • Χημικές ΒΔ

    • ΒΔ γονιδιακής έκφρασης

  • 10 ΚΕΦΑΛΑΙΟ 1. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ

    • Ενζυμικές ΒΔ

    • ΒΔ μονοπατιών (μεταβολικών και σηματοδότησης)

    • Βιβλιογραφικές ΒΔ

    • Εξειδικευμένες ΒΔ

    1.5.2 Κατηγορίες ΒΔ: Μοντέλο λειτουργίας

    Οι οντότητες εκείνες που έχουν την ιδιοκτησία και τη δικαιοδοσία για τη συ-ντήρηση των δεδομένων μπορεί να είναι από μεμονωμένοι ερευνητές ή μικρέςερευνητικές μονάδες, μέχρι διεθνείς συμπράξεις ερευνητικών ομάδων ή ακόμηκαι ολόκληρων ερευνητικών κέντρων! Κρατικοί ή άλλοι οργανισμοί (π.χ. το NCBI(U.S.A), το EBI (E.U.) ή το SIB (Ελβετία)) συχνά συντηρούν ολόκληρες συλλο-γές βιολογικών ΒΔ και παρέχουν πρόσβαση σε αυτές μέσω των εξυπηρετητών(servers) τους 5.

    NCBI (http://www.ncbi.nih.gov) Το Εθνικό Κέντρο για τις Βιοτεχνολογικές Πλη-ροφορίες (National Center for Biotechnology Information - NCBI) αποτελεί οργανικήμονάδα της Εθνικής Ιατρικής Βιβλιοθήκης (National Library of Medicine - NLM) τωνΕθνικών Ινστιτούτων Υγείας (National Institutes of Health - NIH), μιας ομοσπονδια-κής υπηρεσίας των Ηνωμένων Πολιτειών της Αμερικής. Ο δικτυακός τόπος τουNCBI παρέχει τη μηχανή αναζήτησης Entrez, η οποία παρέχει ενοποιημένη πρό-σβαση σε μια μεγάλη ποικιλία βιολογικών ΒΔ.

    Αποστολή του NCBI αποτελεί η εξασφαλισμένη ελεύθερη πρόσβαση στα ολοένααυξανόμενου όγκου δεδομένα μοριακής βιολογίας και σχετιζόμενων πεδίων.

    EBI (http://www.ebi.ac.uk) Το Ευρωπαϊκό Ινστιτούτο Βιοπληροφορικής (Euro-pean Bioinformatics Institute - EBI) είναι ένα ακαδημαϊκό, μη-κερδοσκοπικό ίδρυμα,και αποτελεί παράρτημα του Ευρωπαϊκού Εργαστηρίου Μοριακής Βιολογίας (Eu-ropean Molecular Biology Laboratory - EMBL) και οι εγκαταστάσεις του βρίσκονται

    5Να σημειωθεί ότι συχνά ιδιωτικές εταιρίες του ευρύτερου πεδίου της βιοτεχνολογίας παρέ-χουν εμπορικές ΒΔ (φυσικά με την απαιτούμενη οικονομική απαίτηση) είτε για να προσφέρουν τηΒΔ μαζί με εξειδικευμένα εργαλεία ανάκτησης και ανάλυσης είτε για να προσφέρουν πρόσβασησε “ιδιόκτητα” δεδομένα.

  • 1.5. ΚΑΤΗΓΟΡΙΕΣ ΒΔ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ 11

    στο Hinxton, Cambridge, U.K. Παρέχει μεταξύ άλλων προσβαση σε διαδικτυακόλογισμικό και ΒΔ νουκλεοτιδικών και αμινοξικών αλληλουχιών, πρωτεϊνικών δο-μών και με τη βοήθεια του λογισμικού SRS παρέχει τη δυνατότητα εκτέλεσηςεπερωτήσεων (queries) σε συνδυασμούς των διαθέσιμων βάσεων δεδομένων. ΤοEBI έχει αναλάβει τα τελευταία χρόνια τη συντήρηση της βάσης δεδομένων νου-κλεοτιδίων EMBL και η κύρια πηγή χρηματοδότησής του είναι κονδύλια που προ-έρχονται από τα κράτη τα οποία συμμετέχουν στο EMBL.

    SIB (http://www.isb-sib.ch) Το Ελβετικό Ινστιτούτο Βιοπληροφορικής (Swiss In-stitute of Bioinformatics - SIB) είναι ένα ακαδημαϊκό, μη-κερδοσκοπικό ίδρυμα πουιδρύθηκε το 1998. Το SIB συντονίζει τις ερευνητικές και εκπαιδευτικές δραστη-ριότητες που σχετίζονται με τη βιοπληροφορική σε όλη την Ελβετία και έχειστόχο να προσφέρει υπηρεσίες βιοπληροφορικής υψηλής ποιότητας στην ελβε-τική και τη διεθνή ερευνητική κοινότητα.

    1.5.3 Κατηγορίες ΒΔ: Τεχνικά χαρακτηριστικά

    Για έναν επιστήμονα της πληροφορικής, το να αναπτύξει μια εξειδικευμένη βάσηβιολογικών δεδομένων μπορεί να αποδειχθεί μια εξαιρετικά επίπονη και δύσκοληδιαδικασία και οι λόγοι για αυτό μπορεί να ποικίλουν. Τα περισσότερα πεδία ταοποία απαιτούνται μπορεί να έχουν δυσνόητη σημασία για κάποιον χωρίς το απαι-τούμενο βιολογικό υπόβαθρο 6 . Επίσης είναι δυνατόν να υπάρχουν πολλοί καιδιαφορετικοί τύποι συσχετίσεων ανάμεσα στα διάφορα αντικείμενα. Ορισμένεςφορές ο πλεονασμός 7 είναι επιθυμητός (όπως όταν για παράδειγμα μας ενδια-φέρει να έχουμε ένα πλήρη κατάλογο γονιδίων ή πρωτεϊνών από διαφορετικούςοργανισμούς), ενώ άλλες φορές ανεπιθύμητος. Εξαιρετικά σημαντικό είναι καιτο γεγονός του ελέγχου της ποιότητας των δεδομένων, κάτι το οποίο ορισμένεςφορές είναι πολύ δύσκολο να γίνει (άλλες φορές πάλι είναι απλά αδύνατο!).

    Μεγάλο πλήθος βιολογικών ΒΔ είναι ελεύθερα διαθέσιμες μέσω του διαδικτύου.Αυτό προϋποθέτει ότι σχεδιάζονται με το σκεπτικό αυτό. Παρόλα αυτά, επειδή

    6Πώς είναι δυνατόν να κατασκευάσει κάποιος μια σχεσιακή ΒΔ η οποία να έχει ως εγγραφέςγονίδια, εξόνια, υποκινητές κτλ. εάν δε γνωρίζει τι ακριβώς είναι οι έννοιες αυτές ...

    7Πλεονασμός (redundancy) είναι η κατάσταση εκείνη στην οποία σε ένα σύνολο δεδομένωνέχουμε εγγραφές οι οποίες είναι ταυτόσημες ή πολύ όμοιες στο σύνολό τους ή σε κάποιο εξε-ταζόμενο χαρακτηριστικό.

  • 12 ΚΕΦΑΛΑΙΟ 1. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ

    διαφορετικές ερευνητικές ομάδες από όλο τον κόσμο αναλαμβάνουν την ανά-πτυξή τους, υπάρχει μεγάλη ποικιλία στα τεχνικά τους χαρακτηριστικά. Έτσι πα-ρατηρούμε ότι η ανάπτυξή τους βασίζεται σε διαφορετικά συστήματα διαχείρι-σης βάσεων δεδομένων (Database Management System - DBMS), από περισσότεροεξελιγμένα συστήματα (όπως MySQL, Sybase, Oracle) μέχρι εντελώς “πρωτόγονα”συστήματα (όπως αρχεία λογιστικών εφαρμογών - spreadsheet, ή δομημένα αρ-χεία κειμένου) σε διαφορετικά λειτουργικά συστήματα. Τα βασικότερα παρου-σιάζονται στα επόμενα.

    Αρχεία κειμένου - Flat files

    Οι “παραδοσιακές” ΒΔ ήταν χτισμένες σε απλά αρχεία κειμένου. Αυτό είναι ίσωςτο απλούστερο δυνατό μοντέλο 8 . Στην περίπτωση αυτή όλες οι πληροφορίες -δεδομένα αποθηκεύονται σε απλά αρχεία ASCII. Κάθε γραμμή του αρχείου μπο-ρεί να αντιστοιχεί σε ένα δεδομένο πεδίο της βάσης δεδομένων ή να περιέχειτιμές για περισσότερα από ένα πεδία χρησιμοποιώντας ένα προκαθορισμένο δια-χωριστικό χαρακτήρα (field separator). Ο χαρακτήρας αυτός μπορεί να είναι ο κε-νός χαρακτήρας, ο στηλοθέτης (tab) και προφανώς θα πρέπει να λαμβάνεται πρό-νοια για το πως θα μπορούμε να χειριστούμε το διαχωριστικό χαρακτήρα εάνχρειαστεί να εμφανίζεται στο κείμενο που αντιστοιχεί στην τιμή ενός πεδίου.Επομένως, στην απλούστερη περίπτωση, μια ΒΔ βασισμένη σε ένα αρχείο μπορείνα είναι ένας πίνακας, οι γραμμές του οποίου αντιστοιχούν στις διαφορετικέςεγγραφές (records) της ΒΔ και οι στήλες του στα αντίστοιχα πεδία (fields) που πε-ριγράφουν τις εγγραφές. Προφανώς, αυτή η δομή δεν επιτρέπει την αποτύπωσητης συσχέτισης μεταξύ εγγραφών ή πεδίων, με μόνη συσχέτιση την κοινή δομήπου επιβάλει ο πίνακας.

    Συνήθως, αναφερόμαστε στα δεδομένα αυτού του τύπου ως “επίπεδα” (flat) σεαντιδιαστολή με μοντέλα όπως τα σχεσιακά (relational models - δείτε τα επόμενα).Το απλούστερο παράδειγμα ΒΔ αυτού του τύπου είναι ένας απλός τηλεφωνι-κός κατάλογος, ή κατάλογος διευθύνσεων. Αυτό το μοντέλο ΒΔ υποστηρίζειαπλά αρχεία κειμένου στα οποία αναζητούνται πληροφορίες με τη βοήθεια ει-δικού (απλού επίσης) λογισμικού που εκτελεί τις επερωτήσεις (queries) προς τηΒΔ.

    8Αυτό φυσικά έχει ως συνέπεια ότι ορισμένες φορές στο απλό αυτό μοντέλο είναι δύσκολο ναμπορέσει κανείς να περιγράψει πολύπλοκες σχέσεις μεταξύ των δεδομένων.

  • 1.5. ΚΑΤΗΓΟΡΙΕΣ ΒΔ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ 13

    ΤάκηςΜάκηςΣάκηςΣούλαΤούλαΑργύρης

    ΑργύρηςΜάκηςΣάκηςΣούλαΤάκηςΤούλα

    ΨΑΞΕ για “Αργύρης”

    Εικόνα 1.2: Αναζήτηση όρου σε σειριακό αρχείο.Αριστερά: Απλό σειριακό αρχείο – Σειριακή αναζήτηση. Κατά μέσο όρο απαιτούν-ται Ν/2 συγκρίσεις.Δεξιά: Ταξινομημένο (σειριακό) αρχείο – Δυαδική αναζήτηση. Κατά μέσο όροαπαιτούνται ln(N) συγκρίσεις.

    Η αναζήτηση σε ένα αρχείο απλού κειμένου πρέπει αναγκαστικά να είναι σει-ριακή. Στη σειριακή αναζήτηση (sequential search) η εύρεση της εγγραφής στοαρχείο γίνεται ελέγχοντας μια-μια τις εγγραφές από την αρχή μέχρι το τέλοςτου. Αν το αρχείο έχει Ν στοιχεία θα απαιτηθούν κατά μέσο όρο N / 2 συγκρίσειςμέχρι να βρούμε το στοιχείο που αναζητούμε (Εικόνα 1.2).

    Η σειριακή αναζήτηση έχει σημαντικές υπολογιστικές απαιτήσεις, οι οποίες γί-νονται απαγορευτικές για πρακτικές εφαρμογές. Για να ξεπεράσουμε αυτό τοπρόβλημα, είναι δυνατόν να δημιουργήσουμε ευρετήρια 9 ή να διατηρούμε τα

    9Τα σειριακά αρχεία είναι ο απλούστερος τύπος οργάνωσης αρχείου. Όλες οι μέθοδοι που εφαρ-μόζονται σ’ αυτόν τον τύπο αρχείου εφαρμόζονται σχεδόν σε κάθε άλλο τύπο αρχείου. Παρά τογεγονός ότι οι μέθοδοι που εφαρμόζονται δεν είναι περίπλοκες και εξεζητημένες, είναι όμως απο-τελεσματικές για τη λύση ενός προβλήματος.

    Τα σειριακά αρχεία οργανώνονται τοποθετώντας εγγραφές στο τέλος του αρχείου σύμφωναμε τη σειρά αύξησής τους. Έτσι η πρώτη εγγραφή του αρχείου είναι η παλαιότερη εγγραφή καιη τελευταία εγγραφή είναι αυτή που προστέθηκε πρόσφατα. Λόγω του περιορισμένου αριθμούπράξεων που είναι διαθέσιμες γι’ αυτόν τον τύπο αρχείου δεν υπάρχει τρόπος για να ταξινομηθούνοι εγγραφές.

    Οι εγγραφές αυτού του τύπου μπορεί να είναι είτε σταθερού είτε μεταβλητού μήκους. Αυτό εί-ναι ένα πλεονέκτημα των σειριακών αρχείων μια και οι μεταβλητού μήκους εγγραφές καθιστούντη σχεδίαση αρχείου άλλου τύπου προβληματική. Έτσι, αν απαιτείται μεταβλητού μήκους εγγρα-φές αυτός ο τύπος αρχείου επιλέγεται. Για ταχύτερες αναζητήσεις τα σειριακά αρχεία μπορούννα συνοδεύονται από ευρετήρια ή να είναι ταξινομημένα οπότε και μπορούμε να εφαρμόσουμεδυαδική αναζήτηση. Τα ευρετήρια είναι επιπλέον αρχεία στα οποία (χοντρικά) αποθηκεύουμε δεί-

  • 14 ΚΕΦΑΛΑΙΟ 1. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ

    αρχεία ταξινομημένα (προφανώς με υπολογιστικό κόστος).

    Παράδειγμα: FASTA format

    >Sequence1THISSEQISMYSEQTHISSEQISMYSEQ>Sequence2THISSEQISANOTHERSEQTHISSEQISANOTHERSEQ

    Σε μορφή πίνακα, ισοδύναμα θα είχαμε:

    Sequence1 THISSEQISMYSEQTHISSEQISMYSEQSequence2 THISSEQISANOTHERSEQTHISSEQISANOTHERSEQ

    XML

    Η επεξεργασία των απλών αρχείων κειμένου, όπως περιγράφηκαν παραπάνω, εί-ναι εξαιρετικά απλή. Μοναδική απαίτηση είναι η γνώση του ποια στήλη αντιστοι-χεί με ποιό πεδίο της κάθε εγγραφής. Από εκεί και πέρα, κάθε εγγραφή υπόκειταιακριβώς την ίδια επεξεργασία. Παρόλα αυτά, η απλότητα αυτή περιορίζει το εί-δος των ΒΔ τις οποίες μπορούμε να κατασκευάσουμε και την πολυπλοκότητα τωνσχέσεων που θέλουμε να αναπαραστήσουμε, ιδίως στην περίπτωση των δεδομέ-νων που σχετίζονται με τα πολύπλοκα δεδομένα γονιδιωματικής, πρωτεωμικήςκτλ.Ένας κατάλληλος μηχανισμός για το σκοπό αυτό, είναι η eXtensible Markup Lan-guage ή XML (Επεκτάσιμη Γλώσσα Σήμανσης).

    H XML αποτελεί ένα πρότυπο για τη μορφοποίηση εγγράφων. Επομένως, η XMLδεν είναι από μόνη της ένα σύστημα ενοποίησης δεδομένων. Παρόλα αυτά, όλοκαι περισσότερα εργαλεία λογισμικού που βασίζονται στην XML γίνονται διαθέ-σιμα, συνδυασμοί των οποίων μπορούν να χρησιμοποιηθούν ως συστήματα ενο-ποίησης δεδομένων.

    κτες προς τις διάφορες εγγραφές της ΒΔ για ταχύτερη αναζήτηση. Προφανώς, αυτή η προσέγγισηεπιταχύνει τις διαδικασίες αναζήτησης με επιπλέον κόστος σε χώρο αποθήκευσης.

  • 1.5. ΚΑΤΗΓΟΡΙΕΣ ΒΔ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ 15

    Η XML επιτρέπει το ιεραρχικό “φώλιασμα” ετικετών (tags) και το σύνολο αυτώντων ετικετών είναι δυνατόν να οριστεί με ευέλικτο τρόπο. Επομένως, η XML μπο-ρεί να θεωρηθεί ότι είναι ένα δυναμικό μοντέλο δεδομένων και παράλληλα νααποτελεί και χρήσιμη μορφοποίηση ανταλλαγής δεδομένων, παρέχοντας κατάαυτόν τον τρόπο δύο από τα σημαντικά συστατικά γενικευμένων λύσεων γιατην ενοποίηση δεδομένων στις βιολογικές επιστήμες. Κατά συνέπεια, ολοένα αυ-ξανόμενο πλήθος εργαλείων και πηγών βιολογικών δεδομένων (όπως για παρά-δειγμα οι PIR, Entrez) είναι ή γίνονται συμβατά με την XML.

    Το έντονο ενδιαφέρον προς την ανάπτυξη γλωσσών διεξαγωγής επερωτήσεων(query langueages) για δομημένα ή μερικώς δομημένα δεδομένα έχει επίσης ωςαποτέλεσμα ένα πλήθος XML query languages, όπως η XQL και η XQuery. Αυτέςπαρέχουν τα μέσα για τη διενέργεια επερωτήσεων προς διάφορες πηγές δεδο-μένων και το μετασχηματισμό των αποτελεσμάτων στις κατάλληλες μορφοποιή-σεις για επόμενα στάδια ανάλυσης. Επίσης, βρίσκονται σε εξέλιξη μελέτες για τηβελτιστοποίηση επερωτήσεων και πηγών δεδομένων XML. Σήμερα, δε μπορούμενα ισχυριστούμε ότι υπάρχει ένα εύρωστο και σταθερό σύστημα ενοποίησης καιαποθήκευσης βιολογικών δεδομένων βασισμένο στην XML (άλλωστε δεν υπάρχεικαι κάτι αντίστοιχο...). Παρόλα αυτά, έχουν αρχίσει να εμφανίζονται ΒΔ υψηλήςαποδοτικότητας βασισμένες στην XML και αναμένεται ότι η ερευνητική κοινό-τητα που δραστηριοποιείται σε αυτά τα θέματα θα έχει σύντομα να προσφέρεινέες πιθανές αποδοτικές λύσεις. Εν κατακλείδι, μπορούμε να περιμένουμε ότιμέσα στα επόμενα χρόνια η τεχνολογία γύρω από την XML μπορεί να ωριμάσει καινα δώσει γενικευμένα και εξελιγμένα συστήματα ενοποίησης δεδομένων.

    Σε αντίθεση με τα απλά αρχεία, ένα XML αρχείο είναι αυτο-επεξηγούμενο: κάθειδιότητα (attribute, αντιστοιχεί στα πεδία των απλών αρχείων) έχει εκτός από τηντιμή της και το δικό της όνομα. Στο παρακάτω παράδειγμα, παρατίθεται η αντί-στοιχη της πρώτης εγγραφής που χρησιμοποιήθηκε για την επεξήγηση της μορ-φοποίησης FASTA σε μορφή XML. Προφανώς, μπορούμε σε ένα αρχείο XML νααποθηκεύσουμε περισσότερες από μία εγγραφές.

    Η βασική μονάδα ενός αρχείου XML ονομάζεται στοιχείο (element). Ένα στοιχείο

  • 16 ΚΕΦΑΛΑΙΟ 1. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ

    αντιστοιχεί σε μια εγγραφή μιας ΒΔ απλού αρχείου κειμένου, με τη διαφορά ότιένα αρχείο XML επιτρέπεται να έχει περισσότερα από ένα είδη στοιχείων. Μετη λογική αυτή, ένα και μοναδικό XML αρχείο είναι δυνατόν να αναπαραστή-σει την πληροφορία που θα περιείχαν περισσότερα του ενός απλά αρχεία κει-μένου, και πολύ περισσότερη μάλιστα, αφού τα στοιχεία αυτά είναι δυνατόν νααναμειχθούν. Κάθε τύπος στοιχείου σημαίνεται με ένα όνομα, το οποίο ονομά-ζεται ετικέτα (tag). Στο παραπάνω παράδειγμα έχουμε ένα στοιχείο με ετικέταSEQENTRY.Τα πεδία ενός XML στοιχείου ονομάζονται ιδιότητες που αντιστοιχούν στο στοι-χείο αυτό. Στα απλά αρχεία η στήλη στην οποία βρίσκεται κάθε πεδίο καθορίζει ενγένει τον τύπο του πεδίου. Αντίθετα, οι ιδιότητες των στοιχείων XML μπορεί ναεμφανίζονται με οποιαδήποτε σειρά, αφού ακολουθείται το μοντέλο ετικέτα- τιμή (tag-value). Επιπλέον, αν μια ιδιότητα δεν απαιτείται για κάποιο στοι-χείο μπορεί ελεύθερα να παραληφθεί. Μια ιδιότητα γενικά αποτελεί ένα χαρα-κτηριστικό κάποιας οντότητας. Από “γλωσσική” σκοπιά, οι ιδιότητες αποτελούνεπιθετικούς προσδιορισμούς οι οποίοι περιγράφουν οντότητες.

    Ένα αρχείο XML περιγράφεται με καθορισμένο τρόπο με βάση το Document TypeDefinition (DTD). Το DTD καθορίζει τα ονόματα ιδιοτήτων που επιτρέπονται γιακάθε είδος στοιχείου.

    Στο παραπάνω παράδειγμα ορίζουμε ότι τα στοιχεία του τύπουSEQENTRY χαρα-κτηρίζονται από τις ιδιότητεςSEQNAME (η τιμή της αντιστοιχεί σε μια περιγραφήγια την αλληλουχία) και SEQUENCE (η τιμή της οποίας είναι η ίδια η αλληλου-χία). Ιδιότητες του τύπου CDATA έχουν τιμές οι οποίες αντιστοιχούν σε κείμενο(Character DATA). Όλες οι ιδιότητες οι οποίες σημαίνονται ως #REQUIRED εί-ναι υποχρεωτικό να ορίζονται για κάθε στοιχείο 10 . Μια ιδιότητα είναι δυνατόννα σημανθεί ως #IMPLIED, οπότε είναι προαιρετική. Επίσης είναι δυνατόν νασημάνουμε μια προκαθορισμένη τιμή για κάποια ιδιότητα, η οποία περικλείεταισε διπλά εισαγωγικά.Η XML έχει προφανώς δεσμευμένους τους χαρακτήρες οι οποίοι υποδηλώνουν

    10Φανταστείτε μια εγγραφή αλληλουχίας η οποία να μην περιέχει καμιά αλληλουχία!!

  • 1.5. ΚΑΤΗΓΟΡΙΕΣ ΒΔ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ 17

    τη σήμανση. Συγκεκριμένα, ο χαρακτήρας “”για να υποδηλώσει το πέρας του. Προφανώς, εάν θέλουμε να χρησιμοποιήσουμεκάποιον από αυτούς τους δεσμευμένους χαρακτήρες θα πρέπει να γίνει με τέ-τοιο τρόπο ώστε να μην υπάρχει περίπτωση να δημιουργηθει σύγχιση κατά τηνανάλυση και επεξεργασία του XML αρχείου. Για το λόγο αυτό, χρησιμοποιούμετη διαδικασία της “φυγάδευσης” (escaping). Στην XML για κάθε χαρακτήρα πουπρέπει να φυγαδευθεί χρησιμοποιούμε μια λέξη-κλειδί αμέσως μετά τον ειδικόχαρακτήρα “&” (ampersand). Για παράδειγμα, ο χαρακτήρας “

  • 18 ΚΕΦΑΛΑΙΟ 1. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ

    Για κάθε ένα από τους συνδεόμενους πίνακες αυτό το πεδίο είναι ένα απλό πεδίο,απλά καθιστά δυνατή τη σύνδεση μεταξύ στοιχείων των δύο πινάκων.

    Αντικειμενοστραφή/Αντικειμενοστραφή σχεσιακά μοντέλα

    Βάσεις δεδομένων που ακολουθούν αντικειμενοστραφές (object oriented) μοντέλοονομάζονται Object-oriented database management systems (OODBMS), ενώ υπάρ-χει και η σχεσιακή παραλαγή τους (Object relational database management system- ORDBMS). Στην περίπτωση αυτή οι ΒΔ βασίζονται σε κλάσεις (classes) αντικει-μένων (objects) με δομημένους αλλά και αφηρημένους τύπους δεδομένων. Οικλάσεις αντιστοιχούν σε τύπους δεδομένων και τα αντικείμενα αποτελούν στιγ-μιότυπα των κλάσεων. Μια κλάση είναι δυνατόν να αποτελεί υπο-κλάση μιας άλ-λης από την οποία μπορεί να κληρονομεί χαρακτηριστικά (inheritance), ενώ μπορείνα φέρει και δικά της χαρακτηριστικά. Υπάρχουν αρκετά παραδείγματα εφαρμο-γών τέτοιων ΒΔ στη μοριακή βιολογία, αφού είναι αρκετά περιγραφικές στο ναδημιουργούνται οντότητες οι οποίες να αντιστοιχούν στα βιολογικά συστήματακαι τις σχέσεις που αυτά έχουν μεταξύ τους.

    Σχεσιακό έναντι Αντικειμενοστραφούς μοντέλουRDBMS

    CREATE TABLE eukaryote (id text,desc text,intronsno int,geneno int,);

    CREATE TABLE prokaryote (id text,desc text,geneno int,);

    OODBMS

    CREATE TABLE organism (

  • 1.5. ΚΑΤΗΓΟΡΙΕΣ ΒΔ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ 19

    Εικόνα 1.3: Επάνω:Το σχήμα μιας πραγματικής βιολογικής ΒΔ που ακολουθεί τομοντέλο RDBMS. Κάτω: Πίνακες της σχεσιακής ΒΔ.Πηγή: SBEAMS-Microarray: database software supporting genomic expression analyses for systems biology Marzolf B, et al., BMC Bioinformatics 2006,

    7:286doi:10.1186/1471-2105-7-286. http://www.biomedcentral.com/1471-2105/7/286

  • 20 ΚΕΦΑΛΑΙΟ 1. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ

    id text,desc text,geneno int,);

    CREATE TABLE eukaryote (intronsno int)INHERITS (organism);

    1.5.4 Κατηγορίες ΒΔ: Πηγή δεδομένων

    Οι ΒΔ μοριακής βιολογίας είναι δυνατόν να ταξινομηθούν ανάλογα με την πηγήτων δεδομένων τους στις ΒΔ εκείνες οι οποίες βασίζονται σε πρωτογενή πειρα-ματικά δεδομένα (πρωτογενείς ή αρχειακές ΒΔ) και σε εκείνες οι οποίες τα δεδο-μένα τους αποτελούν επιλεγμένο υποσύνολο ή προϊόν ανάλυσης των πρωτογε-νών δεδομένων (δευτερογενείς ΒΔ). Η ταξινόμηση αυτή, ορισμένες φορές δενείναι πολύ ξεκάθαρη αλλά μπορεί να είναι χρήσιμη, ιδίως όταν μας ενδιαφέρειη ποιότητα και η αξιοπιστία των δεδομένων στα οποία αναφερόμαστε. Συνήθως,οι δευτερογενείς βάσεις δεδομένων παρέχουν συνδέσμους προς τις αντίστοιχεςεγγραφές των πρωτογενών δεδομένων, ενώ παράλληλα υπάρχουν και εξειδικευ-μένα συστήματα τα οποία έχουν στόχο την ενοποιημένη πρόσβαση σε δεδομένααπό διαφορετικές (και ορισμένες φορές ετερογενείς) πηγές.

  • 1.5. ΚΑΤΗΓΟΡΙΕΣ ΒΔ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ 21

    Παραδείγματα:Πρωτογενείς (primary/archival) ΒΔ (ανά κατηγορία ανάλογα με τον τύπο των δε-δομένων)

    Νουκλεοτιδικές αλληλουχίες: GenBank, EMBL, DDBJΑμινοξικές αλληλουχίες: UNIPROT (SwissProt, PIR)Πρωτεϊνικές Δομές: PDB

    Δευτερογενείς ΒΔΑμινοξικές αλληλουχίες: TREMBLΜοτίβα αμινοξικών αλληλουχιών/πρωτεϊνικές οικογένειες: PROSITE, PFAMΔομική κατηγοριοποίηση: SCOP, CATH

    PortalsΕνοποιημένη πρόσβαση σε ΒΔ και εργαλεία ανάλυσης: NCBI Entrez, EBI SRS,Expasy

    1.5.5 Κατηγορίες ΒΔ: Μέθοδος πρόσβασης

    Οι ΒΔ μοριακής βιολογίας είναι δυνατόν να παρέχονται με διαφορετικές μεθό-δους προς την ακαδημαϊκή κοινότητα.

    • Ελεύθερα προσβάσιμες χωρίς περιορισμούς (NCBI, EBI, Uniprot)

    • Διαθέσιμες αλλά με copyright

    • Διαθέσιμες για ανάγνωση μόνο, απαγορεύεται η αποθήκευση μέρους ή τουσυνόλου των δεδομένων

    • Ακαδημαϊκή, αλλά όχι ελεύθερα διαθέσιμη (απαιτείται εγγραφή, κτλ)

    • Ιδιωτική, εμπορικό προϊόν με πρόσβαση επί αμοιβή

    1.5.6 Κατηγορίες ΒΔ: Άλλες παράμετροι

    Είναι δυνατόν να κατηγοριοποιήσουμε τις ΒΔ μοριακής βιολογίας και με βάσηάλλες παραμέτρους.

  • 22 ΚΕΦΑΛΑΙΟ 1. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ

    • Πληρότητα: Οι εγγραφές καλύπτουν το πλήρες φάσμα μιας περιοχής εφαρ-μογών.

    • Σχολιασμός: Οι εγγραφές περιέχουν μόνο πρωτογενή δεδομένα ή και επι-πλέον σχόλια (π.χ. λειτουργικά) που προσθέτουν πληροφορία.

    • Φροντίδα (curation): Ο σχολιασμός παρέχεται από ειδικούς (φροντιστές -curators).

    • Πηγή κατάθεσης δεδομένων: (πειράματα, πατέντες, δημοσιεύσεις, πρωτο-γενείς ΒΔ)

    • Μέθοδος κατάθεσης δεδομένων: αυτοματοποιημένη ή manual

    • Τεχνολογίες πρόσβασης, δημοσίευσης και ανταλλαγής δεδομένων: FTP, HTML,CORBA, XML, etc

    1.6 Συστήματα ενοποίησης βιολογικών δεδομένων

    Σε ένα δυναμικό και ετερογενές περιβάλλον, όπως αυτό της βιοπληροφορικής,χρησιμοποιούνται αρκετά διαφορετικά συστήματα ΒΔ και λογισμικού. Σημαντικόποσοστό αυτών των συστημάτων έχει κατασκευαστεί από επιστήμονες με βιολο-γικό υπόβαθρο ενώ, συχνά, όταν πρωτοδημιουργήθηκαν αυτές οι ΒΔ το πλήθοςτων δεδομένων που έπρεπε να υποστηρίξουν ήταν μικρό και ήταν σημαντικό οιεγγραφές της ΒΔ να είναι εύκολες για τους διαχειριστές της να τις χειριστούνχωρίς ίσως τη βοήθεια εξειδικευμένου λογισμικού (human readable formats). Σεαυτό το γεγονός οφείλεται κατά κύριο λόγο η επικράτηση για πολλά χρόνια τηςχρήσης απλών αρχείων στη δημιουργία ΒΔ. Η εισαγωγή νέων τύπων δεδομένων,οδήγησε στη δημιουργία νέων ΒΔ που χρησιμοποιούσαν ποικίλες μορφοποιήσειςαρχείων κειμένου, με αποτέλεσμα να έχουμε καταλήξει να διαθέτουμε μεγάλοπλήθος ΒΔ με σχεδόν ισάριθμο πλήθος διαφορετικών μορφοποιήσεων. Επιπλέον,ο τύπος επερωτήσεων που δέχονται οι διάφορες ΒΔ δεν είναι κοινός ούτε τυπο-ποιημένος. Αρκετά ερωτήματα τα οποία καλείται να απαντήσει καθημερινά έναςπειραματικός βιολογός είναι αδύνατον να απαντηθούν με τη χρήση μιας και μο-ναδικής πηγής δεδομένων. Παρόλα αυτά, ορισμένα από αυτά μπορούν να απαντη-θούν με ικανοποιητικό τρόπο χρησιμοποιώντας πληροφορίες από διαφορετικέςπηγές. Δυστυχώς, αν και έχουν υπάρξει πολλές προσπάθειες προς αυτήν την κα-

  • 1.6. ΣΥΣΤΗΜΑΤΑ ΕΝΟΠΟΙΗΣΗΣ ΒΙΟΛΟΓΙΚΩΝ ΔΕΔΟΜΕΝΩΝ 23

    τεύθυνση τα τελευταία 10-15 χρόνια, το εγχείρημα της ενοποιημένης πρόσβασηςέχει αποδειχθεί πολύ δύσκολο στην πράξη.

    Αυτά συστήματα συχνά δεν έχουν κατασκευαστεί με κάποιο σαφές σχήμα ΒΔ,το οποίο αποτελεί ένα τυποποιημένο κατάλογο όλων των πινάκων της ΒΔ, τωνπεδίων που αυτά περιέχουν και το νόημα των δεικτών τους. Το πρόβλημα γίνεταιπερισσότερο πολύπλοκο εάν λάβουμε υπόψη το γεγονός ότι ένας βιολόγος απαι-τεί ευέλικτη πρόσβαση και επερωτήσεις σε πολύ εξειδικευένους συνδυασμούς.Η απλή ανάκτηση δεδομένων δεν είναι αρκετή στη σύγχρονη βιολογική επιστήμηκαι κατ’ επέκταση στη βιοπληροφορική. Ο χειρισμός των ανακτώμενων δεδομέ-νων από διαφορετικές (συχνά ανομοιογενείς ΒΔ) και η αναδόμηση των δεδο-μένων για τη διερεύνηση διαφορετικών κάθε φορά βιολογικών ή σχετικών προ-βλημάτων (βιοϊατρικών, περιβαλλοντικών, κτλ) αποτελεί σημαντική πρόκληση, ηοποία “ταλαιπωρεί” και σήμερα τους βιοπληροφορικούς.

    Πολλά από τα υπάρχοντα συστήματα ανάκτησης βιολογικών δεδομένων δεν είναιπλήρως συμβατα με την αναγκαιότητα για την ανώδυνη και ευέλικτη ενοποίησητων δεδομένων. Τα συστήματα αυτά βασίζονται σε μεγάλο βαθμό στον άμεσοχειρισμό των δεδομένων από το χρήστη (συχνά σε χαμηλό επίπεδο). Για παρά-δειγμα, είναι συχνή η περίπτωση κατά την οποία ο χρήστης απαιτείται να χρη-σιμοποιήσει μια “λέξη-κλειδί” (keyword) για να εξάγει περιλήψεις των σχετικώνεγγραφών, στη συνέχεια απαιτείται να επιλέξει κάθε ένα από τα αποτελέσματαώστε να εξετάσει τα περιεχόμενα της εγγραφής ή ώστε να πραγματοποιήσει επι-πλέον ενέργειες με τα δεδομένα της εγγραφής. Αυτή η διαδικασία είναι πιθανόνα είναι αποδοτική μόνο για πολύ απλές εργασίες. Παρόλα αυτά, όσο αυξανεταιτο πλήθος ή η πολυπλοκότητα των εγγραφών (ή των ενεργειών που θέλουμε ναδράσουν σε αυτές), αυτοί οι απευθείας χειρισμοί καταλήγουν αφενός να είναιμια επαναληπτική “αγγαρεία” αφετέρου αυξάνουν σημαντικά την πιθανότητα λα-θών ή και ασυνεπειών. Επίσης, όταν τα βιολογικά ερωτήματα που προσπαθούμενα απαντήσουμε είναι αυξημένης πολυπλοκότητας και εμπλέκουν επερωτήσειςσε πολλές ΒΔ, η οργάνωση των αποτελεσμάτων που απαιτείται είναι πολύ πιθανόνα ξεπερνούν την υπομονή αλλά και, κυρίως, τις δυνατότητες ενός επιστήμονα.Το να προσφέρει κανείς απλά μια βιβλιοθήκη λογισμικού η οποία παρέχει διε-παφή (interface) σε μεγάλο πλήθος ΒΔ και εργαλείων λογισμικού για την ανάλυσηδεδομένων δεν είναι από μόνο του χρήσιμο εάν κατά την πρακτική εφαρμογήαπαιτείται να επιδείξει ο χρήστης γνώσεις προγραμματισμού οι οποίες επεκτεί-νουν ουσιαστικά τη λειτουργικότητα της συγκεκριμένης βιβλιοθήκης.

  • 24 ΚΕΦΑΛΑΙΟ 1. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ

    Τα βιοπληροφορικά συστήματα αποτελούν απάντηση στη παραπάνω πρόκλησηκαι μπορούν χοντρικά να ταξινομηθούν σε “σημειακές” και “γενικευμένες” λύ-σεις. Μια σημειακή λύση αποτελεί ένα εξειδικευμένο σύστημα, στο οποίο οι πη-γές δεδομένων που λαμβάνονται υπόψην είναι μικρές σε μέγεθος και (σχετικά)στατικές. Κατά αντιστοιχία και οι βιολογικές ερωτήσεις την απάντηση των οποίωνείναι δυνατόν αυτές να εξυπηρετήσουν είναι μικρής πολυπλοκότητας και επίσηςστατικές. Το αντίστοιχο λογισμικό είναι τόσο εξειδικευμένο ώστε να μπορεί ναπροσφέρει τις ζητούμενες απαντήσεις και τίποτε περισσότερο. Συνεπώς, οι απαι-τήσεις για σχεδιασμό ΒΔ και η πρόβλεψη για επεκτασιμότητα και ευελιξία είναιελάχιστες.

    Αντίθετα, μια γενικευμένη λύση δε σχεδιάζεται έχοντας υπόψην ένα συγκεκρι-μένο σύνολο βιολογικών ερωτημάτων ή ακόμη και τύπων ή πηγών δεδομένων.Κεντρικό ρόλο σε τέτοια συστήματα παίζει ο σχεδιασμός, με απώτερο στόχο τηεπεκτασιμότητα και την ευελιξία. Μια γενικευμένη λύση αποτελεί περισσότερομια πλατφόρμα ανάπτυξης, ρόλος της οποίας είναι να περιοριστεί ο χρόνος ανά-πτυξης σημειακών λύσεων, σε αντιστοιχία με τη λειτουργία μιας σχεσιακής ΒΔως την πλατφόρμα εκείνη στην οποία χτίζονται εξειδικευμένες εφαρμογές δια-χείρισης συγκεκριμένων δεδομένων.

    Ένα σύστημα βιοπληροφορικής που προορίζεται να αποτελέσει ένα γενικευμένομηχανισμό ολοκληρωμένης πρόσβασης σε δεδομένα πρέπει να ικανοποιεί του-λάχιστον τις παρακάτω συνθήκες:

    1. Δεν πρέπει να στηρίζεται στη διαθεσιμότητα συγκεκριμένων σχημάτων. Πρέ-πει να είναι δυνατόν να μεταγλωτίζει οποιαδήποτε επερώτηση η οποία υπο-βάλεται λαμβάνοντας υπόψη μόνο τη δομή της επερώτησης. Εάν απαιτεί-ται ένα συγκεκριμένο σχήμα πριν τη μεταγλώτισση μιας επερώτησης τότετα πράγματα δυακολεύουν, γιατί συχνά οι βιοιατρικές ΒΔ δε διαθέτουν κά-ποιο εύχρηστο σχήμα.

    2. Πρέπει να υποστηρίζει ένα μοντέλο δεδομένων το οποίο να μεταφράζεταιεύκολα από εξωτερικές ΒΔ και συστήματα λογισμικού, χωρίς να απαιτούν-ται δηλώσεις πολλών τύπων. Εάν αυτό δεν υπάρχει, δημιουργείται σημαν-τική δυσκολία στη μεταφορά εξωγενών δεδομένων προς το σύστημα αλλάκαι δεδομένων του συστήματος προς άλλα συστήματα, όπως και ο χειρισμόςαυτών των δεδομένων.

    3. Οφείλει να προστατεύει κατά το δυνατόν την εγκυρότητα υφιστάμενων

  • 1.6. ΣΥΣΤΗΜΑΤΑ ΕΝΟΠΟΙΗΣΗΣ ΒΙΟΛΟΓΙΚΩΝ ΔΕΔΟΜΕΝΩΝ 25

    επερωτήσεων από μεταβολές των εξωτερικών πηγών. Για παράδειγμα, ηπροσθήκη ενός νέου πεδίου σε μια εξωτερική ΒΔ δε θα πρέπει να απαιτείτροποποίηση υφιστάμενων επερωτήσεων προς αυτή τη ΒΔ οι οποίες δου-λεύουν ήδη σωστά.

    Οι εξωτερικές πηγές δεδομένων που απασχολούν ένα βιοπληροφορικό, στηγενική περίπτωση, αναπτύσονται σε διαφορετικούς οργανισμούς ή ερευνη-τικές ομάδες, οι οποίοι φυσικά διατηρούν την αυτονομία τους να επεκτεί-νουν, να διαφοροποιήσουν ή ακόμη και να καταργήσουν τις ΒΔ τις οποίεςπροσφέρουν. Επομένως, αποκτά ιδιαίτερη σημασία γενικευμένων διαδικα-σιών ενοποίησης δεδομένων οι οποίες να διακρίνονται από ευρωστία ότανοι πηγές δεδομένων εξελίσσονται, αλλάζουν (ή ακόμη και καταργούνται!).

    4. Πρέπει να διαθέτει κατάλληλη μορφοποίηση ανταλλαγής δεδομένων, η οποίανα αποτελεί ένα πρωτόκολλο προτυποποίησης, το οποίο χρησιμοποιεί τοσύστημα ώστε να ανταλλάσει δεδομένα με εξωτερικές πηγές. Ένα τέτοιοπρότυπο οφείλει να είναι εύκολο στη χρήση, ώστε να μην απαιτείται εκτε-ταμένη προγραμματιστική προσπάθεια (και ικανότητα) ώστε να αντιληφθείένας χρήστης την ποικιλία των δομών δεδομένων που προέρχονται από δια-φορετικές ΒΔ ή εργαλεία λογισμικού. Διαφορετικά, θα απαιτείται σημαντικήπροσπάθεια για τη διασύνδεση του συστήματος με άλλες εξωτερικές πηγέςδεομένων και εφαρμογές.

    Πέρα από την ικανότητα επερώτησης, ανάκτησης/συγκέντρωσης, και μετασχη-ματισμού των δεδομένων από (απομακρυσμένες εν γένει) ετερογενείς πηγές,σημαντική είναι επίσης η δυνατότητα τοπικής αποθήκευσης των δεδομένων. Ορι-σμένοι βασικοί λόγοι για τους οποίους αυτό μπορεί να είναι επιθυμητό (ή καιαναγκαίο πολύ συχνά) είναι οι ακόλουθοι:

    Αύξηση της αποδοτικότητας Είναι ξεκάθαρο ότι δεν επιθυμούμε να έχουμε ωςανασχετικό παράγοντα την ταχύτητα της βραδύτερης εξωγενούς πηγής ήμιας πηγής η οποία συνδέεται μέσω πολύ αργού δικτύου 11 ιδιαίτερα ότανέχουμε πρόσβαση σε υπολογιστικά συστήματα υψηλής ποιότητας/απόδοσης.Η τοπική αποθήκευση (παρότι έχει και τα μειονεκτήματά της) μας παρέχειαποδοτικότητα η οποία εξαρτάται από την ποιότητα του εξοπλισμού μας καιμόνο.

    11Φανταστείτε το σύστημά σας να περιμένει απάντηση σε μια επερώτηση που απεύθυνε προς μιαΒΔ που φυσικά βρίσκεται σε ένα τόπο με πολύ αργή σύνδεση στο διαδίκτυο

  • 26 ΚΕΦΑΛΑΙΟ 1. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ

    Αύξηση διαθεσιμότητας Η πρόσβασή μας στα δεδομένα είναι δυαντή οποιαδή-ποτε στιγμή το σύστημά μας λειτουργεί. Κατ’ αυτόν τον τρόπο δεν εξαρτώ-μαστε από προσωρινές διακοπές στην παροχή δικτύου (τόσο στην περιοχήμας όσο και στην περιοχή που βρίσκεται η εξωτερική πηγή δεδομένων) ούτεκαι από τη διακοπή της διαθεσιμότητας ορισμένων εξωτερικών συστημά-των, π.χ.για λόγους συντήρησης ή αναβάθμησης. 12

    “Ξεκαθάρισμα” δεδομένων Η τοπική αποθήκευση δίνει τη δυνατότητα διενέρ-γειας εξονυχιστικών ελέγχων για την ποιότητα των δεδομένων, οι οποίοισυχνά δεν είναι δυνατόν να πραγματοποιηθούν μέσω απομακρυσμένης πρό-σβασης. Το θέμα της ποιότητας των δεδομένων που υπάρχουν κατατεθει-μένα σε δημόσιες ΒΔ είναι κάτι που απασχολεί εδώ και αρκετά χρόνια τηνερευνητική κοινότητα. Παρόλα αυτά, δε διαφένεται προς το παρόν να υπάρ-χει κάποια εφικτή συστηματική λύση.

    Προφανώς, η διαδικασία τοπικής αποθήκευσης δεν έρχεται χωρίς το κόστος της,αφού αλλάζει σημαντικά τις σχετικές απαιτήσεις:

    1. Το σύστημα αποθήκευσης πρέπει να έχει αποδοτικό μηχανισμό επερωτή-σεων.

    2. Το σύστημα αποθήκευσης πρέπει να είναι δυνατόν να ενημερώνεται εύ-κολα. Συγκεκριμένα, πρέπει να επιτρέπονται τόσο μεμονωμένες αλλαγέςεγγραφών (ενημέρωση, προσθήκη, διαγραφή) όσο και μαζικές αλλαγές. Τοδεύτερο χαρακτηριστικό επιβάλει ειδικό σχεδιασμό των μηχανισμών (πι-θανά αυτοματοποιημένων) που απαιτούνται ώστε το σύστημα αποθήκευσηςνα ενημερώνεται σε τακτά χρονικά διαστήματα και να συγχρονίζεται με τιςυποκείμενες πηγές δεδομένων οι οποίες είναι δυνατόν να ανανεώνονται μεδιαφορετική συχνότητα η κάθε μία.

    3. Με δεδομένο ότι το σύστημα αναφέρεται σε βιολογικά δεδομένα, οφείλεινα μοντελοποιεί τα δεδομένα με τρόπο που να αντιστοιχεί στις βιολογικέςοντότητες που αναπαριστώνται. Παρότι ένα RDBMS είναι αποδοτικό σε επε-

    12Ένας περισσότερο εξειδικευμένος τεχνικός λόγος που σχετίζεται με τη διαθεσιμότητα έχεινα κάνει με την πολιτική που ακολουθούν διάφοροι οργανισμοί για να αποφεύγουν κακόβουλεςεπιθέσεις (denial of service attacks) προς τα υπολογιστικά τους συστήματα. Για παράδειγμα, το NCBIεπιβάλλει αυστηρό όριο στο πλήθος των επερωτήσεων ή/και στον όγκο των δεδομένων στα οποίαμπορεί να έχει πρόσβαση ένα συγκεκριμμένο υπολογιστικό σύστημα (ή καλύτερα ένα IP) μέσασε μια ημέρα. Η υπέρβαση αυτού του ορίου μπορεί να συνεπάγεται μέχρι και τον κίνδυνο τηςαπαγόρευσης πρόσβασης στο σχετικό web-site.

  • 1.6. ΣΥΣΤΗΜΑΤΑ ΕΝΟΠΟΙΗΣΗΣ ΒΙΟΛΟΓΙΚΩΝ ΔΕΔΟΜΕΝΩΝ 27

    ρωτήσεις και εύκολο στην ενημέρωσή του, η διαμέριση των δεδομένων σεπίνακες οδηγεί ορισμένες φορές σε αφύσικο κατακερματισμό των δεδομέ-νων. Για παράδειγμα, σε ένα σχεσιακό σχήμα, μια εγγραφή της SWISS-PROTθα έπρεπε να τεμαχιστεί σε 30 περίπου πίνακες, ώστε να ακολουθηθούν οισωστές διαδικασίες κανονικοποίησης μέχρι το τρίτο επίπεδο. 13 Αυτή η αφύ-σικη διαμέριση των δεδομένων δημιουργεί δύο προβλήματα: (α) αυξάνει τοφόρτο του προγραμματιστή που αναπτύσσει/συντηρεί τη ΒΔ και την πιθανό-τητα προγραμματιστικών σφαλμάτων και (β) αυξάνει σημαντικά το υπολο-γιστικό κόστος συγκεκριμένων επερωτήσεων. Στο παράδειγμα της SWISS-PROT, εάν θέλαμε να ανακτήσουμε μια εγγραφή στην ολότητά της θα απαι-τούνταν πολλές πράξεις συζεύξεων (join) μεταξύ των διαφόρων πινάκων.

    Επιπλέον, είναι σημαντικό ότι όσο προσεκτικά και να σχεδιαστεί ένα σύστημαενοποίησης ΒΔ είναι απίθανο να καλύπτει απόλυτα το σύνολο των πιθανών χρη-στών του. Γι’αυτό απαιτείται να υπάρχει εστίαση όσον αφορά

    1. την παροχή μηχανισμών ανάγνωσης δεδομένων από πολλές πηγές

    2. τον κατά το δυνατόν απλούστερο μετασχηματισμό των δεδομένων και τηδυνατότητα να “περνάμε” δεδομένα από τη μία εφαρμογή στην άλλη χωρίςτην ανάγκη ενδιάμεσης παρέμβασης των χρηστών

    3. την αποθήκευση των δεδομένων

    Υπάρχουν συγκεκριμένοι τύποι αναλύσεων και χειρισμών των δεδομένων οι οποίοιδεν είναι απαραίτητο να εκτελούνται από το σύστημα ενοποίησης δεδομένων,αλλά ορισμένες φορές παρέχονται επιπλέον. Τέτοια εργαλεία λογισμικού μπορείνα είναι από εξειδικευμένες εφαρμογές βιοπληροφορικής (π.χ. για στοίχιση αλ-ληλουχιών ή πρόβλεψη λειτουργικών και δομικών χαρακτηριστικών), εφαρμογέςγραφικής αναπαράστασης (ιδανικά) φιλικής προς το χρήστη, μέχρι και εργαλείαστατιστικής ανάλυσης ή μοντελοποίησης. Αυτές οι εφαρμογές, ανάλογα με τοντύπο τους, είναι δυνατόν να παρέχονται ως scripts διερμηνευόμενων γλωσσών

    13Κανονικοποίηση είναι η διαδικασία κατά την οποία μια βάση δεδομένων με έναν πίνακα διασπά-ται σε ένα σύνολο μικρότερων, σχετιζόμενων πινάκων, όπου καθένας από αυτούς εστιάζει σε έναμεμονωμένο ζήτημα ή ομάδα πληροφοριών. Μια κανονικοποιημένη, σχεσιακή βάση δεδομένωνέχει αρκετά πλεονεκτήματα έναντι μιας μη σχεσιακής βάσης δεδομένων. Πρώτον, η ενημέρωσηπληροφοριών είναι ταχύτερη και ευκολότερη, επειδή απαιτούνται λιγότερες αλλαγές δεδομένων.Δεύτερον, αποθηκεύονται μόνο οι ελάχιστες απαιτούμενες πληροφορίες. Συνεπώς, η βάση δεδο-μένων είναι μικρότερη. Τέλος, μια σχεσιακή βάση δεδομένων διατηρεί τα δεδομένα συνεπή μεαυτόματο τρόπο, επειδή τα δεδομένα αποθηκεύονται μία φορά.

  • 28 ΚΕΦΑΛΑΙΟ 1. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ

    προγραμματισμού ή ως εκτελέσιμα προγράμματα 14. Προκειμένου να διευκολυν-θεί το προγραμματιστικό έργο για την εκπλήρωση αυτών των λειτουργιών το γε-νικό σύστημα ενοποίησης δεδομένων πρέπει να παρέχει τα μέσα ώστε οι παρα-πάνω εφαρμογές να επικοινωνούν μαζί του (προγραμματιστική διεπαφή). Αυτόεπιτυγχάνεται μέσω της ενσωμάτωσης ορισμένων προγραμματιστικών δυνατο-τήτων ή με την παροχή ενός API (Application Programming Interface) για τις αν-τίστοιχες γλώσσες προγραμματισμού. Τέλος, μπορεί να έχουν ενδιαφέρον ταsemantics. Αυτό αφορά την ισοδυναμία και τη συνέπεια μεταξύ τμημάτων τωνεγγραφών από διαφορετικές πηγές δεδομένων, όπως και τις συσχετίσεις μεταξύτους. Η τεχνολ�