Όλγα Βρούσγου
Transcript of Όλγα Βρούσγου
Μεθοδολογία σύγκρισης πρωτεϊνικών ακολουθιών σε υποδομές μεγάλης κλίμακας
Μεθοδολογία σύγκρισης πρωτεϊνικών ακολουθιών σε υποδομές μεγάλης κλίμακας
Όλγα Βρούσγου
2 Απριλίου 2015
2
Περιεχόμενα
1. Εισαγωγή
2. Το πρόβλημα
3. Τα εργαλεία
4. Η Υποδομή
5. HellasGrid
6. Ροή του προγράμματος
7. Επιλογές Εκτέλεσης
8. Λογισμικό
9. Πολυπλοκότητα
10. Αποτελέσματα
11. Συμπεράσματα
12. Ευχαριστήριες/Δημοσιεύσεις
13. Ερωτήσεις
3
Εισαγωγή
● Ταχεία παραγωγή δεδομένων
● Human Genome Project
● Βιοπληροφορική
4
Το Πρόβλημα
Σύγκριση Ακολουθιών Στόχος• Εκτίμηση πρωτεϊνικών
λειτουργιών• Εκτίμηση πρωτεϊνικών
οικογενειών
Πρόβλημα
• Χρονικά ακριβό• Υπολογιστικά ακριβό
5
Το Πρόβλημα
Υλοποίηση σε Πλέγμα Υπολογιστών (Grid)
BLAST – Phylogenetic Profiles – MCL Clustering
6
Τα Εργαλεία
BLAST Phylogenetic Profiles
MCL Clustering
7
Η Υποδομή
The Grid HellasGrid
• Πολλαπολοί Πόροι• Πολλαπλοί χρήστες• Scalability
8
HellasGrid
Υποβολή εργασιών
9
Λύση
Γενική Ροή
10
● Αρχεία FASTA
● Αρχεία κειμένου (txt)
Είσοδος
11
Parametric Jobs
12
Job Handler
13
Job Collection
14
Έξοδος
● Έξοδος αλγορίθμων Φυλογενετικά Προφίλ
MCL Clusters
● Έξοδος Εφαρμογής Report
● Εργαλεία Περεταίρω Επεξεργασίας Parser Scripts
Cleanup/Download Scripts
15
Επιλογές Εκτέλεσης
● BLAST & MCL● BLAST & Phylogenetic
Profiles● BLAST & Phylogenetic
Profiles & MCL● BLAST & Phylogenetic
Profiles & MCL x2
● BLAST & Phylogenetic Profiles & MCL x2
ALL – Vs - ALL
Split Database Split Query
16
Λογισμικό
17
Πολυπλοκότητα
● BLAST : Ο(Ν*Μ)
● MCL : Ο(n*k^2)
● Phyl. P. : Ο(Ν^2*Κ*Μ)
ALL – Vs – ALL :
● Σειριακά: Ο[Μ^3]
● Παράλληλα δ. query: Ο[Μ^3/P]
● Παράλληλα δ. βάση: Ο[Μ^3/K]
● M = No. DB sequences
● N = No. Query sequences
● K = No. Genomes in DB
● P = No. Pieces Query Split
● P > K
18
Αποτελέσματα (1)
Χρόνοι BLAST και Φυλογενετικών Προφίλ
19
Αποτελέσματα (2)
20
Αποτελέσματα (3)
Test Cases
21
Αποτελέσματα (4)
22
Αποτελέσματα (5)
23
Αποτελέσματα (6)
24
Αποτελέσματα (7)
25
Αποτελέσματα (8)
Φυλογενετικά Προφίλ – Plants Pangenome
26
Συμπεράσματα
● Σύγκριση πρωτεϊνικών δομών για μεγάλα σύνολα δεδομένων
● Επιτάχυνση έως και 14.1x για βάση ~ 0.5 M πρωτεϊνών
● Split Query vs Split DB
● Σημαντικότητα Υποδομής
● Πολυπλοκότητα πρόβλεψης χρόνων εκτέλεσης
ΣυμπεράσματαΜελλοντικές Επεκτάσεις
● Αυτοματοποίηση διαμοιρασμού δεδομένων
● User Interface
● Οπτικοποίηση αποτελεσμάτων
● mpi-blast
27
Ευχαριστήριες/Δημοσιεύσεις
Καθηγητής Περικλής Α. Μήτκας
Δρ. Φώτης Ε. Ψωμόπουλος
Υποψήφιος Διδάκτορας Αθανάσιος Κιντσάκης
Δημοσιεύσεις
23rd Annual International Conference on Intelligent Systems for Molecular Biology
14th European Conference on Computational Biology
July 2015
Αίτημα για Poster
Ευχαριστήριες
28