Όλγα Βρούσγου

28
Μεθοδολογία σύγκρισης πρωτεϊνικών ακολουθιών σε υποδομές μεγάλης κλίμακας Μεθοδολογία σύγκρισης πρωτεϊνικών ακολουθιών σε υποδομές μεγάλης κλίμακας Όλγα Βρούσγου 2 Απριλίου 2015

Transcript of Όλγα Βρούσγου

Page 1: Όλγα Βρούσγου

Μεθοδολογία σύγκρισης πρωτεϊνικών ακολουθιών σε υποδομές μεγάλης κλίμακας

Μεθοδολογία σύγκρισης πρωτεϊνικών ακολουθιών σε υποδομές μεγάλης κλίμακας

Όλγα Βρούσγου

2 Απριλίου 2015

Page 2: Όλγα Βρούσγου

2

Περιεχόμενα

1. Εισαγωγή

2. Το πρόβλημα

3. Τα εργαλεία

4. Η Υποδομή

5. HellasGrid

6. Ροή του προγράμματος

7. Επιλογές Εκτέλεσης

8. Λογισμικό

9. Πολυπλοκότητα

10. Αποτελέσματα

11. Συμπεράσματα

12. Ευχαριστήριες/Δημοσιεύσεις

13. Ερωτήσεις

Page 3: Όλγα Βρούσγου

3

Εισαγωγή

● Ταχεία παραγωγή δεδομένων

● Human Genome Project

● Βιοπληροφορική

Page 4: Όλγα Βρούσγου

4

Το Πρόβλημα

Σύγκριση Ακολουθιών Στόχος• Εκτίμηση πρωτεϊνικών

λειτουργιών• Εκτίμηση πρωτεϊνικών

οικογενειών

Πρόβλημα

• Χρονικά ακριβό• Υπολογιστικά ακριβό

Page 5: Όλγα Βρούσγου

5

Το Πρόβλημα

Υλοποίηση σε Πλέγμα Υπολογιστών (Grid)

BLAST – Phylogenetic Profiles – MCL Clustering

Page 6: Όλγα Βρούσγου

6

Τα Εργαλεία

BLAST Phylogenetic Profiles

MCL Clustering

Page 7: Όλγα Βρούσγου

7

Η Υποδομή

The Grid HellasGrid

• Πολλαπολοί Πόροι• Πολλαπλοί χρήστες• Scalability

Page 8: Όλγα Βρούσγου

8

HellasGrid

Υποβολή εργασιών

Page 9: Όλγα Βρούσγου

9

Λύση

Γενική Ροή

Page 10: Όλγα Βρούσγου

10

● Αρχεία FASTA

● Αρχεία κειμένου (txt)

Είσοδος

Page 11: Όλγα Βρούσγου

11

Parametric Jobs

Page 12: Όλγα Βρούσγου

12

Job Handler

Page 13: Όλγα Βρούσγου

13

Job Collection

Page 14: Όλγα Βρούσγου

14

Έξοδος

● Έξοδος αλγορίθμων Φυλογενετικά Προφίλ

MCL Clusters

● Έξοδος Εφαρμογής Report

E-mail

● Εργαλεία Περεταίρω Επεξεργασίας Parser Scripts

Cleanup/Download Scripts

Page 15: Όλγα Βρούσγου

15

Επιλογές Εκτέλεσης

● BLAST & MCL● BLAST & Phylogenetic

Profiles● BLAST & Phylogenetic

Profiles & MCL● BLAST & Phylogenetic

Profiles & MCL x2

● BLAST & Phylogenetic Profiles & MCL x2

ALL – Vs - ALL

Split Database Split Query

Page 16: Όλγα Βρούσγου

16

Λογισμικό

Page 17: Όλγα Βρούσγου

17

Πολυπλοκότητα

● BLAST : Ο(Ν*Μ)

● MCL : Ο(n*k^2)

● Phyl. P. : Ο(Ν^2*Κ*Μ)

ALL – Vs – ALL :

● Σειριακά: Ο[Μ^3]

● Παράλληλα δ. query: Ο[Μ^3/P]

● Παράλληλα δ. βάση: Ο[Μ^3/K]

● M = No. DB sequences

● N = No. Query sequences

● K = No. Genomes in DB

● P = No. Pieces Query Split

● P > K

Page 18: Όλγα Βρούσγου

18

Αποτελέσματα (1)

Χρόνοι BLAST και Φυλογενετικών Προφίλ

Page 19: Όλγα Βρούσγου

19

Αποτελέσματα (2)

Page 20: Όλγα Βρούσγου

20

Αποτελέσματα (3)

Test Cases

Page 21: Όλγα Βρούσγου

21

Αποτελέσματα (4)

Page 22: Όλγα Βρούσγου

22

Αποτελέσματα (5)

Page 23: Όλγα Βρούσγου

23

Αποτελέσματα (6)

Page 24: Όλγα Βρούσγου

24

Αποτελέσματα (7)

Page 25: Όλγα Βρούσγου

25

Αποτελέσματα (8)

Φυλογενετικά Προφίλ – Plants Pangenome

Page 26: Όλγα Βρούσγου

26

Συμπεράσματα

● Σύγκριση πρωτεϊνικών δομών για μεγάλα σύνολα δεδομένων

● Επιτάχυνση έως και 14.1x για βάση ~ 0.5 M πρωτεϊνών

● Split Query vs Split DB

● Σημαντικότητα Υποδομής

● Πολυπλοκότητα πρόβλεψης χρόνων εκτέλεσης

ΣυμπεράσματαΜελλοντικές Επεκτάσεις

● Αυτοματοποίηση διαμοιρασμού δεδομένων

● User Interface

● Οπτικοποίηση αποτελεσμάτων

● mpi-blast

Page 27: Όλγα Βρούσγου

27

Ευχαριστήριες/Δημοσιεύσεις

Καθηγητής Περικλής Α. Μήτκας

Δρ. Φώτης Ε. Ψωμόπουλος

Υποψήφιος Διδάκτορας Αθανάσιος Κιντσάκης

Δημοσιεύσεις

23rd Annual International Conference on Intelligent Systems for Molecular Biology

14th European Conference on Computational Biology

July 2015

Αίτημα για Poster

Ευχαριστήριες

Page 28: Όλγα Βρούσγου

28