Όλγα Βρούσγου

Post on 18-Jan-2017

9 views 2 download

Transcript of Όλγα Βρούσγου

Μεθοδολογία σύγκρισης πρωτεϊνικών ακολουθιών σε υποδομές μεγάλης κλίμακας

Μεθοδολογία σύγκρισης πρωτεϊνικών ακολουθιών σε υποδομές μεγάλης κλίμακας

Όλγα Βρούσγου

2 Απριλίου 2015

2

Περιεχόμενα

1. Εισαγωγή

2. Το πρόβλημα

3. Τα εργαλεία

4. Η Υποδομή

5. HellasGrid

6. Ροή του προγράμματος

7. Επιλογές Εκτέλεσης

8. Λογισμικό

9. Πολυπλοκότητα

10. Αποτελέσματα

11. Συμπεράσματα

12. Ευχαριστήριες/Δημοσιεύσεις

13. Ερωτήσεις

3

Εισαγωγή

● Ταχεία παραγωγή δεδομένων

● Human Genome Project

● Βιοπληροφορική

4

Το Πρόβλημα

Σύγκριση Ακολουθιών Στόχος• Εκτίμηση πρωτεϊνικών

λειτουργιών• Εκτίμηση πρωτεϊνικών

οικογενειών

Πρόβλημα

• Χρονικά ακριβό• Υπολογιστικά ακριβό

5

Το Πρόβλημα

Υλοποίηση σε Πλέγμα Υπολογιστών (Grid)

BLAST – Phylogenetic Profiles – MCL Clustering

6

Τα Εργαλεία

BLAST Phylogenetic Profiles

MCL Clustering

7

Η Υποδομή

The Grid HellasGrid

• Πολλαπολοί Πόροι• Πολλαπλοί χρήστες• Scalability

8

HellasGrid

Υποβολή εργασιών

9

Λύση

Γενική Ροή

10

● Αρχεία FASTA

● Αρχεία κειμένου (txt)

Είσοδος

11

Parametric Jobs

12

Job Handler

13

Job Collection

14

Έξοδος

● Έξοδος αλγορίθμων Φυλογενετικά Προφίλ

MCL Clusters

● Έξοδος Εφαρμογής Report

E-mail

● Εργαλεία Περεταίρω Επεξεργασίας Parser Scripts

Cleanup/Download Scripts

15

Επιλογές Εκτέλεσης

● BLAST & MCL● BLAST & Phylogenetic

Profiles● BLAST & Phylogenetic

Profiles & MCL● BLAST & Phylogenetic

Profiles & MCL x2

● BLAST & Phylogenetic Profiles & MCL x2

ALL – Vs - ALL

Split Database Split Query

16

Λογισμικό

17

Πολυπλοκότητα

● BLAST : Ο(Ν*Μ)

● MCL : Ο(n*k^2)

● Phyl. P. : Ο(Ν^2*Κ*Μ)

ALL – Vs – ALL :

● Σειριακά: Ο[Μ^3]

● Παράλληλα δ. query: Ο[Μ^3/P]

● Παράλληλα δ. βάση: Ο[Μ^3/K]

● M = No. DB sequences

● N = No. Query sequences

● K = No. Genomes in DB

● P = No. Pieces Query Split

● P > K

18

Αποτελέσματα (1)

Χρόνοι BLAST και Φυλογενετικών Προφίλ

19

Αποτελέσματα (2)

20

Αποτελέσματα (3)

Test Cases

21

Αποτελέσματα (4)

22

Αποτελέσματα (5)

23

Αποτελέσματα (6)

24

Αποτελέσματα (7)

25

Αποτελέσματα (8)

Φυλογενετικά Προφίλ – Plants Pangenome

26

Συμπεράσματα

● Σύγκριση πρωτεϊνικών δομών για μεγάλα σύνολα δεδομένων

● Επιτάχυνση έως και 14.1x για βάση ~ 0.5 M πρωτεϊνών

● Split Query vs Split DB

● Σημαντικότητα Υποδομής

● Πολυπλοκότητα πρόβλεψης χρόνων εκτέλεσης

ΣυμπεράσματαΜελλοντικές Επεκτάσεις

● Αυτοματοποίηση διαμοιρασμού δεδομένων

● User Interface

● Οπτικοποίηση αποτελεσμάτων

● mpi-blast

27

Ευχαριστήριες/Δημοσιεύσεις

Καθηγητής Περικλής Α. Μήτκας

Δρ. Φώτης Ε. Ψωμόπουλος

Υποψήφιος Διδάκτορας Αθανάσιος Κιντσάκης

Δημοσιεύσεις

23rd Annual International Conference on Intelligent Systems for Molecular Biology

14th European Conference on Computational Biology

July 2015

Αίτημα για Poster

Ευχαριστήριες

28