Περδικίδης Μιχάλης 7594

16
Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Επεξεργασία Πληροφοριών και Υπολογισμών (ΕΠΥ) ΕΞΌΡΥΞΗ ΓΝΏΣΗΣ ΑΠΌ ΓΡΆΦΟΥΣ ΒΙΟΛΟΓΙΚΏΝ ΔΕΔΟΜΈΝΩΝ Περδικίδης Μιχαήλ Επιβλέπων καθηγητής : Περικλής Α Μήτκας

Transcript of Περδικίδης Μιχάλης 7594

Page 1: Περδικίδης Μιχάλης 7594

Αριστοτέλειο Πανεπιστήμιο ΘεσσαλονίκηςΤμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών ΥπολογιστώνΕπεξεργασία Πληροφοριών και Υπολογισμών (ΕΠΥ)

ΕΞΌΡΥΞΗ ΓΝΏΣΗΣ ΑΠΌ ΓΡΆΦΟΥΣ ΒΙΟΛΟΓΙΚΏΝ ΔΕΔΟΜΈΝΩΝ

Περδικίδης Μιχαήλ Επιβλέπων καθηγητής : Περικλής Α Μήτκας

Page 2: Περδικίδης Μιχάλης 7594

Δομή παρουσίασης1. Στόχος της διπλωματικής

2. Θεωρητικό υπόβαθρο

3. Μεθοδολογία και πολυπλοκότητα προγράμματος

4. Αποτελέσματα

5. Συμπεράσματα

Page 3: Περδικίδης Μιχάλης 7594

Στόχος της εργασίας

Δημιουργία προγράμματος/αλγορίθμου ο οποίος θα κάνει τα εξής στα μεταβολικά μονοπάτια διαφόρων οργανισμών:

• Εύρεση εξελικτικών προτύπων

• Ομαδοποίηση

Σε μικρούς γράφους (μέχρι 100 κόμβους)

Έχοντας φιλική διεπαφή χρήστη

Σε εύλογο χρονικό διάστημα

Page 4: Περδικίδης Μιχάλης 7594

Μεταβολικά μονοπάτια• Μεταβολισμός το σύνολο των χημικών αντιδράσεων. Χωρίζεται σε μεταβολικά μονοπάτια.

• Μεταβολικά μονοπάτια γράφος ενζύμων και χημικών αντιδράσεων.

• Ένζυμα ενεργούν σε χημικές αντιδράσεις.

• eCNumber αριθμητικό σχήμα ταξινόμησης ενζύμων στην μορφή x.y.z.w.

Κύρια κλάση

Υποκλάση

Υπό-υποκλάση

Σειριακός αριθμός

Page 5: Περδικίδης Μιχάλης 7594

Στοιχεία Θεωρίας γράφων• Ως γράφο ορίζουμε μια πλειάδα τεσσάρων συμβόλων g = (V, E, μ, v) όπου:

V ορίζει ένα πεπερασμένο σύνολο κόμβων (Vertex)

Ε ορίζει ένα πεπερασμένο σύνολο ακμών (Edge)

μ: V LV ορίζει μια συνάρτηση ετικετών κόμβων

v: E LE ορίζει μια συνάρτηση ετικετών ακμών

• Έστω δύο γράφοι g1 = (V1, E1, μ1, ν1) και g2 = (V2, E2, μ2, ν2). Ο γράφος g1 είναι υπογράφος του g2 αν:

V1 ⊆ V2

E1 = E2 ∩ (V1 × V2)

μ1(u) = μ2(u) για όλα τα u ∈ V1

ν1(u, v) = ν2(u, v) για όλα τα (u, v) ∈ E1

• Κάθε μεταβολικό μονοπάτι αντιστοιχίζεται σε έναν γράφο.

• Κάθε πρότυπο αντιστοιχίζεται σε έναν υπογράφο.

Page 6: Περδικίδης Μιχάλης 7594

Περιγραφή μεθοδολογίας του προγράμματος• Ανίχνευση κοινών προτύπων μεταξύ ζευγών γράφων.

• Ομαδοποίηση των γράφων με την χρήση των προτύπων που έχουν ανιχνευθεί.

• Ιεράρχηση των γράφων σύμφωνα με τις ομάδες που έχουν βρεθεί.

Page 7: Περδικίδης Μιχάλης 7594

Διάγραμμα ροής

Με γκρι: αρχή και τέλος

Με πράσινο: αρχεία εισόδου/εξόδου

Με πορτοκαλί: υπολογισμοί προγράμματος

Με μπλε: αλληλεπίδραση με τον χρήστη

Page 8: Περδικίδης Μιχάλης 7594

Κύρια λειτουργία προγράμματος• Είσοδος προγράμματος - parsing:

• Εύρεση προτύπων με χρήση κατωφλίου και δημιουργία πίνακα προτύπων-γράφων

• Εύρεση πίνακα αποστάσεων προτύπων και ιεραρχική ομαδοποίησή τους

• Εύρεση πίνακα αποστάσεων γράφων και ιεραρχική ομαδοποίησή τους

Page 9: Περδικίδης Μιχάλης 7594

Αλληλεπίδραση με τον χρήστη• Εκτύπωση όλων των πινάκων που βρέθηκαν στους υπολογισμούς του προγράμματος

• Αναμονή του προγράμματος για ερωτήματα του χρήστη:

1. Οπτικοποίηση όλων των γράφων

2. Οπτικοποίηση όλων των προτύπων

3. Σύγκριση δύο γράφων και οπτικοποίηση των κοινών τους προτύπων

4. Έξοδος από το πρόγραμμα

Page 10: Περδικίδης Μιχάλης 7594

Πολυπλοκότητα Η πολυπλοκότητα χωρίς σταθερούς όρους είναι:

Όπου:

• n: πλήθος των γράφων

• m: πλήθος προτύπων

• : μέσος πλήθος ακμών γράφων

• : μέσος πλήθος ακμών προτύπων

Άρα η πολυπλοκότητα επηρεάζεται από τρεις κύριες παραμέτρους:

1. Το πλήθος των γράφων εισόδου

2. Tο μέσο πλήθος ακμών γράφων

3. Tην εξάρτηση των γράφων ως προς την ομοιότητα τους. Η ομοιότητα βρίσκει πολλά πρότυπα άρα μεγάλο m και .

Page 11: Περδικίδης Μιχάλης 7594

Πειράματα που εκτελέστηκανΣυνολικά εκτελέστηκαν 5 πειράματα 3 τεχνητά για επαλήθευση του αλγορίθμου και 2 με πραγματικά δεδομένα για την εφαρμογή του.

• Τεχνητά:

1. Τρεις και δύο γράφοι όμοιοι μεταξύ τους.

2. Πέντε όμοιοι γράφοι μεταξύ τους.

3. Τέσσερις όμοιοι και ένας ξεχωριστός γράφος.

• Πραγματικά δεδομένα από την βάση http://Biocyc.org :

1. Έξι γράφοι της λυσίνης.

2. Δώδεκα γράφοι Οι έξι προηγούμενοι, πέντε τρικαρβοξυλικού οξέως και έναν λιπιδίου πυρήνα Α.

Page 12: Περδικίδης Μιχάλης 7594

Αποτελέσματα: Τεχνητά πειράματα• Δύο τεχνητά πειράματα από πέντε γράφους το κάθε ένα:

1. Τρεις και δύο όμοιοι γράφοι μεταξύ τους.

2. Τέσσερις όμοιοι και ένα ξεχωριστός.

Page 13: Περδικίδης Μιχάλης 7594

Αποτελέσματα: σε πραγματικά δεδομένα

Δώδεκα μεταβολικά μονοπάτια από έξι μονοπάτια λυσίνης (L), πέντε τρικαρβοξυλικού οξέως (T) και ένας λιπιδίου πυρήνα Α (X).

Page 14: Περδικίδης Μιχάλης 7594

Ενδεικτικά αποτελέσματα…

Page 15: Περδικίδης Μιχάλης 7594

Συμπεράσματα, τελικά σχόλιαΤο πρόγραμμα:

• ανιχνεύει πρότυπα μεταξύ μεταβολικών μονοπατιών.

• Ομαδοποιεί γράφους σύμφωνα με τα πρότυπα που έχει βρει.

• Έχει εύκολη χρήση.

• Τρέχει σε εύλογο χρόνο.

Μελλοντικές επεκτάσεις:

• Συμβολή της πληροφορίας των κόμβων στην αναγνώριση προτύπων.

• Περισσότερες πηγές εισόδου γράφων.

• Εφαρμογή σε μεγαλύτερους γράφους.

• Βελτιστοποιημένη απεικόνιση των γράφων.

Page 16: Περδικίδης Μιχάλης 7594

Ευχαριστώ για την προσοχή σας!Ερωτήσεις;