Δαμιανός Μελίδης 3974 5 ο Έτος [email protected]

14
NP-completeness of the energy barrier problem without pseudoknots and temporary arcs Jan Manuch, Chris Thachuk, Ladislav Stacho, Anne Condon Nat Comput (2011) 10:391-405 Δαμιανός Μελίδης 3974 5 ο Έτος [email protected] 1 15/06/22

description

NP-completeness of the energy barrier problem without pseudoknots and temporary arcs Jan Manuch, Chris Thachuk, Ladislav Stacho, Anne Condon Nat Comput (2011) 10:391-405. Δαμιανός Μελίδης 3974 5 ο Έτος [email protected]. Εισαγωγή. - PowerPoint PPT Presentation

Transcript of Δαμιανός Μελίδης 3974 5 ο Έτος [email protected]

Page 1: Δαμιανός Μελίδης 3974 5 ο  Έτος melidis@ceid.upatras.gr

NP-completeness of the energy barrier problem without pseudoknots and temporary arcsJan Manuch, Chris Thachuk, Ladislav Stacho, Anne CondonNat Comput (2011) 10:391-405

Δαμιανός Μελίδης39745ο Έτος[email protected]

1

21/04/23

Page 2: Δαμιανός Μελίδης 3974 5 ο  Έτος melidis@ceid.upatras.gr

Εισαγωγή• Θα μετελήσουμε την υπολογιστική πολυπλοκότητα μιας «απλής» εκδοχής του προβλήματος

energy barrier στις διαμορφώσεις των DNA και RNA μακρομορίων.• Δηλαδή υπάρχει αποδοτικός αλγόριθμος ο οποίος να βρίσκει ποιό ενεργειακό κατώφλι πρέπει να

ξεπεραστεί απο το μακρομόριο, ώστε να προσαρμοστεί σε μια δοσμένη τελική (δευτεροταγή) δομή, δεδομένης μιας αρχικής;

• Θα αποδείξουμε πως αυτό το πρόβλημα είναι NP-πλήρες.

2

21/04/23

Page 3: Δαμιανός Μελίδης 3974 5 ο  Έτος melidis@ceid.upatras.gr

Γιατί; (Κινητοποίηση)• Η δευτεροταγής δομή και το μονοπάτι αναδίπλωσης είναι σημαντικά για την κατανόηση της

λειτουργίας του RNA στο κύτταρο.• Η γνώση ενεργειακών κατωφλίων σε ενδιάμεσες (αναδιπλωμένες) δομές απο την ανοιχτή

αλυσίδα στην τελική διπλωμένη διαμόρφωση είναι χρήσιμη στην κατανόηση της απόδοσης των αναδιπλώσεων και της δομής.

• Μέθοδοι προσομείωσης DNA και RNA μοναπατιών αναδίπλωσης χρησιμοποιούν πιθανοτικές μεθόδους υπολογισμού ενεργειακών κατωφλίων.

• Ευρετικές μέθοδοι υπολογισμού ενεργειακών κατωφλίων χρησιμοποιούνται για την οπτικοποίηση energy landscapes και την ανακάλυψη ιδιοτήτων διαταραγμένων συστημάτων.

3

21/04/23

Page 4: Δαμιανός Μελίδης 3974 5 ο  Έτος melidis@ceid.upatras.gr

Ορισμοί (Μοντέλο Ακμών)

• Δευτεροταγής Δομή T ενός RNA μακρομορίου μήκους n είναι ένα σύνολο απο ζεύγη βάσεων i.j, με 1 ≤ i < j ≤ n, ώστε▫ κάθε δείκτης i ή j να βρίσκεται το πολύ σε ένα ζεύγος βάσεων▫ Τα ζεύγη σχηματίζουν ένα ζεύγος βάσεων Watson-Crick (C-G, A-U ή A-T)

• Αντιστοιχίζουμε μια ακμή για κάθε ζεύγος βάσεων i.j.• Απλό μοντέλο ενέργειας για την δευτεροταγή δομή: κάθε ακμή συνεισφέρει ενέργεια -1

▫ Συμβολίζουμε την ενέργεια της δευτεροταγούς δομής T, ως E(T)

21/04/23

4

Page 5: Δαμιανός Μελίδης 3974 5 ο  Έτος melidis@ceid.upatras.gr

Ορισμοί (Μονοπάτι Αναδίπλωσης)

• Μονοπάτι αναδίπλωσης: μια ακολουθία απο δευτεροταγείς δομές (χωρίς διασταύρουμενες ακμές) του μακρομορίου, κάθε μια διαφέρει απο την προηγούμενη της λόγω προσθήκης ή διαγραφής μιας μόνο ακμής.

• Direct μονοπάτι αναδίπλωσης απο την I στην F: Μονοπάτι στο οποίο προστίθονται ακμές μόνο απο το |F-I| και αφαιρούνται μόνο απο το |I-F|.

• Pseudoknot-free δομή: Δομή η οποία δεν περιέχει διασταύρουμενες ακμές.• Band Ακμών: Σύνολο ένθετων ακμών, στο οποίο κάθε μια τέμνει το ίδιο σύνολο ακμών -> Χρήση

αθροιστικού βάρος για τέτοιου είδους ακμές Ii.• Transformation Sequence: Ακολουθία πράξεων ακμών οι οποίες ορίζουν μοναδικά ένα μονοπάτι

αναδίπλωσης.

21/04/23

5

Page 6: Δαμιανός Μελίδης 3974 5 ο  Έτος melidis@ceid.upatras.gr

Ορισμοί (Μοντέλο Ενέργειας)

• Το κατώφλι ενέργειας ενός direct pseudoknot-free μονοπατίου ( I = T0, T1, … , Tr = F) απο την αρχική δομή I στην τελική δομή F είναι η μεγαλύτερη διαφορά ενέργειας μεταξύ οποιαδήποτε ενδιάμεσης δομής και της αρχικής I, δηλαδή max( E(Ti) – E(I) ), 1 ≤ i ≤ r.

• Η διαφορά ενέργειας κάθε ενδιάμεσης διαμόρφωσης Ti ισούται με E(Ti) – E(I).• Διαμόρφωση: ένα σύνολο ακμών , με αθροιστικό βάρος.

• Ενέργεια διαμόρφωσης I: E(I) = - .

21/04/23

6

Page 7: Δαμιανός Μελίδης 3974 5 ο  Έτος melidis@ceid.upatras.gr

Ορισμοί (DPKF-EB + 3-Partition)

• DPKF-EB: Δεδομένων δύο pseudoknot-free διαμορφώσεων Ι= (αρχική) και F= (τελική) και ενός ακεραίου k, υπάρχει μια direct pseudoknot-free transformation sequence S, τέτοια ώστε το ενεργειακό της κατώφλι να είναι το πολύ k.

• 3-PARTITION: Δοσμένων 3n ακεραίων α1, ..., α3n, τέτοιων ώστε α1+ ...+ α3n = nA και για κάθε i A/4 < αi < A/2. Υπάρχει διαίρεση των ακεραίων {1, ..., 3n} σε ξένες τριάδες G1, G2, …, Gn, έτσι ώστε c(Gi) = για κάθε i = 1, …, n.

• Θεώρημα 1 (Garey and Johnson 1979): To 3-PARTITION πρόβλημα είναι NP-πλήρες ακόμα και αν το Α είναι πολυώνυμο του n.

• Θα αποδείξουμε πως το DPKF-EB είναι NP-πλήρες, χρησιμοποιώντας αναγωγή στο 3-PARTITION.

21/04/23

7

Page 8: Δαμιανός Μελίδης 3974 5 ο  Έτος melidis@ceid.upatras.gr

NP-πληρότητα (NP διαγνώστης)

• DPKF-EB ανήκει NP:▫ Έστω Μ αντιαιτιοκρατική μηχανή = ‘με εισόδους I, F δομές και κατώφλι κ 1. Διαλέγουμε μη-ντετερμινιστικά ένα μονοπάτι αναδίπλωσης απο την I στην F.2. Αν το κατώφλι ενέργειας ≤ κ, Αποδεχόμαστε αλλιώς Απορρίπτουμε’Η μηχανή εκτελείται σε γραμμικό χρόνο συναρτήσει των εισόδων

21/04/23

8

Page 9: Δαμιανός Μελίδης 3974 5 ο  Έτος melidis@ceid.upatras.gr

NP-πληρότητα (3-Partition => DPKF-EB 1/3)

• Θεωρούμε ένα στιγμιότυπο του 3-Partition με Α/2 > α1 ≥ ... ≥ α3n > Α/4, ώστε = nA και A να είναι πολυώνυμο του n.

• Για ένα στιγμιότυπο του DPKF-EB, ορίζω ως αρχική διαμόρφωση I το σύνολο των αθροιστικών ακμών { ; j = 1, …, 3n, i = 1, …, n} { ; j = 1, …, 3n, i = 1, …, n} { ; j = 1, …, 3n, i = 1, …, n} και τελική διαμόρφωση F { ; j = 1, …, 3n, i = 1, …, n} { ; j = 1, …, 3n, i = 1, …, n}

21/04/23

9

Page 10: Δαμιανός Μελίδης 3974 5 ο  Έτος melidis@ceid.upatras.gr

NP-πληρότητα (3-Partition => DPKF-EB 2/3)

Ιδέα: Πως μπορώ να οργανώσω τα αθροιστικά βάρη των ακμών της αρχικής και τελικής

δομής και την ακολουθία αφαιρέσεων ακμών της I και προσθέσεων της F, ώστε να βρω ένα μονοπάτι αναδίπλωσης το οποίο να μην ξεπερνά το δοσμένο κατώφλι ενέργειας;

• Ορισμός αθροιστικών βαρών:▫ = 4iaj, = k – (j-1)A – 4iaj, = k – jA, για κάθε i = 1, …, n και j = 1, …, 3n▫ = k – (7n - 4)A, = k – (6n + 8)nA – 4(n-1)iA, για κάθε i = 2, …, n▫ = k – (6n + 8)nA, για κάθε i = 1, …, n-1, = k▫ Και για το κατώφλι ισχύει k > 4( 5 + n + 1) A

• Ορισμός ακολουθίας προσθέσεων/αφαιρέσεων:▫ Αν το 3-Partition έχει ως αποδεκτό στιγμιότυπο το G1, …, Gn όπου Gi ={ ji,1, ji,2, ji,3} και

έστω f(j) = i αν j ανήκει στο Gi, για κάθε j = 1, …, 3n, τότε η επόμενη ακολουθία δεν ξεπερνά το k

21/04/23

10

Page 11: Δαμιανός Μελίδης 3974 5 ο  Έτος melidis@ceid.upatras.gr

NP-πληρότητα (3-Partition => DPKF-EB 3/3)

• Το διάγραμμα διαφοράς ενέργειας για την προηγούμενη ακολουθία είναι:

• Παράδειγμα: θέλουμε να χωρίσουμε το σύνολο {10,9,8,7,7,7} ώστε να λύνεται το 3-Partition πρόβλημα.

21/04/23

11

Page 12: Δαμιανός Μελίδης 3974 5 ο  Έτος melidis@ceid.upatras.gr

NP-πληρότητα (DPKF-EB => 3-Partition)

• Έστω πως υπάρχει ακολουθία S προσθέσεων και αφαιρέσων η οποία έχει pseudoknot–free ακμές και δεν ξεπερνά το κατώφλι ενέργειας k.

• Η υπακολουθία S+ προσθηκών ορίζει όλη την S.• Έστω το πρόθεμα της S+ πριν την προσθήκη της Tl , δηλαδή +Αj1,i1, +Αj2,i2, ..., +ΑjM,iM

• Χρησιμοποιούμε αυτό το πρόθεμα για να ορίσουμε μια λύση του προβλήματος 3-Partition όπου Gi

= {jl; il = i} για κάθε i = 1, …, n.• Απο τα λήμματα 2 και 6 τα Gi ή μια μικρή μετάθεση των στοιχείων τους ικανοποιεί το 3-Partition

πρόβλημα• Η αναγωγή είναι ανάλογη του αθροίσματος των βαρών όλων των ακμών της I και F, δηλαδή

( + + ( + + ) ) < n * 2k + 3 * 2k = O( k ) = O( A), αφού υποθέσαμε πως το Α

είναι πολυώνυμο του n.

Θεώρημα 2: Αφού το πρόβλημα DPKF-EB ανήκει στο NP και το 3-Partition ανάγεται σε πολυωνυιμκό χρόνο σε αυτό, το πρόβλημα είναι NP-πλήρες.

21/04/23

12

Page 13: Δαμιανός Μελίδης 3974 5 ο  Έτος melidis@ceid.upatras.gr

Συμπεράσματα• Αποδείχτηκε πως μόνο αν NP = P, υπάρχει πολυωνυμικός αλγόριθμος για τον υπολογισμό του

κατωφλίου ενέργειας των direct μονοπατιών αναδίπλωσης.▫ Μπορούμε να βρούμε αποδοτικό αλγόριθμο ο οποίος να δουλεύει καλά στις περισσότερες περιπτώσεις

• Υπάρχουν εκθετικά πολλά προθέματα της μορφής S+ που δεν ξεπερνούν το κατώφλι k, όμως μπορεί μόνο ένα να αντιστοιχεί σε αληθές στιγμιότυπο του 3-Partition, οπότε χρησιμοποιώντας μια τυχαία διαδικασία για την παραγωγή των ακολουθιών θα χρειαστούμε εκθετικό χρόνο αναζήτησης.

• Μελοντική Εργασία: Μελέτη του προβλήματος όταν το μονοπάτι αναδίπλωσης δεν είναι direct και σε αυτό υπάρχουν repeat και temporary ακμές.

21/04/23

13

Page 14: Δαμιανός Μελίδης 3974 5 ο  Έτος melidis@ceid.upatras.gr

Βίντεο (Folding Kinetics of a YES RNA logic gate in the OFF state)

21/04/23

14