ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου...
Transcript of ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου...
![Page 1: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/1.jpg)
Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ
ΑΚΟΛΟΥΘΙΩΝ IΙ
ΦΥΛΟΓΕΝΕΤΙΚΗ ΑΝΑΛΥΣΗ
![Page 2: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/2.jpg)
Σελίδα 2 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μοντέλα Πολλαπλής Στοίχισης
• Consensus sequences
• Patterns and regular expressions
• Position Specifc Scoring Matrices (PSSMs)
• Generalized Profiles
• Hidden Markov Models (HMMs)
• Στοίχιση νέων ακολουθιών
• Αναζήτηση σε βάσεις δεδομένων
• Σχολιασμός νέων ακολουθιών
![Page 3: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/3.jpg)
Σελίδα 3 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Από την Ακολουθία στη Λειτουργία
![Page 4: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/4.jpg)
Σελίδα 4 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Hidden Markov Models (HMMs)
• Markov Chain Model
Σύνολο καταστάσεων
Πιθανότητα μετάβασης από τη μία κατάσταση στην άλλη
π.χ. μία ακολουθία DNA όπου η πιθανότητα
εμφάνισης ενός νουκλεοτιδίου εξαρτάται μόνο από το
προηγούμενο νουκλεοτίδιο
P(x) =
P(x1)P(x2|x1) … P(xN|xN-1)
P(CGGT) =
P(C) P(G|C) P(G|G) P(T|G)
![Page 5: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/5.jpg)
Σελίδα 5 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Hidden Markov Models (HMMs)
• Markov Chain Model
transition matrix (πίνακας μεταβάσεων)
Weather today
Sunny Rainy
Weather
yesterday
Sunny 0.8 0.2
Rainy 0.4 0.6
![Page 6: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/6.jpg)
Σελίδα 6 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Hidden Markov Models (HMMs)
![Page 7: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/7.jpg)
Σελίδα 7 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Hidden Markov Models (HMMs)
M = (Σ, Q, θ)
• Σ: Αλφάβητο συμβόλων = { b1, b2, …, bM }
• Q: Σύνολο δυνατών καταστάσεων Q = { 1, ..., K }
• θ: Σύνολο πιθανοτήτων
Πιθανότητες Μετάβασης (Transition)
από κατάσταση σε κατάσταση
aij: i j
ai1 + … + aiK = 1, i = 1…K
Πιθανότητες Γεννήσεως (Emission)
συμβόλων σε κάθε κατάσταση
ei(b) = P( xi = b | i = k)
ei(b1) + … + ei(bM) = 1, i = 1…K
![Page 8: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/8.jpg)
Σελίδα 8 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Hidden Markov Models (HMMs)
• Όταν το HMM βρίσκεται σε μία δεδομένη κατάσταση, πρέπει
να πάρει δύο αποφάσεις:
Σε ποια κατάσταση θα μεταβεί;
Κάθε χρονική στιγμή t, η επόμενη κατάσταση εξαρτάται
μόνο από την τρέχουσα κατάσταση
Ποιο σύμβολο του αλφάβητου θα "γεννήσει";
• Ένα σύμβολο μπορεί να "γεννηθεί" από διαφορετικές
καταστάσεις.
Όταν παρατηρείται ένα σύμβολο, δεν είναι γνωστή η
κατάσταση στην οποία βρίσκεται το HMM.
• Γνωστή σειρά συμβόλων / Άγνωστη σειρά καταστάσεων
![Page 9: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/9.jpg)
Σελίδα 9 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Hidden Markov Models (HMMs)
1. Εκτίμηση (Evaluation)
• Δεδομένου ενός μοντέλου Μ και μιας ακολουθίας x, ποια είναι η
πιθανότητα της ακολουθίας (forward algorithm)
2. Αποκωδικοποίηση (Decoding)
• Δεδομένου ενός μοντέλου Μ και μιας ακολουθίας x, ποια είναι η
πιθανότερη ακολουθία καταστάσεων για τη μοντελοποίηση της
ακολουθίας (viterbi algorithm)
3. Εκπαίδευση (Learning)
• Πως μπορούν να προσδιορισθούν οι παράμετροι ενός μοντέλου Μ
(πιθανότητες μετάβασης / γεννήσεως) από μία ομάδα ακολουθιών
(forward-backward algorithm, Baum-Welch expectation
maximization)
![Page 10: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/10.jpg)
Σελίδα 10 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Hidden Markov Models (HMMs)
• x = A A G T A G T A T C
• π = E E E I I I I I E E
εξώνιο εσώνιο
P(A|E)
P(C|E)
P(G|E)
P(T|E)
P(A|I)
P(C|I)
P(G|I)
P(T|I)
P(IE)
P(EI)
P(II) P(EE)
![Page 11: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/11.jpg)
Hidden Markov Models (HMMs)
• Profile HMMs
δημιουργία μοντέλου βάσει μιας πολλαπλής στοίχισης
![Page 12: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/12.jpg)
Σελίδα 12 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Hidden Markov Models (HMMs)
• Καταστάσεις:
Match (γέννηση καταλοίπου βάσει της αντίστοιχης κατανομής)
Insert (γέννηση καταλοίπου βάσει της κατανομής υποβάθρου)
Delete
• Overfitting
Στρεβλώσεις όταν οι συχνότητες υπολογίζονται από ένα
μικρό αριθμό ακολουθιών
• Pseudocounts
εξομαλύνουν την παρατηρούμενη συχνότητα
χαρακτήρων π.χ. Dirichlet mixture
![Page 13: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/13.jpg)
Hidden Markov Models (HMMs)
• Profile HMMs
στοίχιση ακολουθίας με το μοντέλο (viterbi algorithm)
![Page 14: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/14.jpg)
Σελίδα 14 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Hidden Markov Models (HMMs)
• Προγράμματα για τη δημιουργία και χρήση HMMs
HMMER http://hmmer.org/
SAM http://compbio.soe.ucsc.edu/sam.html
• Θεωρητικό υπόβαθρο
• Καλύτερη αντιμετώπιση των κενών
• Κατάλληλα για τη μοντελοποίηση domains
• Πιο ευαίσθητα για μακρινές ομολογίες
![Page 15: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/15.jpg)
Σελίδα 15 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Hidden Markov Models (HMMs)
• Pfam http://pfam.xfam.org/
Pfam-A
στοιχίσεις / HMMs από εξειδικευμένους ερευνητές
Pfam-B
εγγραφές που προέκυψαν αυτοματοποιημένα
Clan
ομαδοποίηση των εγγραφών της Pfam-A βάσει
ομοιοτήτων σε επίπεδο ακολουθίας, δομής, profile-HMM
Εκτενής σχολιασμός
![Page 16: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/16.jpg)
Σελίδα 16 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Hidden Markov Models (HMMs)
• SMART http://smart.embl-heidelberg.de/
normal vs genomic
• TIGRFAMs http://www.jcvi.org/cgi-bin/tigrfams/index.cgi
J. Craig Venter Institute
• SUPERFAMILY http://supfam.cs.bris.ac.uk/SUPERFAMILY/
collection of hidden Markov models, which represent
structural protein domains at the SCOP superfamily level
![Page 17: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/17.jpg)
Σελίδα 17 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
InterPro
• http://www.ebi.ac.uk/interpro/about.html
• ολοκλήρωση ΒΔ οικογενειών και domains
![Page 18: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/18.jpg)
Σελίδα 18 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
InterPro
• CATH/Gene3D at University College, London, UK
• PANTHER at University of Southern California, CA, USA
• PIRSF at the Protein Information Resource, Georgetown University
Medical Centre, Washington DC, USA
• Pfam at the Wellcome Trust Sanger Institute, Hinxton, UK
• PRINTS at the University of Manchester, UK
• ProDom at PRABI Villeurbanne, France
• PROSITE and HAMAP at the Swiss Institute of Bioinformatics (SIB),
Geneva, Switzerland
• SMART at EMBL, Heidelberg, Germany
• SUPERFAMILY at the University of Bristol, UK
• TIGRFAMs at the J. Craig Venter Institute, Rockville, MD, US
![Page 19: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/19.jpg)
Σελίδα 19 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Επιλογή Ακολουθιών προς Στοίχιση
• Η χρήση πανομοιότυπων ακολουθιών στην πολλαπλή
στοίχιση δεν προσφέρει πληροφορίες για τη σχέση
απομακρυσμένων ομόλογων αλληλουχιών.
![Page 20: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/20.jpg)
Σελίδα 20 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Επιλογή Ακολουθιών προς Στοίχιση
![Page 21: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/21.jpg)
Σελίδα 21 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Επιλογή Ακολουθιών προς Στοίχιση
• ακολουθίες με διαφορετικό αριθμό επαναλήψεων
αναγνώριση των επαναλήψεων (π.χ. dotplot)
διαχωρισμός της στοίχισής τους
![Page 22: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/22.jpg)
Σελίδα 22 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
BAliBASE
• http://www.lbgi.fr/balibase/
• multiple alignment benchmark
υψηλής ποιότητας στοιχίσεις βασισμένες στην υπέρθεση
τρισδιάστατων δομών, που έχουν ελεγχθεί από
εξειδικευμένους επιστήμονες
![Page 23: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/23.jpg)
Σελίδα 23 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Επιλογή μεθόδου στοίχισης
![Page 24: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/24.jpg)
Σελίδα 24 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μορφοποίηση Πολλαπλής Στοίχισης
• Sequence Format Conversion http://www.ebi.ac.uk/Tools/sfc/
Μετατροπή από το ένα format στο άλλο
• FASTA (.fa ή .fasta ή .fst)
>IXI_234
TSPASIRPPAGPSSRPAMVSSRRTRPSPPGPRRPTGRPCCSAAPRRPQATGGWKTCSGTC
TTSTSTRHRGRSGWSARTTTAACLRASRKSMRAACSRSAGSRPNRFAPTLMSSCITSTTG
PPAWAGDRSHE
>IXI_235
TSPASIRPPAGPSSR---------RPSPPGPRRPTGRPCCSAAPRRPQATGGWKTCSGTC
TTSTSTRHRGRSGW----------RASRKSMRAACSRSAGSRPNRFAPTLMSSCITSTTG
PPAWAGDRSHE
>IXI_236
TSPASIRPPAGPSSRPAMVSSR--RPSPPPPRRPPGRPCCSAAPPRPQATGGWKTCSGTC
TTSTSTRHRGRSGWSARTTTAACLRASRKSMRAACSR--GSRPPRFAPPLMSSCITSTTG
PPPPAGDRSHE
>IXI_237
TSPASLRPPAGPSSRPAMVSSRR-RPSPPGPRRPT----CSAAPRRPQATGGYKTCSGTC
TTSTSTRHRGRSGYSARTTTAACLRASRKSMRAACSR--GSRPNRFAPTLMSSCLTSTTG
PPAYAGDRSHE
![Page 25: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/25.jpg)
Σελίδα 25 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μορφοποίηση Πολλαπλής Στοίχισης
• Phylip (.phy ή .phylip)
• Clustal (.aln) IXI_234 TSPASIRPPAGPSSRPAMVSSRRTRPSPPGPRRPTGRPCCSAAPRRPQATGGWKTCSGTC
IXI_235 TSPASIRPPAGPSSR---------RPSPPGPRRPTGRPCCSAAPRRPQATGGWKTCSGTC
IXI_236 TSPASIRPPAGPSSRPAMVSSR--RPSPPPPRRPPGRPCCSAAPPRPQATGGWKTCSGTC
IXI_237 TSPASLRPPAGPSSRPAMVSSRR-RPSPPGPRR----PTCSAAPRRPQATGGYKTCSGTC
*****:********* ***** *** * ***** *******:*******
IXI_234 TTSTSTRHRGRSGWSARTTTAACLRASRKSMRAACSRSAGSRPNRFAPTLMSSCITSTTG
IXI_235 TTSTSTRHRGRSGWRA----------SRKSMRAACSRSAGSRPNRFAPTLMSSCITSTTG
IXI_236 TTSTSTRHRGRSGWSARTTTAACLRASRKSMRAACSR--GSRPPRFAPPLMSSCITSTTG
IXI_237 TTSTSTRHRGRSGYSARTTTAACLRASRKSMRAACSR--GSRPNRFAPTLMSSCLTSTTG
*************: * *********** **** **** *****:*****
IXI_234 PPAWAGDRSHE
IXI_235 PPAWAGDRSHE
IXI_236 PPPPAGDRSHE
IXI_237 PPAYAGDRSHE
** *******
4 131
IXI_234 TSPASIRPPA GPSSRPAMVS SRRTRPSPPG PRRPTGRPCC SAAPRRPQAT
IXI_235 TSPASIRPPA GPSSR----- ----RPSPPG PRRPTGRPCC SAAPRRPQAT
IXI_236 TSPASIRPPA GPSSRPAMVS SR--RPSPPP PRRPPGRPCC SAAPPRPQAT
IXI_237 TSPASLRPPA GPSSRPAMVS SRR-RPSPPG PRRPT----C SAAPRRPQAT
GGWKTCSGTC TTSTSTRHRG RSGWSARTTT AACLRASRKS MRAACSRSAG
GGWKTCSGTC TTSTSTRHRG RSGW------ ----RASRKS MRAACSRSAG
GGWKTCSGTC TTSTSTRHRG RSGWSARTTT AACLRASRKS MRAACSR--G
GGYKTCSGTC TTSTSTRHRG RSGYSARTTT AACLRASRKS MRAACSR--G
SRPNRFAPTL MSSCITSTTG PPAWAGDRSH E
SRPNRFAPTL MSSCITSTTG PPAWAGDRSH E
SRPPRFAPPL MSSCITSTTG PPPPAGDRSH E
SRPNRFAPTL MSSCLTSTTG PPAYAGDRSH E
![Page 26: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/26.jpg)
Σελίδα 26 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Multiple alignment editors
• Έλεγχος και πιθανή τροποποίηση πολλαπλών στοιχίσεων
Jalview http://www.jalview.org/
SeaView http://doua.prabi.fr/software/seaview
• Δημιουργία sequence logos
WebLogo http://weblogo.berkeley.edu/
![Page 27: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/27.jpg)
Σελίδα 27 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Προγράμματα Πολλαπλής Στοίχισης
• Clustal Omega
http://www.ebi.ac.uk/Tools/msa/clustalo/
• T-Coffee
http://tcf_dev.vital-it.ch/apps/tcoffee/index.html
• MAFFT
http://mafft.cbrc.jp/alignment/server/
• MUSCLE
http://www.ebi.ac.uk/Tools/msa/muscle/
![Page 28: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/28.jpg)
Σελίδα 28 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Φυλογενετική Ανάλυση
• μελέτη της εξελικτικής ιστορίας γονιδίων/πρωτεϊνών ή
οργανισμών και απεικόνισή της με φυλογενετικά δέντρα
• έλεγχος εξελικτικών υποθέσεων
• επιδημιολογικές μελέτες
• μελέτες βιοποικιλότητας
• φαρμακευτική έρευνα
![Page 29: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/29.jpg)
Σελίδα 29 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Φυλογενετική Ανάλυση
![Page 30: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/30.jpg)
Σελίδα 30 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Δεδομένα για ανάλυση
• Αριθμητικά Δεδομένα
Αποστάσεις
Συνήθως από δεδομένα ακολουθιών
• Χαρακτήρες
γενετικοί
μορφολογικοί / δομικοί
συμπεριφορά
![Page 31: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/31.jpg)
Σελίδα 31 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Φυλογενετικά δέντρα
Προγονικός Κόμβος ή
ΡΙΖΑ Εσωτερικοί Κόμβοι ή
Σημεία Απόκλισης (υποθετικοί πρόγονοι)
Κλαδιά
Τερματικοί Κόμβοι (Φύλλα)
A
B
C
D
E
Αναπαριστούν TAXA (ταξινομικές μονάδες όπως είδη, γονίδια, πληθυσμούς, κλπ)
Η διαδρομή από τη ρίζα προς τα φύλλα περιγράφει το εξελικτικό μονοπάτι.
![Page 32: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/32.jpg)
Σελίδα 32 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Φυλογενετικά δέντρα
• Με ρίζα
Nr=(2n-3)!/[2n-2(n-2)!]
n=10 => Nr =34’459’425
• Χωρίς ρίζα
Nu=(2n-5)!/[2n-3(n-3)!]
n=10 => Nu=2’027’025
Δεν περιγράφουν εξελικτικό
μονοπάτι
![Page 33: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/33.jpg)
Σελίδα 33 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Φυλογενετικά δέντρα
Δέντρο χωρίς ρίζα
A
C
D
B
Δέντρα με ρίζα
A B C D
Root
B
Root
C D
A
B
![Page 34: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/34.jpg)
Φυλογενετικά δέντρα
• Ένα δέντρο χωρίς ρίζα 4 ειδών μπορεί να μετατραπεί σε 5 διαφορετικά
δέντρα με ρίζα, που αντιστοιχούν σε 5 διαφορετικά εξελικτικά μονοπάτια.
Το δέντρο χωρίς ρίζα:
A C
B D
d
C
D
A
B
4
c
A
B
C
D
3
e
D
C
A
B
5
b
A
B
C
D
2
a
B
A
C
D
1
![Page 35: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/35.jpg)
Σελίδα 35 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Φυλογενετικά δέντρα
• Πως επιλέγεται η ρίζα;
Στο μέσο των δύο πιο απομακρυσμένων κλαδιών
Επιλογή out group
εξωομάδα out group
![Page 36: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/36.jpg)
Σελίδα 36 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Φυλογενετικά δέντρα
• Δεν αλλάζουν οι συσχετίσεις με την περιστροφή ενός κόμβου.
![Page 37: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/37.jpg)
Σελίδα 37 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Φυλογενετικά δέντρα
• Το μήκος των κλαδιών
Δεν έχει νόημα (κλαδόγραμμα)
είναι ανάλογο της γενετικής απόκλισης (φυλόγραμμα)
είναι ανάλογο του χρόνου (ultrametric tree)
![Page 38: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/38.jpg)
Σελίδα 38 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Φυλογενετικά δέντρα
• Newick format
![Page 39: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/39.jpg)
Σελίδα 39 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Φυλογενετική ανάλυση γονιδίων
• Εξελικτική ιστορία γονιδίων
Διαφορετικός ρυθμός αλλαγής
πολύ αργός (ιστόνες)
πολύ γρήγορος (ανοσοσφαιρίνες)
Διαφορετική εξέλιξη
Οριζόντια μεταφορά
• Η εξελικτική ιστορία των γονιδίων δεν ταυτίζεται κατ’ ανάγκη
με την εξελικτική ιστορία των οργανισμών.
![Page 40: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/40.jpg)
Σελίδα 40 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Φυλογενετική ανάλυση οργανισμών
• Δεδομένα
φαινοτυπικοί χαρακτήρες
ένα γονίδιο μοριακό δείκτη (π.χ. ss-rRNA)
μια σειρά γονιδίων
πλειοψηφία των γονιδίων κάθε οργανισμού
• Εξελικτικά "κοντινοί" οργανισμοί
ακολουθίες DNA που εξελίσσονται γρήγορα
• Βαθειά αποκλίνοντες οργανισμοί
Πολύ καλά συντηρημένες πρωτεΐνες
![Page 41: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/41.jpg)
Σελίδα 41 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μεθοδολογίες (Ανα-)Κατασκευής
![Page 42: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/42.jpg)
Σελίδα 42 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μεθοδολογίες (Ανα-)Κατασκευής
• Βάσει αποστάσεων
UPGMA (Unweighted pair group method with Arithmetic
Mean)
Neighbor joining
Fitch-Margoliash
Minimal Evolution
• Βάσει χαρακτήρων
Μέγιστη φειδωλότητα (Maximum Parsimony)
Μέγιστη πιθανοφάνεια (Maximum Likelihood)
![Page 43: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/43.jpg)
Μεθοδολογία Αποστάσεων
• Δημιουργία πίνακα αποστάσεων πίνακας M όπου Mij είναι η
απόσταση μεταξύ των ακολουθιών i και j και Mij>=0
• Δημιουργία ενός δένδρου όπου κάθε φύλλο του αντιστοιχεί
σε ένα αντικείμενο του M, έτσι ώστε η απόσταση μεταξύ των
φύλλων i και j να είναι Mij
0 3 7 13 15 E
0 6 12 14 D
0 12 14 C
0 12 B
0 A
E D C B A A
B C
E
D
7
5
4
3
2
2
1
![Page 44: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/44.jpg)
Σελίδα 44 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μεθοδολογία Αποστάσεων
• Ομαδοποίηση
αρχίζοντας από τις κοντινότερες ακολουθίες,
σταδιακά ενσωματώνονται και οι πιο
απομακρυσμένες
UPGMA, Neighbor joining
• Βελτιστοποίηση
σύγκριση των πιθανών τοπολογιών και επιλογή
αυτής όπου οι αποστάσεις πάνω στο δένδρο
ταιριάζουν καλύτερα με τα δεδομένα του
πίνακα αποστάσεων
Fitch-Margoliash, Minimal Evolution
![Page 45: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/45.jpg)
Σελίδα 45 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μεθοδολογία Αποστάσεων
• Η παρατηρούμενη απόσταση διαφέρει από την εξελικτική
απόσταση
Πολλαπλές αντικαταστάσεις
Κορεσμός όταν η εξελικτική απόσταση είναι πολύ μεγάλη
• Απαραίτητη η χρήση μοντέλων αντικατάστασης για τη
διόρθωση της παρατηρούμενης απόστασης
![Page 46: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/46.jpg)
Σελίδα 46 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μεθοδολογία Αποστάσεων
• Δεν είναι δυνατή η ανακατασκευή μιας προγονικής
ακολουθίας
• μέθοδοι βελτιστοποίησης
καλύτερα αποτελέσματα
• μέθοδοι ομαδοποίησης
πιο γρήγορες
προτιμότερες όταν τα δεδομένα είναι πολλά
![Page 47: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/47.jpg)
Σελίδα 47 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μέγιστη φειδωλότητα (Maximum Parsimony)
• Principle of Occam’s Razor
When you have two competing theories that make
exactly the same predictions, the simpler one is the
better.
• Επιλογή του δένδρου που ελαχιστοποιεί το πλήθος των
εξελικτικών βημάτων που απαιτούνται για την επεξήγηση των
δεδομένων.
![Page 48: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/48.jpg)
Σελίδα 48 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μέγιστη φειδωλότητα (Maximum Parsimony)
• Μέθοδος
Πολλαπλή στοίχιση των ακολουθιών.
Για κάθε θέση/στήλη i και για κάθε δέντρο Τ μετράμε το
πλήθος των εξελικτικών βημάτων που απαιτούνται για να
εξηγήσει το Τ τα δεδομένα της i.
"Βέλτιστο" φυλογενετικό δέντρο το Τ με τις λιγότερες
αλλαγές για όλες τις θέσεις.
![Page 49: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/49.jpg)
Σελίδα 49 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μέγιστη φειδωλότητα (Maximum Parsimony)
• non informative sites
θέσεις της πολλαπλής στοίχισης που δεν δίνουν
πληροφορίες για την επιλογή του δέντρου
• informative sites
θέσεις της πολλαπλής στοίχισης που περιέχουν
τουλάχιστον δύο διαφορετικούς χαρακτήρες σε
τουλάχιστον δύο ακολουθίες ο καθένας
![Page 50: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/50.jpg)
Μέγιστη φειδωλότητα (Maximum Parsimony)
![Page 51: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/51.jpg)
Μέγιστη φειδωλότητα (Maximum Parsimony)
![Page 52: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/52.jpg)
Σελίδα 52 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μέγιστη φειδωλότητα (Maximum Parsimony)
![Page 53: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/53.jpg)
Σελίδα 53 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μέγιστη φειδωλότητα (Maximum Parsimony)
• Επιτρέπει την ανακατασκευή προγονικών ακολουθιών.
• Δημιουργία δέντρου συναίνεσης, όταν υπάρχουν περισσότερα
από ένα βέλτιστα δέντρα.
• Δεν λαμβάνει υπόψη τις πολλαπλές αντικαταστάσεις.
Είναι προτιμότερη η χρήση της για κοντινές εξελικτικά
ακολουθίες.
• Υψηλό υπολογιστικό κόστος
Παράγει όλα τα δέντρα μέχρι να καταλήξει στο βέλτιστο.
Δημιουργία αλγορίθμων που αναγνωρίζουν το καλύτερο
δέντρο χωρίς να βαθμολογούν όλα τα εναλλακτικά.
![Page 54: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/54.jpg)
Σελίδα 54 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μέγιστη πιθανοφάνεια (Maximum Likelihood)
• Με βάση κάποιο εξελικτικό μοντέλο αναζητά το δένδρο που
έχει τη μεγαλύτερη πιθανότητα να περιγράφει τα δεδομένα.
• Υψηλό υπολογιστικό κόστος
Παράγει όλα τα δυνατά δέντρα μέχρι να καταλήξει στο
βέλτιστο.
![Page 55: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/55.jpg)
Σελίδα 55 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μέγιστη πιθανοφάνεια (Maximum Likelihood)
I A C G C G T T G G G
II A C G C G T T G G G
III A C G C A A T G A A
IV A C A C A G G G A A
T T A G
{A,C,G,T}
{A,C,G,T} {A,C,G,T}
444=64 δυνατοί συνδυασμοί
T T A G
Τ
Τ G
T T A G
A
Τ A
P(T->T)3P(T->G)P(G->A)P(G->G) P(A->A)2P(A->T)P(T->T)2P(A->G)
"εξελικτικά" δέντρα
![Page 56: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/56.jpg)
Σελίδα 56 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Αξιολόγηση φυλογενετικών δέντρων
![Page 57: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/57.jpg)
Σελίδα 57 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Αξιολόγηση φυλογενετικών δέντρων
• Επανάληψη
Δειγματοληψία στηλών της πολλαπλής στοίχισης
Bootstrap (με επανάθεση)
Jackknife (χωρίς επανάθεση)
Ανακατασκευή φυλογενετικού δέντρου
• Προσδιορισμός του ποσοστού εμφάνισης ενός συγκεκριμένου
κόμβου στα νέα φυλογενετικά δέντρα
![Page 58: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/58.jpg)
long branch attraction
• Ομοπλασία
Ομοιότητα που οφείλεται σε διαφορετικά
εξελικτικά γεγονότα
• long branch attraction
Μακριά κλαδιά περισσότερες γενετικές αλλαγές
μεγαλύτερη πιθανότητα κάποιες θέσεις να έχουν
ταυτόσημους χαρακτήρες
![Page 59: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα](https://reader030.fdocument.org/reader030/viewer/2022040208/5e303c7c73cb625a920a95ea/html5/thumbnails/59.jpg)
Σελίδα 59 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Προγράμματα φυλογενετικής ανάλυσης
• Phylogeny.fr
http://www.phylogeny.fr/
• PHYLIP
http://evolution.genetics.washington.edu/phylip.html
• AWTY
http://king2.sc.fsu.edu/CEBProjects/awty/awty_start.php