ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου...

59
Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ ΦΥΛΟΓΕΝΕΤΙΚΗ ΑΝΑΛΥΣΗ

Transcript of ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου...

Page 1: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ

ΑΚΟΛΟΥΘΙΩΝ IΙ

ΦΥΛΟΓΕΝΕΤΙΚΗ ΑΝΑΛΥΣΗ

Page 2: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 2 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μοντέλα Πολλαπλής Στοίχισης

• Consensus sequences

• Patterns and regular expressions

• Position Specifc Scoring Matrices (PSSMs)

• Generalized Profiles

• Hidden Markov Models (HMMs)

• Στοίχιση νέων ακολουθιών

• Αναζήτηση σε βάσεις δεδομένων

• Σχολιασμός νέων ακολουθιών

Page 3: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 3 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Από την Ακολουθία στη Λειτουργία

Page 4: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 4 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Hidden Markov Models (HMMs)

• Markov Chain Model

Σύνολο καταστάσεων

Πιθανότητα μετάβασης από τη μία κατάσταση στην άλλη

π.χ. μία ακολουθία DNA όπου η πιθανότητα

εμφάνισης ενός νουκλεοτιδίου εξαρτάται μόνο από το

προηγούμενο νουκλεοτίδιο

P(x) =

P(x1)P(x2|x1) … P(xN|xN-1)

P(CGGT) =

P(C) P(G|C) P(G|G) P(T|G)

Page 5: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 5 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Hidden Markov Models (HMMs)

• Markov Chain Model

transition matrix (πίνακας μεταβάσεων)

Weather today

Sunny Rainy

Weather

yesterday

Sunny 0.8 0.2

Rainy 0.4 0.6

Page 6: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 6 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Hidden Markov Models (HMMs)

Page 7: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 7 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Hidden Markov Models (HMMs)

M = (Σ, Q, θ)

• Σ: Αλφάβητο συμβόλων = { b1, b2, …, bM }

• Q: Σύνολο δυνατών καταστάσεων Q = { 1, ..., K }

• θ: Σύνολο πιθανοτήτων

Πιθανότητες Μετάβασης (Transition)

από κατάσταση σε κατάσταση

aij: i j

ai1 + … + aiK = 1, i = 1…K

Πιθανότητες Γεννήσεως (Emission)

συμβόλων σε κάθε κατάσταση

ei(b) = P( xi = b | i = k)

ei(b1) + … + ei(bM) = 1, i = 1…K

Page 8: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 8 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Hidden Markov Models (HMMs)

• Όταν το HMM βρίσκεται σε μία δεδομένη κατάσταση, πρέπει

να πάρει δύο αποφάσεις:

Σε ποια κατάσταση θα μεταβεί;

Κάθε χρονική στιγμή t, η επόμενη κατάσταση εξαρτάται

μόνο από την τρέχουσα κατάσταση

Ποιο σύμβολο του αλφάβητου θα "γεννήσει";

• Ένα σύμβολο μπορεί να "γεννηθεί" από διαφορετικές

καταστάσεις.

Όταν παρατηρείται ένα σύμβολο, δεν είναι γνωστή η

κατάσταση στην οποία βρίσκεται το HMM.

• Γνωστή σειρά συμβόλων / Άγνωστη σειρά καταστάσεων

Page 9: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 9 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Hidden Markov Models (HMMs)

1. Εκτίμηση (Evaluation)

• Δεδομένου ενός μοντέλου Μ και μιας ακολουθίας x, ποια είναι η

πιθανότητα της ακολουθίας (forward algorithm)

2. Αποκωδικοποίηση (Decoding)

• Δεδομένου ενός μοντέλου Μ και μιας ακολουθίας x, ποια είναι η

πιθανότερη ακολουθία καταστάσεων για τη μοντελοποίηση της

ακολουθίας (viterbi algorithm)

3. Εκπαίδευση (Learning)

• Πως μπορούν να προσδιορισθούν οι παράμετροι ενός μοντέλου Μ

(πιθανότητες μετάβασης / γεννήσεως) από μία ομάδα ακολουθιών

(forward-backward algorithm, Baum-Welch expectation

maximization)

Page 10: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 10 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Hidden Markov Models (HMMs)

• x = A A G T A G T A T C

• π = E E E I I I I I E E

εξώνιο εσώνιο

P(A|E)

P(C|E)

P(G|E)

P(T|E)

P(A|I)

P(C|I)

P(G|I)

P(T|I)

P(IE)

P(EI)

P(II) P(EE)

Page 11: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Hidden Markov Models (HMMs)

• Profile HMMs

δημιουργία μοντέλου βάσει μιας πολλαπλής στοίχισης

Page 12: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 12 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Hidden Markov Models (HMMs)

• Καταστάσεις:

Match (γέννηση καταλοίπου βάσει της αντίστοιχης κατανομής)

Insert (γέννηση καταλοίπου βάσει της κατανομής υποβάθρου)

Delete

• Overfitting

Στρεβλώσεις όταν οι συχνότητες υπολογίζονται από ένα

μικρό αριθμό ακολουθιών

• Pseudocounts

εξομαλύνουν την παρατηρούμενη συχνότητα

χαρακτήρων π.χ. Dirichlet mixture

Page 13: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Hidden Markov Models (HMMs)

• Profile HMMs

στοίχιση ακολουθίας με το μοντέλο (viterbi algorithm)

Page 14: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 14 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Hidden Markov Models (HMMs)

• Προγράμματα για τη δημιουργία και χρήση HMMs

HMMER http://hmmer.org/

SAM http://compbio.soe.ucsc.edu/sam.html

• Θεωρητικό υπόβαθρο

• Καλύτερη αντιμετώπιση των κενών

• Κατάλληλα για τη μοντελοποίηση domains

• Πιο ευαίσθητα για μακρινές ομολογίες

Page 15: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 15 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Hidden Markov Models (HMMs)

• Pfam http://pfam.xfam.org/

Pfam-A

στοιχίσεις / HMMs από εξειδικευμένους ερευνητές

Pfam-B

εγγραφές που προέκυψαν αυτοματοποιημένα

Clan

ομαδοποίηση των εγγραφών της Pfam-A βάσει

ομοιοτήτων σε επίπεδο ακολουθίας, δομής, profile-HMM

Εκτενής σχολιασμός

Page 16: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 16 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Hidden Markov Models (HMMs)

• SMART http://smart.embl-heidelberg.de/

normal vs genomic

• TIGRFAMs http://www.jcvi.org/cgi-bin/tigrfams/index.cgi

J. Craig Venter Institute

• SUPERFAMILY http://supfam.cs.bris.ac.uk/SUPERFAMILY/

collection of hidden Markov models, which represent

structural protein domains at the SCOP superfamily level

Page 17: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 17 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

InterPro

• http://www.ebi.ac.uk/interpro/about.html

• ολοκλήρωση ΒΔ οικογενειών και domains

Page 18: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 18 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

InterPro

• CATH/Gene3D at University College, London, UK

• PANTHER at University of Southern California, CA, USA

• PIRSF at the Protein Information Resource, Georgetown University

Medical Centre, Washington DC, USA

• Pfam at the Wellcome Trust Sanger Institute, Hinxton, UK

• PRINTS at the University of Manchester, UK

• ProDom at PRABI Villeurbanne, France

• PROSITE and HAMAP at the Swiss Institute of Bioinformatics (SIB),

Geneva, Switzerland

• SMART at EMBL, Heidelberg, Germany

• SUPERFAMILY at the University of Bristol, UK

• TIGRFAMs at the J. Craig Venter Institute, Rockville, MD, US

Page 19: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 19 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Επιλογή Ακολουθιών προς Στοίχιση

• Η χρήση πανομοιότυπων ακολουθιών στην πολλαπλή

στοίχιση δεν προσφέρει πληροφορίες για τη σχέση

απομακρυσμένων ομόλογων αλληλουχιών.

Page 20: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 20 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Επιλογή Ακολουθιών προς Στοίχιση

Page 21: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 21 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Επιλογή Ακολουθιών προς Στοίχιση

• ακολουθίες με διαφορετικό αριθμό επαναλήψεων

αναγνώριση των επαναλήψεων (π.χ. dotplot)

διαχωρισμός της στοίχισής τους

Page 22: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 22 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

BAliBASE

• http://www.lbgi.fr/balibase/

• multiple alignment benchmark

υψηλής ποιότητας στοιχίσεις βασισμένες στην υπέρθεση

τρισδιάστατων δομών, που έχουν ελεγχθεί από

εξειδικευμένους επιστήμονες

Page 23: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 23 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Επιλογή μεθόδου στοίχισης

Page 24: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 24 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μορφοποίηση Πολλαπλής Στοίχισης

• Sequence Format Conversion http://www.ebi.ac.uk/Tools/sfc/

Μετατροπή από το ένα format στο άλλο

• FASTA (.fa ή .fasta ή .fst)

>IXI_234

TSPASIRPPAGPSSRPAMVSSRRTRPSPPGPRRPTGRPCCSAAPRRPQATGGWKTCSGTC

TTSTSTRHRGRSGWSARTTTAACLRASRKSMRAACSRSAGSRPNRFAPTLMSSCITSTTG

PPAWAGDRSHE

>IXI_235

TSPASIRPPAGPSSR---------RPSPPGPRRPTGRPCCSAAPRRPQATGGWKTCSGTC

TTSTSTRHRGRSGW----------RASRKSMRAACSRSAGSRPNRFAPTLMSSCITSTTG

PPAWAGDRSHE

>IXI_236

TSPASIRPPAGPSSRPAMVSSR--RPSPPPPRRPPGRPCCSAAPPRPQATGGWKTCSGTC

TTSTSTRHRGRSGWSARTTTAACLRASRKSMRAACSR--GSRPPRFAPPLMSSCITSTTG

PPPPAGDRSHE

>IXI_237

TSPASLRPPAGPSSRPAMVSSRR-RPSPPGPRRPT----CSAAPRRPQATGGYKTCSGTC

TTSTSTRHRGRSGYSARTTTAACLRASRKSMRAACSR--GSRPNRFAPTLMSSCLTSTTG

PPAYAGDRSHE

Page 25: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 25 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μορφοποίηση Πολλαπλής Στοίχισης

• Phylip (.phy ή .phylip)

• Clustal (.aln) IXI_234 TSPASIRPPAGPSSRPAMVSSRRTRPSPPGPRRPTGRPCCSAAPRRPQATGGWKTCSGTC

IXI_235 TSPASIRPPAGPSSR---------RPSPPGPRRPTGRPCCSAAPRRPQATGGWKTCSGTC

IXI_236 TSPASIRPPAGPSSRPAMVSSR--RPSPPPPRRPPGRPCCSAAPPRPQATGGWKTCSGTC

IXI_237 TSPASLRPPAGPSSRPAMVSSRR-RPSPPGPRR----PTCSAAPRRPQATGGYKTCSGTC

*****:********* ***** *** * ***** *******:*******

IXI_234 TTSTSTRHRGRSGWSARTTTAACLRASRKSMRAACSRSAGSRPNRFAPTLMSSCITSTTG

IXI_235 TTSTSTRHRGRSGWRA----------SRKSMRAACSRSAGSRPNRFAPTLMSSCITSTTG

IXI_236 TTSTSTRHRGRSGWSARTTTAACLRASRKSMRAACSR--GSRPPRFAPPLMSSCITSTTG

IXI_237 TTSTSTRHRGRSGYSARTTTAACLRASRKSMRAACSR--GSRPNRFAPTLMSSCLTSTTG

*************: * *********** **** **** *****:*****

IXI_234 PPAWAGDRSHE

IXI_235 PPAWAGDRSHE

IXI_236 PPPPAGDRSHE

IXI_237 PPAYAGDRSHE

** *******

4 131

IXI_234 TSPASIRPPA GPSSRPAMVS SRRTRPSPPG PRRPTGRPCC SAAPRRPQAT

IXI_235 TSPASIRPPA GPSSR----- ----RPSPPG PRRPTGRPCC SAAPRRPQAT

IXI_236 TSPASIRPPA GPSSRPAMVS SR--RPSPPP PRRPPGRPCC SAAPPRPQAT

IXI_237 TSPASLRPPA GPSSRPAMVS SRR-RPSPPG PRRPT----C SAAPRRPQAT

GGWKTCSGTC TTSTSTRHRG RSGWSARTTT AACLRASRKS MRAACSRSAG

GGWKTCSGTC TTSTSTRHRG RSGW------ ----RASRKS MRAACSRSAG

GGWKTCSGTC TTSTSTRHRG RSGWSARTTT AACLRASRKS MRAACSR--G

GGYKTCSGTC TTSTSTRHRG RSGYSARTTT AACLRASRKS MRAACSR--G

SRPNRFAPTL MSSCITSTTG PPAWAGDRSH E

SRPNRFAPTL MSSCITSTTG PPAWAGDRSH E

SRPPRFAPPL MSSCITSTTG PPPPAGDRSH E

SRPNRFAPTL MSSCLTSTTG PPAYAGDRSH E

Page 26: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 26 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Multiple alignment editors

• Έλεγχος και πιθανή τροποποίηση πολλαπλών στοιχίσεων

Jalview http://www.jalview.org/

SeaView http://doua.prabi.fr/software/seaview

• Δημιουργία sequence logos

WebLogo http://weblogo.berkeley.edu/

Page 27: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 27 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Προγράμματα Πολλαπλής Στοίχισης

• Clustal Omega

http://www.ebi.ac.uk/Tools/msa/clustalo/

• T-Coffee

http://tcf_dev.vital-it.ch/apps/tcoffee/index.html

• MAFFT

http://mafft.cbrc.jp/alignment/server/

• MUSCLE

http://www.ebi.ac.uk/Tools/msa/muscle/

Page 28: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 28 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Φυλογενετική Ανάλυση

• μελέτη της εξελικτικής ιστορίας γονιδίων/πρωτεϊνών ή

οργανισμών και απεικόνισή της με φυλογενετικά δέντρα

• έλεγχος εξελικτικών υποθέσεων

• επιδημιολογικές μελέτες

• μελέτες βιοποικιλότητας

• φαρμακευτική έρευνα

Page 29: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 29 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Φυλογενετική Ανάλυση

Page 30: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 30 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Δεδομένα για ανάλυση

• Αριθμητικά Δεδομένα

Αποστάσεις

Συνήθως από δεδομένα ακολουθιών

• Χαρακτήρες

γενετικοί

μορφολογικοί / δομικοί

συμπεριφορά

Page 31: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 31 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Φυλογενετικά δέντρα

Προγονικός Κόμβος ή

ΡΙΖΑ Εσωτερικοί Κόμβοι ή

Σημεία Απόκλισης (υποθετικοί πρόγονοι)

Κλαδιά

Τερματικοί Κόμβοι (Φύλλα)

A

B

C

D

E

Αναπαριστούν TAXA (ταξινομικές μονάδες όπως είδη, γονίδια, πληθυσμούς, κλπ)

Η διαδρομή από τη ρίζα προς τα φύλλα περιγράφει το εξελικτικό μονοπάτι.

Page 32: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 32 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Φυλογενετικά δέντρα

• Με ρίζα

Nr=(2n-3)!/[2n-2(n-2)!]

n=10 => Nr =34’459’425

• Χωρίς ρίζα

Nu=(2n-5)!/[2n-3(n-3)!]

n=10 => Nu=2’027’025

Δεν περιγράφουν εξελικτικό

μονοπάτι

Page 33: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 33 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Φυλογενετικά δέντρα

Δέντρο χωρίς ρίζα

A

C

D

B

Δέντρα με ρίζα

A B C D

Root

B

Root

C D

A

B

Page 34: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Φυλογενετικά δέντρα

• Ένα δέντρο χωρίς ρίζα 4 ειδών μπορεί να μετατραπεί σε 5 διαφορετικά

δέντρα με ρίζα, που αντιστοιχούν σε 5 διαφορετικά εξελικτικά μονοπάτια.

Το δέντρο χωρίς ρίζα:

A C

B D

d

C

D

A

B

4

c

A

B

C

D

3

e

D

C

A

B

5

b

A

B

C

D

2

a

B

A

C

D

1

Page 35: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 35 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Φυλογενετικά δέντρα

• Πως επιλέγεται η ρίζα;

Στο μέσο των δύο πιο απομακρυσμένων κλαδιών

Επιλογή out group

εξωομάδα out group

Page 36: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 36 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Φυλογενετικά δέντρα

• Δεν αλλάζουν οι συσχετίσεις με την περιστροφή ενός κόμβου.

Page 37: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 37 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Φυλογενετικά δέντρα

• Το μήκος των κλαδιών

Δεν έχει νόημα (κλαδόγραμμα)

είναι ανάλογο της γενετικής απόκλισης (φυλόγραμμα)

είναι ανάλογο του χρόνου (ultrametric tree)

Page 38: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 38 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Φυλογενετικά δέντρα

• Newick format

Page 39: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 39 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Φυλογενετική ανάλυση γονιδίων

• Εξελικτική ιστορία γονιδίων

Διαφορετικός ρυθμός αλλαγής

πολύ αργός (ιστόνες)

πολύ γρήγορος (ανοσοσφαιρίνες)

Διαφορετική εξέλιξη

Οριζόντια μεταφορά

• Η εξελικτική ιστορία των γονιδίων δεν ταυτίζεται κατ’ ανάγκη

με την εξελικτική ιστορία των οργανισμών.

Page 40: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 40 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Φυλογενετική ανάλυση οργανισμών

• Δεδομένα

φαινοτυπικοί χαρακτήρες

ένα γονίδιο μοριακό δείκτη (π.χ. ss-rRNA)

μια σειρά γονιδίων

πλειοψηφία των γονιδίων κάθε οργανισμού

• Εξελικτικά "κοντινοί" οργανισμοί

ακολουθίες DNA που εξελίσσονται γρήγορα

• Βαθειά αποκλίνοντες οργανισμοί

Πολύ καλά συντηρημένες πρωτεΐνες

Page 41: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 41 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μεθοδολογίες (Ανα-)Κατασκευής

Page 42: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 42 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μεθοδολογίες (Ανα-)Κατασκευής

• Βάσει αποστάσεων

UPGMA (Unweighted pair group method with Arithmetic

Mean)

Neighbor joining

Fitch-Margoliash

Minimal Evolution

• Βάσει χαρακτήρων

Μέγιστη φειδωλότητα (Maximum Parsimony)

Μέγιστη πιθανοφάνεια (Maximum Likelihood)

Page 43: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Μεθοδολογία Αποστάσεων

• Δημιουργία πίνακα αποστάσεων πίνακας M όπου Mij είναι η

απόσταση μεταξύ των ακολουθιών i και j και Mij>=0

• Δημιουργία ενός δένδρου όπου κάθε φύλλο του αντιστοιχεί

σε ένα αντικείμενο του M, έτσι ώστε η απόσταση μεταξύ των

φύλλων i και j να είναι Mij

0 3 7 13 15 E

0 6 12 14 D

0 12 14 C

0 12 B

0 A

E D C B A A

B C

E

D

7

5

4

3

2

2

1

Page 44: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 44 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μεθοδολογία Αποστάσεων

• Ομαδοποίηση

αρχίζοντας από τις κοντινότερες ακολουθίες,

σταδιακά ενσωματώνονται και οι πιο

απομακρυσμένες

UPGMA, Neighbor joining

• Βελτιστοποίηση

σύγκριση των πιθανών τοπολογιών και επιλογή

αυτής όπου οι αποστάσεις πάνω στο δένδρο

ταιριάζουν καλύτερα με τα δεδομένα του

πίνακα αποστάσεων

Fitch-Margoliash, Minimal Evolution

Page 45: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 45 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μεθοδολογία Αποστάσεων

• Η παρατηρούμενη απόσταση διαφέρει από την εξελικτική

απόσταση

Πολλαπλές αντικαταστάσεις

Κορεσμός όταν η εξελικτική απόσταση είναι πολύ μεγάλη

• Απαραίτητη η χρήση μοντέλων αντικατάστασης για τη

διόρθωση της παρατηρούμενης απόστασης

Page 46: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 46 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μεθοδολογία Αποστάσεων

• Δεν είναι δυνατή η ανακατασκευή μιας προγονικής

ακολουθίας

• μέθοδοι βελτιστοποίησης

καλύτερα αποτελέσματα

• μέθοδοι ομαδοποίησης

πιο γρήγορες

προτιμότερες όταν τα δεδομένα είναι πολλά

Page 47: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 47 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μέγιστη φειδωλότητα (Maximum Parsimony)

• Principle of Occam’s Razor

When you have two competing theories that make

exactly the same predictions, the simpler one is the

better.

• Επιλογή του δένδρου που ελαχιστοποιεί το πλήθος των

εξελικτικών βημάτων που απαιτούνται για την επεξήγηση των

δεδομένων.

Page 48: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 48 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μέγιστη φειδωλότητα (Maximum Parsimony)

• Μέθοδος

Πολλαπλή στοίχιση των ακολουθιών.

Για κάθε θέση/στήλη i και για κάθε δέντρο Τ μετράμε το

πλήθος των εξελικτικών βημάτων που απαιτούνται για να

εξηγήσει το Τ τα δεδομένα της i.

"Βέλτιστο" φυλογενετικό δέντρο το Τ με τις λιγότερες

αλλαγές για όλες τις θέσεις.

Page 49: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 49 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μέγιστη φειδωλότητα (Maximum Parsimony)

• non informative sites

θέσεις της πολλαπλής στοίχισης που δεν δίνουν

πληροφορίες για την επιλογή του δέντρου

• informative sites

θέσεις της πολλαπλής στοίχισης που περιέχουν

τουλάχιστον δύο διαφορετικούς χαρακτήρες σε

τουλάχιστον δύο ακολουθίες ο καθένας

Page 50: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Μέγιστη φειδωλότητα (Maximum Parsimony)

Page 51: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Μέγιστη φειδωλότητα (Maximum Parsimony)

Page 52: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 52 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μέγιστη φειδωλότητα (Maximum Parsimony)

Page 53: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 53 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μέγιστη φειδωλότητα (Maximum Parsimony)

• Επιτρέπει την ανακατασκευή προγονικών ακολουθιών.

• Δημιουργία δέντρου συναίνεσης, όταν υπάρχουν περισσότερα

από ένα βέλτιστα δέντρα.

• Δεν λαμβάνει υπόψη τις πολλαπλές αντικαταστάσεις.

Είναι προτιμότερη η χρήση της για κοντινές εξελικτικά

ακολουθίες.

• Υψηλό υπολογιστικό κόστος

Παράγει όλα τα δέντρα μέχρι να καταλήξει στο βέλτιστο.

Δημιουργία αλγορίθμων που αναγνωρίζουν το καλύτερο

δέντρο χωρίς να βαθμολογούν όλα τα εναλλακτικά.

Page 54: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 54 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μέγιστη πιθανοφάνεια (Maximum Likelihood)

• Με βάση κάποιο εξελικτικό μοντέλο αναζητά το δένδρο που

έχει τη μεγαλύτερη πιθανότητα να περιγράφει τα δεδομένα.

• Υψηλό υπολογιστικό κόστος

Παράγει όλα τα δυνατά δέντρα μέχρι να καταλήξει στο

βέλτιστο.

Page 55: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 55 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μέγιστη πιθανοφάνεια (Maximum Likelihood)

I A C G C G T T G G G

II A C G C G T T G G G

III A C G C A A T G A A

IV A C A C A G G G A A

T T A G

{A,C,G,T}

{A,C,G,T} {A,C,G,T}

444=64 δυνατοί συνδυασμοί

T T A G

Τ

Τ G

T T A G

A

Τ A

P(T->T)3P(T->G)P(G->A)P(G->G) P(A->A)2P(A->T)P(T->T)2P(A->G)

"εξελικτικά" δέντρα

Page 56: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 56 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Αξιολόγηση φυλογενετικών δέντρων

Page 57: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 57 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Αξιολόγηση φυλογενετικών δέντρων

• Επανάληψη

Δειγματοληψία στηλών της πολλαπλής στοίχισης

Bootstrap (με επανάθεση)

Jackknife (χωρίς επανάθεση)

Ανακατασκευή φυλογενετικού δέντρου

• Προσδιορισμός του ποσοστού εμφάνισης ενός συγκεκριμένου

κόμβου στα νέα φυλογενετικά δέντρα

Page 58: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

long branch attraction

• Ομοπλασία

Ομοιότητα που οφείλεται σε διαφορετικά

εξελικτικά γεγονότα

• long branch attraction

Μακριά κλαδιά περισσότερες γενετικές αλλαγές

μεγαλύτερη πιθανότητα κάποιες θέσεις να έχουν

ταυτόσημους χαρακτήρες

Page 59: ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου Hidden Markov Models (HMMs) •Markov Chain Model Σύνολο κααάων Πιθανόηα

Σελίδα 59 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Προγράμματα φυλογενετικής ανάλυσης

• Phylogeny.fr

http://www.phylogeny.fr/

• PHYLIP

http://evolution.genetics.washington.edu/phylip.html

• AWTY

http://king2.sc.fsu.edu/CEBProjects/awty/awty_start.php