ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου...
Transcript of ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου...
Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ
ΑΚΟΛΟΥΘΙΩΝ IΙ
ΦΥΛΟΓΕΝΕΤΙΚΗ ΑΝΑΛΥΣΗ
Σελίδα 2 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μοντέλα Πολλαπλής Στοίχισης
• Consensus sequences
• Patterns and regular expressions
• Position Specifc Scoring Matrices (PSSMs)
• Generalized Profiles
• Hidden Markov Models (HMMs)
• Στοίχιση νέων ακολουθιών
• Αναζήτηση σε βάσεις δεδομένων
• Σχολιασμός νέων ακολουθιών
Σελίδα 3 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Από την Ακολουθία στη Λειτουργία
Σελίδα 4 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Hidden Markov Models (HMMs)
• Markov Chain Model
Σύνολο καταστάσεων
Πιθανότητα μετάβασης από τη μία κατάσταση στην άλλη
π.χ. μία ακολουθία DNA όπου η πιθανότητα
εμφάνισης ενός νουκλεοτιδίου εξαρτάται μόνο από το
προηγούμενο νουκλεοτίδιο
P(x) =
P(x1)P(x2|x1) … P(xN|xN-1)
P(CGGT) =
P(C) P(G|C) P(G|G) P(T|G)
Σελίδα 5 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Hidden Markov Models (HMMs)
• Markov Chain Model
transition matrix (πίνακας μεταβάσεων)
Weather today
Sunny Rainy
Weather
yesterday
Sunny 0.8 0.2
Rainy 0.4 0.6
Σελίδα 6 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Hidden Markov Models (HMMs)
Σελίδα 7 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Hidden Markov Models (HMMs)
M = (Σ, Q, θ)
• Σ: Αλφάβητο συμβόλων = { b1, b2, …, bM }
• Q: Σύνολο δυνατών καταστάσεων Q = { 1, ..., K }
• θ: Σύνολο πιθανοτήτων
Πιθανότητες Μετάβασης (Transition)
από κατάσταση σε κατάσταση
aij: i j
ai1 + … + aiK = 1, i = 1…K
Πιθανότητες Γεννήσεως (Emission)
συμβόλων σε κάθε κατάσταση
ei(b) = P( xi = b | i = k)
ei(b1) + … + ei(bM) = 1, i = 1…K
Σελίδα 8 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Hidden Markov Models (HMMs)
• Όταν το HMM βρίσκεται σε μία δεδομένη κατάσταση, πρέπει
να πάρει δύο αποφάσεις:
Σε ποια κατάσταση θα μεταβεί;
Κάθε χρονική στιγμή t, η επόμενη κατάσταση εξαρτάται
μόνο από την τρέχουσα κατάσταση
Ποιο σύμβολο του αλφάβητου θα "γεννήσει";
• Ένα σύμβολο μπορεί να "γεννηθεί" από διαφορετικές
καταστάσεις.
Όταν παρατηρείται ένα σύμβολο, δεν είναι γνωστή η
κατάσταση στην οποία βρίσκεται το HMM.
• Γνωστή σειρά συμβόλων / Άγνωστη σειρά καταστάσεων
Σελίδα 9 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Hidden Markov Models (HMMs)
1. Εκτίμηση (Evaluation)
• Δεδομένου ενός μοντέλου Μ και μιας ακολουθίας x, ποια είναι η
πιθανότητα της ακολουθίας (forward algorithm)
2. Αποκωδικοποίηση (Decoding)
• Δεδομένου ενός μοντέλου Μ και μιας ακολουθίας x, ποια είναι η
πιθανότερη ακολουθία καταστάσεων για τη μοντελοποίηση της
ακολουθίας (viterbi algorithm)
3. Εκπαίδευση (Learning)
• Πως μπορούν να προσδιορισθούν οι παράμετροι ενός μοντέλου Μ
(πιθανότητες μετάβασης / γεννήσεως) από μία ομάδα ακολουθιών
(forward-backward algorithm, Baum-Welch expectation
maximization)
Σελίδα 10 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Hidden Markov Models (HMMs)
• x = A A G T A G T A T C
• π = E E E I I I I I E E
εξώνιο εσώνιο
P(A|E)
P(C|E)
P(G|E)
P(T|E)
P(A|I)
P(C|I)
P(G|I)
P(T|I)
P(IE)
P(EI)
P(II) P(EE)
Hidden Markov Models (HMMs)
• Profile HMMs
δημιουργία μοντέλου βάσει μιας πολλαπλής στοίχισης
Σελίδα 12 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Hidden Markov Models (HMMs)
• Καταστάσεις:
Match (γέννηση καταλοίπου βάσει της αντίστοιχης κατανομής)
Insert (γέννηση καταλοίπου βάσει της κατανομής υποβάθρου)
Delete
• Overfitting
Στρεβλώσεις όταν οι συχνότητες υπολογίζονται από ένα
μικρό αριθμό ακολουθιών
• Pseudocounts
εξομαλύνουν την παρατηρούμενη συχνότητα
χαρακτήρων π.χ. Dirichlet mixture
Hidden Markov Models (HMMs)
• Profile HMMs
στοίχιση ακολουθίας με το μοντέλο (viterbi algorithm)
Σελίδα 14 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Hidden Markov Models (HMMs)
• Προγράμματα για τη δημιουργία και χρήση HMMs
HMMER http://hmmer.org/
SAM http://compbio.soe.ucsc.edu/sam.html
• Θεωρητικό υπόβαθρο
• Καλύτερη αντιμετώπιση των κενών
• Κατάλληλα για τη μοντελοποίηση domains
• Πιο ευαίσθητα για μακρινές ομολογίες
Σελίδα 15 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Hidden Markov Models (HMMs)
• Pfam http://pfam.xfam.org/
Pfam-A
στοιχίσεις / HMMs από εξειδικευμένους ερευνητές
Pfam-B
εγγραφές που προέκυψαν αυτοματοποιημένα
Clan
ομαδοποίηση των εγγραφών της Pfam-A βάσει
ομοιοτήτων σε επίπεδο ακολουθίας, δομής, profile-HMM
Εκτενής σχολιασμός
Σελίδα 16 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Hidden Markov Models (HMMs)
• SMART http://smart.embl-heidelberg.de/
normal vs genomic
• TIGRFAMs http://www.jcvi.org/cgi-bin/tigrfams/index.cgi
J. Craig Venter Institute
• SUPERFAMILY http://supfam.cs.bris.ac.uk/SUPERFAMILY/
collection of hidden Markov models, which represent
structural protein domains at the SCOP superfamily level
Σελίδα 17 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
InterPro
• http://www.ebi.ac.uk/interpro/about.html
• ολοκλήρωση ΒΔ οικογενειών και domains
Σελίδα 18 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
InterPro
• CATH/Gene3D at University College, London, UK
• PANTHER at University of Southern California, CA, USA
• PIRSF at the Protein Information Resource, Georgetown University
Medical Centre, Washington DC, USA
• Pfam at the Wellcome Trust Sanger Institute, Hinxton, UK
• PRINTS at the University of Manchester, UK
• ProDom at PRABI Villeurbanne, France
• PROSITE and HAMAP at the Swiss Institute of Bioinformatics (SIB),
Geneva, Switzerland
• SMART at EMBL, Heidelberg, Germany
• SUPERFAMILY at the University of Bristol, UK
• TIGRFAMs at the J. Craig Venter Institute, Rockville, MD, US
Σελίδα 19 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Επιλογή Ακολουθιών προς Στοίχιση
• Η χρήση πανομοιότυπων ακολουθιών στην πολλαπλή
στοίχιση δεν προσφέρει πληροφορίες για τη σχέση
απομακρυσμένων ομόλογων αλληλουχιών.
Σελίδα 20 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Επιλογή Ακολουθιών προς Στοίχιση
Σελίδα 21 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Επιλογή Ακολουθιών προς Στοίχιση
• ακολουθίες με διαφορετικό αριθμό επαναλήψεων
αναγνώριση των επαναλήψεων (π.χ. dotplot)
διαχωρισμός της στοίχισής τους
Σελίδα 22 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
BAliBASE
• http://www.lbgi.fr/balibase/
• multiple alignment benchmark
υψηλής ποιότητας στοιχίσεις βασισμένες στην υπέρθεση
τρισδιάστατων δομών, που έχουν ελεγχθεί από
εξειδικευμένους επιστήμονες
Σελίδα 23 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Επιλογή μεθόδου στοίχισης
Σελίδα 24 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μορφοποίηση Πολλαπλής Στοίχισης
• Sequence Format Conversion http://www.ebi.ac.uk/Tools/sfc/
Μετατροπή από το ένα format στο άλλο
• FASTA (.fa ή .fasta ή .fst)
>IXI_234
TSPASIRPPAGPSSRPAMVSSRRTRPSPPGPRRPTGRPCCSAAPRRPQATGGWKTCSGTC
TTSTSTRHRGRSGWSARTTTAACLRASRKSMRAACSRSAGSRPNRFAPTLMSSCITSTTG
PPAWAGDRSHE
>IXI_235
TSPASIRPPAGPSSR---------RPSPPGPRRPTGRPCCSAAPRRPQATGGWKTCSGTC
TTSTSTRHRGRSGW----------RASRKSMRAACSRSAGSRPNRFAPTLMSSCITSTTG
PPAWAGDRSHE
>IXI_236
TSPASIRPPAGPSSRPAMVSSR--RPSPPPPRRPPGRPCCSAAPPRPQATGGWKTCSGTC
TTSTSTRHRGRSGWSARTTTAACLRASRKSMRAACSR--GSRPPRFAPPLMSSCITSTTG
PPPPAGDRSHE
>IXI_237
TSPASLRPPAGPSSRPAMVSSRR-RPSPPGPRRPT----CSAAPRRPQATGGYKTCSGTC
TTSTSTRHRGRSGYSARTTTAACLRASRKSMRAACSR--GSRPNRFAPTLMSSCLTSTTG
PPAYAGDRSHE
Σελίδα 25 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μορφοποίηση Πολλαπλής Στοίχισης
• Phylip (.phy ή .phylip)
• Clustal (.aln) IXI_234 TSPASIRPPAGPSSRPAMVSSRRTRPSPPGPRRPTGRPCCSAAPRRPQATGGWKTCSGTC
IXI_235 TSPASIRPPAGPSSR---------RPSPPGPRRPTGRPCCSAAPRRPQATGGWKTCSGTC
IXI_236 TSPASIRPPAGPSSRPAMVSSR--RPSPPPPRRPPGRPCCSAAPPRPQATGGWKTCSGTC
IXI_237 TSPASLRPPAGPSSRPAMVSSRR-RPSPPGPRR----PTCSAAPRRPQATGGYKTCSGTC
*****:********* ***** *** * ***** *******:*******
IXI_234 TTSTSTRHRGRSGWSARTTTAACLRASRKSMRAACSRSAGSRPNRFAPTLMSSCITSTTG
IXI_235 TTSTSTRHRGRSGWRA----------SRKSMRAACSRSAGSRPNRFAPTLMSSCITSTTG
IXI_236 TTSTSTRHRGRSGWSARTTTAACLRASRKSMRAACSR--GSRPPRFAPPLMSSCITSTTG
IXI_237 TTSTSTRHRGRSGYSARTTTAACLRASRKSMRAACSR--GSRPNRFAPTLMSSCLTSTTG
*************: * *********** **** **** *****:*****
IXI_234 PPAWAGDRSHE
IXI_235 PPAWAGDRSHE
IXI_236 PPPPAGDRSHE
IXI_237 PPAYAGDRSHE
** *******
4 131
IXI_234 TSPASIRPPA GPSSRPAMVS SRRTRPSPPG PRRPTGRPCC SAAPRRPQAT
IXI_235 TSPASIRPPA GPSSR----- ----RPSPPG PRRPTGRPCC SAAPRRPQAT
IXI_236 TSPASIRPPA GPSSRPAMVS SR--RPSPPP PRRPPGRPCC SAAPPRPQAT
IXI_237 TSPASLRPPA GPSSRPAMVS SRR-RPSPPG PRRPT----C SAAPRRPQAT
GGWKTCSGTC TTSTSTRHRG RSGWSARTTT AACLRASRKS MRAACSRSAG
GGWKTCSGTC TTSTSTRHRG RSGW------ ----RASRKS MRAACSRSAG
GGWKTCSGTC TTSTSTRHRG RSGWSARTTT AACLRASRKS MRAACSR--G
GGYKTCSGTC TTSTSTRHRG RSGYSARTTT AACLRASRKS MRAACSR--G
SRPNRFAPTL MSSCITSTTG PPAWAGDRSH E
SRPNRFAPTL MSSCITSTTG PPAWAGDRSH E
SRPPRFAPPL MSSCITSTTG PPPPAGDRSH E
SRPNRFAPTL MSSCLTSTTG PPAYAGDRSH E
Σελίδα 26 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Multiple alignment editors
• Έλεγχος και πιθανή τροποποίηση πολλαπλών στοιχίσεων
Jalview http://www.jalview.org/
SeaView http://doua.prabi.fr/software/seaview
• Δημιουργία sequence logos
WebLogo http://weblogo.berkeley.edu/
Σελίδα 27 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Προγράμματα Πολλαπλής Στοίχισης
• Clustal Omega
http://www.ebi.ac.uk/Tools/msa/clustalo/
• T-Coffee
http://tcf_dev.vital-it.ch/apps/tcoffee/index.html
• MAFFT
http://mafft.cbrc.jp/alignment/server/
• MUSCLE
http://www.ebi.ac.uk/Tools/msa/muscle/
Σελίδα 28 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Φυλογενετική Ανάλυση
• μελέτη της εξελικτικής ιστορίας γονιδίων/πρωτεϊνών ή
οργανισμών και απεικόνισή της με φυλογενετικά δέντρα
• έλεγχος εξελικτικών υποθέσεων
• επιδημιολογικές μελέτες
• μελέτες βιοποικιλότητας
• φαρμακευτική έρευνα
Σελίδα 29 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Φυλογενετική Ανάλυση
Σελίδα 30 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Δεδομένα για ανάλυση
• Αριθμητικά Δεδομένα
Αποστάσεις
Συνήθως από δεδομένα ακολουθιών
• Χαρακτήρες
γενετικοί
μορφολογικοί / δομικοί
συμπεριφορά
Σελίδα 31 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Φυλογενετικά δέντρα
Προγονικός Κόμβος ή
ΡΙΖΑ Εσωτερικοί Κόμβοι ή
Σημεία Απόκλισης (υποθετικοί πρόγονοι)
Κλαδιά
Τερματικοί Κόμβοι (Φύλλα)
A
B
C
D
E
Αναπαριστούν TAXA (ταξινομικές μονάδες όπως είδη, γονίδια, πληθυσμούς, κλπ)
Η διαδρομή από τη ρίζα προς τα φύλλα περιγράφει το εξελικτικό μονοπάτι.
Σελίδα 32 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Φυλογενετικά δέντρα
• Με ρίζα
Nr=(2n-3)!/[2n-2(n-2)!]
n=10 => Nr =34’459’425
• Χωρίς ρίζα
Nu=(2n-5)!/[2n-3(n-3)!]
n=10 => Nu=2’027’025
Δεν περιγράφουν εξελικτικό
μονοπάτι
Σελίδα 33 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Φυλογενετικά δέντρα
Δέντρο χωρίς ρίζα
A
C
D
B
Δέντρα με ρίζα
A B C D
Root
B
Root
C D
A
B
Φυλογενετικά δέντρα
• Ένα δέντρο χωρίς ρίζα 4 ειδών μπορεί να μετατραπεί σε 5 διαφορετικά
δέντρα με ρίζα, που αντιστοιχούν σε 5 διαφορετικά εξελικτικά μονοπάτια.
Το δέντρο χωρίς ρίζα:
A C
B D
d
C
D
A
B
4
c
A
B
C
D
3
e
D
C
A
B
5
b
A
B
C
D
2
a
B
A
C
D
1
Σελίδα 35 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Φυλογενετικά δέντρα
• Πως επιλέγεται η ρίζα;
Στο μέσο των δύο πιο απομακρυσμένων κλαδιών
Επιλογή out group
εξωομάδα out group
Σελίδα 36 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Φυλογενετικά δέντρα
• Δεν αλλάζουν οι συσχετίσεις με την περιστροφή ενός κόμβου.
Σελίδα 37 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Φυλογενετικά δέντρα
• Το μήκος των κλαδιών
Δεν έχει νόημα (κλαδόγραμμα)
είναι ανάλογο της γενετικής απόκλισης (φυλόγραμμα)
είναι ανάλογο του χρόνου (ultrametric tree)
Σελίδα 38 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Φυλογενετικά δέντρα
• Newick format
Σελίδα 39 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Φυλογενετική ανάλυση γονιδίων
• Εξελικτική ιστορία γονιδίων
Διαφορετικός ρυθμός αλλαγής
πολύ αργός (ιστόνες)
πολύ γρήγορος (ανοσοσφαιρίνες)
Διαφορετική εξέλιξη
Οριζόντια μεταφορά
• Η εξελικτική ιστορία των γονιδίων δεν ταυτίζεται κατ’ ανάγκη
με την εξελικτική ιστορία των οργανισμών.
Σελίδα 40 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Φυλογενετική ανάλυση οργανισμών
• Δεδομένα
φαινοτυπικοί χαρακτήρες
ένα γονίδιο μοριακό δείκτη (π.χ. ss-rRNA)
μια σειρά γονιδίων
πλειοψηφία των γονιδίων κάθε οργανισμού
• Εξελικτικά "κοντινοί" οργανισμοί
ακολουθίες DNA που εξελίσσονται γρήγορα
• Βαθειά αποκλίνοντες οργανισμοί
Πολύ καλά συντηρημένες πρωτεΐνες
Σελίδα 41 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μεθοδολογίες (Ανα-)Κατασκευής
Σελίδα 42 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μεθοδολογίες (Ανα-)Κατασκευής
• Βάσει αποστάσεων
UPGMA (Unweighted pair group method with Arithmetic
Mean)
Neighbor joining
Fitch-Margoliash
Minimal Evolution
• Βάσει χαρακτήρων
Μέγιστη φειδωλότητα (Maximum Parsimony)
Μέγιστη πιθανοφάνεια (Maximum Likelihood)
Μεθοδολογία Αποστάσεων
• Δημιουργία πίνακα αποστάσεων πίνακας M όπου Mij είναι η
απόσταση μεταξύ των ακολουθιών i και j και Mij>=0
• Δημιουργία ενός δένδρου όπου κάθε φύλλο του αντιστοιχεί
σε ένα αντικείμενο του M, έτσι ώστε η απόσταση μεταξύ των
φύλλων i και j να είναι Mij
0 3 7 13 15 E
0 6 12 14 D
0 12 14 C
0 12 B
0 A
E D C B A A
B C
E
D
7
5
4
3
2
2
1
Σελίδα 44 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μεθοδολογία Αποστάσεων
• Ομαδοποίηση
αρχίζοντας από τις κοντινότερες ακολουθίες,
σταδιακά ενσωματώνονται και οι πιο
απομακρυσμένες
UPGMA, Neighbor joining
• Βελτιστοποίηση
σύγκριση των πιθανών τοπολογιών και επιλογή
αυτής όπου οι αποστάσεις πάνω στο δένδρο
ταιριάζουν καλύτερα με τα δεδομένα του
πίνακα αποστάσεων
Fitch-Margoliash, Minimal Evolution
Σελίδα 45 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μεθοδολογία Αποστάσεων
• Η παρατηρούμενη απόσταση διαφέρει από την εξελικτική
απόσταση
Πολλαπλές αντικαταστάσεις
Κορεσμός όταν η εξελικτική απόσταση είναι πολύ μεγάλη
• Απαραίτητη η χρήση μοντέλων αντικατάστασης για τη
διόρθωση της παρατηρούμενης απόστασης
Σελίδα 46 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μεθοδολογία Αποστάσεων
• Δεν είναι δυνατή η ανακατασκευή μιας προγονικής
ακολουθίας
• μέθοδοι βελτιστοποίησης
καλύτερα αποτελέσματα
• μέθοδοι ομαδοποίησης
πιο γρήγορες
προτιμότερες όταν τα δεδομένα είναι πολλά
Σελίδα 47 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μέγιστη φειδωλότητα (Maximum Parsimony)
• Principle of Occam’s Razor
When you have two competing theories that make
exactly the same predictions, the simpler one is the
better.
• Επιλογή του δένδρου που ελαχιστοποιεί το πλήθος των
εξελικτικών βημάτων που απαιτούνται για την επεξήγηση των
δεδομένων.
Σελίδα 48 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μέγιστη φειδωλότητα (Maximum Parsimony)
• Μέθοδος
Πολλαπλή στοίχιση των ακολουθιών.
Για κάθε θέση/στήλη i και για κάθε δέντρο Τ μετράμε το
πλήθος των εξελικτικών βημάτων που απαιτούνται για να
εξηγήσει το Τ τα δεδομένα της i.
"Βέλτιστο" φυλογενετικό δέντρο το Τ με τις λιγότερες
αλλαγές για όλες τις θέσεις.
Σελίδα 49 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μέγιστη φειδωλότητα (Maximum Parsimony)
• non informative sites
θέσεις της πολλαπλής στοίχισης που δεν δίνουν
πληροφορίες για την επιλογή του δέντρου
• informative sites
θέσεις της πολλαπλής στοίχισης που περιέχουν
τουλάχιστον δύο διαφορετικούς χαρακτήρες σε
τουλάχιστον δύο ακολουθίες ο καθένας
Μέγιστη φειδωλότητα (Maximum Parsimony)
Μέγιστη φειδωλότητα (Maximum Parsimony)
Σελίδα 52 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μέγιστη φειδωλότητα (Maximum Parsimony)
Σελίδα 53 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μέγιστη φειδωλότητα (Maximum Parsimony)
• Επιτρέπει την ανακατασκευή προγονικών ακολουθιών.
• Δημιουργία δέντρου συναίνεσης, όταν υπάρχουν περισσότερα
από ένα βέλτιστα δέντρα.
• Δεν λαμβάνει υπόψη τις πολλαπλές αντικαταστάσεις.
Είναι προτιμότερη η χρήση της για κοντινές εξελικτικά
ακολουθίες.
• Υψηλό υπολογιστικό κόστος
Παράγει όλα τα δέντρα μέχρι να καταλήξει στο βέλτιστο.
Δημιουργία αλγορίθμων που αναγνωρίζουν το καλύτερο
δέντρο χωρίς να βαθμολογούν όλα τα εναλλακτικά.
Σελίδα 54 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μέγιστη πιθανοφάνεια (Maximum Likelihood)
• Με βάση κάποιο εξελικτικό μοντέλο αναζητά το δένδρο που
έχει τη μεγαλύτερη πιθανότητα να περιγράφει τα δεδομένα.
• Υψηλό υπολογιστικό κόστος
Παράγει όλα τα δυνατά δέντρα μέχρι να καταλήξει στο
βέλτιστο.
Σελίδα 55 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Μέγιστη πιθανοφάνεια (Maximum Likelihood)
I A C G C G T T G G G
II A C G C G T T G G G
III A C G C A A T G A A
IV A C A C A G G G A A
T T A G
{A,C,G,T}
{A,C,G,T} {A,C,G,T}
444=64 δυνατοί συνδυασμοί
T T A G
Τ
Τ G
T T A G
A
Τ A
P(T->T)3P(T->G)P(G->A)P(G->G) P(A->A)2P(A->T)P(T->T)2P(A->G)
"εξελικτικά" δέντρα
Σελίδα 56 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Αξιολόγηση φυλογενετικών δέντρων
Σελίδα 57 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Αξιολόγηση φυλογενετικών δέντρων
• Επανάληψη
Δειγματοληψία στηλών της πολλαπλής στοίχισης
Bootstrap (με επανάθεση)
Jackknife (χωρίς επανάθεση)
Ανακατασκευή φυλογενετικού δέντρου
• Προσδιορισμός του ποσοστού εμφάνισης ενός συγκεκριμένου
κόμβου στα νέα φυλογενετικά δέντρα
long branch attraction
• Ομοπλασία
Ομοιότητα που οφείλεται σε διαφορετικά
εξελικτικά γεγονότα
• long branch attraction
Μακριά κλαδιά περισσότερες γενετικές αλλαγές
μεγαλύτερη πιθανότητα κάποιες θέσεις να έχουν
ταυτόσημους χαρακτήρες
Σελίδα 59 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου
Προγράμματα φυλογενετικής ανάλυσης
• Phylogeny.fr
http://www.phylogeny.fr/
• PHYLIP
http://evolution.genetics.washington.edu/phylip.html
• AWTY
http://king2.sc.fsu.edu/CEBProjects/awty/awty_start.php