ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου...

Post on 07-Jan-2020

10 views 0 download

Transcript of ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ …...0λίαΒΗΦ Η 4 . Θηραίου...

Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ

ΑΚΟΛΟΥΘΙΩΝ IΙ

ΦΥΛΟΓΕΝΕΤΙΚΗ ΑΝΑΛΥΣΗ

Σελίδα 2 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μοντέλα Πολλαπλής Στοίχισης

• Consensus sequences

• Patterns and regular expressions

• Position Specifc Scoring Matrices (PSSMs)

• Generalized Profiles

• Hidden Markov Models (HMMs)

• Στοίχιση νέων ακολουθιών

• Αναζήτηση σε βάσεις δεδομένων

• Σχολιασμός νέων ακολουθιών

Σελίδα 3 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Από την Ακολουθία στη Λειτουργία

Σελίδα 4 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Hidden Markov Models (HMMs)

• Markov Chain Model

Σύνολο καταστάσεων

Πιθανότητα μετάβασης από τη μία κατάσταση στην άλλη

π.χ. μία ακολουθία DNA όπου η πιθανότητα

εμφάνισης ενός νουκλεοτιδίου εξαρτάται μόνο από το

προηγούμενο νουκλεοτίδιο

P(x) =

P(x1)P(x2|x1) … P(xN|xN-1)

P(CGGT) =

P(C) P(G|C) P(G|G) P(T|G)

Σελίδα 5 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Hidden Markov Models (HMMs)

• Markov Chain Model

transition matrix (πίνακας μεταβάσεων)

Weather today

Sunny Rainy

Weather

yesterday

Sunny 0.8 0.2

Rainy 0.4 0.6

Σελίδα 6 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Hidden Markov Models (HMMs)

Σελίδα 7 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Hidden Markov Models (HMMs)

M = (Σ, Q, θ)

• Σ: Αλφάβητο συμβόλων = { b1, b2, …, bM }

• Q: Σύνολο δυνατών καταστάσεων Q = { 1, ..., K }

• θ: Σύνολο πιθανοτήτων

Πιθανότητες Μετάβασης (Transition)

από κατάσταση σε κατάσταση

aij: i j

ai1 + … + aiK = 1, i = 1…K

Πιθανότητες Γεννήσεως (Emission)

συμβόλων σε κάθε κατάσταση

ei(b) = P( xi = b | i = k)

ei(b1) + … + ei(bM) = 1, i = 1…K

Σελίδα 8 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Hidden Markov Models (HMMs)

• Όταν το HMM βρίσκεται σε μία δεδομένη κατάσταση, πρέπει

να πάρει δύο αποφάσεις:

Σε ποια κατάσταση θα μεταβεί;

Κάθε χρονική στιγμή t, η επόμενη κατάσταση εξαρτάται

μόνο από την τρέχουσα κατάσταση

Ποιο σύμβολο του αλφάβητου θα "γεννήσει";

• Ένα σύμβολο μπορεί να "γεννηθεί" από διαφορετικές

καταστάσεις.

Όταν παρατηρείται ένα σύμβολο, δεν είναι γνωστή η

κατάσταση στην οποία βρίσκεται το HMM.

• Γνωστή σειρά συμβόλων / Άγνωστη σειρά καταστάσεων

Σελίδα 9 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Hidden Markov Models (HMMs)

1. Εκτίμηση (Evaluation)

• Δεδομένου ενός μοντέλου Μ και μιας ακολουθίας x, ποια είναι η

πιθανότητα της ακολουθίας (forward algorithm)

2. Αποκωδικοποίηση (Decoding)

• Δεδομένου ενός μοντέλου Μ και μιας ακολουθίας x, ποια είναι η

πιθανότερη ακολουθία καταστάσεων για τη μοντελοποίηση της

ακολουθίας (viterbi algorithm)

3. Εκπαίδευση (Learning)

• Πως μπορούν να προσδιορισθούν οι παράμετροι ενός μοντέλου Μ

(πιθανότητες μετάβασης / γεννήσεως) από μία ομάδα ακολουθιών

(forward-backward algorithm, Baum-Welch expectation

maximization)

Σελίδα 10 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Hidden Markov Models (HMMs)

• x = A A G T A G T A T C

• π = E E E I I I I I E E

εξώνιο εσώνιο

P(A|E)

P(C|E)

P(G|E)

P(T|E)

P(A|I)

P(C|I)

P(G|I)

P(T|I)

P(IE)

P(EI)

P(II) P(EE)

Hidden Markov Models (HMMs)

• Profile HMMs

δημιουργία μοντέλου βάσει μιας πολλαπλής στοίχισης

Σελίδα 12 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Hidden Markov Models (HMMs)

• Καταστάσεις:

Match (γέννηση καταλοίπου βάσει της αντίστοιχης κατανομής)

Insert (γέννηση καταλοίπου βάσει της κατανομής υποβάθρου)

Delete

• Overfitting

Στρεβλώσεις όταν οι συχνότητες υπολογίζονται από ένα

μικρό αριθμό ακολουθιών

• Pseudocounts

εξομαλύνουν την παρατηρούμενη συχνότητα

χαρακτήρων π.χ. Dirichlet mixture

Hidden Markov Models (HMMs)

• Profile HMMs

στοίχιση ακολουθίας με το μοντέλο (viterbi algorithm)

Σελίδα 14 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Hidden Markov Models (HMMs)

• Προγράμματα για τη δημιουργία και χρήση HMMs

HMMER http://hmmer.org/

SAM http://compbio.soe.ucsc.edu/sam.html

• Θεωρητικό υπόβαθρο

• Καλύτερη αντιμετώπιση των κενών

• Κατάλληλα για τη μοντελοποίηση domains

• Πιο ευαίσθητα για μακρινές ομολογίες

Σελίδα 15 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Hidden Markov Models (HMMs)

• Pfam http://pfam.xfam.org/

Pfam-A

στοιχίσεις / HMMs από εξειδικευμένους ερευνητές

Pfam-B

εγγραφές που προέκυψαν αυτοματοποιημένα

Clan

ομαδοποίηση των εγγραφών της Pfam-A βάσει

ομοιοτήτων σε επίπεδο ακολουθίας, δομής, profile-HMM

Εκτενής σχολιασμός

Σελίδα 16 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Hidden Markov Models (HMMs)

• SMART http://smart.embl-heidelberg.de/

normal vs genomic

• TIGRFAMs http://www.jcvi.org/cgi-bin/tigrfams/index.cgi

J. Craig Venter Institute

• SUPERFAMILY http://supfam.cs.bris.ac.uk/SUPERFAMILY/

collection of hidden Markov models, which represent

structural protein domains at the SCOP superfamily level

Σελίδα 17 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

InterPro

• http://www.ebi.ac.uk/interpro/about.html

• ολοκλήρωση ΒΔ οικογενειών και domains

Σελίδα 18 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

InterPro

• CATH/Gene3D at University College, London, UK

• PANTHER at University of Southern California, CA, USA

• PIRSF at the Protein Information Resource, Georgetown University

Medical Centre, Washington DC, USA

• Pfam at the Wellcome Trust Sanger Institute, Hinxton, UK

• PRINTS at the University of Manchester, UK

• ProDom at PRABI Villeurbanne, France

• PROSITE and HAMAP at the Swiss Institute of Bioinformatics (SIB),

Geneva, Switzerland

• SMART at EMBL, Heidelberg, Germany

• SUPERFAMILY at the University of Bristol, UK

• TIGRFAMs at the J. Craig Venter Institute, Rockville, MD, US

Σελίδα 19 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Επιλογή Ακολουθιών προς Στοίχιση

• Η χρήση πανομοιότυπων ακολουθιών στην πολλαπλή

στοίχιση δεν προσφέρει πληροφορίες για τη σχέση

απομακρυσμένων ομόλογων αλληλουχιών.

Σελίδα 20 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Επιλογή Ακολουθιών προς Στοίχιση

Σελίδα 21 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Επιλογή Ακολουθιών προς Στοίχιση

• ακολουθίες με διαφορετικό αριθμό επαναλήψεων

αναγνώριση των επαναλήψεων (π.χ. dotplot)

διαχωρισμός της στοίχισής τους

Σελίδα 22 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

BAliBASE

• http://www.lbgi.fr/balibase/

• multiple alignment benchmark

υψηλής ποιότητας στοιχίσεις βασισμένες στην υπέρθεση

τρισδιάστατων δομών, που έχουν ελεγχθεί από

εξειδικευμένους επιστήμονες

Σελίδα 23 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Επιλογή μεθόδου στοίχισης

Σελίδα 24 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μορφοποίηση Πολλαπλής Στοίχισης

• Sequence Format Conversion http://www.ebi.ac.uk/Tools/sfc/

Μετατροπή από το ένα format στο άλλο

• FASTA (.fa ή .fasta ή .fst)

>IXI_234

TSPASIRPPAGPSSRPAMVSSRRTRPSPPGPRRPTGRPCCSAAPRRPQATGGWKTCSGTC

TTSTSTRHRGRSGWSARTTTAACLRASRKSMRAACSRSAGSRPNRFAPTLMSSCITSTTG

PPAWAGDRSHE

>IXI_235

TSPASIRPPAGPSSR---------RPSPPGPRRPTGRPCCSAAPRRPQATGGWKTCSGTC

TTSTSTRHRGRSGW----------RASRKSMRAACSRSAGSRPNRFAPTLMSSCITSTTG

PPAWAGDRSHE

>IXI_236

TSPASIRPPAGPSSRPAMVSSR--RPSPPPPRRPPGRPCCSAAPPRPQATGGWKTCSGTC

TTSTSTRHRGRSGWSARTTTAACLRASRKSMRAACSR--GSRPPRFAPPLMSSCITSTTG

PPPPAGDRSHE

>IXI_237

TSPASLRPPAGPSSRPAMVSSRR-RPSPPGPRRPT----CSAAPRRPQATGGYKTCSGTC

TTSTSTRHRGRSGYSARTTTAACLRASRKSMRAACSR--GSRPNRFAPTLMSSCLTSTTG

PPAYAGDRSHE

Σελίδα 25 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μορφοποίηση Πολλαπλής Στοίχισης

• Phylip (.phy ή .phylip)

• Clustal (.aln) IXI_234 TSPASIRPPAGPSSRPAMVSSRRTRPSPPGPRRPTGRPCCSAAPRRPQATGGWKTCSGTC

IXI_235 TSPASIRPPAGPSSR---------RPSPPGPRRPTGRPCCSAAPRRPQATGGWKTCSGTC

IXI_236 TSPASIRPPAGPSSRPAMVSSR--RPSPPPPRRPPGRPCCSAAPPRPQATGGWKTCSGTC

IXI_237 TSPASLRPPAGPSSRPAMVSSRR-RPSPPGPRR----PTCSAAPRRPQATGGYKTCSGTC

*****:********* ***** *** * ***** *******:*******

IXI_234 TTSTSTRHRGRSGWSARTTTAACLRASRKSMRAACSRSAGSRPNRFAPTLMSSCITSTTG

IXI_235 TTSTSTRHRGRSGWRA----------SRKSMRAACSRSAGSRPNRFAPTLMSSCITSTTG

IXI_236 TTSTSTRHRGRSGWSARTTTAACLRASRKSMRAACSR--GSRPPRFAPPLMSSCITSTTG

IXI_237 TTSTSTRHRGRSGYSARTTTAACLRASRKSMRAACSR--GSRPNRFAPTLMSSCLTSTTG

*************: * *********** **** **** *****:*****

IXI_234 PPAWAGDRSHE

IXI_235 PPAWAGDRSHE

IXI_236 PPPPAGDRSHE

IXI_237 PPAYAGDRSHE

** *******

4 131

IXI_234 TSPASIRPPA GPSSRPAMVS SRRTRPSPPG PRRPTGRPCC SAAPRRPQAT

IXI_235 TSPASIRPPA GPSSR----- ----RPSPPG PRRPTGRPCC SAAPRRPQAT

IXI_236 TSPASIRPPA GPSSRPAMVS SR--RPSPPP PRRPPGRPCC SAAPPRPQAT

IXI_237 TSPASLRPPA GPSSRPAMVS SRR-RPSPPG PRRPT----C SAAPRRPQAT

GGWKTCSGTC TTSTSTRHRG RSGWSARTTT AACLRASRKS MRAACSRSAG

GGWKTCSGTC TTSTSTRHRG RSGW------ ----RASRKS MRAACSRSAG

GGWKTCSGTC TTSTSTRHRG RSGWSARTTT AACLRASRKS MRAACSR--G

GGYKTCSGTC TTSTSTRHRG RSGYSARTTT AACLRASRKS MRAACSR--G

SRPNRFAPTL MSSCITSTTG PPAWAGDRSH E

SRPNRFAPTL MSSCITSTTG PPAWAGDRSH E

SRPPRFAPPL MSSCITSTTG PPPPAGDRSH E

SRPNRFAPTL MSSCLTSTTG PPAYAGDRSH E

Σελίδα 26 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Multiple alignment editors

• Έλεγχος και πιθανή τροποποίηση πολλαπλών στοιχίσεων

Jalview http://www.jalview.org/

SeaView http://doua.prabi.fr/software/seaview

• Δημιουργία sequence logos

WebLogo http://weblogo.berkeley.edu/

Σελίδα 27 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Προγράμματα Πολλαπλής Στοίχισης

• Clustal Omega

http://www.ebi.ac.uk/Tools/msa/clustalo/

• T-Coffee

http://tcf_dev.vital-it.ch/apps/tcoffee/index.html

• MAFFT

http://mafft.cbrc.jp/alignment/server/

• MUSCLE

http://www.ebi.ac.uk/Tools/msa/muscle/

Σελίδα 28 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Φυλογενετική Ανάλυση

• μελέτη της εξελικτικής ιστορίας γονιδίων/πρωτεϊνών ή

οργανισμών και απεικόνισή της με φυλογενετικά δέντρα

• έλεγχος εξελικτικών υποθέσεων

• επιδημιολογικές μελέτες

• μελέτες βιοποικιλότητας

• φαρμακευτική έρευνα

Σελίδα 29 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Φυλογενετική Ανάλυση

Σελίδα 30 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Δεδομένα για ανάλυση

• Αριθμητικά Δεδομένα

Αποστάσεις

Συνήθως από δεδομένα ακολουθιών

• Χαρακτήρες

γενετικοί

μορφολογικοί / δομικοί

συμπεριφορά

Σελίδα 31 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Φυλογενετικά δέντρα

Προγονικός Κόμβος ή

ΡΙΖΑ Εσωτερικοί Κόμβοι ή

Σημεία Απόκλισης (υποθετικοί πρόγονοι)

Κλαδιά

Τερματικοί Κόμβοι (Φύλλα)

A

B

C

D

E

Αναπαριστούν TAXA (ταξινομικές μονάδες όπως είδη, γονίδια, πληθυσμούς, κλπ)

Η διαδρομή από τη ρίζα προς τα φύλλα περιγράφει το εξελικτικό μονοπάτι.

Σελίδα 32 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Φυλογενετικά δέντρα

• Με ρίζα

Nr=(2n-3)!/[2n-2(n-2)!]

n=10 => Nr =34’459’425

• Χωρίς ρίζα

Nu=(2n-5)!/[2n-3(n-3)!]

n=10 => Nu=2’027’025

Δεν περιγράφουν εξελικτικό

μονοπάτι

Σελίδα 33 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Φυλογενετικά δέντρα

Δέντρο χωρίς ρίζα

A

C

D

B

Δέντρα με ρίζα

A B C D

Root

B

Root

C D

A

B

Φυλογενετικά δέντρα

• Ένα δέντρο χωρίς ρίζα 4 ειδών μπορεί να μετατραπεί σε 5 διαφορετικά

δέντρα με ρίζα, που αντιστοιχούν σε 5 διαφορετικά εξελικτικά μονοπάτια.

Το δέντρο χωρίς ρίζα:

A C

B D

d

C

D

A

B

4

c

A

B

C

D

3

e

D

C

A

B

5

b

A

B

C

D

2

a

B

A

C

D

1

Σελίδα 35 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Φυλογενετικά δέντρα

• Πως επιλέγεται η ρίζα;

Στο μέσο των δύο πιο απομακρυσμένων κλαδιών

Επιλογή out group

εξωομάδα out group

Σελίδα 36 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Φυλογενετικά δέντρα

• Δεν αλλάζουν οι συσχετίσεις με την περιστροφή ενός κόμβου.

Σελίδα 37 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Φυλογενετικά δέντρα

• Το μήκος των κλαδιών

Δεν έχει νόημα (κλαδόγραμμα)

είναι ανάλογο της γενετικής απόκλισης (φυλόγραμμα)

είναι ανάλογο του χρόνου (ultrametric tree)

Σελίδα 38 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Φυλογενετικά δέντρα

• Newick format

Σελίδα 39 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Φυλογενετική ανάλυση γονιδίων

• Εξελικτική ιστορία γονιδίων

Διαφορετικός ρυθμός αλλαγής

πολύ αργός (ιστόνες)

πολύ γρήγορος (ανοσοσφαιρίνες)

Διαφορετική εξέλιξη

Οριζόντια μεταφορά

• Η εξελικτική ιστορία των γονιδίων δεν ταυτίζεται κατ’ ανάγκη

με την εξελικτική ιστορία των οργανισμών.

Σελίδα 40 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Φυλογενετική ανάλυση οργανισμών

• Δεδομένα

φαινοτυπικοί χαρακτήρες

ένα γονίδιο μοριακό δείκτη (π.χ. ss-rRNA)

μια σειρά γονιδίων

πλειοψηφία των γονιδίων κάθε οργανισμού

• Εξελικτικά "κοντινοί" οργανισμοί

ακολουθίες DNA που εξελίσσονται γρήγορα

• Βαθειά αποκλίνοντες οργανισμοί

Πολύ καλά συντηρημένες πρωτεΐνες

Σελίδα 41 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μεθοδολογίες (Ανα-)Κατασκευής

Σελίδα 42 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μεθοδολογίες (Ανα-)Κατασκευής

• Βάσει αποστάσεων

UPGMA (Unweighted pair group method with Arithmetic

Mean)

Neighbor joining

Fitch-Margoliash

Minimal Evolution

• Βάσει χαρακτήρων

Μέγιστη φειδωλότητα (Maximum Parsimony)

Μέγιστη πιθανοφάνεια (Maximum Likelihood)

Μεθοδολογία Αποστάσεων

• Δημιουργία πίνακα αποστάσεων πίνακας M όπου Mij είναι η

απόσταση μεταξύ των ακολουθιών i και j και Mij>=0

• Δημιουργία ενός δένδρου όπου κάθε φύλλο του αντιστοιχεί

σε ένα αντικείμενο του M, έτσι ώστε η απόσταση μεταξύ των

φύλλων i και j να είναι Mij

0 3 7 13 15 E

0 6 12 14 D

0 12 14 C

0 12 B

0 A

E D C B A A

B C

E

D

7

5

4

3

2

2

1

Σελίδα 44 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μεθοδολογία Αποστάσεων

• Ομαδοποίηση

αρχίζοντας από τις κοντινότερες ακολουθίες,

σταδιακά ενσωματώνονται και οι πιο

απομακρυσμένες

UPGMA, Neighbor joining

• Βελτιστοποίηση

σύγκριση των πιθανών τοπολογιών και επιλογή

αυτής όπου οι αποστάσεις πάνω στο δένδρο

ταιριάζουν καλύτερα με τα δεδομένα του

πίνακα αποστάσεων

Fitch-Margoliash, Minimal Evolution

Σελίδα 45 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μεθοδολογία Αποστάσεων

• Η παρατηρούμενη απόσταση διαφέρει από την εξελικτική

απόσταση

Πολλαπλές αντικαταστάσεις

Κορεσμός όταν η εξελικτική απόσταση είναι πολύ μεγάλη

• Απαραίτητη η χρήση μοντέλων αντικατάστασης για τη

διόρθωση της παρατηρούμενης απόστασης

Σελίδα 46 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μεθοδολογία Αποστάσεων

• Δεν είναι δυνατή η ανακατασκευή μιας προγονικής

ακολουθίας

• μέθοδοι βελτιστοποίησης

καλύτερα αποτελέσματα

• μέθοδοι ομαδοποίησης

πιο γρήγορες

προτιμότερες όταν τα δεδομένα είναι πολλά

Σελίδα 47 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μέγιστη φειδωλότητα (Maximum Parsimony)

• Principle of Occam’s Razor

When you have two competing theories that make

exactly the same predictions, the simpler one is the

better.

• Επιλογή του δένδρου που ελαχιστοποιεί το πλήθος των

εξελικτικών βημάτων που απαιτούνται για την επεξήγηση των

δεδομένων.

Σελίδα 48 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μέγιστη φειδωλότητα (Maximum Parsimony)

• Μέθοδος

Πολλαπλή στοίχιση των ακολουθιών.

Για κάθε θέση/στήλη i και για κάθε δέντρο Τ μετράμε το

πλήθος των εξελικτικών βημάτων που απαιτούνται για να

εξηγήσει το Τ τα δεδομένα της i.

"Βέλτιστο" φυλογενετικό δέντρο το Τ με τις λιγότερες

αλλαγές για όλες τις θέσεις.

Σελίδα 49 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μέγιστη φειδωλότητα (Maximum Parsimony)

• non informative sites

θέσεις της πολλαπλής στοίχισης που δεν δίνουν

πληροφορίες για την επιλογή του δέντρου

• informative sites

θέσεις της πολλαπλής στοίχισης που περιέχουν

τουλάχιστον δύο διαφορετικούς χαρακτήρες σε

τουλάχιστον δύο ακολουθίες ο καθένας

Μέγιστη φειδωλότητα (Maximum Parsimony)

Μέγιστη φειδωλότητα (Maximum Parsimony)

Σελίδα 52 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μέγιστη φειδωλότητα (Maximum Parsimony)

Σελίδα 53 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μέγιστη φειδωλότητα (Maximum Parsimony)

• Επιτρέπει την ανακατασκευή προγονικών ακολουθιών.

• Δημιουργία δέντρου συναίνεσης, όταν υπάρχουν περισσότερα

από ένα βέλτιστα δέντρα.

• Δεν λαμβάνει υπόψη τις πολλαπλές αντικαταστάσεις.

Είναι προτιμότερη η χρήση της για κοντινές εξελικτικά

ακολουθίες.

• Υψηλό υπολογιστικό κόστος

Παράγει όλα τα δέντρα μέχρι να καταλήξει στο βέλτιστο.

Δημιουργία αλγορίθμων που αναγνωρίζουν το καλύτερο

δέντρο χωρίς να βαθμολογούν όλα τα εναλλακτικά.

Σελίδα 54 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μέγιστη πιθανοφάνεια (Maximum Likelihood)

• Με βάση κάποιο εξελικτικό μοντέλο αναζητά το δένδρο που

έχει τη μεγαλύτερη πιθανότητα να περιγράφει τα δεδομένα.

• Υψηλό υπολογιστικό κόστος

Παράγει όλα τα δυνατά δέντρα μέχρι να καταλήξει στο

βέλτιστο.

Σελίδα 55 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Μέγιστη πιθανοφάνεια (Maximum Likelihood)

I A C G C G T T G G G

II A C G C G T T G G G

III A C G C A A T G A A

IV A C A C A G G G A A

T T A G

{A,C,G,T}

{A,C,G,T} {A,C,G,T}

444=64 δυνατοί συνδυασμοί

T T A G

Τ

Τ G

T T A G

A

Τ A

P(T->T)3P(T->G)P(G->A)P(G->G) P(A->A)2P(A->T)P(T->T)2P(A->G)

"εξελικτικά" δέντρα

Σελίδα 56 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Αξιολόγηση φυλογενετικών δέντρων

Σελίδα 57 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Αξιολόγηση φυλογενετικών δέντρων

• Επανάληψη

Δειγματοληψία στηλών της πολλαπλής στοίχισης

Bootstrap (με επανάθεση)

Jackknife (χωρίς επανάθεση)

Ανακατασκευή φυλογενετικού δέντρου

• Προσδιορισμός του ποσοστού εμφάνισης ενός συγκεκριμένου

κόμβου στα νέα φυλογενετικά δέντρα

long branch attraction

• Ομοπλασία

Ομοιότητα που οφείλεται σε διαφορετικά

εξελικτικά γεγονότα

• long branch attraction

Μακριά κλαδιά περισσότερες γενετικές αλλαγές

μεγαλύτερη πιθανότητα κάποιες θέσεις να έχουν

ταυτόσημους χαρακτήρες

Σελίδα 59 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου

Προγράμματα φυλογενετικής ανάλυσης

• Phylogeny.fr

http://www.phylogeny.fr/

• PHYLIP

http://evolution.genetics.washington.edu/phylip.html

• AWTY

http://king2.sc.fsu.edu/CEBProjects/awty/awty_start.php