1.CODON-BASED SELECTION TESTS

28
1.CODON-BASED SELECTION TESTS SITI SINONIMI, si assume siano sotto neutralità d S o K S SITI NON SINONIMI d N o K N d N / d S d N =d S ω=0 neutralità d N >d S ω>1 diversifying selection (aumenta la probabilità che una nuova variante si fissi) d N <d S ω<1 selezione purificatrice (software PAML)

description

1.CODON-BASED SELECTION TESTS. SITI SINONIMI , si assume siano sotto neutralità d S o K S SITI NON SINONIMI d N o K N d N / d S = ω d N =d S ω=0 neutralità - PowerPoint PPT Presentation

Transcript of 1.CODON-BASED SELECTION TESTS

Page 1: 1.CODON-BASED SELECTION TESTS

1.CODON-BASED SELECTION TESTS

SITI SINONIMI, si assume siano sotto neutralità dS o KS

SITI NON SINONIMI dN o KN

dN / dS =ω dN =dS ω=0 neutralità

dN >dS ω>1 diversifying selection (aumenta la probabilità che una nuova variante si fissi)

dN <dS ω<1 selezione purificatrice

(software PAML)

Page 2: 1.CODON-BASED SELECTION TESTS

McDONALD-KREITMAN TEST (McDonald and Kreitman, 1991)

(software DNASP)

Confronta il rapporto dN / dS in una specie con lo stesso rapporto in specie diverse

1. Sotto evoluzione neutrale le sostituzioni intra- e inter-specifiche sono dovute alle mutazioni e quindi sono uguali. Il rapporto tra diversità e divergenza è lo stesso per i siti dN e dS .

Page 3: 1.CODON-BASED SELECTION TESTS

2. Sotto selezione positiva le sostituzione non-sinonime inter-specifiche dovrebbero essere maggiori rispetto a quelle intra-specifiche. Questo porta a una riduzione del rapporto diversità-divergenza ai siti non-sinonimi.

Page 4: 1.CODON-BASED SELECTION TESTS

2. SELECTION TESTS BASED ON THE FREQUENCIES OF VARIANT SITES

Site frequency spectrum influenzata sia dalla selezione che da processi demografici

Eccesso di alleli rari

•Recente espansione, molte varianti apparse da poco tempo in tutti i loci

•Selezione positiva su un locus. Con l’aumento di frequenza si osservano molti alleli rari per quel locus, ma non in altri loci.

Page 5: 1.CODON-BASED SELECTION TESTS

Eccesso di alleli con frequenze intermedieSuddivisione della popolazione. Effetto su tutti i lociBalancing selection (=selezione che favorisce più di un allele e perciò previene la fissazione ) sul solo locus sul quale sta agendo.

Page 6: 1.CODON-BASED SELECTION TESTS

TAJIMA’s D (software DNASP) confronta due diverse misure di θ (quantità di variabilità attesa per ciascun nucleotide sotto evoluzione neutrale) una basata su S e una su .

Assunzione dei metodi: sotto evoluzione neutrale le diverse stime di theta devono dare lo stesso valore.

Si confrontano misure indipendenti dalle freq alleliche (S, numero di siti segreganti) con misure basate su freq. alleliche (π, nucleotide diversity) che sono influenzate dallo scostamento dalla neutralità.

D=0 neutralitàD significativamente positivo= suddivisione della popolazione o balancing selectionD significativamente negativo= espansione della popolazione o selezione positiva

Page 7: 1.CODON-BASED SELECTION TESTS

Analisi Inter-popolazione

Mira a quantificare le differenze tra le popolazioni da

un punto di vista genetico.

Due diversi approcci:

1. basato sulle frequenze alleliche

2. basato sugli stati allelici confronto diretto tra i diversi aplotipi

confronto tra le frequenze dei diversi aplotipi

DISTANZA GENETICA

Page 8: 1.CODON-BASED SELECTION TESTS

Le distanze genetiche vengono usate per ricostruire le relazioni genetiche tra individui o tra popolazioni o tra specie.

Il metodo utilizzato varia in base al marcatore genetico.

Sotto determinate assunzioni (mutation-drift balance), le distanze genetiche risultano correlate linearmente con il tempo e sono quindi di grande utilità per ricostruire e datare le relazioni filogenetiche

Page 9: 1.CODON-BASED SELECTION TESTS

1. confronto tra frequenze aplotipiche

Esempio: distanza genetica Fst

E' una misura di distanza genetica generale che può essere applicata a qualsiasi

tipo di polimorfismo genetico.

2. confronto tra aplotipi

Esempio: distanza genetica intermatch-mismatch, D

2

jjiiij

dddD

dij differenza media fra coppie di sequenze (una della popolazione i e l’altra di j)

dii, djj differenze medie all’interno delle pop i e j

Page 10: 1.CODON-BASED SELECTION TESTS

Rappresentazione visiva delle distanze genetiche

n popolazioni = n-1 dimensioni necessarie per rappresentare le relazioni tra popolazioni

Page 11: 1.CODON-BASED SELECTION TESTS

Confronto a gruppi di due popolazioni per volta = per ogni campione popolazionistico viene calcolata la relativa distanza genetica da ogni altro considerato.

MATRICI QUADRATE DI AFFINITÀ/DISTANZA, costruite in modo tale da esibire il confronto di una popolazione con ognuna delle altre e con se stessa (diagonale della matrice)

SARD TRAP CORS BOLO FOGG L'AQ FROS AUST FINL BASC SPAG SPA1

SARD 0 0.021 0.031 0.013 0.003 0.007 0.006 0.011 0.034 0.010 0.025 0.003

TRAP 0.021 0 0.037 0.018 0.013 0.008 0.008 0.036 0.037 0.016 0.022 0.014

CORS 0.031 0.037 0 0.027 0.037 0.034 0.030 0.030 0.075 0.033 0.025 0.023

BOLO 0.013 0.018 0.027 0 0.003 0.005 0.004 0.001 0.037 0.007 0.020 0.003

FOGG 0.003 0.013 0.037 0.003 0 0.000 0.001 0.002 0.036 0.017 0.001 0.006

L'AQ 0.007 0.008 0.034 0.005 0.000 0 0.002 0.004 0.041 0.019 0.004 0.007

FROS 0.006 0.008 0.030 0.004 0.001 0.002 0 0.004 0.038 0.017 0.005 0.006

AUST 0.011 0.036 0.030 0.001 0.002 0.004 0.004 0 0.043 0.013 0.004 0.004

FINL 0.034 0.037 0.075 0.037 0.036 0.041 0.038 0.043 0 0.056 0.046 0.044

BASC 0.010 0.016 0.033 0.007 0.017 0.019 0.017 0.013 0.056 0 0.010 0.003

SPAG 0.025 0.022 0.025 0.020 0.001 0.004 0.005 0.004 0.046 0.010 0 0.002

SPA1 0.003 0.014 0.023 0.003 0.006 0.007 0.006 0.004 0.044 0.003 0.002 0

Page 12: 1.CODON-BASED SELECTION TESTS

Matrice di distanze genetiche

Page 13: 1.CODON-BASED SELECTION TESTS

ANALISI MULTIVARIATE: permettono di ridurre lo spazio multidimensionale a due, tre dimensioni che possono essere interpretate, riducendo al minimo la perdita inevitabile di informazioni.

Rappresentazione grafica di una matrice di distanze genetiche

Diversi metodi permettono di rappresentare graficamente la matrice di distanze genetiche ottenuta precedentemente.

Tra questi:

•MULTIDIMENSIONAL SCALING (MDS) Plot •ANALISI DELLE COMPONENTI PRINCIPALI (PCA)

•MAPPE SINTETICHE riassumono informazioni su diversi alleli secondo una distribuzione geografica

Page 14: 1.CODON-BASED SELECTION TESTS

costrizione delle distanze genetiche in uno spazio a due

dimensioni con la minor perdita di informazione possibile

(minore distorsione possibile)

distorsione rappresentata dal parametro stress

costruzione iterativa del plot (si continua fino a che il parametro

di stress risulta minimo)

MULTIDIMENSIONAL SCALING (MDS) Plot

Page 15: 1.CODON-BASED SELECTION TESTS

Stress 0.0337

Final Configuration, dimension 1 vs. dimension 2

Dimension 1

Dim

ensio

n 2

ANDALUCIA

BARIBA

BERBA

CAYAPA INDIANS

CATALUNIA

DENDI

FON

GALICIA

NORD SPAINCENTRAL SPAIN

YORUBA

RIO CAYAPAS VICHE

-1.2

-0.8

-0.4

0.0

0.4

0.8

-1.4 -1.0 -0.6 -0.2 0.2 0.6 1.0 1.4

Page 16: 1.CODON-BASED SELECTION TESTS

ALTRI DESCRITTORI DELLE RELAZIONI GENETICHE TRA POPOLAZIONI

COSTRUZIONE DI ALBERI EVOLUTIVI

MAPPE SINTETICHE

ELABORARE IN MANIERA SINTETICA l'andamento della distribuzione geografica delle frequenze alleliche ed ottenere delle mappe utili per inferire i movimenti umani avvenuti nel passato e per comprendere le forze evolutive in azione

METODO PIÙ UTILIZZATO È QUELLO DELLE COMPONENTI PRINCIPALICOMPONENTI PRINCIPALI che derivano dalle medie ponderate di tutte le frequenze geniche.

METODO PER LA RIDUZIONE O PER L'INDIVIDUAZIONE DELLA STRUTTURA DEI DATI

Page 17: 1.CODON-BASED SELECTION TESTS

FINALITA’

RIDURRE IL NUMERO DI VARIABILI

INDIVIDUARE UNA STRUTTURA nelle relazioni tra le variabili, cioè CLASSIFICARE LE VARIABILI

IDEA BASE = Combinare due variabili in un singolo fattore

È possibile riassumere la correlazione tra due variabili in uno scatterplot.

Può quindi essere adattata UNA RETTA DI REGRESSIONEUNA RETTA DI REGRESSIONE che rappresenti il "miglior" riassunto delle relazione lineare tra le variabili.

Page 18: 1.CODON-BASED SELECTION TESTS

DUE VARIABILI DEFINISCONO UN PIANO

Dopo aver individuato la retta su cui la varianza risulta massima, rimane della variabilità attorno questa retta.

Se si estende l'esempio delle due variabili a più variabili, i calcoli diverranno più complicati, ma il principio di base di esprimere due o più variabili per mezzo di un singolo fattore rimarrà lo stesso. Sono estratti diversi fattori consecutivi. Poiché ogni fattore successivo è definito in modo tale da massimizzare la variabilità non catturata dai fattori precedenti, I DIVERSI FATTORI CONSECUTIVI SONO INDIPENDENTI TRA LORO.

UN NUMERO MOLTO PIÙ PICCOLO DI NUOVE VARIABILI (LE COMPONENTI PRINCIPALI)

Page 19: 1.CODON-BASED SELECTION TESTS

L'estrazione delle componenti principali consiste in una rotazione massimizzante la varianza (varimax) dello spazio originale delle variabili.

La prima componente è quella che rende conto della maggiore quantità di variabilità, e quindi di informazione, ricavabile dai dati; la seconda, il massimo possibile dell'informazione residua e così via fìno a che non viene spiegata la totalità dell'informazione contenuta nelle variabili originali (le frequenze alleliche).

In genere ci si ferma alla terza componente perché le successive spiegano una quota troppo piccola della variabilità osservata.

CP1

CP2

OBIETTIVO: RIASSUMERE LA GRANDE MASSA DI INFORMAZIONI ORIGINARIE

Page 20: 1.CODON-BASED SELECTION TESTS

Per ogni componente si può costruire una mappa che descriva le variazioni delle diverse forme alleliche nella zona geografica considerata e, se alle componenti si abbinano dei colori, la distribuzione della variabilità risulterà dalle variazioni cromatiche. Un esempio classico di rappresentazioni di questo tipo è il lavoro pionieristico del gruppo di Cavalli-Sforza

Page 21: 1.CODON-BASED SELECTION TESTS

Come costruire una filogenesi

Dati usati come INPUT

•Distanze genetiche, matriciCaratteri, unità evolutive discrete. Consentono di inferire le caratteristiche dell’antenato. Confronto diretto tra gli stati allelici dei taxa considerati. I rami dell’albero rappresentano le mutazioni avvenute nel corso dell’evoluzione dei vari taxa, e non il valore di distanza genetica fra i taxa.

Metodi

•“clustering method” usa algoritmo che combina i taxa in modo gerarchico (NJ e UPGMA)

•“searching method” considera tutti gli alberi possibili e sceglie quello che meglio si adatta ai dati (MP e ML)

•Networks

Page 22: 1.CODON-BASED SELECTION TESTS

In un cladogramma, tutti i nodi terminali sono taxa (gruppi di popolazioni o molecole note collegati dall’albero, OTUs Operational Taxonomic Units), quelli interni sono antenati ipotetici (HTUs Hypothetical Taxonomic Units).

Cladogramma rappresenta le relazioni tra taxa, ma la lunghezza dei rami non riflette distanza evolutiva (≠ additive tree= le lunghezze dei rami riflettono quantitativamente le distanze evolutive).

Albero rooted: esiste taxon ancestrale e un outgroup orientato rispetto al tempo evolutivo

Processi biologici come ricombinazione o mutazioni parallele portano i rami a convergere, si formano allora dei reticoli, rappresentati da networks

Page 23: 1.CODON-BASED SELECTION TESTS

In un ALBERO ROOTED esiste un particolare nodo, la RADICEla RADICE, dal quale partono a senso unico tutte le vie che lo collegano ad ogni altro nodo.

LA LUNGHEZZA DI CIASCUNA VIA LA LUNGHEZZA DI CIASCUNA VIA CORRISPONDE AL TEMPO DI CORRISPONDE AL TEMPO DI EVOLUZIONE E LA RADICE EVOLUZIONE E LA RADICE RAPPRESENTA L'ANTENATO COMUNE RAPPRESENTA L'ANTENATO COMUNE DI TUTTE LE DI TUTTE LE OTUs OTUs IN STUDIO.IN STUDIO.

Un ALBERO UNROOTED la cui forma può anche non essere quella di un vero e proprio albero, ma quella di una rete (o network) è invece UN ALBERO IN CUI VENGONO ILLUSTRATE UNICAMENTE LE RELAZIONI TRA LE OTUs SENZA DEFINIRE ALCUN PERCORSO EVOLUTIVO.

Page 24: 1.CODON-BASED SELECTION TESTS

Caratteristiche di un buon albero:

•EFFICIENTE, rapido da costruire

•CONSISTENTE, si ottiene lo stesso albero quando si aggiungono nuovi dati

•ROBUSTO, non risente delle variazioni delle assunzioni su cui è basato il metodo

•DOTATO DI POTERE, bastano pochi dati per un albero corretto

•RIPRODUCIBILE, la validità delle assunzioni può essere testata

Nessun metodo possiede tutte le caratteristiche

Page 25: 1.CODON-BASED SELECTION TESTS

A) Le distanze genetiche tra popolazioni o molecole vengono calcolate da dati di riga (per ciascuna coppia di taxa) e rappresentate in forma di MATRICE DI DISTANZA.

Gli indici di distanza genetica si BASANO SULL'IMPORTANZA RELATIVA CHE SI DÀ IN CIASCUN MODELLO ALLE VARIE FORZE EVOLUTIVE.

1. IL TIPO DI DATI USATI COME INPUT

Matrice triangolare di distanza tra 5 popolazioni

Alpha 0.000000

Beta 0.303893 0.000000

Gamma 0.857546 0.339731 0.000000

Delta 1.158921 0.913519 1.631729 0.000000

Epsilon 1.542897 0.619666 1.293707 0.165882 0.000000

Page 26: 1.CODON-BASED SELECTION TESTS

A.METODI FILOGENETICI CON MATRICI DI DISTANZA

UPGMAUPGMA ( Unweighted Pair-Group Method with Arithmetic mean)

Utilizza un ALGORITMO DI CLUSTERIZZAZIONE (RAGGRUPPAMENTO) SEQUENZIALE in cui le relazioni topologiche sono identificate sulla base della similarità (minore distanza genetica) e l'albero è costruito con un processo a tappe successive.

Combina i due taxa con distanza genetica minore, questi creano un nuovo taxon che viene confrontato con gli altri taxa considerando la distanza genetica media dei due taxa di partenza (vedi dopo).

Page 27: 1.CODON-BASED SELECTION TESTS

Può essere applicato se i tassi di evoluzione sono approssimativamente costanti tra le diverse linee, in modo da ammettere una RELAZIONE LINEARE TRA LE DISTANZE EVOLUTIVE E IL TEMPO DI DIVERGENZA. Affidabile per analisi di specie sincroniche.

   A  B  C  D  E

 B  2  

 C  4  4  

 D  6  6  6  

 E  6  6  6  4  

 F  8  8  8  8  8

Page 28: 1.CODON-BASED SELECTION TESTS

In pratica viene inizialmente identificata tra tutte le OTU la coppia più simile e trattata come una nuova OTU singola, definita OTU composta. Quindi fra tutte le OTU si identifica la coppia con la maggiore somiglianza e così via finchè non rimangono che due sole OTU. Quando si calcolano successivamente le varie distanze, quella tra una OTU semplice ed una composta è data dalla media delle distanze tra l'OTU semplice e ciascun costituente l'OTU composta.

Numero di differenze nel citocromo C di diverse specie (da Margoliash & Fish, 1967)