1.CODON-BASED SELECTION TESTS

of 28 /28
1.CODON-BASED SELECTION TESTS SITI SINONIMI, si assume siano sotto neutralità d S o K S SITI NON SINONIMI d N o K N d N / d S d N =d S ω=0 neutralità d N >d S ω>1 diversifying selection (aumenta la probabilità che una nuova variante si fissi) d N <d S ω<1 selezione purificatrice (software PAML)

Embed Size (px)

description

1.CODON-BASED SELECTION TESTS. SITI SINONIMI , si assume siano sotto neutralità d S o K S SITI NON SINONIMI d N o K N d N / d S = ω d N =d S ω=0 neutralità - PowerPoint PPT Presentation

Transcript of 1.CODON-BASED SELECTION TESTS

  • 1.CODON-BASED SELECTION TESTSSITI SINONIMI, si assume siano sotto neutralit dS o KSSITI NON SINONIMI dN o KNdN / dS = dN =dS =0 neutralit dN >dS >1 diversifying selection (aumenta la probabilit che una nuova variante si fissi) dN
  • McDONALD-KREITMAN TEST (McDonald and Kreitman, 1991) (software DNASP) Confronta il rapporto dN / dS in una specie con lo stesso rapporto in specie diverseSotto evoluzione neutrale le sostituzioni intra- e inter-specifiche sono dovute alle mutazioni e quindi sono uguali. Il rapporto tra diversit e divergenza lo stesso per i siti dN e dS .

  • 2. Sotto selezione positiva le sostituzione non-sinonime inter-specifiche dovrebbero essere maggiori rispetto a quelle intra-specifiche. Questo porta a una riduzione del rapporto diversit-divergenza ai siti non-sinonimi.

  • 2. SELECTION TESTS BASED ON THE FREQUENCIES OF VARIANT SITESSite frequency spectrum influenzata sia dalla selezione che da processi demografici Eccesso di alleli rariRecente espansione, molte varianti apparse da poco tempo in tutti i lociSelezione positiva su un locus. Con laumento di frequenza si osservano molti alleli rari per quel locus, ma non in altri loci.

  • Eccesso di alleli con frequenze intermedieSuddivisione della popolazione. Effetto su tutti i lociBalancing selection (=selezione che favorisce pi di un allele e perci previene la fissazione ) sul solo locus sul quale sta agendo.

  • TAJIMAs D (software DNASP) confronta due diverse misure di (quantit di variabilit attesa per ciascun nucleotide sotto evoluzione neutrale) una basata su S e una su .

    Assunzione dei metodi: sotto evoluzione neutrale le diverse stime di theta devono dare lo stesso valore. Si confrontano misure indipendenti dalle freq alleliche (S, numero di siti segreganti) con misure basate su freq. alleliche (, nucleotide diversity) che sono influenzate dallo scostamento dalla neutralit. D=0 neutralitD significativamente positivo= suddivisione della popolazione o balancing selectionD significativamente negativo= espansione della popolazione o selezione positiva

  • Le distanze genetiche vengono usate per ricostruire le relazioni genetiche tra individui o tra popolazioni o tra specie.

    Il metodo utilizzato varia in base al marcatore genetico.

    Sotto determinate assunzioni (mutation-drift balance), le distanze genetiche risultano correlate linearmente con il tempo e sono quindi di grande utilit per ricostruire e datare le relazioni filogenetiche

  • 1. confronto tra frequenze aplotipicheEsempio: distanza genetica FstE' una misura di distanza genetica generale che pu essere applicata a qualsiasi tipo di polimorfismo genetico.

  • Rappresentazione visiva delle distanze genetichen popolazioni = n-1 dimensioni necessarie per rappresentare le relazioni tra popolazioni

  • Confronto a gruppi di due popolazioni per volta = per ogni campione popolazionistico viene calcolata la relativa distanza genetica da ogni altro considerato.

    MATRICI QUADRATE DI AFFINIT/DISTANZA, costruite in modo tale da esibire il confronto di una popolazione con ognuna delle altre e con se stessa (diagonale della matrice)

    SARDTRAPCORSBOLOFOGGL'AQFROSAUSTFINLBASCSPAGSPA1SARD00.0210.0310.0130.0030.0070.0060.0110.0340.0100.0250.003TRAP0.02100.0370.0180.0130.0080.0080.0360.0370.0160.0220.014CORS0.0310.03700.0270.0370.0340.0300.0300.0750.0330.0250.023BOLO0.0130.0180.02700.0030.0050.0040.0010.0370.0070.0200.003FOGG0.0030.0130.0370.00300.0000.0010.0020.0360.0170.0010.006L'AQ0.0070.0080.0340.0050.00000.0020.0040.0410.0190.0040.007FROS0.0060.0080.0300.0040.0010.00200.0040.0380.0170.0050.006AUST0.0110.0360.0300.0010.0020.0040.00400.0430.0130.0040.004FINL0.0340.0370.0750.0370.0360.0410.0380.04300.0560.0460.044BASC0.0100.0160.0330.0070.0170.0190.0170.0130.05600.0100.003SPAG0.0250.0220.0250.0200.0010.0040.0050.0040.0460.01000.002SPA10.0030.0140.0230.0030.0060.0070.0060.0040.0440.0030.0020

  • Matrice di distanze genetiche

    DISTANZE GENETICHE FRA LE POPOLAZIONI DI PIGMEI (KIMURA 2P)

    POPOLAZIONI

    BABINGA

    BAKA

    BAKOLA

    BIAKA

    MBENZELE

    MBUTI

    BABINGA

    0.000

    BAKA

    0.372

    0.000

    BAKOLA

    0.475

    0.072

    0.000

    BIAKA

    0.203

    0.100

    0.182

    0.000

    MBENZELE

    0.440

    0.059

    0.001

    0.151

    0.000

    MBUTI

    0.424

    0.435

    0.568

    0.267

    0.539

    0.000

  • ANALISI MULTIVARIATE: permettono di ridurre lo spazio multidimensionale a due, tre dimensioni che possono essere interpretate, riducendo al minimo la perdita inevitabile di informazioni.

    Rappresentazione grafica di una matrice di distanze geneticheDiversi metodi permettono di rappresentare graficamente la matrice di distanze genetiche ottenuta precedentemente.

    Tra questi:

    MULTIDIMENSIONAL SCALING (MDS) Plot ANALISI DELLE COMPONENTI PRINCIPALI (PCA)

    MAPPE SINTETICHE riassumono informazioni su diversi alleli secondo una distribuzione geografica

  • costrizione delle distanze genetiche in uno spazio a due dimensioni con la minor perdita di informazione possibile (minore distorsione possibile)distorsione rappresentata dal parametro stresscostruzione iterativa del plot (si continua fino a che il parametro di stress risulta minimo)MULTIDIMENSIONAL SCALING (MDS) Plot

  • ALTRI DESCRITTORI DELLE RELAZIONI GENETICHE TRA POPOLAZIONI

    COSTRUZIONE DI ALBERI EVOLUTIVI MAPPE SINTETICHE

    ELABORARE IN MANIERA SINTETICA l'andamento della distribuzione geografica delle frequenze alleliche ed ottenere delle mappe utili per inferire i movimenti umani avvenuti nel passato e per comprendere le forze evolutive in azione

    METODO PI UTILIZZATO QUELLO DELLE COMPONENTI PRINCIPALI che derivano dalle medie ponderate di tutte le frequenze geniche.

    METODO PER LA RIDUZIONE O PER L'INDIVIDUAZIONE DELLA STRUTTURA DEI DATI

  • FINALITA

    RIDURRE IL NUMERO DI VARIABILI INDIVIDUARE UNA STRUTTURA nelle relazioni tra le variabili, cio CLASSIFICARE LE VARIABILI

    IDEA BASE = Combinare due variabili in un singolo fattore

    possibile riassumere la correlazione tra due variabili in uno scatterplot. Pu quindi essere adattata UNA RETTA DI REGRESSIONE che rappresenti il "miglior" riassunto delle relazione lineare tra le variabili.

  • DUE VARIABILI DEFINISCONO UN PIANO

    Dopo aver individuato la retta su cui la varianza risulta massima, rimane della variabilit attorno questa retta.

    Se si estende l'esempio delle due variabili a pi variabili, i calcoli diverranno pi complicati, ma il principio di base di esprimere due o pi variabili per mezzo di un singolo fattore rimarr lo stesso. Sono estratti diversi fattori consecutivi. Poich ogni fattore successivo definito in modo tale da massimizzare la variabilit non catturata dai fattori precedenti, I DIVERSI FATTORI CONSECUTIVI SONO INDIPENDENTI TRA LORO.

    UN NUMERO MOLTO PI PICCOLO DI NUOVE VARIABILI (LE COMPONENTI PRINCIPALI)

  • L'estrazione delle componenti principali consiste in una rotazione massimizzante la varianza (varimax) dello spazio originale delle variabili.

    La prima componente quella che rende conto della maggiore quantit di variabilit, e quindi di informazione, ricavabile dai dati; la seconda, il massimo possibile dell'informazione residua e cos via fno a che non viene spiegata la totalit dell'informazione contenuta nelle variabili originali (le frequenze alleliche).

    In genere ci si ferma alla terza componente perch le successive spiegano una quota troppo piccola della variabilit osservata. OBIETTIVO: RIASSUMERE LA GRANDE MASSA DI INFORMAZIONI ORIGINARIE

  • Per ogni componente si pu costruire una mappa che descriva le variazioni delle diverse forme alleliche nella zona geografica considerata e, se alle componenti si abbinano dei colori, la distribuzione della variabilit risulter dalle variazioni cromatiche. Un esempio classico di rappresentazioni di questo tipo il lavoro pionieristico del gruppo di Cavalli-Sforza

  • Come costruire una filogenesiDati usati come INPUT

    Distanze genetiche, matriciCaratteri, unit evolutive discrete. Consentono di inferire le caratteristiche dellantenato. Confronto diretto tra gli stati allelici dei taxa considerati. I rami dellalbero rappresentano le mutazioni avvenute nel corso dellevoluzione dei vari taxa, e non il valore di distanza genetica fra i taxa.Metodiclustering method usa algoritmo che combina i taxa in modo gerarchico (NJ e UPGMA)searching method considera tutti gli alberi possibili e sceglie quello che meglio si adatta ai dati (MP e ML)Networks

  • In un cladogramma, tutti i nodi terminali sono taxa (gruppi di popolazioni o molecole note collegati dallalbero, OTUs Operational Taxonomic Units), quelli interni sono antenati ipotetici (HTUs Hypothetical Taxonomic Units). Cladogramma rappresenta le relazioni tra taxa, ma la lunghezza dei rami non riflette distanza evolutiva ( additive tree= le lunghezze dei rami riflettono quantitativamente le distanze evolutive).Albero rooted: esiste taxon ancestrale e un outgroup orientato rispetto al tempo evolutivoProcessi biologici come ricombinazione o mutazioni parallele portano i rami a convergere, si formano allora dei reticoli, rappresentati da networks

  • In un ALBERO ROOTED esiste un particolare nodo, la RADICE, dal quale partono a senso unico tutte le vie che lo collegano ad ogni altro nodo. LA LUNGHEZZA DI CIASCUNA VIA CORRISPONDE AL TEMPO DI EVOLUZIONE E LA RADICE RAPPRESENTA L'ANTENATO COMUNE DI TUTTE LE OTUs IN STUDIO.

    Un ALBERO UNROOTED la cui forma pu anche non essere quella di un vero e proprio albero, ma quella di una rete (o network) invece UN ALBERO IN CUI VENGONO ILLUSTRATE UNICAMENTE LE RELAZIONI TRA LE OTUs SENZA DEFINIRE ALCUN PERCORSO EVOLUTIVO.

  • Caratteristiche di un buon albero:

    EFFICIENTE, rapido da costruireCONSISTENTE, si ottiene lo stesso albero quando si aggiungono nuovi datiROBUSTO, non risente delle variazioni delle assunzioni su cui basato il metodoDOTATO DI POTERE, bastano pochi dati per un albero correttoRIPRODUCIBILE, la validit delle assunzioni pu essere testataNessun metodo possiede tutte le caratteristiche

  • Le distanze genetiche tra popolazioni o molecole vengono calcolate da dati di riga (per ciascuna coppia di taxa) e rappresentate in forma di MATRICE DI DISTANZA. Gli indici di distanza genetica si BASANO SULL'IMPORTANZA RELATIVA CHE SI D IN CIASCUN MODELLO ALLE VARIE FORZE EVOLUTIVE.

    IL TIPO DI DATI USATI COME INPUTMatrice triangolare di distanza tra 5 popolazioniAlpha0.000000 Beta0.303893 0.000000Gamma0.857546 0.339731 0.000000Delta1.158921 0.913519 1.631729 0.000000 Epsilon1.542897 0.619666 1.293707 0.165882 0.000000

  • METODI FILOGENETICI CON MATRICI DI DISTANZA

    UPGMA ( Unweighted Pair-Group Method with Arithmetic mean) Utilizza un ALGORITMO DI CLUSTERIZZAZIONE (RAGGRUPPAMENTO) SEQUENZIALE in cui le relazioni topologiche sono identificate sulla base della similarit (minore distanza genetica) e l'albero costruito con un processo a tappe successive.Combina i due taxa con distanza genetica minore, questi creano un nuovo taxon che viene confrontato con gli altri taxa considerando la distanza genetica media dei due taxa di partenza (vedi dopo).

  • Pu essere applicato se i tassi di evoluzione sono approssimativamente costanti tra le diverse linee, in modo da ammettere una RELAZIONE LINEARE TRA LE DISTANZE EVOLUTIVE E IL TEMPO DI DIVERGENZA. Affidabile per analisi di specie sincroniche.

  • In pratica viene inizialmente identificata tra tutte le OTU la coppia pi simile e trattata come una nuova OTU singola, definita OTU composta. Quindi fra tutte le OTU si identifica la coppia con la maggiore somiglianza e cos via finch non rimangono che due sole OTU. Quando si calcolano successivamente le varie distanze, quella tra una OTU semplice ed una composta data dalla media delle distanze tra l'OTU semplice e ciascun costituente l'OTU composta.Numero di differenze nel citocromo C di diverse specie (da Margoliash & Fish, 1967)