Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA...

Post on 23-Feb-2019

216 views 0 download

Transcript of Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA...

History of DNA Sequencing

Avery: Proposes DNA as ‘Genetic Material’

Watson & Crick: Double Helix Structure of DNA

Holley: Sequences Yeast tRNAAla

1870

1953

1940

1965

1970

1977

1980

1990

2002

Miescher: Discovers DNA

Wu: Sequences λ Cohesive End DNA

Sanger: Dideoxy Chain Termination Gilbert: Chemical Degradation

Messing: M13 Cloning

Hood et al.: Partial Automation

•  Cycle Sequencing •  Improved Sequencing Enzymes •  Improved Fluorescent Detection Schemes

1986

•  Next Generation Sequencing • Improved enzymes and chemistry • New image processing

Adapted from Eric Green, NIH; Adapted from Messing & Llaca, PNAS (1998)

1

15

150

50,000

25,000

1,500

200,000

50,000,000

Efficiency (bp/person/year)

15,000

100,000,000,000 2009

2

3

ori

Ap

BamHI

Promotore/operatore

TerminatoreShine-Dalgarno

Evoluzione dei vettori d’espressione

lacI

oriC

TAG

M13

Denaturazione del vettore Utilizzo di un fago helper Per M13 e produzione della Forma a singolo filamento

(1) Produzione dello stampo a filamento singolo

Utilizzo della PCR

(PCR asimmetrica

Utilizzo di fagemidi

DNA sequencing by Capillary Electrophoresis (CE)

Resa: circa 100.000 pb/corsa

6

L’Algoritmo Phred e l’identificazione delle basi

1)  I 4 tracciati fluorescenti sono fusi in un unico file

2)  il computer calcola il punto dove si aspetta di trovare un picco, basandosi sulla distanza media dei picchi in certe parti della sequenza. La lettera N viene assegnata quando non è possibile individuare una base esatta.

3)  calcola i valori massimi locali per ogni serie di tracciati e valuta se ogni picco cade nello spazio previsto

4)  Per stabilire se un picco è reale viene indicato un valore soglia di altezza minima e massima

Le probabilità di errore (P) del programma Phred sono calcolate in base a 4 parametri:

1)  la variazione di distanza del picco, al centro, in un intervallo di 7 picchi;

2)  il rapporto fra il più alto e il più basso picco non identificato in un dato intervallo;

3)  il rapporto fra il più alto e il più basso picco in un intervallo con tre picchi;

4)  il n° di basi tra quella in esame e quella più vicina non identificata

valore di affidabilità: Phred-score

Phred-score = - 10 log10 P ( probabilità di errore)

Phred-score = 10 P=1/10 Phred-score = 20 P=1/100 Phred-score = 30 P=1/1000 ok!

Al termine dell’analisi, Phred genera un file in cui ad ogni base è assegnato il corrispondente Phred-score

Determinazione della qualità delle sequenze: algoritmo Phred

9

L’Algoritmo Phred e l’identificazione delle basi

1)  I 4 tracciati fluorescenti sono fusi in un unico file

2)  il computer calcola il punto dove si aspetta di trovare un picco, basandosi sulla distanza media dei picchi in certe parti della sequenza. La lettera N viene assegnata quando non è possibile individuare una base esatta.

3)  calcola i valori massimi locali per ogni serie di tracciati e valuta se ogni picco cade nello spazio previsto

4)  Per stabilire se un picco è reale viene indicato un valore soglia di altezza minima e massima

Le probabilità di errore (P) del programma Phred sono calcolate in base a 4 parametri:

1)  la variazione di distanza del picco, al centro, in un intervallo di 7 picchi;

2)  il rapporto fra il più alto e il più basso picco non identificato in un dato intervallo;

3)  il rapporto fra il più alto e il più basso picco in un intervallo con tre picchi;

4)  il n° di basi tra quella in esame e quella più vicina non identificata

valore di affidabilità: Phred-score

Phred-score = - 10 log10 P ( probabilità di errore)

Phred-score = 10 P=1/10 Phred-score = 20 P=1/100 Phred-score = 30 P=1/1000 ok!

Al termine dell’analisi, Phred genera un file in cui ad ogni base è assegnato il corrispondente Phred-score

Determinazione della qualità delle sequenze: algoritmo Phred

12

L’Algoritmo Phred e l’identificazione delle basi

1)  I 4 tracciati fluorescenti sono fusi in un unico file

2)  il computer calcola il punto dove si aspetta di trovare un picco, basandosi sulla distanza media dei picchi in certe parti della sequenza. La lettera N viene assegnata quando non è possibile individuare una base esatta.

3)  calcola i valori massimi locali per ogni serie di tracciati e valuta se ogni picco cade nello spazio previsto

4)  Per stabilire se un picco è reale viene indicato un valore soglia di altezza minima e massima

Le probabilità di errore (P) del programma Phred sono calcolate in base a 4 parametri:

1)  la variazione di distanza del picco, al centro, in un intervallo di 7 picchi;

2)  il rapporto fra il più alto e il più basso picco non identificato in un dato intervallo;

3)  il rapporto fra il più alto e il più basso picco in un intervallo con tre picchi;

4)  il n° di basi tra quella in esame e quella più vicina non identificata

valore di affidabilità: Phred-score

Phred-score = - 10 log10 P ( probabilità di errore)

Phred-score = 10 P=1/10 Phred-score = 20 P=1/100 Phred-score = 30 P=1/1000 ok!

Al termine dell’analisi, Phred genera un file in cui ad ogni base è assegnato il corrispondente Phred-score

Determinazione della qualità delle sequenze: algoritmo Phred

15

Next-gen sequencers

read length

base

s pe

r mac

hine

run

10 bp 1,000 bp 100 bp

1 Gb

100 Mb

10 Mb

10 Gb

AB/SOLiDv3, Illumina/GAII short-read sequencers

ABI capillary sequencer

454 GS FLX pyrosequencer

(100-500 Mb in 100-400 bp reads, 0.5-1M reads, 5-10 hours)

(10+Gb in 50-100 bp reads, >100M reads, 4-8 days)

1 Mb

(0.04-0.08 Mb in 450-800 bp reads, 96 reads, 1-3 hours)

100 Gb

From John McPherson, OICR

16

Pyrosequencing - Solid Phase

Ronaghi M. Pyrosequencing sheds light on DNA sequencing. Genome Res 2001

17

Pyrosequencing - Liquid Phase

Ronaghi M. Pyrosequencing sheds light on DNA sequencing. Genome Res 2001

18

Pyrogram

Ronaghi M. Pyrosequencing sheds light on DNA sequencing. Genome Res 2001

454 LifeSciences Sequencer

http://www.roche-applied-science.com/publications/multimedia/genome_sequencer/flx_multimedia/wbt.htm

http://www.genomesequencing.info/videos-illumina-solexa-sequencing-%5B77r5p8IBwJk%5D.cfm

21

http://media.invitrogen.com.edgesuite.net/ab/applications-technologies/solid/SOLiD_video_final.html

23

Sanger (old-gen) Sequencing

Now-Gen Sequencing

Whole Genome

Human (early drafts), model organisms, bacteria, viruses and mitochondria (chloroplast), low coverage

New human (!), individual genome, 1,000 normal, 25,000 cancer matched control pairs, rare-samples

RNA cDNA clones, ESTs, Full Length Insert cDNAs, other RNAs

RNA-Seq: Digitization of transcriptome, alternative splicing events, miRNA

Communities Environmental sampling, 16S RNA populations, ocean sampling,

Human microbiome, deep environmental sequencing, Bar-Seq

Other Epigenome, rearrangements, ChIP-Seq

APPLICAZIONI DELLE TECNICHE DI SEQUENZIAMENTO

Elenco dei siti che contengono informazioni sul Progetto Genoma Umano e sui frammenti di DNA sequenziati.

25

Sequenziamento: Applicazioni in ambito biomedico

Sequenziamento di genomi umani individuali a scopo preventivo o farmacoterapeutico.

Analisi dettagliata delle mutazioni presenti in cloni cancerosi

Associazione Genotipo-Fenotipo Profilo di espressione genica complessivo in vitro e in

situ a tutti gli stadi di sviluppo di un organismo multicellulare

Diversità Microbica (studi metagenomici) Eteroplasmia Mitocondriale

26

DNA from X tumor samples

PCR amplification with Y primer pairs Pooled with equal concentration

Pool PCR products

454 sequencing

SNP/Indel Detection Using ssahaSNP and BreakPointRead Reads with G12 mutation in KRAS Reads with 15 bp deletion in EGFR

454-based Mutation Detection

27

Solexa Approach to Exon Sequencing

Elute

gDNA Exon 1 Exon 2 Exon 3 Exon 4 Exon 5

Fragment and hybridize to Solexa capture array

454 Sequencing

Analyze

Exon sequences

Courtesy of R.A. Gibbs

28 Pink: 1 mutation Red: 2 mutations

Sam

ples

*Indels included

GBM (Glioblastoma multiforme): Somatic mutations

TP53

RB

1

PTE

N

PLA

G1

PD

GFR

A

ME

T

MD

M4

LRR

N2

KIT

FGFR

1

FBX

W7

EG

FR

CY

P27

B1

CH

IC2

CD

KN

2B

CD

KN

2A

CD

K6

CD

K4

BM

PR

1A

AS

XL1

(Shared 20 genes, 84 tumors; orthogonal validation pending)

Studio del trascrittoma e ricerca di splicing alternativi

Può essere usato per il sequenziamento massivo del trascrittoma, da cui dedurre la frequenza delle sequenze e quindi gli splicing alternativi

30

Analisi Metagenomica: una autostrada per la conoscenza di batteri che non sopravvivono in coltura.

Sequenziamento del tratto nucleotidico delle immunoglobuline (Ig) relativo al riarrangiamento della regione variabile CDR3, specifica di ogni clone tumorale: - da utilizzare nell’analisi in neoplasie linfoidi di tipo B; - per il monitoraggio della malattia minima residua; - come base per la produzione di vaccini anti-idiotipici paziente-specifici.

Software allinea sequenza con WT

Rileva Mutazioni

Accesso a Banca Dati

Singole o combinazioni di mutazioni in grado di dare resistenza ai farmaci

HIV

Monitoring Changes in Genomic DNA

•  Identify mutations •  Examine genomic instability such as in certain

cancers and tumors (gene amplifications, translocations, deletions)

•  Identify polymorphisms (SNPs) •  Diagnosis: chips have been designed to detect

mutations in p53, HIV, and the breast cancer gene BRCA-1

•  Analizzare gli elementi che controllano l’espressione genica

Applications in Drug Discovery

•  Drug Discovery –  Identify appropriate molecular targets for therapeutic intervention

(small molecule / proteins) –  Monitor changes in gene expression in response to drug treatments

(up / down regulation) –  Analyze patient populations (SNPs) and response

•  Targeted Drug Treatment –  Pharmacogenomics: individualized treatments –  Choosing drugs with the least probable side effects