Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA...

35
History of DNA Sequencing Avery: Proposes DNA as ‘Genetic Material’ Watson & Crick: Double Helix Structure of DNA Holley: Sequences Yeast tRNA Ala 1870 1953 1940 1965 1970 1977 1980 1990 2002 Miescher: Discovers DNA Wu: Sequences λ Cohesive End DNA Sanger: Dideoxy Chain Termination Gilbert: Chemical Degradation Messing: M13 Cloning Hood et al.: Partial Automation Cycle Sequencing Improved Sequencing Enzymes Improved Fluorescent Detection Schemes 1986 Next Generation Sequencing Improved enzymes and chemistry New image processing Adapted from Eric Green, NIH; Adapted from Messing & Llaca, PNAS (1998) 1 15 150 50,000 25,000 1,500 200,000 50,000,000 Efficiency (bp/person/year) 15,000 100,000,000,000 2009

Transcript of Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA...

Page 1: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

History of DNA Sequencing

Avery: Proposes DNA as ‘Genetic Material’

Watson & Crick: Double Helix Structure of DNA

Holley: Sequences Yeast tRNAAla

1870

1953

1940

1965

1970

1977

1980

1990

2002

Miescher: Discovers DNA

Wu: Sequences λ Cohesive End DNA

Sanger: Dideoxy Chain Termination Gilbert: Chemical Degradation

Messing: M13 Cloning

Hood et al.: Partial Automation

•  Cycle Sequencing •  Improved Sequencing Enzymes •  Improved Fluorescent Detection Schemes

1986

•  Next Generation Sequencing • Improved enzymes and chemistry • New image processing

Adapted from Eric Green, NIH; Adapted from Messing & Llaca, PNAS (1998)

1

15

150

50,000

25,000

1,500

200,000

50,000,000

Efficiency (bp/person/year)

15,000

100,000,000,000 2009

Page 2: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

2

Page 3: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

3

ori

Ap

BamHI

Promotore/operatore

TerminatoreShine-Dalgarno

Evoluzione dei vettori d’espressione

lacI

oriC

TAG

M13

Denaturazione del vettore Utilizzo di un fago helper Per M13 e produzione della Forma a singolo filamento

(1) Produzione dello stampo a filamento singolo

Utilizzo della PCR

(PCR asimmetrica

Utilizzo di fagemidi

Page 4: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

DNA sequencing by Capillary Electrophoresis (CE)

Resa: circa 100.000 pb/corsa

Page 5: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per
Page 6: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

6

L’Algoritmo Phred e l’identificazione delle basi

1)  I 4 tracciati fluorescenti sono fusi in un unico file

2)  il computer calcola il punto dove si aspetta di trovare un picco, basandosi sulla distanza media dei picchi in certe parti della sequenza. La lettera N viene assegnata quando non è possibile individuare una base esatta.

3)  calcola i valori massimi locali per ogni serie di tracciati e valuta se ogni picco cade nello spazio previsto

4)  Per stabilire se un picco è reale viene indicato un valore soglia di altezza minima e massima

Page 7: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

Le probabilità di errore (P) del programma Phred sono calcolate in base a 4 parametri:

1)  la variazione di distanza del picco, al centro, in un intervallo di 7 picchi;

2)  il rapporto fra il più alto e il più basso picco non identificato in un dato intervallo;

3)  il rapporto fra il più alto e il più basso picco in un intervallo con tre picchi;

4)  il n° di basi tra quella in esame e quella più vicina non identificata

Page 8: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

valore di affidabilità: Phred-score

Phred-score = - 10 log10 P ( probabilità di errore)

Phred-score = 10 P=1/10 Phred-score = 20 P=1/100 Phred-score = 30 P=1/1000 ok!

Al termine dell’analisi, Phred genera un file in cui ad ogni base è assegnato il corrispondente Phred-score

Determinazione della qualità delle sequenze: algoritmo Phred

Page 9: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

9

L’Algoritmo Phred e l’identificazione delle basi

1)  I 4 tracciati fluorescenti sono fusi in un unico file

2)  il computer calcola il punto dove si aspetta di trovare un picco, basandosi sulla distanza media dei picchi in certe parti della sequenza. La lettera N viene assegnata quando non è possibile individuare una base esatta.

3)  calcola i valori massimi locali per ogni serie di tracciati e valuta se ogni picco cade nello spazio previsto

4)  Per stabilire se un picco è reale viene indicato un valore soglia di altezza minima e massima

Page 10: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

Le probabilità di errore (P) del programma Phred sono calcolate in base a 4 parametri:

1)  la variazione di distanza del picco, al centro, in un intervallo di 7 picchi;

2)  il rapporto fra il più alto e il più basso picco non identificato in un dato intervallo;

3)  il rapporto fra il più alto e il più basso picco in un intervallo con tre picchi;

4)  il n° di basi tra quella in esame e quella più vicina non identificata

Page 11: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

valore di affidabilità: Phred-score

Phred-score = - 10 log10 P ( probabilità di errore)

Phred-score = 10 P=1/10 Phred-score = 20 P=1/100 Phred-score = 30 P=1/1000 ok!

Al termine dell’analisi, Phred genera un file in cui ad ogni base è assegnato il corrispondente Phred-score

Determinazione della qualità delle sequenze: algoritmo Phred

Page 12: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

12

L’Algoritmo Phred e l’identificazione delle basi

1)  I 4 tracciati fluorescenti sono fusi in un unico file

2)  il computer calcola il punto dove si aspetta di trovare un picco, basandosi sulla distanza media dei picchi in certe parti della sequenza. La lettera N viene assegnata quando non è possibile individuare una base esatta.

3)  calcola i valori massimi locali per ogni serie di tracciati e valuta se ogni picco cade nello spazio previsto

4)  Per stabilire se un picco è reale viene indicato un valore soglia di altezza minima e massima

Page 13: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

Le probabilità di errore (P) del programma Phred sono calcolate in base a 4 parametri:

1)  la variazione di distanza del picco, al centro, in un intervallo di 7 picchi;

2)  il rapporto fra il più alto e il più basso picco non identificato in un dato intervallo;

3)  il rapporto fra il più alto e il più basso picco in un intervallo con tre picchi;

4)  il n° di basi tra quella in esame e quella più vicina non identificata

Page 14: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

valore di affidabilità: Phred-score

Phred-score = - 10 log10 P ( probabilità di errore)

Phred-score = 10 P=1/10 Phred-score = 20 P=1/100 Phred-score = 30 P=1/1000 ok!

Al termine dell’analisi, Phred genera un file in cui ad ogni base è assegnato il corrispondente Phred-score

Determinazione della qualità delle sequenze: algoritmo Phred

Page 15: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

15

Next-gen sequencers

read length

base

s pe

r mac

hine

run

10 bp 1,000 bp 100 bp

1 Gb

100 Mb

10 Mb

10 Gb

AB/SOLiDv3, Illumina/GAII short-read sequencers

ABI capillary sequencer

454 GS FLX pyrosequencer

(100-500 Mb in 100-400 bp reads, 0.5-1M reads, 5-10 hours)

(10+Gb in 50-100 bp reads, >100M reads, 4-8 days)

1 Mb

(0.04-0.08 Mb in 450-800 bp reads, 96 reads, 1-3 hours)

100 Gb

From John McPherson, OICR

Page 16: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

16

Pyrosequencing - Solid Phase

Ronaghi M. Pyrosequencing sheds light on DNA sequencing. Genome Res 2001

Page 17: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

17

Pyrosequencing - Liquid Phase

Ronaghi M. Pyrosequencing sheds light on DNA sequencing. Genome Res 2001

Page 18: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

18

Pyrogram

Ronaghi M. Pyrosequencing sheds light on DNA sequencing. Genome Res 2001

Page 19: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

454 LifeSciences Sequencer

http://www.roche-applied-science.com/publications/multimedia/genome_sequencer/flx_multimedia/wbt.htm

Page 20: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

http://www.genomesequencing.info/videos-illumina-solexa-sequencing-%5B77r5p8IBwJk%5D.cfm

Page 21: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

21

http://media.invitrogen.com.edgesuite.net/ab/applications-technologies/solid/SOLiD_video_final.html

Page 22: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per
Page 23: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

23

Sanger (old-gen) Sequencing

Now-Gen Sequencing

Whole Genome

Human (early drafts), model organisms, bacteria, viruses and mitochondria (chloroplast), low coverage

New human (!), individual genome, 1,000 normal, 25,000 cancer matched control pairs, rare-samples

RNA cDNA clones, ESTs, Full Length Insert cDNAs, other RNAs

RNA-Seq: Digitization of transcriptome, alternative splicing events, miRNA

Communities Environmental sampling, 16S RNA populations, ocean sampling,

Human microbiome, deep environmental sequencing, Bar-Seq

Other Epigenome, rearrangements, ChIP-Seq

APPLICAZIONI DELLE TECNICHE DI SEQUENZIAMENTO

Page 24: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

Elenco dei siti che contengono informazioni sul Progetto Genoma Umano e sui frammenti di DNA sequenziati.

Page 25: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

25

Sequenziamento: Applicazioni in ambito biomedico

Sequenziamento di genomi umani individuali a scopo preventivo o farmacoterapeutico.

Analisi dettagliata delle mutazioni presenti in cloni cancerosi

Associazione Genotipo-Fenotipo Profilo di espressione genica complessivo in vitro e in

situ a tutti gli stadi di sviluppo di un organismo multicellulare

Diversità Microbica (studi metagenomici) Eteroplasmia Mitocondriale

Page 26: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

26

DNA from X tumor samples

PCR amplification with Y primer pairs Pooled with equal concentration

Pool PCR products

454 sequencing

SNP/Indel Detection Using ssahaSNP and BreakPointRead Reads with G12 mutation in KRAS Reads with 15 bp deletion in EGFR

454-based Mutation Detection

Page 27: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

27

Solexa Approach to Exon Sequencing

Elute

gDNA Exon 1 Exon 2 Exon 3 Exon 4 Exon 5

Fragment and hybridize to Solexa capture array

454 Sequencing

Analyze

Exon sequences

Courtesy of R.A. Gibbs

Page 28: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

28 Pink: 1 mutation Red: 2 mutations

Sam

ples

*Indels included

GBM (Glioblastoma multiforme): Somatic mutations

TP53

RB

1

PTE

N

PLA

G1

PD

GFR

A

ME

T

MD

M4

LRR

N2

KIT

FGFR

1

FBX

W7

EG

FR

CY

P27

B1

CH

IC2

CD

KN

2B

CD

KN

2A

CD

K6

CD

K4

BM

PR

1A

AS

XL1

(Shared 20 genes, 84 tumors; orthogonal validation pending)

Page 29: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

Studio del trascrittoma e ricerca di splicing alternativi

Può essere usato per il sequenziamento massivo del trascrittoma, da cui dedurre la frequenza delle sequenze e quindi gli splicing alternativi

Page 30: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

30

Analisi Metagenomica: una autostrada per la conoscenza di batteri che non sopravvivono in coltura.

Page 31: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

Sequenziamento del tratto nucleotidico delle immunoglobuline (Ig) relativo al riarrangiamento della regione variabile CDR3, specifica di ogni clone tumorale: - da utilizzare nell’analisi in neoplasie linfoidi di tipo B; - per il monitoraggio della malattia minima residua; - come base per la produzione di vaccini anti-idiotipici paziente-specifici.

Page 32: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

Software allinea sequenza con WT

Rileva Mutazioni

Accesso a Banca Dati

Singole o combinazioni di mutazioni in grado di dare resistenza ai farmaci

HIV

Page 33: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per
Page 34: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

Monitoring Changes in Genomic DNA

•  Identify mutations •  Examine genomic instability such as in certain

cancers and tumors (gene amplifications, translocations, deletions)

•  Identify polymorphisms (SNPs) •  Diagnosis: chips have been designed to detect

mutations in p53, HIV, and the breast cancer gene BRCA-1

•  Analizzare gli elementi che controllano l’espressione genica

Page 35: Adapted from Eric Green, NIH; Adapted from Messing & Llaca ... · Umano e sui frammenti di DNA sequenziati. 25 Sequenziamento: Applicazioni in ambito biomedico ... - come base per

Applications in Drug Discovery

•  Drug Discovery –  Identify appropriate molecular targets for therapeutic intervention

(small molecule / proteins) –  Monitor changes in gene expression in response to drug treatments

(up / down regulation) –  Analyze patient populations (SNPs) and response

•  Targeted Drug Treatment –  Pharmacogenomics: individualized treatments –  Choosing drugs with the least probable side effects