Appunti Bioinformatica e banche dati biologiche 2019-2020 PDF

Title Appunti Bioinformatica e banche dati biologiche 2019-2020
Author Lorenzo Panelatti
Course Bioinformatica e banche dati biologiche
Institution Università degli Studi di Verona
Pages 39
File Size 2.4 MB
File Type PDF
Total Downloads 71
Total Views 136

Summary

4S02701 è il codice della materia che studocu dice non esistere e invece esiste
Manca la parte di laboratorio poichè è piuttosto pratica...


Description

BIOINFORMATICA E BANCHE DATI BIOLOGICHE 2019-2020 SOMMARIO INTRODUZIONE ..................................................................................................................................... 4 Storia .................................................................................................................................................................... 4 Nuove tecnologie di sequenziamento ...................................................................................................... 4 Paradossi ................................................................................................................................................. 5

DATABASE DI DATI BIOLOGICI ................................................................................................................ 5 Flat-File ................................................................................................................................................................. 5 Indicizzazione ................................................................................................................................................. 5 Relazionali ............................................................................................................................................................ 5 Database Primario ................................................................................................................................................ 6 Database Secondario ............................................................................................................................................ 6 Esempi di database primari: .................................................................................................................................. 6 EMBL .............................................................................................................................................................. 6 GenBank......................................................................................................................................................... 7 RefSeq ............................................................................................................................................................ 7 UniProt........................................................................................................................................................... 7 PDB Protein Data Bank ................................................................................................................................... 8 Esempi di database secondari: .............................................................................................................................. 8 PFAM ............................................................................................................................................................. 8 PROSITE.......................................................................................................................................................... 8 InterPRO ........................................................................................................................................................ 8 Gene Ontology ............................................................................................................................................... 8 Genome Browser ........................................................................................................................................... 9 KEGG .............................................................................................................................................................. 9 Interrogazione delle Banche Dati................................................................................................................................ 9

AL ALLINEAMENTO LINEAMENTO TRA SEQUENZE ........................................................................................................... 10 Similarità e omologia ................................................................................................................................................ 10 Mutazioni puntiformi ............................................................................................................................. 10 Delezione............................................................................................................................................... 11 Inserzioni ............................................................................................................................................... 11 Inversioni ............................................................................................................................................... 11 Duplicazione genica ............................................................................................................................... 11 Allineamento ............................................................................................................................................................ 11 Dot Matrix ................................................................................................................................................................ 12

Bioinformatica e banche dati biologiche 2019-2020 | Lorenzo Panelatti Problema del rumore di fondo ................................................................................................................12 Misure di identità e similarità ...................................................................................................................................13 Matrici PAM ........................................................................................................................................................13 Costruzione delle matrici: ....................................................................................................................... 13 Matrice BLOSUM ................................................................................................................................................. 15 Differenza tra PAM e BLOSUM............................................................................................................................. 15 Algoritmi di allineamento Pair-Wise..........................................................................................................................15 Programmazione dinamica ..................................................................................................................... 16 Algoritmo di Needleman - Wunsch ................................................................................................................ 16 Algoritmo Smith – Waterman........................................................................................................................ 17 Metodi Euristici ...................................................................................................................................................18 FASTA............................................................................................................................................................ 18 Significatività Statistica..................................................................................................................................19 BLAST ..................................................................................................................................................................19 Significatività statistica ...........................................................................................................................19 Allineamenti multipli ................................................................................................................................................. 20 Metodi esatti ................................................................................................................................................20 Metodi progressivi ........................................................................................................................................20 ClustalW ................................................................................................................................................. 20 Metodi iterativi .............................................................................................................................................21 Metodi basati sulla Consistenza ....................................................................................................................21 Tcoffea ...................................................................................................................................................21 Sequenza consenso............................................................................................................................................. 23 Ricerca di pattern e motivi funzionali ........................................................................................................................23 Profili o matrici di peso ........................................................................................................................................ 24 PSI BLAST ................................................................................................................................................24 HMM ...................................................................................................................................................... 25

ALBERI FILOGENETICI ........................................................................................................................... 26 Evoluzione e Filogenesi Molecolare ........................................................................................................................... 26 Ipotesi dell’orologio molecolare ..........................................................................................................................27 Alberi filogenetici ......................................................................................................................................................27 Selezione delle sequenze di analisi ......................................................................................................................28 Metodi di costruzioni ........................................................................................................................................... 28 Modello di Jukes-Cantor .........................................................................................................................29 Metodi per costruire alberi in base alla Distanza ........................................................................................... 29 UPGMA...................................................................................................................................................29 Neighbor-joining ...........................................................................................................................................29 Massima Parsimonia...............................................................................................................................30 Massima Verosimiglianza........................................................................................................................30 Significatività degli alberi filogenetici ............................................................................................................30 Metodi per costruire alberi in base alle Sequenze ......................................................................................... 31

PREDIZIONE DELLA STRUTTURA DELLE PROTEINE ................................................................................. 31 Angoli Diedri Ф e ψ .............................................................................................................................................. 32 Struttura secondaria ............................................................................................................................................ 32 Le banche dati di proteine .........................................................................................................................................32 PDB ........................................................................................................................................................32 PFAM......................................................................................................................................................32 PROSITE ..................................................................................................................................................32 CATH ......................................................................................................................................................33

2

Bioinformatica e banche dati biologiche 2019-2020 | Lorenzo Panelatti Predizione della struttura secondaria ....................................................................................................................... 33 Metodi basati sul machine learning .................................................................................................................... 33 Reti neurali................................................................................................................................................... 34 PHD ....................................................................................................................................................... 34 PSIPRED ................................................................................................................................................. 35 JPRED3................................................................................................................................................... 35 Determinazione struttura terziaria ........................................................................................................................... 35 Allineamenti di strutture tridimensionali ............................................................................................................ 36 Predizione della struttura terziaria...................................................................................................................... 36 Metodi sperimentali .............................................................................................................................. 36 Metodi Atomistici basati su principi fisici ............................................................................................... 36 Metodi basati sull’Homology modeling .................................................................................................. 36 Annotazione Basata su similarità di sequenza ........................................................................................ 38 Fold Recognition .......................................................................................................................................... 38 Classi strutturali ..................................................................................................................................... 38

DOCKING MOLECOLARE ....................................................................................................................... 39 Applicazione del Docking .................................................................................................................................... 39

3

Bioinformatica e banche dati biologiche 2019-2020 | Lorenzo Panelatti 13/03/2020

INTRODUZIONE Nasce come esigenza per archiviare le sequenze prodotte e per poterle analizzare in seguito, mentre la seconda applicazione della bioinformatica consiste nell’analisi dei dati. Le stringhe di DNA possono essere rappresentate come semplici stringhe di testo. Questi dati vengono archiviati in banche dati specifiche quali GenBank, EMBL e DDBJ, le quali permettono una memorizzazione accurata dei dati ottenuti dai laboratori di tutto il mondo. L’analisi di questi dati è affidata alla computational biology, che permette di: -

Ricercare la similarità delle sequenze; Ricerca di geni nelle sequenze; Ricercare motivi funzionali nel DNA (Siti di Binding per fattori di trascrizione) e nelle proteine (domini); Analisi di genomi; Allineamento multiplo di sequenze e analisi filogenetica; Analisi di dati strutturali 3D di proteine; Analisi di espressione genica;

STORIA Database Margareth Dayhoff, raccolse in un atlante le sequenze di proteine secondo gruppi omologhe, che negli anni ’70 fu reso elettronico. Negli anni ’80 il laboratorio Europeo di Biologia Molecolare fonda EMBL-DataLibrary. Viene poi sviluppato GenBank negli usa e poi DDBJ in Giappone. Questi 3 database, che acquisiscono dati di sequenze primarie derivanti da tutto il mondo, per non avere contraddizioni tra banche dati hanno stipulato un accordo per sincronizzare i dati tra i 3 database, quindi una volta effettuata la ricerca su uno dei tre database non serve effettuarla sugli altri, infatti differiscono solo per il formato. Esistono anche banche dati specializzate, che differiscono dalle banche date primarie (quelle sopra citate) per i contenuti poiché oltre alla sequenza primaria acquisita dai vari laboratori, aggiungono ed elaborano anche informazioni aggiuntive. Fare ricerca in banca dati non è semplice, a causa della complessità di esse, per questo sono stati sviluppati sistemi di ricerca detti “retrival”. Due esempi sono: -

SRS, uno dei più utilizzati; Entrez, sviluppato al National Center of Biotecnology Information dell’NIH e gestisce l’accesso a GenBank;

Metodologie Computazionali Si tratta di osservare l’evoluzione degli algoritmi di confronto di sequenze. Negli anni ’70 è stato sviluppato l’algoritmo noto come Needlman e Wunsch, un algoritmo per ricercare il miglior allineamento globale di due sequenze. Nel ’71 viene sviluppato un tool per mettere in evidenza le regioni di similarità tra due sequenze, chiamato dot-plot. Nell’81 Smith e Watermann, è un algoritmo per la ricerca del miglior allineamento locale tra due sequenze. Nell’ ’85 viene pubblicato Fasta e nel ’90 Blast, 2 programmi tra i più utilizzati per la ricerca di similarità tra sequenze pair wise. Nel 1965 viene sviluppata la teoria dell’orologio molecolare, che consiste nel rapportare il numero di differenze tra due sequenze omologhe, è direttamente proporzionale al tempo di divergenza, il che permette di identificare il tempo necessario per la separazione tra due specie in base alla frequenza di mutazione della determinato organismo.

Nuove tecnologie di sequenziamento Dal 2010 sono presenti nuovi macchinari che permettono di diminuire tempi e costi di sequenziamento, aumentando il numero di basi possibili da sequenziare. Questa massiccia produzione di dati obbliga ad avere supporti informatici per l’analisi di dati molto importante. Con l’avvento dei nuovi sequenziatoti i costi sono stati abbattuti in maniera drastica, rendendoli maggiormente accessibile a una maggiore quantità di laboratori. La metagenomica, permette di sequenziare il materiale genetico di una intera comunità che vive in una determinata nicchia ecologica. Questo risulta utile poiché non si possono far crescere in laboratorio la maggior parte dei batteri, impedendo che vengano isolati e sequenziati. Grazie al sequenziamento dell’intera popolazione della nicchia, si riesce ad apprezzare la biodiversità che gli appartiene, e identificando sia i vari geni sia ad assegnare una identità tassonomica alla e specie in questione. 4

Bioinformatica e banche dati biologiche 2019-2020 | Lorenzo Panelatti Al giorno d’oggi si producono più dati di quanti se ne riescano ad analizzare, per questo la produzione di software molto efficienti e computer molto potenti. La ricerca genomica moderna si basa sempre più su metodi statistici, computazionali e biologici. La struttura ...


Similar Free PDFs