Tema 6. Blast - Apuntes 6 PDF

Title	Tema 6. Blast - Apuntes 6
Course	Bioinformática
Institution	Universidad Politécnica de Madrid
Pages	7
File Size	456.4 KB
File Type	PDF
Total Downloads	12
Total Views	129

Preview

CLICK TO PREVIEW PDF

Summary

Profesor Pablo Rodríguez Palenzuela...

Description

Tema 6. BLAST ! I. ¿Qué es Blast? !

BLAST (Basic Local Alignment Search Tool) es un programa informático de alineamiento de secuencias de tipo local, ya sea de ADN, ARN o de proteínas. El programa es capaz de comparar una secuencia problema (también denominada en la literatura secuencia query) contra una gran cantidad de secuencias que se encuentren en una base de datos. El algoritmo encuentra las secuencias de la base de datos que tienen mayor parecido a la secuencia problema. Es importante mencionar que BLAST usa un algoritmo heurístico, por lo que no nos puede garantizar que ha encontrado la solución correcta, el resultado óptimo. Sin embargo, BLAST es capaz de calcular la significación de sus resultados en un tiempo aceptable, por lo que nos provee de un parámetro para juzgar los resultados que se obtienen.

!

Normalmente el BLAST es usado para encontrar probables genes homólogos. Por lo general, cuando una nueva secuencia es obtenida, se usa el BLAST para compararla con otras secuencias que han sido previamente caracterizadas, para así poder inferir su función. El BLAST es la herramienta más usada para la anotación y predicción funcional de genes o secuencias proteicas. Muchas variantes han sido creadas para resolver algunos problemas específicos de búsqueda.

!! II.PROCEDIMIENTO !

BLAST

➟ Por tanto,consiste en la búsqueda de una secuencia en una base de datos. Es la herramienta principal en Bioinformática.

! !

➟ Para ejecutarse,!BLAST requiere dos secuencias como entrada

!

- query: secuencia problema de proteínas que introducimos - subject: resultado de la búsqueda BLAST encontrará subsecuencias en la consulta que son similares a subsecuencias de la base de datos. En el uso típico, la secuencia de consulta query es mucho más pequeña que el banco de datos, por ejemplo, la consulta puede ser de mil nucleótidos mientras que la base de datos es de varios miles de millones de nucleótidos.

! ➟ BLAST busca alineamientos de secuencias de alto puntaje entre la secuencia de consulta y las secuencias en el banco de datos.

! ! ! ! ! ! ! ! ! ! !

1

Algoritmos!

!

Los algoritmos de programación dinámica son demasiado lentos para hacer búsquedas en bases de datos, y esta solo es eficiente para comparar dos secuencias de tamaño medio.

! !

El algoritmo BLAST puede ser dividido conceptualmente en tres etapas:

!

1. Introduce la secuencia query y la ubica en los ejes, teniendo en cuenta que siempre va a ser más corta. BLAST!busca coincidencias exactas de una pequeña longitud fija W entre la secuencia query y las secuencias de la base de datos. 2. Descompone la secuencia query en palabras de una determinada longitud, y comprueba si están en la diagonal de la base de datos.

!

!

BLAST trata de!extender la coincidencia en ambas direcciones, comenzando por la semilla. El proceso de alineamiento sin huecos, extiende la coincidencia de la semilla inicial de longitud W en cada dirección en un intento de estimular el puntaje de alineación. Inserciones y eliminaciones no son consideradas durante esta etapa. Definiremos el tamaño en K-tuplas. Identificamos los puntos de similitud, y cuando se hallan próximos a la diagonal, deduce que hay un posible giro.

!

Si es encontrado un alineamiento sin huecos de alto puntaje, la base de datos de secuencias pasa a la tercera etapa.

!

3. Expresión a partir de los segmentos de la diagonal de cierta similitud y la extensión de matchs Cuando halla los puntos prometedores, comienza una alineación con gaps aplicando los métodos de programación dinámica. Los alineamientos relevantes estadísticamente son mostrados al usuario.

Entorno T

K-tupla W

2

¿Para qué sirve BLAST?!

!

En cuanto al DNA, los criterios de coincidencia se harán en %, mientras que para las proteínas se emplea el sistema de score (BLOSUM62). Por ejemplo, si nos fijamos en el valor 13 de la tabla anterior, Blast no buscará un valor exacto, sino alguno cercano a un entorno definido (T=12), sobre el cual introducirá una cruz. Por encima del valor del entorno, se considerará que existe algo similar y se reflejará con un punto. Asimismo definiremos el score máximo (17).

!

Presenta diversas aplicaciones:! • Determinar homólogos de una proteína dada • Determinar si una proteína dada está presente en un organismo • Determinar la función de una secuencia desconocida • Descubrir nuevos genes • Encontrar nuevas variantes de proteínas conocidas

! !

Blast se puede realizar de diferentes maneras, implementado por un lenguaje de programación.

- Blast es un servidor externo adecuado para realizar un número pequeño de búsquedas. - Netblast: permite hacer un lote de secuencias o “batch”(centenas de secuencias), es decir, aplicar Blast a un número muy alto de secuencias de forma automática mediante un servidor remoto que nos generará un archivo de resultados. Por ello, dada esta gran longitud, se requerirá de un programa que nos interprete tal cantidad de datos. - Blast es una máquina local que permite automatizar los procesos y que requiere instalar un programa más una DB con un ordenador adecuado.

! Cómo hacer una búsqueda con BLAST (en remoto)! !Introducimos la secuencia query: copy and paste, file, accession number

- Después debemos elegir la base de datos con la que vamos a comparar nuestra secuencia. - En el programa, definiremos las variables que nos interesen, como puede ser el formato de salida, aunque normalmente dejaremos los parámetros por defecto.

! ! ! ! 3

Elección de base de datos ▻ Por defecto emplearemos “NR” (nonredundant), que contiene todas las secuencias codificantes de todos los sistemas empleados donde están eliminados por redundancia las posible secuencias repetidas. ▻ Month: posee secuencias introducidas recientemente. ▻ Swissprot: base de datos de proteínas controlado, más reducido. ▻ Pub: recoge proteínas de las que se conoce su estructura tridimensional. ▻ pat: secuencias con patente ▻ env - nr: secuencias ambientales de proyectos de metagenómica (secuenciación completa).

Los distintos programas de BLAST!

!

▻ Blastp Es el más básico y más eficiente. Es un BLAST "con huecos" (o gaps) que compara una secuencia de aminoácidos contra una base de datos del mismo tipo. Usualmente usa la matriz de sustitución BLOSUM o PAM para realizar los alineamientos, aunque puede usar una matriz definida por el usuario.

!

▻ Blastn Es de los más comúnmente usados. Compara una secuencia de nucleótidos contra una DB que contenga también secuencias nucleotídicas. Es un programa más lento dado que existen el triple de nucleótidos que de aminóacidos y además debe estudiar dos cadenas. Obtendremos asimismo 3 veces más de datos.

!

▻ Blastx Este programa usa como entrada una secuencia de nucléotidos. Traduce la secuencia en sus seis posibles marcos o mallas de lectura (tres marcos de lecturas por hebra) y compara estas secuencias traducidas contra una base de datos de proteínas. Se usa cuando se tiene sospecha de que la secuencia de entrada codifica para una proteína pero no se sabe exactamente cuál es su producto (fragmentos de DNA del que se desconoce prácticamente toda la información).

!

▻ tblastn Compara una secuencia proteica con una base de datos de nucléotidos. Para realizar esto traduce todas las secuencias de nucleótidos en sus seis marcos de lectura. Se usa cuando se tiene una proteína, y el análisis con Blastp no ha sido exitoso. Se debe tener cuidado con los resultados de este Blast, porque una buena cantidad de las secuencias traducidas no son proteínas que existan en la naturaleza. Se parte de la base de datos para buscar una determinada proteína.

!

▻ tblasx Es la combinación del tBlastn con el BlastX. Compara una secuencia de nucleótidos contra una base de datos de nucleótidos, pero primero traduce tanto la secuencia problema como la base de datos a proteínas, usando los seis marcos de lectura posibles; es decir, hace 6 mallas de lectura para una secuencia query y otras 6 para la DB, y compara entre ambas. La mayoría de los servidores públicos no aceptan usar esta opción en combinación con las bases de mayor tamaño debido a que la búsqueda es muy intensiva computacionalmente (36 veces más potente). 4

Ajuste de parámetros!

!

Ajustar los parámetros nos proporciona una mayor flexibilidad a la hora de alinear secuencias. Entre los más comunes tenemos: 1. Nº máximo de secuencias: en query como máximo 100 hits (los 100 alineamientos de mayor % de las secuencias que inspeccionemos). 2. Si el query es muy corto, podemos hacer una restricción, ajustar, como forma de seguridad. 3. Umbral: nº E-avalue, significación, estadística, de los resultados. 4. Tamaño de palabra: la matriz score debe ser proporcional al grado de similitud que esperamos encontrar. 5. Matriz: por ejemplo, para secuencias de proteínas por defecto emplearemos BLOSUM62 (a mayor blosum, más cercano). 6. Penalización por gaps 7. Ajustes de composición: cuando hay descomposición en el query, por ejemplo, un valor de G+C de 90% y un valor de A+T del 10%, la probabilidad por azar de estos resultados cambia, es muy baja. Por ello hemos de modificar los parámetros. ➟ E-value de un alineamiento encontrado en una base de datos es el número esperado de secuencias que por azar dan un score igual o mayor al obtenido. Por tanto,para evaluar si una determinada alineación constituye evidencia de homología, es muy útil saber qué tan fuerte es una alineación que se puede esperar de pura casualidad.

! !

! ! ! !

Es una estima de la significación de similitud. E = 1 ⤑ el nivel de similitud no se debe al azar (Obs = Esp) E ≥ 1 ⤑ no es una probabilidad

A mayor número de secuencias, mayor probabilidad de encontrar la secuencia problema. Por ello, hay que multiplicar P por el tamaño de la base de datos.

!

!

Aunque tengamos un E-value significativo, por ejemplo E ≤ 0’02, nunca podremos afirmar que hemos dado con la secuencia correcta de función similar a la nuestra.

5

Filtros!

! !-

Se aplican filtros para evitar el efecto de: Regiones de baja complejidad (filtros SEG y DUST):

!

Por ejemplo, ante :

!-

Superabundancia de uno o dos aminoácidos.

-Alto contenido de G+C o A+T

!

Rompen la estadística: habrá regiones que van a complementarse en gran número pero que realmente no representan la homología entre las secuencias (desde un punto de vista biológico).

! !

!

- Secuencias repetidas (filtros específicos)

!

! !

Por ejemplo las secuencias Alu en humanos. De esta forma, si hay secuencias repetidas y nuestra query se parece en parte a una de estas Alu, aparecerán falsos positivos. Para desenmascararlos, emplearemos filtros específicos.

Podemos hablar (entre tantos otros) de dos tipos de filtros: de tipo duro, donde las zonas de baja complejidad no se tienen en cuenta, y de enmascaramiento, en el cual en una primera parte la secuencia se tapa, y después en el alineamiento sí se considera la secuencia repetida.

! ! ! ! ! ! ! 6

Más especializaciones!

!

7...