12. La herramienta Blast PDF

Title	12. La herramienta Blast
Author	Alba Mosteiro
Course	Bioinformática
Institution	Universidad del País Vasco
Pages	10
File Size	622.6 KB
File Type	PDF
Total Downloads	35
Total Views	155

Preview

CLICK TO PREVIEW PDF

Summary

Bioinformática...

Description

Bioinformática – Semana 26

La herramienta BLAST: BLAST es la herramienta bioinformática más utilizada en todo el mundo. Compara una secuencia problema (query sequence) de nucleótidos o de proteínas con todas las secuencias de una BD de nucleótidos o de proteínas. Es la herramienta más importante de la bioinformática porque: 1. La comparación de secuencias permite obtener información sobre secuencias desconocidas. 2. Es un método rápido. 3. Es un método fiable, tanto por la solidez de su análisis estadístico, como por el grado de desarrollo del software. 4. Es un método flexible, que permite comparar secuencias en múltiples escenarios. 5. Es una herramienta consolidada y de uso generalizado, ya que cualquier persona con un ordenador conectado a Internet la puede utillizar. Se puede considerar como el “Google” de las secuencias. Como resultado de esta comparación, puede ocurrir que: 1. La secuencia problema coincida al 100% con una secuencia de la BD: la secuencia problema ya se conocía con anterioridad. 2. La secuencia problema coincida al 100% con parte de una secuencia de la BD: la secuencia problema es una subsecuencia de otra secuencia de la BD. 3. La secuencia problema sea similar a otra(s) secuencia(s) de la BD: las regiones de similitud pueden corresponder a dominios locales conservados con una función conocida no se encuentren parecidos: la secuencia problema puede corresponder a un nuevo gen. 4. La secuencia problema no se parezca a ninguna: la secuencia problema puede corresponder a un nuevo gen. A partir de los resultados de una búsqueda con BLAST se pueden inferir relaciones funcionales, estructurales o evolutivas entre dos secuencias y, de este modo, identificar nuevos miembros de una familia de genes o de proteínas. Además de encontrar secuencias idénticas o con similitud local, BLAST hace un alineamiento con la secuencia problema y calcula la significancia estadística de los resultados. Por ello, BLAST puede ser utilizado con diferentes objetivos, como: 1. Buscar especies: si secuencias un DNA de una especie desconocida, BLAST puede ayudarte a identificar la especie correcta o una especie homóloga. 2. Buscar dominios: si haces BLAST de una secuencia proteica (o secuencia nucleotídica traducida), la herramienta buscará dominios conocidos en la secuencia problema. 3. Buscar filogenia: puedes usar las páginas web de BLAST para generar un árbol filogenético del resultado. 4. Localizar la ubicación de una secuencia en el gDNA. Permite localizar en el genoma un oligo, un cDNA o un EST. También permite determinar la estructura de un gen (localizar los intrones, los exones y las regiones reguladoras). 5. Anotaciones: BLAST también puede ser utilizado para mapear anotaciones de un organismo a otro o para buscar genes comunes en dos especies relacionadas. Hay dos formas de utilizar BLAST:

1

Bioinformática – Semana 26 1. Conectados a Internet (on-line): además de la página del NCBI hay muchas otras páginas que ofrecen esta herramienta. En estas condiciones, corremos el peligro de que alguien pueda acceder a los resultados de nuestra búsqueda. 2. Sin conexión a Internet: cuando interesa mantener la confidencialidad de los resultados, lo mejor es descargar el programa e instalarlo en un ordenador personal. Además del programa también hay que descargar las BD, las instrucciones de instalación y el manual que describe los comandos que hay que introducir para que el programa ejecute las diversas funciones. Cómo se realiza una búsqueda con BLAST:

La selección de los parámetros condiciona notablemente los resultados de la búsqueda, por lo que, si no se tiene claro, se recomienda utilizar los parámetros que aparecen por defecto. Después del encabezamiento, los resultados se presentan en tres bloques: un gráfico, una tabla con las secuencias encontradas y una sucesión de alineamientos. En el gráfico, pinchando sobre una de las líneas coloreadas aparece información sobre la secuencia correspondiente. La longitud de la línea indica la región de similitud local y el color la puntuación del alineamiento. En la tabla de secuencias se hallan la puntuación y otros parámetros de alineamiento. El valor E: El valor esperado (valor E) puede ser cambio para limitar el número de hits a los más significativos. Cuanto menor sea el valor, mejor es el hit. Este valor es dependiente de la longitud de la secuencia problema y el tamaño de la base de datos. Por ejemplo, un alineamiento que obtiene un valor E de 0,05 significa que la probabilidad de que ocurra al azar es de 5/100. Secuencias idénticas cortas suelen tener un valor E alto y se cuentan como hits falsos positivos. Esto normalmente se observa en búsquedas de regiones cortas de primers, regiones de 2

Bioinformática – Semana 26 dominios pequeños, etc. El límite predeterminado para el valor E en la página web BLAST es 10. Aumentar este valor generará más hits. Algunas reglas generales que pueden usarse como guía, pero deben considerarse con sentido común: 1. Valor E < 10e-100: secuencias idénticas. Se obtendrán alineamientos largos. 2. 10e-100 < Valor E < 10e-50: secuencias casi idénticas. Gran parte de la proteína problema se corresponde con la base de datos. 3. 10e-50 < Valor E < 10e-10: secuencias estrechamente relacionadas. Podría ser por un dominio común o similar. 4. 10e-6 < Valor E < 1: podría ser un verdadero homólogo. 5. Valor E > 1: las proteínas probablemente no estén relacionadas. 6. Valor E > 10: los hits son probablemente basura, a no ser que se trate de una secuencia problema muy corta.

BLAST en el NCBI: Existen diversas variantes del programa BLAST. Es importante saber cuál es la que mejor se adapta a los objetivos de la búsqueda. Para ello, hay que tener en cuenta 3 factores: (1) la naturaleza de la secuencia problema, (2) el objetivo de la búsqueda y (3) la BD donde se va a llevar a cabo la búsqueda. En la siguiente Tabla se muestran las distintas versiones del programa BLAST: Programa BD

Secuencia problema

Usos típicos

BLASTN

Nucleótidos

Nucleótidos

Localización de oligonucleótidos, ADNc, y productos de PCR en un genoma; escrutinio de elementos repetitivos; detección de una misma secuencia en múltiples especies; anotación del ADN genómico; ensamblaje de las lecturas obtenidas en proyectos de secuenciación; eliminación de las secuencias pertenecientes a un vector

BLASTP

Proteínas

Proteínas

Identificación de regiones comunes o de dominios compartidos entre las proteínas; recolección de proteínas relacionadas para hacer análisis filogenéticos

BLASTX

Proteínas

Nucleótidos Encontrar en el ADN genómico los genes que codifican traducidos a proteínas; determinar si un ADNc corresponde a una proteína conocida proteínas (×6)

TBLASTN

Nucleótidos Proteínas traducidos a proteínas (×6)

Identificación de transcritos que sean parecidos a una proteína determinada y que puedan pertenecer a múltiples organismos; localización de una proteína en el ADN genómico

TBLASTX

Nucleótidos traducidos a proteínas (×6)

Predicción de genes en múltiples especies a nivel de transcrito o a nivel de genoma; identificación de genes que no han sido detectados por métodos tradicionales o cuyos productos aún no están almacenados en las bases de datos de proteínas

Nucleótidos traducidos a proteínas (×6)

3

Bioinformática – Semana 26

Hay tres buenas razones para comparar secuencias a nivel de proteína en vez de a nivel de nucleótidos: 1. El código genético está degenerado: secuencias de nucleótidos aparentemente muy distintas pueden codificar la misma proteína. 2. Las secuencias de proteínas contienen más información (4,32 bits por residuo) que las secuencias de nucleótidos (2 bits por residuo). Esto implica que con secuencias proteicas se pueden obtener resultados significativos con alineamientos más cortos. 3. Las matrices de sustitución (PAM, BLOSUM) utilizadas para puntuar alineamientos de proteínas son mucho más sofisticadas que las utilizadas para alinear nucleótidos y reflejan mucho mejor la similitud biológica entre dos secuencias. Lógicamente, las secuencias no codificantes sólo se pueden comparar a nivel de nucleótidos. BLASTN: Compara una secuencia de nucleótidos con una BD que también contiene secuencias de nucleótidos. Se utiliza para: 1. Localizar oligonucleótidos, ADNc, EST, productos de PCR o elementos repetitivos en un genoma. 2. Identificación de secuencias de ADN (de qué organismo proceden) y anotación del ADN genómico (determinar su función). 3. Localizar secuencias homólogas en especies distintas (genes de ARN o de proteínas, regiones reguladoras, etc.) 4. Generación de contigs a partir de las lecturas más cortas obtenidas durante el proceso de secuenciación. 5. Eliminar subsecuencias pertenecientes a vectores. 6. Detección de contaminaciones. Este tipo de búsqueda no es el más apropiado para encontrar regiones que codifican proteínas homólogas en otros organismos. En este caso es mejor hacer búsquedas a nivel de proteína directamente con BLASTP o traducir la secuencia problema, la BD, o ambas, según las seis pautas de lectura posibles. Son tres las razones que explican esta circunstancia: (1) la degeneración del código genético, (2) las secuencias proteicas albergan más información que las secuencias de nucleótidos y (3) las matrices de sustitución utilizadas para el alineamiento de secuencias de proteínas son más sofisticadas que las utilizadas para alinear secuencias de nucleótidos. Dentro del programa BLASTN se pueden seleccionar varios algoritmos:

4

Bioinformática – Semana 26 1. MEGABLAST: diseñado para identificar secuencias idénticas (100% de residuos idénticos) o muy parecidas (> 95% de residuos idénticos) a la secuencia problema. Es muy rápido porque utiliza un tamaño de palabra (el parámetro w) de 28 residuos. 2. MEGABLAST discontinuo: diseñado para encontrar secuencias similares en organismos distintos. Utiliza w = 11 y, en estas mismas condiciones, es más sensible y eficaz que BLASTN porque ignora algunas bases (la tercera de cada codón) y porque al buscar las palabras de la secuencia problema en las BD no es necesario que ambas sean idénticas, sino que permite la presencia de discontinuidades (mismatch). 3. BLASTN: Es más sensible que el anterior porque utiliza por defecto un parámetro w = 11, pero es más lento. Está diseñado para encontrar secuencias similares en organismos distintos. Si es preciso, se puede buscar con w = 7, lo que aumenta la sensibilidad pero a costa de reducir notablemente la velocidad. Cuando se introduce una secuencia problema para hacer búsquedas en una BD, BLASTN utiliza las dos hebras de la molécula de ADN. La hebra plus es la que se ha introducido en formato FASTA y la hebra minus es la complementaria inversa. Cuando la región de similitud local está situada en la misma hebra, al representar el alineamiento las dos secuencias (la secuencia problema y la secuencia de la BD) están señaladas como "plus" y las coordenadas de las dos secuencias avanzan en sentido creciente, tal y como se ve en la siguiente figura:

Cuando la hebra minus de la secuencia problema es similar a una secuencia de la BD, el alineamiento representa la hebra plus de la secuencia problema y la hebra minus de la BD. Por tanto, las coordenadas de la secuencia de la BD están colocadas en sentido decreciente, tal y como se ve en la siguiente figura:

5

Bioinformática – Semana 26 BLASTP: Este programa compara una secuencia problema de aminoácidos con una BD de secuencias proteicas. Se utiliza para: 1. Identificar una secuencia proteica: en este caso, el parecido es del 100% y el programa genera un alineamiento global. Para que la identificación sea inequívoca puede ser una buena idea desactivar el filtro de las regiones de poca complejidad (low complexity filter) 2. Encontrar secuencias parecidas en una BD de secuencias proteicas: si el parecido es grande, puede tratarse de proteínas homólogas y es bastante probable que las anotaciones de las secuencias homólogas también sean válidas para la secuencia problema. BLASTP permite reunir una colección de secuencias homólogas procedentes de distintos organismos para hacer alineamientos múltiples de secuencias o análisis filogenéticos. 3. Localizar regiones de similitud: en este caso el parecido se limita a una región de las secuencias y el programa genera alineamientos locales que pueden corresponder a dominios conservados. Dentro del programa BLASTP se pueden seleccionar varios algoritmos: 1. BLASTP compara una secuencia proteica con una BD de proteínas 2. PSI-BLAST utiliza los resultados de BLASTP para construir una matriz de puntuación específica de la posición (PSSM) y, a continuación, localizar secuencias con un parentesco remoto 3. PHI-BLAST busca proteínas que contienen un patrón especificado por el usuario y que, además del patrón, presentan otras regiones de similitud con la secuencia problema 4. DELTA-BLAST construye una PSSM basándose en una búsqueda en la BD de dominios conservados y, a continuación, hace una búsqueda en una BD de proteínas BLASTX: Cuando se obtiene una nueva secuencia de nucleótidos lo primero que hay que hacer es determinar si codifica una proteína. Para ello, se utiliza BLASTX. La secuencia problema es la secuencia de nucleótidos recién obtenida. El programa traduce esta secuencia en sus seis posibles marcos de lectura (tres marcos de lecturas por hebra) y compara las 6 secuencias con una BD de proteínas. BLASTX es un programa lento que se utiliza cuando se sospecha que la secuencia problema codifica una proteína. Resulta especialmente apropiado para anotar secuencias EST que pueden contener errores de secuenciación y cuya pauta de lectura se desconoce. Obviamente, si la secuencia problema corresponde a una región no codificante del DNA, BLASTX no encontrará nada. BLASTX se utiliza para: 1. Localizar genes que codifican proteínas en el gDNA. 2. Determinar si un transcrito (convertido en cDNA o en EST) codifica alguna proteína conocida. 3. Definir las regiones codificantes y no codificantes de un mRNA. 4. Anotar EST.

6

Bioinformática – Semana 26 A la hora de interpretar los alineamientos generados por BLASTX hay que tener en cuenta la hebra (plus o minus), la pauta de lectura (frame) y las coordenadas numéricas. En la hebra plus, las pautas de lectura se denominan +1, +2 y +3. En la hebra minus, las pautas de lectura se denominan -1, -2 y -3.

Las coordenadas de la secuencia problema aumentan de tres en tres (parte a de la figura superior) porque cada aminoácido corresponde a tres nucleótidos. Si el alineamiento se produce en la hebra minus de la secuencia problema las coordenadas de la secuencia problema aparecen en orden descendente (parte b de la figura superior, frame = −1). TBLASTN: TBLASTN se utiliza cuando BLASTP no ha encontrado nada porque la secuencia problema no aparece en las BD de proteínas. Sin embargo, es posible que las BD de EST o de proyectos genómicos en curso (que carecen de anotaciones) incluyan algún transcrito que pueda codificar esa proteína o una similar. TBLASTN compara una secuencia proteica con una BD de nucléotidos. Para ello, primero tiene que traducir todas las secuencias de nucleótidos de la BD en sus 6 marcos de lectura y generar una BD temporal de proteínas. A continuación, se lleva a cabo la comparación de la secuencia problema con las secuencias de la BD traducida. TBLASTN es un programa que se utiliza para: 1. Ubicar una proteína en el gDNA y determinar la estructura del gen correspondiente. Se identifica el DNA codificante (los exones que se traducen a proteína), el DNA no codificante (los intrones) y posibles elementos reguladores de la expresión del gen. 2. Hacer búsquedas en BD de EST para localizar los transcritos que corresponden a la secuencia problema o a una secuencia parecida. Con frecuencia, los EST no están anotados y las proteínas que codifican no aparecen en las BD de proteínas. 3. Hay que tener cuidado con los resultados obtenidos con TBLASTN porque una buena parte de las secuencias traducidas de las BD no son proteínas que existan en la naturaleza sino meras traducciones conceptuales sin sentido biológico.

7

Bioinformática – Semana 26 TBLASTX: Compara una secuencia de nucleótidos con una BD de nucleótidos, pero primero traduce la secuencia problema y las secuencias de la BD en los seis marcos de lectura posibles. Se aprovecha del hecho de que las secuencias codificantes evolucionan más lentamente que el DNA adyacente. Las búsquedas con TBLASTX son más sensibles que con BLASTP, pero requieren un esfuerzo computacional mucho mayor y sólo deberían utilizarse como último recurso y, preferentemente, sin conexión a Internet. TBLASTX se utiliza para: 1. Detectar nuevos genes en el gDNA (de la misma especie o de especies distintas), especialmente los que resultan difíciles de encontrar por los métodos tradicionales (genes dentro de otros genes, procesamientos alternativos o genes con bajos niveles de expresión). 2. Descubrir transcritos (en forma de cDNA o de EST) cuyos productos aún no están incluidos en las BD de proteínas. Los alineamientos generados por TBLASTX son difíciles de interpretar porque hay que tener en cuenta la hebra, la pauta de lectura y las coordenadas numéricas, tanto en la secuencia problema como en la secuencia de la BD.

PSI-BLAST (PSI = Position Specific Iterative): PSI-BLAST es el programa más sensible de toda la gama BLAST: es capaz de encontrar proteínas con un parentesco remoto (homólogas), cuyas secuencias conservan un grado de similitud muy reducido.

8

Bioinformática – Semana 26 Si una búsqueda con BLASTP no ha conseguido encontrar proteínas similares o si muchos de los resultados son dudosos ("hypothetical protein", "predicted" o "similar to..."), podemos utilizar PSI-BLAST. Este programa es el más sensible de todos y es muy útil a la hora de (1) encontrar proteínas con parentesco remoto, (2) identificar nuevos miembros de una familia de proteínas, o (3*) descubrir proteínas con secuencias muy divergentes pero con una estructura tridimensional parecida. (3*) A lo largo de la evolución, es posible que la estructura 3D de las proteínas se conserve a pesar de que la similitud de las proteínas se conserve a pesar de que la similitud de las secuencias se haya deteriorado considerablemente. PSI-BLAT es capaz de detectar este tipo de relaciones buscando en las BD y, de este modo, encontrar nuevos miembros de una familia de proteínas que, a pesar de tener secuencias muy distintas, conservan la estructura 3D y, por tanto, la función. Antes esto sólo se podía hacer comparando directamente las estructuras 3D. PSI-BLAST se ejecuta en varias etapas: 1. La primera etapa consiste en una búsqueda BLASTP normal utilizando una matriz de sustitución como BLOSUM62 (que tiene en cuenta la presencia de huecos). Busca secuencias parecidas a la tuya. Insertas un valor E, y te selecciona aquellas secuencias que tienen un valor E menor. 2. En la segunda etapa, se seleccionan las secuencias con un valor E menor que cierto umbral (por defecto E = 0,005, pero se puede cambiar) y se hace un alineamiento múltiple (AMS) con el que se construye un perfil, también denominado una matriz de puntuación específica de la posición (PSSM, position-specific scoring matrix). Esta PSSM asigna una puntuación distinta a cada posición del AMS: a los residuos conservados en una determinada posición se les asigna una puntuación muy alta, mientras que, en esa misma posición, a los demás residuos se les asigna una puntuación muy negativa. En las regiones no conservadas se asigna una puntuación cercana a cero a todos los residuos. Este perfil también contempla la presencia de huecos (gaps) en el alineamiento. a. El perfil tiene 23 columnas: 20 aminoácidos + aminoácido desconocido + Go + Ge (penalizaciones por gap). El perfil tiene tantas filas como columnas tiene el AMS local. El perfil es un fiel reflejo de las secuencias de partida. El problema de las pseudocuentas: si algún aminoácido no aparece en el AMS inicial...