TEMA 3 – FORMATOS DE LAS SECUENCIAS PDF

Title	TEMA 3 – FORMATOS DE LAS SECUENCIAS
Course	Bioinformática
Institution	Universitat Autònoma de Barcelona
Pages	8
File Size	912.9 KB
File Type	PDF
Total Downloads	37
Total Views	152

Preview

CLICK TO PREVIEW PDF

Summary

Download TEMA 3 – FORMATOS DE LAS SECUENCIAS PDF

Description

Bioinformática – Grado de Genética

Alba Ibáñez Galera

TEMA 3 – FORMATOS DE LAS SECUENCIAS Extracción de secuencias de bases de datos primarias GenBank http://www.ncbi.nlm.nih.gov/nuccore Si hacemos la búsqueda, veremos que búsqueda hemos realizado. Podemos aplicar filtros, y se nos van añadiendo las etiquetas del NCBI. Tenemos diferentes resultados según en qué apartado. También podemos saber cuántas secuencias hay, no en total, sino según el organismo del cual provienen. O también podemos hacer una búsqueda avanzada; la información de la izquierda variará en función de la BBDD que hayamos escogido.

Cada secuencia empieza con un checkbox: podemos clicar las especies que nos interesan. Si clicamos en el enlace, podemos abrirlo en archivo, copiarlo… Si lo abrimos en archivo, las podemos ordenar como queramos.

Si clicamos en uno de los resultados, veremos una página como esta. Veremos el código de acceso, el identificador único.

Bioinformática – Grado de Genética

Alba Ibáñez Galera

Extracción de secuencias de manea automatizada Con el módulo Bio::DB::GenBank de BioPerl podemos descargar secuencias de GenBank http://search.cpan.org/~cjfields/BioPerl1.6.901/Bio/DB/GenBank.pm. Deberemos crear un objeto (escalar) para acceder a la base de datos. Es programación orientada a objetos. Si queremos descargar 1000 secuencias, crearemos un bucle con una matriz donde estén todos los códigos de acceso. Además, el módulo Bio::DB::Query::GenBank http://search.cpan.org/~cjfields/BioPerl1.6.901/Bio/DB/Query/GenBank.pm nos permite realizar consultas en GenBank. Nos permite hacer búsquedas que nos devuelve identificadores. Luego con el de GenBank obtendremos la información de los identificadores. Si por ejemplo queremos obtener secuencias, la BDD será ‘nucleotide’. Tenemos el objeto de la búsqueda y el de GenBank. Luego obtendremos un nuevo objeto con la consulta. -

Antes de la flecha obtenemos el objeto que nos permite llamar a una función. Detrás de la flecha tenemos el objeto de la consulta, donde va el resultado de la búsqueda.

En cada resultado, el objeto de la secuencia va cambiando. Dentro del bucle podremos acceder a la información siempre que usemos la función correcta. ENA http://www.ebi.ac.uk/ena Por ejemplo, realizamos una búsqueda, la misma que en el caso anterior: BCRA2. Nos salen los resultados para cada tipo: actualizaciones, secuencias… Nos centraremos en las secuencias de nucleótidos. Tenemos X resultados, pero por defecto nos muestra solo la primera secuencia, aunque podemos pedir que nos muestre las demás y una pequeña descripción. Podemos clicar sobre cualquiera y ya vemos la descripción sobre la propia secuencia y más información sobre ella (especie por ejemplo). El formato es más rico que en GenBank (fichero plano).

Podemos extraer la información en formato text, xml o fasta; podemos verlo en pantalla o descargarlo.

Bioinformática – Grado de Genética

Alba Ibáñez Galera

Dbfetch La herramienta Dbfetch del EMBL-EBI proporciona acceso a las entradas de diversas bases de datos mediante los identificadores. La podemos usar de varias maneras: -

A través de su Web interface http://www.ebi.ac.uk/Tools/dbfetch. Indicamos la BDD de la que queremos bajar la información y que datos descargar. Podemos escoger el formato y como obtener la información. Obtendremos el resultado en fichero plano, con toda la información que hayamos pedido.

-

Podemos automatizar la información y construir nosotros la propia URL. Ponemos la BDD de la que queremos sacar la información, el identificador, el formato, el estilo, y si queremos descargarlo o verlo. Por ejemplo: http://www.ebi.ac.uk/Tools/dbfetch/dbfetch?db=ena_sequence&id=DQ061113&format=default&style=def ault&Retrieve=Retrieve A través de los Web Services, que son un conjunto de programas o sistema de programario para dar un apoyo interoperable en entre diferentes máquinas a través de una red. También se puede definir como cualquier servicio disponible via web. Ejemplos de Web Services.: REST Web Service y SOAP Web Service. Un ordenador se conecta a un servidor que le devolverá un resultado. Hay dos tipos de acceso: o Ordenador sincrónico: pedimos la información ya nos devuelve el resultado. o Ordenador asincrónico: pedimos algo y lleva un tiempo a que se hagan unos análisis. Nos proporciona un identificador. A continuación el ordenador, con el identificador, irá preguntado cada cierto tiempo si ya se ha hecho el análisis o no. Cada vez que consultemos nos devolverá el status, y cuando ya ha acabado, le pasaremos el identificador y pediremos el resultado, no el status. Deberíamos vaciar el resultado una vez obtenemos los resultados.  200 OK  404  not found, no existe el identificador.

-

Bioinformática – Grado de Genética

Alba Ibáñez Galera

ENA REST web service: http://www.ebi.ac.uk/ena/browse/data-retrieval-rest. Como podemos usar este protocolo para el Dbfetch? Vamos construyendo la URL y nos va devolviendo la información.

Ejemplos: -

http://www.ebi.ac.uk/ena/data/view/DQ061113&display=text http://www.ebi.ac.uk/ena/data/view/DQ061113&display=xml http://www.ebi.ac.uk/ena/data/view/graphics/M17398

E-utilities del NCBI http://www.ncbi.nlm.nih.gov/books/NBK25501 En el NCBI también tenemos muchos web services. Cuando realizamos una consulta, lo hace un ordenador de forma muy rápida. Si creamos un programa con 10 identificadores, se bajaran los resultados de forma momentánea. Si lo hacemos en Perl, deberíamos poner en el bucle la función deep(3) para que el programa se espere 3 segundos entre cada consulta, porque si no saturaríamos NCBI y nos bloquearía la IP. En el NCBI les llaman E-utilities, no web services. Por ejemplo, encontramos el Efetch http://www.ncbi.nlm.nih.gov/books/NBK25499/, que nos enseña cómo construir URLs. Ejemplos: -

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nucleotide&id=AY123456&rettype=fasta&retmo de=text http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nucleotide&id=AY123456&rettype=gb&retmode =text

El módulo LWP::Simple de Perl permite descargar el código fuente de una página web (siempre desde el HTTP, si no, no funcionará). Es un módulo útil en minería de datos. La función ‘get’ nos devuelve todo el código fuente de una URL y lo guarda en una variable escalar. Dentro deberíamos buscar con las etiquetas que nos interese la información que queremos.

Bioinformática – Grado de Genética

Alba Ibáñez Galera

Formatos de secuencias Sencillos -

-

-

Plano o crudo (raw): Las secuencias siempre se guardan en fichero plano. Puede ser la secuencia y nada más, de una proteína o de DNA. Puede estar en una línea o en varias. Sólo un archivo por secuencia. FASTA (Pearson): El formato fasta tiene en la primera línea >nombre o identificador y en la siguiente línea ya la secuencia. Puede haber una o más secuencias. EMBL, del ENA: sólo sirve para DNA. Tenemos la línea ID, el número de acceso, una descripción y la secuencia (con espacios y números de posición nucleotídica  deberemos limpiarla o no según el programa). Sólo una secuencia por archivo.

-

GCG: sólo acepta una secuencia por archivo. Antes de la misma secuencia debemos poner el ID, número de acceso, descripción, y por último la secuencia (los números de posición nucleotídica van a la izquierda en vez de la derecha como en el formato EMBL).

-

GenBank y GenPept: formatos para DNA y proteínas respectivamente. Deberemos poner el locus con la descripción, definición, más información si se requiere y la secuencia. Toda la secuencia acabará con dos barras verticales. Así podemos separar entre diferentes secuencias. FASTQ: empieza con una @ y el identificador, a continuación la secuencia que hemos obtenido, luego una línea con una + y luego otra línea con las calidades (probabilidad de que sea un nucleótido u otro)  una secuencia ocupa 4 líneas. Cada carácter tiene un valor o decimal, al cual siempre se resta al valor 33, y luego según el resultado, tendremos una probabilidad u otro que hubiese un error. Por ejemplo: o 20  1/100 de probabilidad de que haya un error o 40  1/10000 de probabilidad de que haya un error

-

Bioinformática – Grado de Genética Múltiples En los formatos múltiples las secuencias están asociadas porque están alineadas. -

-

Clustal: tiene una cabecera. Tenemos las secuencias alineadas de 60 en 60 caracteres. Al final vemos que ha pasado con cada posición de las secuencias, si hay variación o no en cada posición. o *  todas las secuencias tienen un match (identidad completa). o :  se ha producido un cambio pero la sustitución está conservada. o .  Sustitución semiconservada o Si no vemos nada, no ha habido match: no hay homología o hay un gap. PIR (NBRF): las secuencias están alineadas pero primero tenemos una y luego otra. Empieza por > y a continuación P1 o Di (según si se trata de una secuencia proteica o de DNA); en la siguiente línea la descripción y luego ya la secuencia. Para acabar la secuencia hay un *.

-

Nexus: al principio tenemos una descripción con datos del programa. Luego los datos, el número de secuencias, el número de caracteres de la secuencia… Podemos tener toda la 1ª primera y luego toda la 2ª o que se encuentren alineadas directamente de 60 en 60 caracteres. Además, las secuencias acaban con un ;. Abajo hay cosas que haya tenido que especificar el programa.

-

Phylip: en la primera línea indicamos el número de secuencias y su longitud. Luego indicamos el ID de las secuencias, las primeras posiciones de las mismas…; luego el ID de la 2ª… Al final ya no hay identificadores, sino espacios en blanco, ya que sabemos que secuencia va arriba y cual va abajo.

Aparte de estos formatos hay otros que no hemos explicado: ASN.1, GDE, HTML, ABI, XML… ¿Por qué es importante conocer el formato? Tendremos un archivo o un conjunto de archivos con nuestra secuencia. Necesitaremos saber el formato en los que están escritos para poder usar nuestras secuencias iniciales con el programa (hay que saber si el programa y el formato de la secuencia son compatibles).

Alba Ibáñez Galera

Bioinformática – Grado de Genética

Alba Ibáñez Galera

Formatos con metainformación Algunos de estos los formatos que hemos visto tenían metainformación (información extra sobre la secuencia). Como gran ejemplo tenemos GenBank y GenPept, pero también EMBL, swiss (como EMBL pero para proteínas, prácticamente idéntico), GCG... Hay mucha información, casi todo es cabecera. En la cabecera tenemos: -

-

-

Información sobre los códigos de acceso: ID, longitud de la secuencia, tipo de molécula que es (lineal, RNA, DNA), organismo y fecha. Definición sobre la secuencia. Normalmente es lo que se pone en el formato FASTA. Acceso Versión: ID especificando la versión. Otras etiquetas. Información sobre el origen la secuencia. Por ejemplo, se ha secuenciado a partir de alguna muestra de cierto organismo. Indicamos el nombre de la especie y toda la clasificación taxonómica, desde el reino al género. Referencias: en que artículos se ha publicado esta secuencia en concreto. Bajo la cabecera: apartado de anotaciones. Origin: ID en la clasificación taxonómica, organismo… Nombre de la proteína y otra información.

Anotaciones Las podemos dividir en 3 partes: -

-

-

Características (rosa, izquierda) o Feature Key. Es una palabra clave que indica un grupo funcional. Por ejemplo: source, CDS, exon, gene, intron, mRNA, promoter… Para cada una de ellas tenemos diferente información a la derecha. Localización (azul). Ejemplos: o 467  indica la base exacta donde se encuentra la característica. o 1..40  indica el rango donde se encuentra la característica, incluyendo la base de inicio y de fin. o...