PEC1 solucion - PEC PDF

Title	PEC1 solucion - PEC
Course	Fundamentos físicos de la informática
Institution	Universitat Oberta de Catalunya
Pages	10
File Size	1.3 MB
File Type	PDF
Total Downloads	545
Total Views	660

Preview

CLICK TO PREVIEW PDF

Summary

Description

Herramientas informáticas para la bioinformática Enrique Blanco García y Guerau Fernández Isern

PEC1. Análisis bioinformático con el terminal Presentación y objetivos

Análisis con el terminal de los catálogos de genes producidos por el consorcio RefSeq, así como de las anotaciones funcionales generadas en el marco del proyecto Gene Ontology. Conversión de ficheros de texto para ser visualizados en otras aplicaciones.

Fecha y formato de entrega SOLUCIÓN Criterios de corrección

Ejercicio 1 – 30% Ejercicio 2 – 30% Ejercicio 3 – 40%

PRESENTACIÓN En este ejercicio se pretende poner en contacto al estudiante con tres casos prácticos en los que deberá necesariamente utilizar los conocimientos adquiridos estas primeras semanas del curso. El nivel de dificultad teórico del diseño de las soluciones no es excesivamente elevado pues se pretende especialmente que el estudiante se concentre en descubrir todas las posibilidades de este entorno de investigación. OBJETIVOS Poner en práctica los conocimientos adquiridos sobre el manejo del terminal de Linux en varios escenarios biológicos reales y preparar al estudiante para diseñar pequeños protocolos de anotación automática. FORMATO El informe final, como máximo, debe tener un tamaño de 20 páginas. Puede emplearse un apéndice para añadir el resto de informaciones. Es preciso incluir en la primera página del informe el nombre y apellidos del estudiante. Este documento debe contener todos los comandos del terminal empleados para obtener cualquier solución. La solución de esta PEC1 debe entregarse en formato PDF o Word (pueden adjuntarse aparte ficheros adicionales si fuera necesario).

1

Ejercicio 1 – Descripción de los catálogos de genes (30%) Estos son los ficheros que nos hemos descargado para proceder con el ejercicio. Recordad que continuamente se introducen mejoras en estos ficheros, lo que provoca pequeños cambios en las anotaciones finales.

Trabajaremos paso a paso sobre el fichero del catálogo de los genes humanos. Si así lo deseais podeis descomprimir previamente cada fichero o trabajar directamente con el fichero comprimido. Si no se dice lo contrario, el resto de especies poseen un formato de fichero similar y las mismas instrucciones son directamente aplicables 1. Número de cromosomas distintos: columna 3, evitar las formas “_alt” y “_random” que suelen contener regiones cuyo ensamblado no es definitivo.

2. Número de genes distintos: columna 13, usar uniq

2

3. Número de tránscritos distintos: columna 2, usar uniq (evitar NM repetidos)

4. Número de tránscritos codificantes: contar los tránscritos NM

5. Número de tránscritos no codificantes: contar los tránscritos NR

6. Número de tránscritos por cada gen (en promedio): uniq –c para contar el número de veces que cada gen aparece en el fichero

3

7. Número de exones por tránscrito (en promedio): columna 9

8. Número de nucleótidos por tránscrito (en promedio): columnas 5 y 6

Esta es la tabla final con los datos recopilados de todas las especies: Genoma

1

2

3

4

5

6

7

8

H. sapiens (hg38)

24

26585

50673

39362

11311

2.20196

9.17669

52774.2

M. musculus (mm10)

21

24453

34631

29770

4861

1.45896

9.28218

47055.2

D. rerio (danRer10)

25

14800

15231

14798

433

1.06473

8.94473

26509.7

7

16727

33420

30264

3156

2.117

5.2624

9318.97

D. melanogaster (dm6)

De estos datos se desprende, en líneas generales, que la complejidad de un organismo es proporcional, en el número de genes conocidos, pero por encima de otras consideraciones, por la complejidad de estos, en términos de número de exones y de longitud total. La cantidad de formas alternativas y el catálogo de genes no codificantes también es relevante pero probablemente no es tan determinante actualmente porque todavía hoy en día se descubren nuevos tránscritos alternativos de cada especie. El sesgo introducido por el distinto conocimiento de cada especie se observa, por ejemplo, en el elevado número de tránscritos totales que se han anotado en el caso de la mosca de la fruta.

4

Ejercicio 2 – Anotación funcional de los genes (30%) Primero, vamos a seleccionar uno de los códigos de GO disponibles para cada una de las categorías que se nos solicitan en el enunciado. Esta es una elección arbitraria, estas son algunas posibilidades: •

¿Cuántos genes están catalogados como factores de transcripción?

Elegiremos “GO:0003700 transcription factor activity”. •

¿Cuántos genes participan en la vía de señalización JNK?

Podemos utilizar la definición más genérica: “GO:0007254 JNK cascade”. •

¿Cuántos genes participan en el splicing de los genes?

Escogemos nuevamente un término general: “GO:0008380

5

RNA splicing”.

•

¿Cuántos genes de desarrollo contiene cada genoma?

El estudio sobre el desarrollo de los organismos es un campo fundamental de la investigación en biología básica. Aquí, podemos escoger la opción que nos resulte más interesante de todas las disponibles en este listado de funciones (p.e. “GO:0001654 eye development”). A continuación, debemos identificar en cada fichero de asociación el número de genes que poseen cada término de GO seleccionado anteriormente. Es relevante filtrar líneas pertenecientes al mismo gen, dado que, por mútiples razones, cada gen puede aparecer en varias ocasiones. Trabajaremos con el fichero de asociaciones para el genoma humano para ejemplificar el funcionamiento de los comandos. Inicialmente, descartaremos la cabecera de líneas informativas, separaremos por el carácter tabulador y, finalmente, extraeremos la columna 3 con el nombre del gen de aquellas líneas que poseen dicho código de GO. •

“GO:0003700 transcription factor activity”.

•

“GO:0007254 JNK cascade”.

•

“GO:0008380 RNA splicing”.

6

•

“GO:0001654 eye development”.

Aquí tenemos para el primer término de GO (transcription factor activity) los resultados en las otras tres especies (ratón, pez cebra y mosca de la fruta):

Ejercicio 3 – Predicción computacional de genes (40%) Una vez hemos generado el fichero ejecutable de geneid en la carpeta bin/, ejecutamos la opción –h para ver los distintos modos de funcionamiento:

7

Para realizar la predicción desde la línea de comandos debemos ejecutarlo: % bin/geneid -P param/human3iso.param secuencia.fa

Aquí teneis una breve descripción de los campos de la predicción de geneid: http://genome.crg.es/software/geneid/docs/chapter4/formats_html/geneid.html La predicción contiene un único gen en la hebra +, con 7 exones (6 internos y uno terminal). En este caso, el programa no es capaz de identificar el exón inicial del gen, bien porque la secuencia está fragmentada o bien porque el exón es relativamente corto y es incapaz de lograrlo. Para visualizar la predicción en UCSC debemos averiguar primero en qué región del genoma está ubicada la secuencia completa y después, adaptar las coordenadas de la predicción a esta localización. Empleando la herramienta BLAT del navegador genómico UCSC, podemos saber la localización en el genoma de esta secuencia (hg38): http://genome.ucsc.edu/cgi-bin/hgBlat?command=start

Presionamos submit y entonces obtenemos el siguiente listado:

8

El primer hit es el más probable (incluye toda la secuencia): está ubicado entre las posiciones 45,011,534 y 45,016,088 del cromosoma 1. Si presionamos en el enlace browser, descubrimos que ya existe un gen en esa posición. Fundamentalmente, toda la ventana gráfica comprende nuestra secuencia de trabajo y la información se muestra en forma de pistas, donde los exones son representados con cajas. En consecuencia, la pista RefSeq muestra dos tránscritos del mismo gen humano UROD. El distinto grosor de las cajas indica si un exon pertenece a una región que codifica una proteína o no. De todas formas, nuestro proposito en este ejercicio es actuar como si no se conociera qué genes existen en esta secuencia.

Nuestro objetivo será, por tanto, trasladar las coordenadas de las predicciones del programa geneid (cada línea es un exón ubicado de forma relativa dentro de la secuencia) hacia el sistema de coordenadas del navegador (relativo a la región del cromosoma 1 que vemos aquí). El fichero de texto tabulado que vamos a generar para cargarlo en el navegador de UCSC debe respetar el formato BED, con una organización de la información en este modo:

(opcionalmente la cuarta columna puede contener un identificador)

En pocas palabras, será suficiente con extraer las 7 líneas de la predicción que contienen los exones (mediante la combinación de comandos grep que os resulte mas cómoda) y posteriormente, a las dos columnas con las coordenadas, sumarle la posición inicial de la secuencia: 45,011,534.

Podemos guardar el resultado en un fichero o directamente incorporarlo mediante copia y pega al navegador genómico con el botón Add custom tracks. Si el formato es el correcto (texto separado con tabulaciones), nuestra pista será integrada en el sistema con el resto de pistas:

9

Ahora, basta con presionar go para volver al genoma y buscar esa región (por el nombre del gen UROD o por las coordenadas de nuestra pista) para acceder a la visualización. Los botones de zoom out/in nos ayudarán a centrar la vista en el gen si fuera necesario:

Estas predicciones encajan aceptablemente con los exones conocidos del gen (p.e. el segundo exon de la predicción es sensiblemente más largo). En la zona inicial del gen (pista RefSeq), no obstante, podemos estudiar los exones que no fueron correctamente identificados por el programa geneid.

10...