Bioinformàtica pràctiques 2 PDF

Title	Bioinformàtica pràctiques 2
Author	Álvaro FG
Course	Bioinformática
Institution	Universitat Autònoma de Barcelona
Pages	20
File Size	1.8 MB
File Type	PDF
Total Downloads	38
Total Views	130

Preview

CLICK TO PREVIEW PDF

Summary

Download Bioinformàtica pràctiques 2 PDF

Description

Álvaro FG Clase II Coverage: Me indica cuanto de la secuencia target me cubre la query human [primary organism] AND HBB [gene name] El grupo Gene, es una base de datos formado en el NCBI donde hay solo los genes respresentativos  preferiblemente no usar esta via Aun haciendo una búsqueda avanzada me han salido muchos resultados. Base de datos primarias  científicos envían secuencias  redundancia de las bases de datos (redundadancia = misma secuencia /secuencia repetida ); debido a que hay diversos científicos de diversos países han investigado la misma proteína Han creado un dominio en el NCBI llamada RefSeq  secuencia de la proteína de referencia (de la Hb hay muchos genes, pero solo metemos 1 secuencia en esta base) PASO 1)Buscar los códigos de acceso  el de la versión ( NP_000549.1 Hb) Blast  Es Heuristico (está hecho para que vaya rápido, perdiendo especificidad y exactitud)  Alineamientos locales  El Blast compara con todas las secuencias que hay metidas allí NCBI home  Blast Debajo hay programas para hacer alineamientos  Global Alignment  Puedo entrar el código de identificación  solo me entenderá el código si estoy en el NCBI  Descargar la secuencia  Copiar /pegar en Fasta

Álvaro FG

Si pongo FASTA (txt)  me evito copiar algo que no quiero

Copio la secuencia con el >

SI COMPARO PROTEINA, VOY A LA REGION PROTEIN No cambiar parámetros

Álvaro FG

Me da el resultado en DOT PLOT

Cada diagonal son regiones de similitud

Más abajo, veo el resultado comparado

Álvaro FG

Estas 2 secuencias son idénticas (142/142 ) No aparecen GAPS Me aparece un score: 733

NO podemos volver atrás con la flecha  tenemos que ir a Edit anb Resubmit

Álvaro FG

HBA1 + HBB

Álvaro FG

Vemos que son parecidas Hay gaps (RECUEDA que las diagonales indican regiones coinciden)

Álvaro FG Cooderdenas de los aa por separado  S es posición 53 en una cadena ; N es la posición 58 en la cadena 2 N TERMINAL está en la izquierda En proteínas lo importante no es la identidad, sino la similitud Aminoácidos fisicoquímicamente parecidos mascados como +  posiciones similares (60%  porcentaje de posiciones similares en ese alineamiento)  100-60= 40 NO similares Importante  los + ya incluyen los idénticos, es decir que dentro del 60% tengo ya el 40 % Score=273  GAPS hay penalización Un alineamiento global donde hay 2 posibles recorridos (2 alineamientos diferentes)  puede ser que haya score diferentes 149 = tamaño del alineamiento

Similitud/Homología Hay que decir que las 2 proteínas se parecen en un 60 % de similitud % de homología es de un valor … NO!!! La homología NO presenta valor, es un concepto. Hay que hablar de similitud  Homología = ancestro común

Blast Comparamos una secuencia con toda la base de deatos

Álvaro FG

Puedo modificar paramentros en ALGORITM parameters

Álvaro FG

Al ser alineamiento local, no empieza en el aa 1, sino en el 4 Tengo el valor de 2e -38 Hay 2 scores, S i S`  el 114 y (286)

Álvaro FG

AAN0486.1 Puedo obtener informacion

Estoy en una proteína; este vínculo me lleva a la secuencia nucleotídica CDS  región codificante; IMPORTANTE a la hora de alinear secuencias !!!

Álvaro FG

Puedo guardar SOLO la región codificante

Álvaro FG Escherichia coli

Tengo la sp A y quiero encontrar la proteína ortologa en el una sp B

Álvaro FG

Para hacer un blast tengo que escoger contra que base de datos hago la búsqueda

Álvaro FG

Hemos tenido un gran éxito

La 1ª secuencia es ella misma Resultados ordenados por el score  de mayor score a menor score  mira el valor de E ¡! No es un buen resultado pq quiero ver alineamientos con Pseudomonas y me sale el de E.coli. Solución? Filtro información al inicio del todo (antes de correr el blast). Le puedo indicar que me haga la búsqueda en la región donde hay pseudomonas

Álvaro FG

Pongo Pseudomonas aeruginosa para acotar la búsqueda. Podemos trabajar con los genomas de referencia para acotar (porque hay MUCHOS GENOMA DE P. aeruginosa)

Álvaro FG

He puesto P. aeruginosa PAO1  SOLO BUSCARE EN LA PAO1. Al lado tengo una pestaña que me dice que excluya este grupo en la búsqueda (es lo contrario que estoy hyaciendo ahora, pero en el futuro puede servir)

Álvaro FG Resultado

Me sale que no hay ninguna secuencia. Pero no es correcto.

Álvaro FG

Cambiar el wordsize a 3. Así aumentará la sensibilidad del programa, pero nos saldrán más falsos positivos. Hemos cortado la secuencia query en pedacitos más pequeños.

No son resultados muy buenos (color azul). El color negro seguramente es falso positivo.

Álvaro FG Hemos encontrado un ortologo? QUIZÁS. No podemos saberlo hasta que no miremos el valor de E.

Los valores de E son casi rozando lo bueno. Si veo el nombre que le ha puesto el autor, veo que es de MIaC (el mismo que el que estoy buscando).  Esto ya indica algo; segurmante lo habrá puesto por homología.

Álvaro FG Miro la secuencia alineada.

La cepa PAO1 es tan popular que han secuenciado los genomas de todas las cepas PAO1 que se han encontrado en el mundo  hay 8 cepas de PAO. Esto lo vemos en el see 1 more; see 6 more MULTISPECIES  tienen secuencias WP...