Title | Bioinformàtica pràctiques 2 |
---|---|
Author | Álvaro FG |
Course | Bioinformática |
Institution | Universitat Autònoma de Barcelona |
Pages | 20 |
File Size | 1.8 MB |
File Type | |
Total Downloads | 38 |
Total Views | 130 |
Download Bioinformàtica pràctiques 2 PDF
Álvaro FG Clase II Coverage: Me indica cuanto de la secuencia target me cubre la query human [primary organism] AND HBB [gene name] El grupo Gene, es una base de datos formado en el NCBI donde hay solo los genes respresentativos preferiblemente no usar esta via Aun haciendo una búsqueda avanzada me han salido muchos resultados. Base de datos primarias científicos envían secuencias redundancia de las bases de datos (redundadancia = misma secuencia /secuencia repetida ); debido a que hay diversos científicos de diversos países han investigado la misma proteína Han creado un dominio en el NCBI llamada RefSeq secuencia de la proteína de referencia (de la Hb hay muchos genes, pero solo metemos 1 secuencia en esta base) PASO 1)Buscar los códigos de acceso el de la versión ( NP_000549.1 Hb) Blast Es Heuristico (está hecho para que vaya rápido, perdiendo especificidad y exactitud) Alineamientos locales El Blast compara con todas las secuencias que hay metidas allí NCBI home Blast Debajo hay programas para hacer alineamientos Global Alignment Puedo entrar el código de identificación solo me entenderá el código si estoy en el NCBI Descargar la secuencia Copiar /pegar en Fasta
Álvaro FG
Si pongo FASTA (txt) me evito copiar algo que no quiero
Copio la secuencia con el >
SI COMPARO PROTEINA, VOY A LA REGION PROTEIN No cambiar parámetros
Álvaro FG
Me da el resultado en DOT PLOT
Cada diagonal son regiones de similitud
Más abajo, veo el resultado comparado
Álvaro FG
Estas 2 secuencias son idénticas (142/142 ) No aparecen GAPS Me aparece un score: 733
NO podemos volver atrás con la flecha tenemos que ir a Edit anb Resubmit
Álvaro FG
HBA1 + HBB
Álvaro FG
Vemos que son parecidas Hay gaps (RECUEDA que las diagonales indican regiones coinciden)
Álvaro FG Cooderdenas de los aa por separado S es posición 53 en una cadena ; N es la posición 58 en la cadena 2 N TERMINAL está en la izquierda En proteínas lo importante no es la identidad, sino la similitud Aminoácidos fisicoquímicamente parecidos mascados como + posiciones similares (60% porcentaje de posiciones similares en ese alineamiento) 100-60= 40 NO similares Importante los + ya incluyen los idénticos, es decir que dentro del 60% tengo ya el 40 % Score=273 GAPS hay penalización Un alineamiento global donde hay 2 posibles recorridos (2 alineamientos diferentes) puede ser que haya score diferentes 149 = tamaño del alineamiento
Similitud/Homología Hay que decir que las 2 proteínas se parecen en un 60 % de similitud % de homología es de un valor … NO!!! La homología NO presenta valor, es un concepto. Hay que hablar de similitud Homología = ancestro común
Blast Comparamos una secuencia con toda la base de deatos
Álvaro FG
Puedo modificar paramentros en ALGORITM parameters
Álvaro FG
Al ser alineamiento local, no empieza en el aa 1, sino en el 4 Tengo el valor de 2e -38 Hay 2 scores, S i S` el 114 y (286)
Álvaro FG
AAN0486.1 Puedo obtener informacion
Estoy en una proteína; este vínculo me lleva a la secuencia nucleotídica CDS región codificante; IMPORTANTE a la hora de alinear secuencias !!!
Álvaro FG
Puedo guardar SOLO la región codificante
Álvaro FG Escherichia coli
Tengo la sp A y quiero encontrar la proteína ortologa en el una sp B
Álvaro FG
Para hacer un blast tengo que escoger contra que base de datos hago la búsqueda
Álvaro FG
Hemos tenido un gran éxito
La 1ª secuencia es ella misma Resultados ordenados por el score de mayor score a menor score mira el valor de E ¡! No es un buen resultado pq quiero ver alineamientos con Pseudomonas y me sale el de E.coli. Solución? Filtro información al inicio del todo (antes de correr el blast). Le puedo indicar que me haga la búsqueda en la región donde hay pseudomonas
Álvaro FG
Pongo Pseudomonas aeruginosa para acotar la búsqueda. Podemos trabajar con los genomas de referencia para acotar (porque hay MUCHOS GENOMA DE P. aeruginosa)
Álvaro FG
He puesto P. aeruginosa PAO1 SOLO BUSCARE EN LA PAO1. Al lado tengo una pestaña que me dice que excluya este grupo en la búsqueda (es lo contrario que estoy hyaciendo ahora, pero en el futuro puede servir)
Álvaro FG Resultado
Me sale que no hay ninguna secuencia. Pero no es correcto.
Álvaro FG
Cambiar el wordsize a 3. Así aumentará la sensibilidad del programa, pero nos saldrán más falsos positivos. Hemos cortado la secuencia query en pedacitos más pequeños.
No son resultados muy buenos (color azul). El color negro seguramente es falso positivo.
Álvaro FG Hemos encontrado un ortologo? QUIZÁS. No podemos saberlo hasta que no miremos el valor de E.
Los valores de E son casi rozando lo bueno. Si veo el nombre que le ha puesto el autor, veo que es de MIaC (el mismo que el que estoy buscando). Esto ya indica algo; segurmante lo habrá puesto por homología.
Álvaro FG Miro la secuencia alineada.
La cepa PAO1 es tan popular que han secuenciado los genomas de todas las cepas PAO1 que se han encontrado en el mundo hay 8 cepas de PAO. Esto lo vemos en el see 1 more; see 6 more MULTISPECIES tienen secuencias WP...