Apuntes 6 - Resumen Biología Molecular de Sistemas PDF

Title Apuntes 6 - Resumen Biología Molecular de Sistemas
Course Biología Molecular de Sistemas
Institution Universidad de Córdoba España
Pages 14
File Size 1 MB
File Type PDF
Total Downloads 68
Total Views 141

Summary

resumen ...


Description

GENÓMICA: Primera parte Método Sanger de secuenciación El método dideoxi de secuenciación ideado por Sanger está basado en el empleo de didesoxinucleótidos que carecen de uno de los grupos hidroxilo, de manera que cuando uno de estos nucleótidos se incorpora a una cadena de ADN en crecimiento, está cadena no puede continuar elongándose ya que la ADN polimerasa necesita un extremo 3’ OH para añadir el siguiente nucleótido y el desoxinucleótido incorporado carece de este grupo hidroxilo. Se aísla y se clona el ADN que se desea secuenciar, este ADN se desnaturaliza y se emplea una sola hélice en la secuenciación. En la secuenciación se utiliza un cebador o “primer” marcado radiactivamente que suministra el extremo 3’OH que necesita la ADN polimerasa. Se preparan cuatro tubos de reacción, cada uno con el ADN molde de hélice sencilla que se desea secuenciar, con ADN polimerasa, con el cebador marcado y con los cuatro nucleótidos trifosfato. A cada tubo se le añade una pequeña proporción de un didesoxinucleótido trifosfato, un tubo con ddATP, otro con ddTTP, el tercero con ddGTP y el cuarto con ddCTP. En cada uno de estos tubos se producirán cadenas de ADN de distintas longitudes, terminando todas en el lugar en el que se incorporó el dideoxi correspondiente añadido al tubo.

Posteriormente, estas piezas de ADN se separan mediante electroforesis vertical en geles de acrilamida. Las piezas más pequeñas migran más rápidamente que las grandes y la secuencia se puede leer directamente sobre el gel de acrilamida. En el siguiente esquema se indican los resultados que obtendríamos al realizar la autorradiografía del gel de secuenciación:

https://www.youtube.com/watch?v=uqZapiC_Yog 1

Electroforesis capilar Se trata de una técnica de separación en la que las especies se separan en función de su carga y su tamaño, por sus diferentes ratios de migración en un campo eléctrico.

En el capilar, se observa que al encender el campo eléctrico, y al insertar la muestra, las partículas del compuesto se separarán, y las más pequeñas (que viajarán más rápido) saldrán las primeras, mientras que las más grandes saldrán las últimas. Dependiendo de la cantidad, el pico dará una señal más o menos alta.

https://www.youtube.com/watch?v=wStV1rFjHOo 2

Así pues, se puede emplear el método Sanger y la electroforesis capilar:

Historia de la secuenciación ABI Prism 3700: http://www.ietltd.com/pdf_datasheets/Prism%203700%20Data%20Sheet.pdf

3

4

Métodos para secuenciar un genoma BIBLIOTECA GENÓMICA  Como no es posible secuenciar un genoma en una sola reacción de secuenciación, se divide el genoma en fragmentos los cuales se almacenan como clones en bibliotecas genómicas. Una biblioteca genómica es un conjunto de clones, donde cada uno contiene un fragmento de un genoma de un organismo dado. Se consiguen bibliotecas clonando los fragmentos en vectores. BIBLIOTECAS BAC Secuencia basada en BAC, que es el acrónimo en inglés de "cromosoma artificial bacteriano". El ADN humano es fragmentado en piezas relativamente grandes pero de un tamaño manejable (entre 150.000 y 200.000 pares de bases). Los fragmentos son clonados en bacterias, las cuales almacenan y replican el ADN humano para que así pueda ser preparado en cantidades lo suficientemente grandes como para secuenciarlo. Si se los escoge cuidadosamente para minimizar las superposiciones, se necesita unos 20.000 clones BAC diferentes para abarcar los 3.000 millones de pares de bases del genoma humano. A la colección de clones BAC que contienen todo el genoma humano se la denomina una "biblioteca BAC". En el método basado en BAC, se hace un "mapeo" de cada clon BAC para determinar el lugar de donde proviene el ADN del genoma humano en los clones BAC. El uso de este enfoque garantiza que los científicos puedan conocer la ubicación exacta de las letras del ADN que son secuenciadas en cada clon y su relación espacial con el ADN humano secuenciado en otros clones BAC. Para la secuenciación, se corta a cada clon BAC en fragmentos todavía más pequeños que tienen una longitud de cerca de 2.000 bases. Estas piezas se denominan "subclones". En estos subclones se lleva a cabo una "reacción en secuencia". Después, los productos de la reacción en secuencia son introducidos en la máquina secuenciadora (secuenciador). El secuenciador genera de 500 a 800 pares de bases de A, T, C y G en cada reacción en secuencia, por lo que cada base es secuenciada unas diez veces. Luego una computadora junta estas secuencias cortas para formar tramos continuos de secuencia que representan el ADN humano en el clon BAC.

PREGUNTAS 1. ¿Por qué he destacado que debería realizarse un MÍNIMO de 4166 reacciones para secuenciar el genoma de E.coli? ¿Se necesitarían más reacciones?

5

COBERTURA DE SECUENCIACIÓN: Queremos hacer una secuenciación de un genoma de 2,5 Mb y que vas a hacer la secuenciación de fragmentos de 600 b, lo que nos da 4167 reacciones. Lo primero es que el genoma es desconocido, luego no vamos a poder cortarlo en fragmentos de 600 b con enzimas de restricción. Además no se van a solapar y es imprescindible que se solapen para reconstruir el genoma. En el momento en el que cortamos los trozos al azar y realizamos las 4167 secuenciaciones, no podremos secuenciar el organismo entero pues encontraremos partes que se van a solapar y partes que nos van a faltar. Debemos secuenciar varias veces el genoma para conseguir mayor “información”. 2. ¿Cree que sería posible mejorar el sistema de secuenciación Sanger obteniendo secuencias más largas? El tamaño de los fragmentos es muy importante pues si son muy largos se van a mezclar y si son muy cortos no van a formar puentes. Debemos encontrar un punto intermedio. Además hay que tener en cuenta que no se pueden secuenciar más de 200-300 bases (dependiendo del equipo), debido al desfase. CÓMO INFLUYE EL TAMAÑO Si los fragmentos son muy cortos no van a poder solapar y nos va a resultar muy complicado recomponer el genoma pues nos deja mucha incertidumbre. Sin embargo si son muy largos los fragmentos, cuanto más largos más solapan. Si hacemos dos o tres copias del mismo genoma es posible que no terminen de solapar completamente, luego no hay bastantes solapamientos para obtener la información completa.

Método SHOTGUN de secuenciación Basado en la generación de fragmentos cortos y aleatorios de DNA que son secuenciados y luego analizados y ensamblados (unidos) con aplicaciones bioinformáticas.  

Lectura: fragmento secuenciado. Nº de lectura: número de fragmento shotgun. Es decir, es el trozo secuenciado.

Según el diagrama previo, llegaríamos a X=30 para el punto de saturación, punto en el que no nos serviría de nada seguir haciendo copias del genoma. 30X (cobertura) indica que estamos secuenciando 30 veces el tamaño del genoma. Si consideramos que tenemos 2 Mb (2x10ˆ6) bases, 30 X indica que tenemos que secuenciar 30 veces el tamaño de este genoma. 1x 100 indica que el tamaño de la lectura es de 100 bases, es decir es el tamaño de lectura. 2x10ˆ6 bases/genoma x 30X = 6x10ˆ7 bases en total para secuenciar

6

aproximadamente 30 veces el genoma. Entre 100 (secuenciación de fragmentos de 100 bases), obtendremos 6x10ˆ5 lecturas.

Cebador Secuencia de oligonucleótidos empleada en la secuenciación para que se pueda unir la polimerasa. Suelen usarse cebadores de unas 30 bases. No se usan cebadores más largos porque funcionan igual de bien y no hay que gastar dinero por gastar. Para que un cebador funcione tiene que tener una serie de características como puede ser la temperatura de fusión, la longitud, etc. Cuando no se conoce la secuencia, para usar un cebador se toma uno degenerado. Para fabricar cebadores degenerados, se conocen las dos primeras bases, y luego se añaden las mismas concentraciones de las cuatro bases para generar un cebador de tipo AT(N). De esta manera tendremos cuatro oligos diferentes: ATA ATT AT(N) ATC ATG Un ejemplo de un cebador sería el siguiente, para el cual el número de degenerados distintos sería: AT(N)CG(N) = 1x1x4x1x1x4 = 42=16 Teniendo en cuenta que N son las cuatro bases, aunque hay casos en los que sólo se añaden dos o tres bases dependiendo de lo que queramos hacer. En el cebador de 50 bases, habrá 450 oligos y en el de 70 bases habrá 470. Es imposible utilizar oligos degenerados ya que en ese caso en el cromatograma se solapa la señal. Es decir, el cromatograma lo iniciamos a partir de la tercera base a la que se pega el cebador, pero como esta es un N (según el cebador del ejemplo), esta base puede ser cualquiera de las cuatro A, T, C o G. Por tanto, si usamos muchos cebadores, estos se van a unir a secuencias distintas pero que empiezan por AT y luego les sigue cualquier nucleótido (N). Como se notificará en el cromatograma la señal de la tercera base, se solaparán las señales de los A, T, C o G que haya como tercera base. Estas señales de las distintas bases se solaparán en el mismo pico. Por tanto no se puede usar más de un cebador porque si se pegan dos oligos ya el sistema no funciona al solapar. Se quedaría la lectura desfasada. Sólo se puede usar un cebador. Solapan aunque fuesen en direcciones contrarias. Por ello sólo podemos usar uno. Tenemos entonces dos opciones: o usar un solo cebador degenerado o emplear adaptadores.

Adaptadores Cuando la secuencia es desconocida, añadimos adaptadores de una secuencia conocida, de manera que los primers se diseñarán en función a la secuencia de los adaptadores y se unirán a ellos. En los sistemas de segunda se sigue usando la DNA polimerasa y un cebador. Para poder usar el cebador se añaden y unen al ADN adaptadores de doble cadena al ADN con secuencia conocida. Y si ya se conoce esa secuencia, pues ya se pueden usar los cebadores. Para construir un adaptador tenemos que coger nuestra secuencia de interés y sacamos una secuencia reversa complementaria a dicha secuencia. Por ejemplo: 5’ ATGCATGCTA-T 3’ (nuestra secuencia)

3’ TACGTACGAT-A 5’  oligo 1 5’ ATAGCATGCAT 3’ (EL ADAPTADOR, EMPEZANDO A PARTIR DEL GUIÓN, reverso complementario de la secuencia en rojo)  Oligo 2

7

El adaptador se puede unir a ambos lados de nuestra secuencia. El mismo cebador se pega simultáneamente a los dos extremos del DNA, en su sentido correspondiente. Por tanto no se puede usar el mismo cebador. Si lo usamos se solapan las secuencias y no se pueden leer. Por ello usamos adaptadores asimétricos.

El 50% de la molécula se encuentra unida entre sí y unida al DNA y la otra mitad de la secuencia se encuentra sin unir.

Adaptadores asimétricos En este caso se emplean adaptadores que tienen una parte complementaria (azul) y otra parte no complementaria (roja y verde) y por ello no se unen entre sí si no que se quedan abiertas. Como queremos secuenciar las hebras, necesitamos amplificarlas pero sin que se peguen. Si usásemos el mismo cebador con el mismo adaptador complementario, las hebras resultantes hibridarían. Para ello necesitamos usar cebadores distintos, uno para la parte roja y otra para la parte verde, de manera que cuando echemos los cebadores del verde, se unan a estos y amplifiquen en sentido 5’-3’ (verde). Luego se echan los cebadores para el trozo rojo y estos amplifican también en sentido 5’-3’ (rojo):

8

Finalmente, tendremos las hebras del trozo verde que se unen porque son complementarias, mientras que las hebras del trozo rojo también se unen entre ellas porque también son complementarias. Sin embargo las hebras de rojo con verde no se van a unir por la parte amplificada de estos trozos de adaptadores, que no son complementarios. Nosotros queremos que se unan las del mismo color con las del mismo color para que en el cromatograma no se unan dos hebras complementarias y nos solape la señal. Como la PCR da muchos errores, vamos a secuenciar la doble hebra obtenida, ya que puede arrojar un poco de luz cuando estos errores en la amplificación se produzcan.

PREGUNTAS 1. 2. 3. 4.

¿Qué es un adaptador? ¿Cuál es su utilidad? ¿Cómo diseñaría y fabricaría un adaptador? ¿Cómo funcionaría un adaptador para permitir la secuenciación? ¿Qué limitaciones y/o problemas podría tener o tiene el uso de los adaptadores en la secuenciación?

Secuenciación Pareada o paired-end sequencing La secuenciación pareada es mejor pues a la hora de secuenciar, a parte que secuenciamos más, nos permite ensamblar (solapar) mucho mejor que una secuenciación simple (single-end). Esto se observa en la imagen a continuación donde la secuenciación simple se encuentra arriba y la pareada abajo (paired-end). Las pareadas te dan el doble de secuencia por cada fragmento y deja ensamblar mucho mejor.

La lectura pareada es del mismo fragmento porque se quedan en el mismo clúster. Para cortar, nos conviene mejor obtener fragmentos al azar pues es más eficiente, por lo que si cortamos con enzimas de restricción tomaremos estrategias como bajar la temperatura de su eficiencia para que haga un corte parcial y no corte en todos sus sitios de restricción, lo que nos va a permitir poder reconstruir mucho mejor la secuencia.

9

Transposones: tagmentación Los transposones contienen en sus extremos transposasas, unas enzimas que cortan el DNA colindante y permiten el movimiento del transposón. Una transposoma como éste tiene la capacidad de unirse al ADN del genoma, romperlo, y unir los dos fragmentos de ADN que tiene adherido a las cadenas recién cortadas El ADN que se une al transposoma contiene dos partes. Una es la que interacciona con el propio transposoma (doble cadena en rojo visible en la imagen). La otra parte de ese ADN, vista en colores y sin la estructura de doble hélice en esta imagen, contiene las secuencias de los adaptadores y barcode. BARCODE Son secuencias cortas de regiones concretas del genoma que se emplean como códigos de barra para determinar la especie. Se esta manera cada especie tiene una secuencia barcode común en todos los organismos de la especie y que nos ayuda a catalogar el DNA. La región del gen que se utiliza para casi todos los grupos de animales, una región de 648 pares de bases en el gen mitocondrial citocromo c oxidasa 1 (“CO1″), está resultando muy eficaz en la identificación de aves, mariposas, peces, moscas y muchos otro grupos animales. La ventaja de usar COI es que es lo suficientemente corto para ser secuenciado de forma rápida y barata, pero al mismo tiempo lo suficientemente larga para identificar variaciones entre especies. El código de barras COI no es efectivo para la identificación de plantas porque evoluciona muy lentamente, pero dos regiones de genes en el cloroplasto, matK y rbcL, han sido aprobadas como las regiones de código de barras para plantas terrestres.

Mediante la tagmentación podemos generar fragmentos shotgun. La tagmentación nos asegura que todas las secuencias se unan a su adaptador gracias a los transposones. A) Los transposomas se integran de dos en dos en el DNA y lo escinden. B) Esta escisión genera fragmentos de DNA. Es decir, la tagmentación produce una librería de moléculas amplificables y no amplificables, hasta que los transposomas se agotan. C) La librería es limpiada para eliminar las proteínas Tn5 de cada extremo de los fragmentos de DNA y se le introducen simultáneamente sus adaptadores.

10

Comparación NGS con sistema Sanger Los sistemas NGS presentan ciertas ventajas con respecto a la secuenciación de tipo Sanger, entre ellos están el precio, el tiempo y la cantidad de muestra necesaria para llevar a cabo el proceso. Con Sanger además hay que llevar a cabo una pre-reacción por cada capilar, y unir unos cebadores específicos en cada reacción, esto no es necesario para los NGS. En los NGS es necesario hacer PCR para obtener una señal lo suficientemente fuerte como para ser detectada. Pero no todos los fragmentos shotgun son lo suficientemente largos como para que puedan amplificar, para poder amplificar estos fragmentos de pequeño tamaño se hace una criba con un gel y se resuelve el problema. Otro problema de este tipo de secuenciación es que cuando los fragmentos son muy largos, la polimerasa no trabaja bien. Además la amplificación se lleva a cabo muy mal en secuencias con muchas G-C por lo que esto también representa un problema, (esto es así por la temperatura de fusión de la secuencia). Además de todo esto la PCR puede introducir mutaciones. Resumen problemas:   

Problema de lectura fuera de fase Fragmentos que no amplifican Mutaciones

Si echamos un vistazo a estos problemas, lo que tenemos es que la secuencia completa se secuencia dejando una serie de huecos correspondientes a los fragmentos que no han amplificado correctamente. Se generan lo que se llaman contig que son secuencias/fragmentos que se superponen unos con otros para poder completar los huecos que hemos dejado. Para ello en un genoma de a lo mejor 100X necesitamos 200X bases para poder hacer los contig. Esto aumenta en humanos, donde el genoma es de mayor tamaño. Al ser esto un mayor gasto de tiempo y de dinero, empiezan ya a surgir los sistemas de secuenciación de tercera generación. En la imagen inferior vemos como se generan los contig. Se realiza un marcaje con biotina (B) en los diferentes adaptadores (en verde). De esta manera se puede luego amplificar el fragmento final (después de cortar, el que tiene los adaptadores con la biotina) y conocer en qué zona de la secuencia se encuentra. Esto nos ayuda a localizar y ordenar los contig para formar la secuencia completa.

11

Lo que pasa es que hay regiones en las que no se conoce cómo se encuentran dispuestos los contig. Lo que pasa en estos casos es que te encuentras regiones donde la secuencia de bases es NNN ya que no se conoce. Esto genera secuencias borrador ya que ninguna secuencia se encuentra corregida completamente. Hoy en día las secuencias mejor secuenciadas son las de los organismos modelo.

Terminología o

PCR Multiplex o Sistema Multiplex: variante de la PCR que lleva a cabo amplificaciones simultáneas de diferentes fragmentos en una misma reacción usando más de un par de cebadores. Para llevar a cabo este tipo de PCR tenemos que emplear cebadores diferentes y además las cadenas de DNA a estudiar no pueden ser similares entre sí para que no se unan cadenas diferentes.

12

o

Fastq: formato fasta que lleva asociado un valor de calidad para cada base de la secuencia. Este valor de calidad viene dado por el cromatograma. Cuanto mayor sea el valor de Q mayor será la calidad de la base determinada y menor será el error. Las lecturas de un sistema NGS contiene varios detalles, una es la secuenciación de bases y otra es la calidad de cada una de estas bases y con ello es con lo que se genera el archivo fastq.

o

Archivos de calidad: archivo basado en un algoritmo que es capaz de determinar si la secuenciación de la base ha sido correcta o no. Generación de archivos de secuencias ASOCIADOS a información de calidad Q = Quality (misma Q de la que hablo en el formato fastq) (oscila normalmente entre 0 y 40): a) Valor = Q0 -> muy baja calidad. No se puede conocer la base que es. b) Valor = Q40 -> elevada calidad. No hay duda sobre la base que se trata. Contig: fragmentos obtenidos del mecanismo de secuenciación shotgun que se emplean para conocer la secuencia. Estos fragmentos amplificados se superponen unos con otros para poder dar con la secuencia completa, pero en ocasiones hay tramos en los que no se conoce con exactitud cuántas bases hay entre un fragmento y otro y hasta qué punto se superponen por lo que hay regiones en los que la secuencia de bases no es fiable en este tipo de secuenciación. Secuencias pareadas: sirven para poder localizar y organizar los contig. Mate Paired: técnica empleada para obtener los contig. Archivos gtf y gff: archivos con esa terminación que contiene información acerca de diversos genes, lugar donde tiene los intrones y exones, funcionalidad de los mismos, etc. Un gff o un gft se indica internamente los genes y los tra...


Similar Free PDFs