6. Secuenciación de proteínas PDF

Title 6. Secuenciación de proteínas
Author Alba Mosteiro
Course Bioinformática
Institution Universidad del País Vasco
Pages 7
File Size 512.2 KB
File Type PDF
Total Downloads 109
Total Views 150

Summary

Bioinformática...


Description

Bioinformática – Semana 19

Secuenciación de proteínas: Existen diferentes técnicas tanto para la secuenciación de proteínas como para estudiar el proteoma:

Frederick Sanger fue el gran impulsor de este campo que se dedicó a la secuenciación de proteínas y ácidos nucleicos, comenzando por la insulina bovina. La elección de esta proteína fue porque, en aquella época, era la única proteína en forma pura y en grandes cantidades, dado que se comercializaba con fines médicos. La insulina bovina es una proteína compleja, posee 51 aa distribuidos en dos cadenas (A y B) unidas por puentes disulfuro. De hecho, tardó más en determinar dónde estaban los puentes disulfuro que en secuenciar la proteína. Sin embargo, tuvo cierta dosis de fortuna puesto que la insulina carece de triptófanos y de tripsinas (estos presentan complicaciones con la hidrolisis ácida). Sanger recibió el premio Nobel de química en 1958 por su labor en el estudio de la estructura de las proteínas. En 1943, se tenían conocimientos básicos sobre las proteínas (todavía no se conocía la estructura del DNA, ni que contenía la información genética). Se sabía que estaban constituidas por aminoácidos unidos por enlaces peptídicos, y que había 20 aminoácidos diferentes. No obstante, apenas se conocía nada del orden en el que se disponían estos residuos en las moléculas, a pesar de que el orden era de gran importancia: proteínas con aproximadamente los mismos aminoácidos llevaban a cabo funciones muy diferentes, y tenían distintas propiedades biológicas. Algunos pensaban que los aminoácidos estaban ordenados de forma periódica, repitiéndose el mismo aa a intervalos regulares; mientras que otros veían las proteínas como una mezcla aleatoria de residuos similares.

Método Sanger: Para estudiar con más detalle los grupos aminos libres de insulina y otras proteínas, se elaboró un método general para etiquetarlos. Este fue el método de dinitrofenilo (o DNP). El reactivo utilizado fue 1,2,4fluorodinitrobenceno (FDNB) que reacciona con los grupos amino libres de proteínas o péptidos para formar un derivado de DPN:

1

Bioinformática – Semana 19

La reacción tiene lugar en condiciones ligeramente alcalinas que normalmente no causan ninguna rotura de enlaces peptídicos. La proteína DNP se somete luego a hidrólisis con ácido que divide los enlaces peptídicos en la cadena, dejando el residuo N-terminal en forma de su derivado de DNP.

Los complejos DNP-aminoacido son sustancias de color amarillo brillante y se pueden separar de los aminoácidos no sustituidos por extracción con éter. Se pueden fraccionar por cromatografía de partición. Los DNP-aminoácidos podrían identificarse mediante la comparación de sus perfiles cromatográficas con las de los derivados de DNP sintéticos. En el trabajo original sobre insulina, se usó cromatografía sobre gel de sílice, aunque más recientemente otros sistemas, particularmente la cromatografía de papel, se han encontrado más satisfactorios. Para poder secuenciar 4-5 aa, se llevaba a cabo una hidrólisis ácida parcial en lugar de una total. Así se obtenían péptidos pequeños, en vez de aa libres. Después se realizaba una separación preliminar en fracciones con 520 péptido, ya que la mezcla inicial es muy compleja para una cromatografía en papel, por medio de ionoforésis, cromatografía de intercambio iónico y de adsorción en carbón vegetal. Esta nueva y simplificada mezcla se sometía a la cromatografía en papel 2D. Al formarse pequeños péptidos, se fue montando la cadena: sabiendo cuál era el último aa, viendo cual estaba a continuación, y así sucesivamente. Sin embargo, estos métodos permitían identificar fragmentos pequeños, pero no el orden en que se encuentran dentro de la cadena. Además, puede que algunos residuos no se identifiquen en ninguno de los fragmentos. Por ello, era necesario algún otro método de hidrólisis, que generase fragmentos diferentes que permitieran reconstruir la secuencia: emplear enzimas proteolíticas. Estudiando fragmentos obtenidos por acción de la pepsina, tripsina y quimotripsina era posible encontrar fragmentos solapados que permitieran ordenar los fragmentos obtenidos anteriormente y obtener secuencias más completas. De estos estudios de secuencias de proteínas se dedujo que las proteínas eran sustancias químicas únicas iguales entre sí; es decir, cada proteína tiene una secuencia única, no se tratan de moléculas parecidas (una algún mecanismo responsable de la síntesis

2

Bioinformática – Semana 19 proteica. Además, la existencia de secuencias bien definidas llevó a pensar en la existencia de un código genético. DNA (código de 4 bases) ->Traducción (código genético) -> Proteínas (código de 20 aa)

Método Edman: Se trata de un método alternativo propuesto por Pehr Victor Edman que permitía la determinación de secuencias más largas. Se trata de un método cíclico que se puede repetir hasta 50 veces (esto es un desventaja) puesto que permite la automatización: sequenator. Para llevar a cabo esta técnica se utiliza PITC (fenilisotiocianato), el peptido es tratado con este compuesto en un medio basico, formandose 2,4-dinitrofenil-pétido, esto se pasa a un medio ácido y se produce la hidrolisis del aminacido N-terminal, con la ventaja de que el resto del peptido queda intacto. Por tanto, el ciclo se realizaba de nuevo. Los aminoacidos N-terminales que se van obteniendo se identifican por medios cromatográficos. El hecho de que solo se pueda aplicar 50 veces, en el mejor de los casos, se debe a que existe un problema químico y la eficacia es del 95%. Esto es, se utiliza el reactivo de Edman pero no se marca el 100% de las moléculas solo el 95%, de modo que al entrar en el segundo ciclo, el 5% que no ha reaccionado puede reaciconar en este ciclo y, así, sucesivamete. Al llegar al iltimo ciclo es practicamente distinguir la señal del aminoacido de todos los contaminantes que se han arrastrado a lo largo del ciclo. El tiempo requerido para un ciclo de Edman ha ido reduciéndose, hasta los 20 minutos que requiere actualmente, por medio de la automatización. Hoy en día no se emplean mucho estos métodos, ya que es más fácil secuenciar el DNA y traducirlo, sabiendo que esa secuencia codifica una proteína. Herramientas informaticas: La mayor parte de las secuencias de proteinas que están en las bases de datos se han determinado a partir del codigo genético. ORF: pauta de lectura abierta, esto es, secuencia con inicio y final de la traducción, con una secuencia entre ellos. 1. La herramienta Translate de Expasy, permite traducir secuencias de nucleótidos, tanto de DNA como de RNA, a aminoacidos empleando diferentes codigos genéticos. Ofrece 6 pautas posibles de lectura. 2. La herramienta translate de SMS, nos ofrece la posibilidad de elegir cual de las hebras nos interesa y la traduce a aminoacidos, y viceversa. Reverse complement, es una herramienta que permite obtener la secuencia reverse, esto es, la complementaria en sentido 5’-> 3’ y en sentido 3’->5’ (complentaria).

3

Bioinformática – Semana 19 3. Sequence Translation de EMBL-EBI permite traducir de DNA a proteínas y de proteínas a DNA. Las secuencias pueden diferenciarse en primarias y secundarias: 1. Primarias: bases de datos con los datos en crudo, sin analizar o con un nivel de adaptación escaso, recogen solo la secuencia. 2. Secundarias: a partir de las primarias empiezan a extraer datos más elaborados mediante comparaciones. Las secuencias se almacenan en bases de datos. Las principales bases de datos primarias son: GenBank para DNA (genoma), dbEST para mRNA (transcriptoma) y UniProt y Protein Data Bank para proteínas (proteoma). Uniprot (The Universal Protein Resource) es un consorcio formado por SwissProt, TrEMBL y PIR (protein information resource). Swiss-Prot contiene unas 553.474 secuencias, y TrEMBL 73.711.881 (TrEMBL contiene las secuencias de proteínas resultado de la traducción directa del DNA, por lo que hay muchos errores). Antes había más secuencias en TrEMBL, pero fueron revisadas y se eliminaron aquellas redundantes.

Proteómica: La proteómica es el área de la biología molecular que se encarga del análisis sistemático a gran escala de las proteínas. No solo consiste en la identificación y cuantificación de las proteínas, sino también en la determinación de su localización, modificaciones, interacciones, actividades y funciones. Se basa en el concepto del proteoma como el conjunto de proteínas producidas por una determinada célula u organismo en unas condiciones dadas. El proteoma es complejo y dinámico, y puede ser definido en términos de secuencia, estructura, abundancia, localización, modificación, interacción y función bioquímica de sus componentes, ofreciendo una gran fuente de información. ¿Es necesaria la proteómica? Se puede medir la expresión génica por medio de microarrays u otras técnicas. Sin embargo, los niveles de mRNA no necesariamente predicen los niveles de la proteína que codifican en una célula, ya que la estabilidad o la eficiencia de la traducción de cada mRNA afecta a la generación de proteínas. Además, una vez formadas, las proteínas también difieren en su estabilidad y tasas de recambio. Por otro lado, los niveles de mRNA no informan sobre la regulación de las proteínas, ya que la actividad y función de las mismas es afectada por modificaciones postraduccionales y otros agentes ambientales. El auge de la proteómica viene de la mano con la espectroscopia de masas. La forma de ver si se había expresado una proteína era hacer un westernblot. Espectroscopia de masas: PMF: La huella dactilar de los péptidos PMF (peptide mass fingerprinting) es una técnica de identificación proteica en la cual se utiliza un espectrómetro de masas para medir la masa de los fragmentos peptídicos que provienen de una proteína. La proteína será identificada al emparejar la masa del fragmento con la masa de un fragmento generado por

4

Bioinformática – Semana 19 proteólisis in silico. La calidad de la identificación proteica depende de la calidad del espectrómetro a la hora de determinar el peso molecular, la precisión de la base de datos y el algoritmo que se utilice para emparejar. Espectrómetro de masas: La muestra seleccionada y previamente fragmentada se introduce al espectrómetro de masas donde será ionizada (ion source). En el proceso de ionización, los péptidos adquieren carga y pasan a estado gaseoso. A continuación, la muestra será seleccionada en función de su relación masa-carga (mass filter) y se determinará la masa en un detector. Estas etapas del proceso pueden ser realizadas por diferentes métodos, que es lo que resume la imagen de la derecha. Las muestras con las que trabajamos habitualmente en bioquímica son muestras muy complejas que si intentáramos analizarlas directamente perderíamos mucha precisión en las técnicas; por ello, el primer paso es hacer un fraccionamiento de la muestra, normalmente se hace una electroforesis en 2D donde separamos las proteínas en función de su masa y pI. Una vez realizada, extraemos el punto del gel en el que estamos interesados y digerimos las proteínas mediante tripsina (es la proteasa más utilizada en esta técnica). Los péptidos obtenidos de la digestión serán introducidos en el espectrómetro de masas donde, primeramente, serán ionizados y posteriormente seleccionados en función de su relación carga-masa. Esta información la obtendremos en forma de espectro de masas. Analizando el espectro podemos ver la relación carga-masa de cada fragmento y su intensidad (marcará la abundancia relativa). Realizaremos una proteólisis in silico de las proteínas para obtener masas teóricas de péptidos; comparando estos valores teóricos con los valores obtenidos veremos si existe alguna coincidencia. Por ejemplo, la masa de uno de los péptidos coincide con la masa de un péptido teórico (que además es identificativo, solo aparece en esta proteína), sabremos que la proteína de la que proviene está presente en nuestra muestra. Los valores de masa de péptidos se miden con cuatro decimales para aumentar la exactitud, aunque un péptido de 6aa suele tener masa única. Realmente, se necesita encontrar más de un péptido que proceda de la misma proteína para asegurar que se encontraba en la muestra, a menos, que el péptido analizado sea un péptido único/identificativo (si hidrolizas todas las proteínas del mundo mundial solo obtienes un péptido de esos, no aparece en otras secuencias de proteínas). Para que la identificación de las proteínas por PMF sea exitosa necesitamos que la medida de la masa del péptido y las bases de datos sean exactas. Centrándonos ahora en las bases de datos, vamos a ver las herramientas bioinformáticas que nos ofrece ExPASy para ayudarnos en la identificación de proteínas: 1. Software gratuito de primera generación: asignan una puntuación basándose en el número de valores m/z del espectro que coinciden con las BD (con cierta tolerancia). Ejemplos: PepSea, PeptIdent,… 2. Software gratuito de segunda generación: emplean algoritmos de puntuación que tienen en cuenta los efectos del tamaño de la proteína y la longitud del péptido al calcular la probabilidad de coincidir con la BD. Ejemplos: MOWSE, MS-Fit,… 3. Software gratuito de tercera generación: dan puntuaciones basadas en probabilidades con algoritmos más complicados de forma que proveen una base estadística a la hora de dar puntos y también

5

Bioinformática – Semana 19 estiman la probabilidad de que las coincidencias hayan ocurrido por pura coincidencia. Ejemplos: ProFound, Mascot. Secuenciación en tándem ms-ms: En el proceso de identificación de proteínas con la técnica anterior podemos encontrarnos con un péptido que está presente en diferentes proteínas, como el ejemplo de la tabla. En la técnica de secuenciación en tándem MS/MS vamos a poder determinar la secuencia peptídica a partir del patrón de fragmentación de un espectro MS-MS, por lo que vamos a tener menor problema a la hora de encontrar la proteína madre. Por ejemplo, los fragmentos de la foto son péptidos obtenidos de la hidrolisis de diferentes proteínas pero que tienen el mismo peso molecular, sin embargo, la secuencia es diferente. En esta técnica vamos a utilizar unos elementos selectores llamados cuadrupolos (Q): es un aparato que tiene 4 tubos de metal con diferentes cargas, 2 + enfrentados y 2 – enfrentados. El voltaje aplicado afecta a la trayectoria de los iones, de manera que eligiendo correctamente el voltaje solo los iones con una relación m/z determinada (resonantes) pasarán a la siguiente etapa, el resto (no resonantes) chocarán con los tubos y saldrán del cuadrupolo. En la MS/MS tenemos 3 cuadrupolos en serie donde cada uno de ellos cumple una función: 1. Q1, se utiliza para seleccionar el péptido que nos interesa utilizando su relación carga-masa. 2. Q2, es la llamada celda de colisión o fragmentación iónica. Los iones que han sido seleccionados en el cuadrupolo anterior entran en esta celda donde son bombardeados con un gas de colisión (gas inerte noble) que fragmenta los enlaces peptídicos dando iones más pequeños. 3. Q3, analiza los fragmentos generados en la celda de fragmentación iónica. Estos selectores colocados en serie, dotan de mayor sensibilidad y especificidad a la técnica. Fragmentación: Como hemos dicho antes, el péptido que haya sido seleccionado en el Q1 será fragmentado en Q2 por el bombardeo con un gas noble. Dependiendo de las condiciones en las que se realice tal fragmentación, podemos romper la proteína por 3 lugares diferentes: a/x (CH-CO), b/y (CO-NH) o c/z (NH-CH). Cada ruptura da lugar a dos especies: una neutra y otra cargada; sólo la cargada puede ser monitorizada por el espectrómetro de masa. La carga puede permanecer en cualquiera de los fragmentos dependiendo de la química y la afinidad a protones de cada una de las especies. Así que si tenemos en cuenta las tres posibilidades de cambio y que la carga quede en uno u otro fragmento tendremos 6 posibles tipos. Las rupturas más comunes son las que rompen el enlace peptídico (b/y) dando lugar a los iones b (carga en el extremo N-terminal) o y (carga en el C-terminal). Las condiciones de fragmentación no son exhaustivas, es decir, un péptido no va a ser hidrolizado por todos sus enlaces peptídicos. Al tener muchos fragmentos iguales y hacer una fragmentación no exhaustiva será muy probable que obtengamos todos los posibles péptidos. Análisis: Para acabar, los péptidos serán seleccionados en Q3 y analizados; el análisis de estos espectros los realizan expertos aunque también existen herramientas bioinformáticas capaces de hacerlo. Iremos comparando la

6

Bioinformática – Semana 19 masa de los diferentes iones, ya que la diferencia de masa entre el primer ion b (será el más pequeño) y el siguiente ion b, será indicativa del aminoácido que va en la secuencia. En las siguientes tablas tenemos la masa de cada uno de los aminoácidos y de las modificaciones posttraduccionales más comunes.

Es posible añadir una columna de afinidad a metales (IMAC) con el fin de retener los péptidos que contengan fosforilaciones y, así, aislarlos. Identificación de las proteínas: Una vez hayamos obtenido el espectro MS/MS tenemos dos formas de proceder: interpretar manualmente el espectro, raya a raya; o analizar el espectro como un conjunto computacionalmente. La interpretación manual de novo del espectro MS/MS puede llevar entre media hora y un par de días, dependiendo de la complejidad del espectro y de la experiencia del analista. Cuando secuenciamos una proteína, solo hace falta conocer la secuencia de uno o varios péptidos (5-10 aminoácidos) y luego podemos identificar la proteína haciendo una búsqueda en BLAST. Este método no es apropiado para trabajar a gran escala. La identificación a partir del espectro MS/MS es otra forma de identificar las proteínas; consiste en diseñar un algoritmo que sea capaz de correlacionar el espectro MS/MS con la secuencia del péptido en la base de datos, es decir, se interpreta todo el espectro de golpe no hace falta analizar fragmento a fragmento. El programa más utilizado para realizar este tipo de identificación es Sequest, el problema es que es de pago. Dentro de los gratuitos encontramos Mascot y PepFrag que pueden interpretar los espectros de espectrometría de masas. Además de identificar las proteínas, también se pueden detectar modificaciones post-traduccionales, ya que aumentan la masa de los residuos. Conociendo la masa de los grupos que pueden utilizarse para la modificación se puede determinar tanto el aa, como el modificador (fosfato, sulfato, metilo, glicosilaciones…).

7...


Similar Free PDFs