Apostila Bioinformatica proteômica 30JUN19 PDF

Title Apostila Bioinformatica proteômica 30JUN19
Author Bruno Assunçao
Course Ciência da Computação
Institution Universidade Federal de Pernambuco
Pages 20
File Size 603.9 KB
File Type PDF
Total Downloads 63
Total Views 146

Summary

Apostila...


Description

INTRODUÇÃO A BIOINFORMÁTICA

BIOINFORMÁTICA PARA O ESTUDO DE DADOS PROTEÔMICOS

Ronald Rodrigues Moura Bruno Rodrigo Assunção

RECIFE-PE, 2019

ÍNDICE Introdução O que são proteínas? O que é proteômica? Espectrometria de massas Banco de dados Metodologia 1. Dados brutos de espectrometria de massas 1.1 Download do arquivo de experimento 1.2 Conversão do arquivo de dados brutos No Windows 1.2.1 Download do MSConvert 1.1.2 Convertendo o arquivo RAW No Linux MSConvert no docker 2. Download Do Rstudio/R E Pacotes Bioconductor 2.1 Download R e Rstudio 2.1 Download pacotes bioconductor BIOINFORMÁTICA E ANALISE PROTEÔMICA 3. Pesquisa de peptídeos e identificação de proteínas Pré-requisitos para uma análise de dados proteômicos 3.1 Preparar o local de trabalho 3.2 Início do processo de identificação de peptídeos 3.2.1 Carregando as bibliotecas no R 3.2.2 Importar os arquivos 3.2.3 Adicionando Parâmetros de identificação 3.2.4 Modificações pós translacionais 3.2.5 Inciando o MSGF+ e gerando arquivo mzID 3.2.6 Carregando arquivo de dados mzMl 3.2.7 Limpando os espectros de baixa intensidade 3.2.8 Adicionando os dados de identificação ao objeto msexp 4. Quantificação E Análise De Expressão Diferencial 4.1 LFQ- Análise diferencial para quantificação livre de rótulo 4.2 TMT- Análise diferencial para quantificação isobárica 5 Visualização dos resultados Referências Bibliográficas

INTRODUÇÃO A linguagem de programação R(R Core Team, 2018) tornou-se uma ótima ferramenta de análise de dados e estatística. Por ser simples e de fácil aprendizagem, permite que leigos na área de programação possam utilizála. Além do mais podemos contar com vários pacotes disponibilizados gratuitamente em repositórios como o Bioconductor (https://www.bioconductor.org), os quais possibilitam o estudo de dados proteômicos e bem como de outras áreas de estudo. Deste modo, essa apostila busca disponibilizar informações práticas e didáticas de uma metodologia para o estudo da proteômica, desde a manipulação de dados brutos de espectrometria de massas ao processamento, visualização e análises dos resultados gerados por ferramentas de Bioinformática. O QUE SÃO PROTEÍNAS? Proteínas são macromoléculas formadas por cadeias de aminoácidos. As proteínas estão presentes em todos os seres vivos e participam de praticamente todos os processos celulares e vias biológicas. As proteínas diferem entre si fundamentalmente na sua sequência de aminoácidos, que é determinada pela sua sequência genética e desse modo confere uma característica tridimensional a esta que está relacionado a sua função. De acordo ao dogma central da biologia molecular, os nossos genes (DNA) transcreve outros ácidos nucleicos que são as moléculas de RNA e estas são traduzidas a sequências de aminoácidos, os quais formam a estrutura primária das proteínas, essa sequência de aminoácidos é o objetivo de estudo para a identificação e caracterização de proteínas conhecidas, o que será utilizado como objetivo do estudo da proteômica. O QUE É PROTEÔMICA? A proteômica é uma área de estudo dentro das ciências ômicas que se caracteriza pelo estudo de proteomas, ou seja, o estudo de um conjunto de proteínas de um determinado organismo, tecido, biofluido ou uma simples amostra biológica em determinada situação e tempo. Por exemplo, o estudo do conjunto de proteínas expressas em uma célula no momento da infecção por determinado vírus. Além do mais, o estudo de um proteoma envolve técnicas que permitem identificar, quantificar e analisar a expressão proteica. ESPECTROMETRIA DE MASSAS É importante ter o conhecimento a respeito da técnica de espectrometria de massas utilizados na Proteômica como fonte dos dados a serem estudados a seguir. A espectrometria de massas, é uma técnica que se baseia na formação íons (carregados positiva ou negativamente) os quais são identificados pela sua razão massa/carga, caracteristicamente devido a diferentes técnicas de ionização que podem ser utilizadas (ESI-MS; MALDI), os quais ainda sujeitam se, a um dos diferentes tipos de analisadores (como exemplo o TOF-MS) que separam esses íons por tempo de voo, campos elétricos gerados, aprisionamento de íons ou pela sua razão/massa carga. BANCO DE DADOS Os bancos de dados biológicos são bibliotecas que armazenam informações coletadas de experimentos científicos, literaturas, dados tecnológicos e de análise computacional, os quais podem ser classificados ainda como banco de dados primários e secundários a depender da estrutura de seus arquivos. Para conteúdo dessa apostila, será utilizado o repositório de dados proteômicos Pride Archive(https://www.ebi.ac.uk/pride/archive) que fornece um único ponto para envio de dados proteômicos a partir de espectrometria de massas e diferente tipos de experimento aos quais podem ser acessados de forma livre e download de arquivos de forma gratuita. Bem como será utilizado também o banco de dados Uniprot(O

Uniprot Consortium, 2018), o qual dispõe informações de sequência de proteínas e suas funções e que são utilizadas para comparação com as informações coletadas em experimento de espectrometria de massas, como os valores de carga e de massas de peptídeos já conhecidos e identificados de diferentes tecidos e organismos. METODOLOGIA 1. DADOS BRUTOS DE ESPECTROMETRIA DE MASSAS 1.1 Download do arquivo de experimento Como dito anteriormente, PrideArchive (https://www.ebi.ac.uk/pride/archive) fornece arquivos de dados brutos de experimentos realizados em laboratório a partir de espectrometria de massas, e esses arquivos são disponibilizados de forma gratuita e podem ser baixados de forma prática. 1. Abrir o navegador web e digitar https://www.ebi.ac.uk/pride/archive/ ou simplesmente “PrideArchive”. 2. Pesquisar na aba referente a buscas (procurar-no canto superior direito) por uma palavra-chave ou ID de estudo que deseja. Em nosso casso, digite o seguinte ID: PXD000001 3. Clique no link de busca que aparece, referente ao respectivo ID que pesquisamos e em seguida clique para baixar os arquivos do projeto. 4. Procure o arquivo na lista de arquivos ‘RAW’ e clique em baixar no arquivo com o nome “PXD00001“. 1.2 Conversão Dos Arquivos De Dados Brutos Assim como em outros tipos de arquivos, os arquivos de espectrometria de massas possuem formatos denominados de “formatos proprietários”, ou seja, formatos específicos ao equipamento espectrômetro utilizado. Por isso, antes de importar esses arquivos para visualização, devemos convertê-los a arquivos de formato aberto, os quais podem ser utilizados por diversas outras ferramentas. Em proteômica os formatos mais utilizados são o mzML e o mzXML. Para conversão desses arquivos de dados brutos (RAW), vamos utilizar a ferramenta gratuita do ProteoWizard (http://proteowizard.sourceforge.net/index.html), o MSConvert (WR francesa et al, 2015). No Windows: 1.2.1- Download Do Msconvert 1. Abra o navegador e digite http://proteowizard.sourceforge.net/download.html. Entre no site do ProteoWizard e na barra “plataforma”, escolha um sistema operacional windows. Figura 1: Download MSConvert

2. Clique na caixinha para aceitar os contratos de licença e posteriormente, em baixar.

1.2.2-Convertendo o arquivo RAW 1. Instale e abra o MSConvert. Em seguida clique em “Browser” e na pasta downloads dê dois cliques no arquivo que baixamos. 2. Clique no botão “Add” abaixo de onde se localiza a aba Browser. 3. Em ‘Output format’ no lado esquerdo do aplicativo, escolha o formato mzML. 4. Em ‘filter’ clique na aba ‘Subset’ e escolha a opção ‘ Peak Picking’. Em seguida na parte inferior a sessão ‘filters’ clique em ‘Add’ para adicionar as opções escolhidas. 5. Por fim, clique em ‘Start’ para iniciar a conversão dos arquivos. Figura 2: Conversão de arquivo de dados proprietários

No Linux: 1.2.3 MSConvert no docker Abra o terminal do Linux 1 Instalar o docker: sudo apt-get install docker.io sudo groupadd docker sudo usermod -aG docker $USER 2 Adicionar o MSConvert ao Docker sudo docker pull chambm/pwiz-skyline-i-agree-to-the-vendor-licenses 3 Logar no docker sudo docker login -u patgen -p senha 4 Converter arquivo raw para mzMl sudo docker run -it -v /home/patgen/Documents/Bruno/Proteoma_Drosophila/PXD003882/RAW:/data \ proteowizard/pwiz-skyline-i-agree-to-the-vendor-licenses wine \ msconvert 140519_CF_v_proteome_fr0_30p.raw --32 --zlib --filter "peakPicking true 1-" --filter "zeroSamples removeExtra" -o /data

5 Baixar o arquivo convertido sudo docker ps -alq Adiconar o camino do local para o ‘output’. Adicione o caminho do comando anterior no comando a seguir sudo docker cp [output_anterior]:/data/140519_CF_v_proteome_fr0_30p.mzML . 2. DOWNLOAD DO RSTUDIO/R E PACOTES BIOCONDUCTOR A linguagem r (R CORE TEAM, 2018) além de um ambiente computacional é uma linguagem de programação especializada em análise estatística, visualização gráfica e manipulação de dados. O R é facilmente expansível a diferentes tipos de trabalho, através de uso de pacotes. Os pacotes são bibliotecas com dados e funções para diferentes objetivos e níveis de conhecimento. Muitos pacotes estão disponibilizados no próprio repositório da linguagem r (R CORE TEAM, 2018), o cran. Porém outros pacotes mais especializados, e nesse caso, voltados para a Bioinformática podem ser encontrados no repositório do Bioconductor(https://www.bioconductor.org). Pacotes voltados a diversas áreas de estudo da biologia molecular, e assim também, a proteômica. As bibliotecas que são necessárias à análise proteômica, são as seguintes: Msnbase (gatto; lilley, 2012), msgfplus (kim ; pevzner, 2014), dep(ZHANG x, 2018). 2.1 Download R e Rstudio Download R Abra o seu navegador web e digite o seguinte endereço: https://cran.r-project.org/. Posteriormente, clique na opção de download referente ao seu sistema operacional. 1.1 Para o sistema operacional Windows, basta clicar na aba referente a esse, clicar em ‘base’ e posteriormente, no link de Download. Abra a pasta downloads e execute o arquivo baixado, como administrador. 1. 2 Para o sistema operacional Linux, você deverá abrir o terminal do Linux e digitar os seguintes comandos: sudo apt-get update sudo apt-get install r-base Download RStudio O RStudio (https://www.rstudio.com/) é um software livre e ambiente de desenvolvimento integrado a linguagem R(R Core Team, 2018). No Windows 1. No navegador web digite: https://www.rstudio.com/products/rstudio/download/. Escolha baixar a opção ‘livre’ para baixar a versão mais recente ou desça na página para escolher uma opção de acordo a sua preferência ou sistema operacional. 2. Abra a pasta download e instale o RStudio. No Linux 1. Baixe a versão Ubuntu “RStudio 1.2.1335 - Ubuntu 18 (64 bits)” referente a sua versão do linux.

2. Abra o terminal do linux na pasta download e digite: sudo dpkg -i rstudio-1.2.1335-amd64.deb (ou seja, o nome do arquivo .deb que deseja instalar). Para abrir o terminal do linux, abra a pasta downloads, clique com o botão direito do mouse, e clique em ‘ Abra o emulador de terminal aqui’. 3. Caso alguma mensagem de erro apareça, digite o seguinte código e pressione enter: sudo apt-install -f 2.2 Download pacotes do Bioconductor O Bioconductor (https://www.bioconductor.org) é um repositório de ferramentas de análise estatísticas para Bioinformática e de livre desenvolvimento. Os pacotes Bioconductor (https://www.bioconductor.org) têm uma maneira própria para serem baixados e instalados. Basta procurar o pacote que deseja no próprio site, e posteriormente colar no console do RStudio o código disposto na página referente ao pacote que deseja baixar, no local onde se diz ‘instalação’. 1. Temos uma lista de pacotes que precisamos baixar e que são necessários para realizar a nossa análise proteômica. Como orientado acima basta colar o código de instalação do pacote no console do R:

2. Copie e cole os códigos no console do RStudio e clique na tecla ENTER do seu teclado. if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") BiocManager::install("MSnbase", dependences = TRUE) BiocManager :: install ("MSGFplus", dependences = TRUE ) BiocManager :: install ("DEP", dependences = TRUE)

Figura 3: RStudio- Instalando as bibliotecas

3. Caso apareça qualquer mensagem de atualização, Digite ‘y’ ou ‘s’ e pressione ENTER para aceitar e atualizar.

BIOINFORMÁTICA E ANALISE PROTEÔMICA Pré-requisitos para uma análise de dados proteômicos Equipamento computacional Devido ao tamanho dos arquivos a serem analisados e a exigência de capacidade de processamento, é necessário utilizar-se de um computador com um mínimo de 50 Gb de armazenamento, a depender do tamanho dos arquivos a serem analisados, memória RAM de 8 Gb. Dos softwares utilizados - RStudio e linguagem R instalados; - Msconvert instalado ou disponível para ser utilizado via terminal; - Pacotes e dependências Bioconductor, instalados; Documentos/Arquivos necessários Arquivos de dados brutos e o um arquivo fasta com o proteoma de referência; Arquivo de desenho experimental(experimental.design); Uma lista de parâmetros : Para o processo de identificação e quantificação, é preciso que seja informado a metodologia utilizada nas etapas de bancada e referentes ao equipamento utilizado(Quadro1).

Quadro1. Parâmetros.

3. PESQUISA DE PEPTÍDEOS E IDENTIFICAÇÃO DE PROTEÍNAS 3.1 Preparar o local de trabalho O primeiro passo que devemos fazer antes de iniciarmos a nossa análise, é preparar o nosso ambiente de trabalho. Para isso, devemos direcionar o R para a pasta que contêm os arquivos que convertemos previamente, além de que deve conter também o arquivo no formato ‘fasta ’ do proteoma de referência do organismo ou tecido de estudo. Esse proteoma de referência pode ser facilmente baixado do site uniprot(O Uniprot Consortium, 2018). 1. Abra o Uniprot (O Uniprot Consortium, 2018) através do endereço https://www.uniprot.org/. Procure pela opção ‘Proteomes’ e clique nesta. Em seguida pesquise por ‘Drosophila melanogaster’, clique na primeira opção do resultado da busca e em seguida procure pela opção baixar e clique. Certifique-se de baixar um arquivo no formato fasta (canônico). 2. Agora vamos setar o diretório de trabalho, ou seja, indicar qual é a pasta que contêm os nossos arquivos. Volte ao RStudio e clique em ‘session’, ‘Set Work Directory’, e ‘Choose Directory’. Clique na pasta que estão todos os arquivos convertidos e o proteoma de referência que baixamos. NOTA 1: Esse mesmo procedimento pode ser feito pelo comando setwd(), basta usar esse comando no console e colar o caminho da pasta dentro dos parênteses.

3.2 Início do processo de identificação de peptídeos A etapa de identificação consiste em comparar as informações referentes aos valores de carga/ massa nos arquivos gerados pelo espectrômetro de massas, com valores semelhantes a esses a partir do arquivo de proteínas de referência. Porém para isso é necessário que se realize um processo de fragmentação em sílico simulando a metodologia de bancada utilizada em laboratório, ou seja, utilizando os mesmos parâmetros. Esse processo permite compararmos o que geramos em sílico (por ferramentas de bioinformática) com o achado obtido por espectrometria da nossa amostra. E assim, realizar a identificação dos peptídeos e proteínas presentes em nossa amostra. 3.2.1 Carregando as bibliotecas no R Abra o RStudio e cole os seguintes códigos abaixo parra carregar os pacotes que utilizaremos para o nosso trabalho: library(MSGFplus) library(MSnbase) 3.2.2 Importar os arquivos Os arquivos de dados brutos em formato mzML e o proteoma de referência no formato fasta. Ambos serão armazenados nos respectivos objetos de nomes ‘amostra 1’ e ‘fasta’, como a seguir. amostra1 = readMSData(arquivo.mzML, mode = “ondisk”) fasta = "uniprot-proteome%3AUP000000803.fasta" Nota: Aqui importamos o arquivo de espectros e salvamos em um objeto com o nome ‘amostra1’. Aqui só para nível de informação. Mais abaixo importaremos esse arquivo e o mesmo será utilizado nas etapas seguintes. 3.2.3 Adicionando Parâmetros de identificação Para realizar a pesquisa de peptídeos (identificação de peptídeos), usamos o software Msgfplus (KIM; PEVZNER, 2014). Esse software necessita de alguns parâmetros para que seja realizado a pesquisa por peptídeos contra um banco de dados de referência. Esses parâmetros, são simplesmente correspondente a metodologia utilizada previamente a análise de bioinformática. Abaixo se encontra uma forma simples de adicionar esses parâmetros ao MSGF+ a partir do código a seguir. tolerance(par)...


Similar Free PDFs