Relazione di bioinformatica PDF

Title Relazione di bioinformatica
Author Razrul Kazi
Course Bioinformatics
Institution Università Politecnica delle Marche
Pages 48
File Size 4.5 MB
File Type PDF
Total Downloads 72
Total Views 123

Summary

relazione di bioinformatica, tipologia A...


Description

Laurea Magistrale in biologia molecolare e applicata Curriculum: Tecniche Biologiche Relazione di Bioinformatica Tipologia A PDB code: 1xse

Studente: kazi Razrul islam Matricolo: S1091825 Anno accademico 2019/ 2020

1) Riportare nome della proteina e breve descrizione della funzione

Per la ricerca della proteina, ho utilizzato Banca dati della proteina, dove è possibile fare la ricerca in diversi modi cioè nel motore del PDB posso utilizzare il nome della proteina, oppure il nome della persona che ha depositato, o il codice PDB( è un carattere alfa numerico, ovvero oltre le lettere e riporta eventuale presenza di numeri) La proteina in oggetto di studio ha il codice PDB 1XSE, è una proteina dimerico perché costituito da due subunità identico. È ciascuno catena è costituito da 295 amminoacidi, e le catene vengono classificati A e B poiché come eteroatomi è presente Nicotinammide adenina di nucleotide fosfato. Dopoché la proteina viene espresso in Escherichia Coli, perciò è una proteina ricombinante. Questa proteina viene classificato come ossidoreduttasi, quindi posso definire come un enzima. 11beta idrossisteroide deidrogenasi tipo 1 (11B-HSD1), esiste anche tipo 2(11BHSD2). Il primo è localizzato nel lume del reticolo endoplasmatico mentre il secondo nello spazio citoplasmatico, queste specifiche localizzazioni sono dovuti, che nella maggior parte dei casi è NADPH-dipendente cortisone reduttasi. Mentre tipo 2 agisce come NAD+ dipendente deidrogenasi cortisone. Il primo converte il cortisone a cortisolo attivo, infatti questo è un enzima è abbondante nel fegato ma può essere trovato nella maggior parte dei tessuti del corpo. 11B-HSD tipo 1 aumenta la concentrazione di glucocorticoide, induce obesità, e con altra funzione come ipertensione, diabete mellito .11 B-HSD tipo 2 protegge il recettore mineralcorticoide della attivazione cortisolo convertendo in cortisone.

2) Recuperare le corrispondente

sequenze

amminoacidica

e

nucleotidica

>1XSE_1|11beta-hydroxysteroid dehydrogenase type 1|Cavia porcellus (10141)

MGSSHHHHHHSSGLVPRGSHMNEKFRPEMLQGKKVIVTGASKGIGREIAYHLAKMGAHVVV TARSKEALQKVVARCLELGAASAHYIAGSMEDMTFAEEFVAEAGNLMGGLDMLILNHVLYNRL TFFHGEIDNVRKSMEVNFHSFVVLSVAAMPMLMQSQGSIAVVSSVAGKITYPLIAPYSASKFAL DGFFSTLRSEFLVNKVNVSITLCILGLIDTETAIKATSGIYLGPASPKEECALEIIKGTALRQDEMYYV GSRWVPYLLGNPGRKIMEFLSAAEYNWDNVLSNEKLYG

La sequenza amminoacidica in formato Fasto ho ricavato dal sito PBD (protein data bank) Viene rappresentato ogni amminoacido da una lettera, cui compare solo una catena perché la proteina è formato da subunità identiche se fosse eterodinerò allora avremmo avuto due catene oppure se fosse tetramero come 4HHB in tale caso alfa viene rappresentato da una catena (visto che sono identiche tra di loro) e beta da una catena. La sequenza nucleotidica ho trovato utilizzando tBLASTn dove ho inserito la mia sequenza in formato Fasta, una volta che ho lanciato la programma mi dà i diversi risultati, Ho preso una sequenza appartenente cavia porcellus perché lo stesso organismo è citato in protein data bank. Dopodiché ho cliccato sulla voce di accession, che era presente nella sezione di description, dove riporta intera gene, cui intera gene viene evidenziato perché intera gene codifica per la proteina.

infatti, il cds va da 1 a 903 nucleotidi.

Qui invece ho messo la sequenza in formato Fasta che è possibile ottenere sia in alto a sinistra che in basso a destra. 3) Indicare la tecnica sperimentale utilizzata per la determinazione strutturale, riportando la risoluzione e i parametri sperimentali essenziali.

Le tecniche sperimentale esistono principalmente di tre tipi: diffrazione ai raggi x, NMR, microscopia elettronica poiché il problema principale dell’ultimo tecnico è il costo infatti in Italia abbiamo l’unico microscopio elettronico. Qual è il problema della caratterizzazione di una proteina? Per esempio voglio studiare una proteina, quindi faccio un studio genomico per trovare il gene che codifica tale proteina, poi questa sequenza faccio esprimere, utilizzando il DNA ricombinante, solitamente il clonaggio funziona del 100%, ma espressione del 66% perché alcuni proteine, per esempio, chiedono modifiche post’ traduzione quindi dovrei utilizzare un organismo adatto per tale proteina, poi ho anche altri problemi, perché alcune volte esprime troppo quindi si precipita , e diventando amorfe, poi non riuscirò a risospendere, dopodiché dovrei purificare ma non è sempre efficace quindi si abbassa ancora percentuale probabilità di caratterizzare. Dopodiché se voglio utilizzare la tecnica di cristallografia ai raggi x perciò dovrei cristallizzare queste

proteine, cioè precipitare le proteine nella soluzione formando dei cristalli che significa le proteine precipitate deve essere, localizzando uno dopo l’altro, in posizione regolare all’ interno di un reticolo tridimensionale. Il problema le proteine non cristallizza facilmente. Ma cristallizza quelle piccole e quelle solubile mentre le proteine grandi, complessi, e le proteine di membrana tipicamente non cristallizza, queste ultime che ci interessano. Poiché NMR per motivi tecnici e sperimentali applicabile su proteine piccole. Quindi la tecnica di elezione è microscopia elettronica perché chiede proteine grandi, complessi, proteine di membra. Comunque, anche per questa l’ultima abbiamo un po’ di problema perché la proteina viene congelato quindi aumenta il suo volume, perciò viene compresso e questa compressione denatura la proteina quindi non abbiamo la proteina nativa per essere analizzato

Per caratterizzare questa proteina viene utilizzato la diffrazione ai raggi x con una

risoluzione di 2.50 A°, con il termine risoluzione indica la minima distanza alla quale è possibile osserva ovvero la minima distanza che separa due atomi. Questo parametro dipende dalla qualità del cristallo e dal set-up dello strumento.

Space gruppo indica il gruppo spaziale ovvero la simmetria del cristallo. Il cristallo è formato della ripetizione regolare delle proteine nello spazio. I valori di Unit Cell ci dicono le grandezze di una singola proteina cristallizzata che forma il cristallo. Cui sono riportati la strumentazione, il PH e la temperatura usata nell’ esperimento

4) Descrivere la struttura 3D della proteina, evidenziando con immagine appropriate la struttura secondaria e l’eventuale presenza di domini. Riportare il plot di Ramachandran.

Per visualizzare la struttura 3D della proteina, esistono diversi software, Io ho utilizzato il programma Swiss PDB Viewer. Le coordinate della proteina ho scaricato dalla banca dati delle proteine in formato PDB, poi ho aperto con questo programma.

Per sapere, questa proteina da quanti catene sono costituiti. Esiste due tecniche: il primo bisogna andare nel contro panel e scorre fino al fondo, dove vengono indicati con le lettere, in questo caso viene indicato A e B, visto che la proteine è costituito da due catene, mentre il secondo modalità è andare su menu color poi attivare come opzione act on backbone + sidechains, poi

cliccare su chain che evidenzierà con diversi colori in base quantità di catene sono costituiti tale struttura proteica . Infatti, cui giallo corrisponde catena A e blu catena B.

Questa immagine viene mostrato secondo modalità CPK (ovvero colorazione standard internazionale) e rendendo 3D. il colore Rosso indica ossigeno, cosi blu indica azoto e Bianco carbonio, giallo solitamente indica lo solfo. Se avessi l’idrogeno, allora venivano indicati con il colore celeste. Ma per caratterizzare questa proteina ha utilizzato la tecnica di cristallografia raggio x per tale motivo non sono presenti gli Idrogeni. Dopodiché ha una densità elettronica molto bassa perciò non riesce evidenziarlo. Se avesse utilizzato NMR allora gli H venivano colorati perché questa tecnica è basa sull’ Idrogeno per calcolare anche altri atomi.

Cui queste due immagini, mostrano la struttura secondaria, nella quale le alfa eliche vengono colorate con colore rosso mentre il giallo vengono indicate beta strand (cioè foglietti beta). Le parti restanti colorati in

grigio che corrisponde i loops cioè le catene amminoacidiche che fungono da collegamento. La cosa che volevo evidenziare, che anche nel control panel assumono le stesse colorazione della struttura secondario.

se uno osserva la configurazione dell’alfa elica, sembra che disposto in modo tale al centra che ci spazio vuoti tra gli AA. Ma in realtà non è così perché sappiamo gli atomi sono costituiti da un nucleo, dove sono concentrati neutroni e protoni, e attorno ci sono degli elettroni che girano. Quindi questi elettroni occupano un certo spazio attorno al nucleo perciò è possibile avere una idea della dimensione degli atomi attraverso spera di Van Der Waals , come ho riportato immagine sopra.

Come si osserva immagine sopra alfa elica, viene stabilizzati dai numerosi legami H.

Questo immagine dimostra presenza di un DOMINO, secondo classificazione di SCOP

Il Ramachandran ha preso, le vari strutture proteiche contenuto all’ interno della banca dati delle proteine, ha calcolato per ogni AA quali sono gli angoli phi e psi all’ interno della struttura nativa, cioè per ogni AA quali sono le coppe di phi e psi rende la molecola stabile. Questi angoli sono quelli che definiscono la struttura tridimensionale. Dopoché non tutte le conformazioni sono possibili, perché alcuni sono vietati per la ragione dell’ingombro sterico e per il motivo energetico. Poi intervengono i legami idrogeni, per stabilizzazione della proteina. La formazione di legami H tra porzioni qualsiasi della catena principale è sufficiente che si avvicinano oppure la nostra catena principale può ripiegare, modificando l’angoli phi e psi per tale per cui le due porzioni si avvicinano della nostra catena principale, e vengono a contatto uno rispetto l’altro. Il colore giallo e rosso definisce delle regioni che sono energeticamente stabile. Il rosso indica la regione super favorevole e il giallo sono regione meno favorevole rispetto il rosso, e altra regione sono sfavorevole. Oltre alfaelica e beta strand, ci sono altre strutture stabile viene chiamato gli elementi

secondari come il turn, comunque sono stabilizzati dai legami H. In genere le alfa eliche vengono indicati con colore rosso e foglietti beta con il colore giallo. Ogni punto che vedo nel plot di Rachandran è rappresenta un AA. Posando con il cursore su qualsiasi punti, mi dice che tipo di AA e quali sono angoli phi e psi ha. solitamente gli AA che si trovano fuori dalla regione sono glicina, infatti quelli che interrompono le alfa eliche. Spostando un qualsiasi AA su Plot Ramachandran, si osserva che un piccolo variazione di angoli di phi e psi un effetto enorme sulla proteina.

5) Se possibile individuare la sequenza del gene codificanti la proteina e riportare le informazioni disponibili sulla sua struttura (ad esempio l’eventuale presenza di introni), sulla sua posizione cromosomica (ad esempio i nomi dei due geni più vicini) la sequenza codificante relativo il mio gene, avevo già risposto nella domanda due comunque posso ottenere facilmente utilizzando il motore di ricerca del NCBI (opzione nucleotide) e inserendo il codice di accesso che identifica in maniera univoca il mio gene.

Per sapere l’informazione della struttura del gene, ho utilizzato la banca dati di geni, nell’opzione ho cliccato “GENE” mentre nel motore di ricerca ho messo il codice di accesso della mia sequenza. Nel summary è descrizione generale del gene, ovvero quale organismo si tratta, il simbolo del gene ecc.

Genomic Contest: Cui di solito viene riportato la localizzazione di cromosomi e su quale braccio si trova, Ma non è noto il cromoso su cui è localizzato il gene. È costituito da sette esoni. Il grafico che si trova sotto la freccia rosso indica il mio gene (ovvero Hsd11b1) mentre le frecci grigie indicano i geni vicini. Alcune frecce saranno rivolte verso destra e altre verso a sinistra, questo dovuto perché sappiamo che il DNA è costituito da doppio filamento, quindi i geni non si trovano tutti lo stesso filamento perciò possono trovare su uno o sull’ altro filamento.

Il gene rappresentato in direzione 5’-3’ anche se la direzione del gene è 3’5’. Nell’ immagine sopra, vedo ci sono dei rettangoli e linee sottili che li

uniscono. I rettangoli costituiscono gli esoni mentre le linee sottile costituiscono introni, dopodiché i rettangoli verdi sono gli esoni codificanti mentre quelli chiari esoni non codificanti. Il numero di introni è sempre uguale al numero di esoni meno uno. Genes, Ensambl release 99: cui si osserva un'altra linea, questo risultato è proveniente data base quell’ europeo ovvero Ensemble, viene rappresentato con l’unica riga, comunque non è esattamente uguale a quello NCBI. Per esempio diversi codici di colore. In questo caso i rettangoli verde scuro indica gli esoni che sono contenuti in tutte le ISO -forme mentre il rettangolo verde chiaro indica gli esoni che non sono presenti in tutte le varianti

Quando clicco sulla prima riga verde quello che mi rappresenta il gene, mi compare nuove due linee, viola e il rosso. La linea viola mi rappresenta il trascritto cioè m-RNA. Mentre il rosso la proteina.

Posizionando il cursore sulla linea verde, mi compare una finestra come riporto immagine sopra, dove oltre all’indicazione che abbiamo già visto per il gene HSd11b1, riportano altre informazioni. Ad esempio, il link FASTA VIEW, BLAST GENOMIC. Se clicco su l’ultimo mi porta sulla pagina del gene Bank.

Quando posiziono il cursore sulla linea viola. Mi compare lo stesso quadro però cui contiene diverse informazioni perché vedo subito che un trascritto di mRNA e non gene nel primo caso, cioè mi fa vedere l’mRNA. Di nuovo trovo la sequenza fasta ma questa volta relativo al messaggero. Inoltre, possiamo lanciare su blast mRNA. La

stessa cosa, se metto il puntatore su linea rossa ma comparirà i link relativo alla proteina.

6) Effettuare ricerca di similarità delle sequenze nucleotidica in dati primaria (Gene Bank) utilizzando programma Blast

Per effettuare la ricerca di similarità delle sequenze nucleotidiche, ho utilizzato il codice di accesso relativo il mio gene, inserendo nel motore di ricerca al NCBI e opzione nucleotidica per limitare la ricerca, esclusivamente su sequenze nucleotidiche, dopodiché ho fatto il RUN BLAST, poi ho lanciato su blastn, lasciando con i parametri di default. (poiché ho lasciato l’opzione del parametro: sequenze abbasta simile cosi il programma considera sequenze simili) Il programma genera tre principali risultati: Description, Graphic summary, Alignments. Nella descrizione posso notare che Max score e Total score hanno stesso valore per i tutti i risultati, perché è lo stesso frammento, sappiamo che Max score indica il punteggio elevato fra i frammenti mentre il Total score è la somma dei frammenti, Ma visto che, cui non ho con lo stesso subject con più di un frammento. per questo ho lo stesso valore per entrambi

Graphic Summary: La linea Azzurra corrispondono la mia Query, la sua lunghezza è intorno 900 mentre le linee rosse corrispondono le mie subjects. La prima linea copre tutta la linea Azzurra perché è stessa. Il colore rosso è dovuto il punteggio. Sopra c’ è una tabella in base di intervalli di punti, si assumono una certa colorazione perché se posse stato un primer pur avendo identità del 100% non assumerebbe il colore rosso ma assumerebbe una colorazione nero perché non raggiungerebbe tale punteggio di intervallo per essere colorato rosso.

Nell’ Immagine sopra si osserva che il subject inizia con 48 mentre Query inizia con 1, questo significa che il subject ha 47 nucleotidi in più rispetto a query.

7) Selezionare tra le sequenze ottenute, oltre quella di partenza, almeno 3 sequenze nucleotidica appartenente organismi diversi (possibilmente con query cover più alta possibile e con identità compresa tra 90% e il 50 %.

Le tre sequenze scelte oltre alla mia sequenza di partenza sono la seguente: Chinchilla lanigera: Query cover 99% e una identità dell’87.68 % Octodon degus: Query cover 99% e una identità dell’ 85. 83% Marmota flaviventris: Query cover 98% e una identità e una identità dell’81.31%

8) Tra sequenze nucleotidica scelte, effettuare multi allineamento per la ricerca della regione conservate. Provare a cambiare i gap open e gap extension in modo da ottenere l’allineamento il più possibile corretto.

Per fare il multi-allineamento ho utilizzato il CLUSTAL W è un metodo progressivo ovvero prima allinea le due sequenze, e poi una terza così via. Prima di tutto ottiene tutti i possibili allineamenti di coppie, lo scopo è capire quali sono le sequenze più simili e quali sono le sequenze divergenti. È ovviamo che ogni coppia avrà il suo punteggio. Dopodiché il risultato di queste coppie viene posto a matrice per vedere quali sono le sequenze più vicine, perché allineamento progressivo inizia Con le sequenze vicine tra di loro. I metodi di allineamento progressi non sono utilizzabili per la comparazione delle sequenze con lunghezza molto diverse

Come si osserva tra i risultati, Il migliore risultato si ottiene con GAP OPEN E GAP RXTENSIO più basso. In fatti, sappiamo più basse sono i di valore di penalità il programma lo metto più gaps(obbietto è quello la sequenza) e viceversa. Ovviamente non dobbiamo lasciare troppo liberta al programma di mettere gaps.

9) disegnare, Basando sul multi-allineamento del punto precedente, una coppia di primers in grado di funzionare su almeno due sequenze degli organismi considerati, allo scopo di ottenere mediante PCR un amplificato di almeno 60 nucleotidi. I primer sono utilizzati per il PCR ovvero per amplificare i tratti di DNA, I primer sono due Foword e Revers e vanno scritti per convenzione 5’-3’. Il Foward viene scritto uguale alla sequenza da amplificare mentre il revers viene deve essere scritto in direzione opposta, perciò bisogna trasformare 5’-3’ ovvero bisogna complementare a partire della sequenza e poi invertirli. La parte più importante del primer è 3’ perché polimerasi al lungo nella parte 3’ quindi anche se una parte del 5’ legasse una parte aspecifico il primer funzionerebbe ugualmente. Le caratteristiche che devono avere un primer: 1)non deve essere complementari tra di loro, in moda non dar luogo i dimeri di primer 2) non deve essere complementari con stesso ovvero le estremità non devono essere complementari, per evitare la formazione di anelli 3) una alta percentuale di G-C 4) evitare la presenza AT nella estremità 3’ La tempera di anneling deve essere qualche grado inferiore alla temperatura di melting del primer che ha la temperatura melting più bassa. Foward:

3’GACCAGAGGATGCTCCAAGG 5’ REVERSE: 3’CTTCC(X)ATCCCTTTGCAGG 5’ PER calcolare la temperatura di melting: 4X(G+C) +28(A+T) C°

TM per foward è 60° TM per reverse è 56C°

Per la progettazione del primer possibile utilizzare PRMER-BLAST, oppure manualmente osservando le regioni conservate. TM accettabile pur con 4 gradi di differenza

10) Effettuare predizione di struttura secondario utilizzando uno dei metodi studiati. Analizzare i risultati considerando la reale struttura secondario della molecola. Prima di tutto perché dobbiamo predire una struttura proteica? L’ obbiettivo principale, per quale voglio predire una struttura proteica perché, attualmente le tecniche che esistono, risultano molto difficile per la caratterizzazione di una proteina, soprattutto quelli grandi, compressi, proteine di membra, infatti più della metà sono ancora sconosciuti alloro hanno deciso di predire una struttura proteica, sopponendo struttura simile funzione simile (nota bene. Però non sempre vero). Un’altra caratteristica è fondamentale l’informazione della struttura proteica è incluso all’ interno della struttura come ha dimostra ANFISEN attraverso lo sperimento. Poiché non d...


Similar Free PDFs