Bioinformatik Zusammenfassung PDF

Title Bioinformatik Zusammenfassung
Author Tobias Hannes
Course Bioinformatik
Institution Universität Potsdam
Pages 22
File Size 1 MB
File Type PDF
Total Downloads 36
Total Views 132

Summary

Bioinformatik Zusammenfassung WS17...


Description

Alignement Dienstag, 16. Oktober 2017

• Ein Alignement ist ein Abgleich zweier oder mehrerer Sequenzen, z.B. Nucleotid‐ oder AS‐Sequenzen. • Es gibt verschiedene Alignement Arten:  Paarweises Alignement □ Vergleich von 2 Genen (z.B. Maus, Ratte)  Multiples Alignement □ Vergleich von mehreren Genen (z.B. Maus, Ratte, Mensch, Affe)  Globales Alignement: □ Kompletter Sequenzvergleich  Lokales Alignement □ Nur bestimmter Sequenzbereich (Teilsequenz) • Ergebnis: Match → Übereinstimmung  Mismatch → Keine Übereinstimmung  GAP‐"Strafpunkte" (gap penalties)  □ Bei Lücken, wenn einzelne Basen nicht passen, der Rest aber schon. □ Verursacht durch Insertion und Deletion • SCORE: Kriterium für Qualität  Durch eine definierte Funktion wird hier jeder Übereinstimmung ein Score zugeteilt. Eine Ähnlichkeit hebt den Score weniger als eine Übereinstimmung. Ein totaler Mismatch bedeutet ein Herabsetzen des Scores.

Nutzen • Phylogenie Eine höhere Homologie (Ähnlichkeit zwischen Sequenzen zeigt in der Regel eine  engere evolutionäre Verwandtschaft auf. • Strukturvorhersage  Annahme einer direkten Beziehung zwischen Sequenzhomologie und Strukturhomologie • Identifikation von Sequenzmotiven  Lokales Sequence Alignement kann potenzielle Sequenz‐ und Funktionsmotive in Proteinen und Nucleotidsequenzen identifizieren.‐  Z.B. SHINE‐DALGARNO Sequenz, Promotoren, Operatoren, … . → Erfüllen Funktionen • Funktionsvorhersage  Eine hohe Sequenzähnlichkeit zwischen Proteinen lässt in der Regel auf eine gemeinsame Funktion schließen.  Nützlich um Proteine in einfachen Organismen zu untersuchen und zu übertragen auf komplexe Organismen. • Programm: CLUSTALW  □ Für Multiples Alignement optimal (Sequenzen mit Leerzeichen rein kopieren) □ Auch Stammbaumanalyse direkt möglich → Phylogenie  BLAST (bei Datenbanksuche)  Alternative: Dotplot

Bioinformatik Seite 1

Phylogenetische Analysen Sonntag, 3. Februar 2013 16:48

→ STAMMBAUMANALYSE • Aufklärung der evolutionären Verhältnisse • Aufklärung von familiären Verhältnissen • Aufklärung von Infektionswegen  z.B. bei schnell mutierenden Wegen • "Phylogenetic Inference"  Wenn alle nah verwandten Spezies ein bestimmtes Gen haben, ist es wahrscheinlich, dass das Gen auch in der untersuchten Spezies vorkommt.

Phylogenetischer Baum • Graphische Darstellung der stammesgeschichtlichen Beziehungen zwischen verschiedenen Organismen • Phylogenetische Bäume können unter anderem aus multiplen Alignements von DNA‐ oder Proteinsequenzen abgeleitet werden.

Programm: CLUSTALW

Dotplot Dienstag, 16. Oktober 2012 14:41

• Grafische Methode der Bioanalytik zwei biologische Sequenzen (Basenpaare, AS) zu vergleichen. • Die Sequenzen werden oben und links auf die horizontale und vertikale Achse eines Diagramms aufgetragen: A B C A B C A B C

A B C A B C A B C

→ Optimal: Diagonale = 100% Übereinstimmung

ABC X Y Z A B C A B C A B C A B C → Ende und Anfang stimmt überein, Mitte unterschiedlich

• Der Dotplot dient zur Auffindung übereinstimmender Regionen. • Immer wenn 2 Buchstaben übereinstimmen wird es mit einem Buchstaben/punkt versehen • Vergleich von zwei Sequenzen. → Paarweises Alignement • Programm: Dotmatcher http://emboss.bioinformatics.nl/cgi‐  bin/emboss/dotmatcher Molkit http://de.wikipedia.org/wiki/Offener_Leserahmen 

• Beispiel: Auf dem Bild rechts ist eine DNA‐Sequenz mit sich selbst verglichen worden. Neben der zu erwartenden, vollständigen Übereinstimmung der Sequenz, erkennbar durch die Diagonale (links oben nach rechts unten), ergeben sich noch weitere, regionale Ähnlichkeiten. Eine Unterbrechung der Diagonalen mit nach unten oder rechts verschobener Fortsetzung würde Insertionen (z.B. Introns) bzw. Deletionen aufzeigen (hier nicht der Fall). Linien außerhalb der Hauptdiagonalen stehen für ähnliche oder repetitive Einheiten.

Molkit Dienstag, 6. November 2012 14:53

• Erstellung von:  Restriktionskarten □ Wo wird was geschnitten • Dotplots Sequenzvergleich Dot‐  Map 

BLAST Dienstag, 16. Oktober 2012 15:15

• BLAST bezeichnet eine Reihe von Programmen zur Analyse biologischer Sequenzdaten. BLAST wird dazu verwendet um experimentell ermittelte DNA‐ oder AS‐Sequenzen mit einer bereits vorhandenen Datenbank zu vergleichen. • Das Ergebnis sind lokale Alignements, also eine Gegenüberstellung von Stücken der gesuchten Sequenz mit ähnlichen Stücken aus der Datenbank. • Es gibt verschiedene BLAST‐Typen:

BLASTp: Vergleicht AS‐Sequenz gegen Proteinsequenzdatenbank tBLASTn Vergleicht Preoteinsequenz gegen BLASTnVergleicht DNA‐Sequenzen (Nucleotid) mit Nucleotidsequenz‐Datenbank BLASTxVergleicht DNA‐ Sequenzen (Nucleotid) mit Proteinsequenz‐Datenbank tBLASTx Vergleicht die sixframe Translation einer Nucleotidsequenz gegen eine Nucleotidsequenzdatenbank • Six‐Frame‐Translation: 6 Mögliche Translationen für eine Sequenz, die sich aus der Möglichkeit von 2 Strängen mit jeweils 3 unterschiedlichen Leserastern ergibt.

• http://blast.ncbi.nlm.nih.gov/

Zeilen

• Jede Zeile ist ein ORGANISMUS oder ein Treffer!

http://en.wikipedia.org/wiki/BLAST

EST‐Sequenzen = Expressed Sequence Tags Dienstag, 29. Januar 2013 13:40

• ESTs sind klonierte DNA‐Sequenzen die durch teilweise Sequenzierung von cDNA gewonnen werden. • Da die cDNA durch reverse Transkription von mRNA erzeugt wird, stellen sie also einen Ausschnitt der Sequenz von Genen dar, die expremiert werden. • Introns, Promotoren und regulatorische Elemente von Genen sind somit nicht vorhanden. Programm: NCBI‐Datenbank dbEST Anwendungen:  Neue Gene finden  Identifikation von unbekannten Genen →Gensonde oder Sequenzierung und Alignment des unbekannten Gens mit ESTs

Generierung von EST‐Sequenzen:

Identifizierung von neuen Proteinen (durch EST) Montag, 4. Februar 2013 00:26

STS‐Sequenzen = Sequence Tagged Sites Montag, 4. Februar 2013 00:08

• Kurze DNA‐Sequenzen mit einer Länge von 200 bis 500 Nucleotiden • Kommen nur einmal im Genom eines Organismus vor! → eignen sich als Marker für die Kartierung von Chromosomen bzw. Genomen • Orientierungspunkte im Genom, welche die korrekte Einordnung von Sequenzbereichen ermöglichen. • Erstellung von präzisen physikalischen Karten von Genomen • Generierung mit Hilfe der PCR • Leistungsfähigstes Verfahren • Als cDNA Bibliothek • Genome Landmarks  Sequenzen die im Genom nur einmal vorkommen → Orientierung → Human Genome Project

Genkarten, Genort Dienstag, 6. November 2012 14:34

Genkarte • Eine Genkarte zeigt die lineare Anordnung der Gene im Genom eines Organismus. Man unterscheidet dabei genetische und physikalische Genkarten. • Auf einer genetischen Karte ist die Reihenfolge von Genorten eingetragen. Auf einer physikalischen Genkarte sind die genauen Abstände zwischen Genen gemessen in Basenpaaren eingetragen. • Obwohl die Anordnung der Gene auf beiden Kartenarten die gleiche ist, gibt es keine universal gültige „Umrechnungsformel“ zwischen den beiden Kartenarten. Der Grund dafür ist, dass Rekombinationshäufigkeiten je nach Region des Genoms und je nach Geschlecht extrem stark variieren. • Um eine vollständige physikalische Genkarte zu erhalten, muss die Genomsequenz eines Organismus bekannt sein. Aus dieser lässt sich auch abschätzen, wie viele Gene im Genom enthalten sind.

Genort (auch Genlocus) • Der Locus (lat: „Ort“, Mehrzahl: Loci) oder Genlocus (Genort) ist die physische Position eines Gens im Genom. • Besteht das Genom aus mehreren Chromosomen, ist der Genlocus der Ort auf dem Chromosom, an dem sich das Gen befindet. • Verschiedene Ausprägungen oder Varianten dieses Gens werden als Allele bezeichnet, die sich alle an der gleichen Stelle auf dem Chromosom, nämlich dem Genort, befinden. • Der Begriff entstand bei der Erstellung der ersten Genkarten und ist mit der Erkenntnis verknüpft, dass Gene eine bestimmte Anordnung auf den Chromosomen haben. • Zur Benennung des Genortes gibt man zunächst die Nummer des Chromosoms an, dann den Buchstaben p oder q, je nachdem, ob er sich auf dem kürzeren bzw. längeren Arm bzgl. des Zentromers befindet, und schließlich Nummern, die für die Region, das Band und das Unterband auf dem Chromosomenarm stehen, wobei letzteres durch einen Punkt abgetrennt wird. • In nebenstehender Zeichnung ist der Genlocus 22q12.2 rot markiert. Diese Nomenklatur gibt keinen Hinweis auf die Funktion des Gens, wie man das zum Beispiel bei Bezeichnungen wie Hox‐ Gen oder MYH9 antrifft, sondern beschreibt lediglich den Ort. • So kann man etwa sagen, dass MYH9 beim Menschen am Genlocus 22q11.2 liegt. Ein weiteres Beispiel für diese Bezeichnungsweise ist die Krankheit 1q21.1‐Deletionssyndrom, die durch eine teilweise Deletion am Genort 1q21.1 hervorgerufen wird.

ORFs = Open Reading Frames Dienstag, 29. Januar 2013 12:46

• Als open reading frame (offenes Leseraster) wird der Bereich der DNA bezeichnet, der zwischen einem Start‐ und einem Stop‐Codon liegt. • Der offene Leserahmen codiert für die AS‐Sequenz eines Peptids oder Proteins. • In eukaryotischen Genen wird der ORF oft von Introns unterbrochen, die während der Prozessierung der mRNA heraus gespleißt werden. → Durch alternatives Spleißen werden so eine Vielzahl von Protein‐ varianten möglich. • Ist umgeben von nicht codierenden Bereichen des Gens → 5'‐UTR‐ und 3'‐UTR‐Bereich • UTR steht für untranslated region. Dabei handelt es sich um Regionen eines Gens, die zwar bei der Transkription in mRNA transkribiert werden, bei der Translation jedoch nicht für eine Aminosäuresequenz codieren. In diesen Bereichen liegen wichtige Informationen für die Translation des offenen Leserahmens.

Genauer in: Genetik Programm: ORF‐FINDER □ Geht alle 6 Leseraster durch □ Ziel: Proteinogene Sequenzen finden.

SNP = Single Nucleotide Polymorphism Dienstag, 6. November 2012 15:04

• Bei SNPs handelt es sich um Variaionen einzelner Basenpaare in einem DNA‐Strang. • SNPs werden auch als "erfolgreiche" Punktmutation bezeichet. • Sie kommen im Genom nicht gleichverteilt vor, sondern unregelmäßig stark in bestimmten Regionen. • Ein SNP kann verschiedene Auswirkungen auf das Codon haben:  Die gleiche Aminosäure wird codiert. (synonymer SNP)  Eine andere Aminosäure wird codiert (nicht‐synonymer SNP) • Die Bioinformatik nutzt das häufige Auftreten und die Hohe Variabilität der SNPs um Identifikationen von Individuen bei Verwandschaftsdiagnosen durchzuführen. • Programm: dbSNP = database snp • Beispiel : RS334

2 mal auf dem Chromosom 11

Primäre/Sekundäre Datenbanken Dienstag, 27. November 2012 14:39

Primäre Datenbanken:   

Sequenzen Kreuzreferenzen zu anderen Datenbanken Experimentelle Dokumentation

Beispiele für primäre Datenbanken: GenBank

DNA‐, Nucleotidsequenzen

NCBI Protein Data Base Protein‐, Aminosäuresequenzen " " SwissProt Protein, DNA‐Strukturen PDB

Sekundäre Datenbanken:  

gefilterte und interpretierte Infos Ziehen ihre Informationen aus primären Datenbanken

Beispiele für sekundäre Datenbanken: PROSITE Protein‐, Aminosäuresequenzen Prints Pfam SCOP CATH

"

"

"

"

Proteinstrukturen "

Proteinklassifizierung Sonntag, 3. Februar 2013 22:27

→ Allesamt sekundäre Proteindatenbanken PRINTS • Einsatz von Fingerprints zur Klassifizierung von Sequenzen • Proteine weisen meist mehrere funktionelle Bereiche (Faltung, Ligandenbindung, Komplexbildung, …) auf. → Mehrere Sequenzmotive für ein Protein • Diese Sequenzmotive lassen sich durch kurze lokale Alignements identifizieren. • → Klassifizierung anhand der Motiv‐Alignments • Durch die Verwendung von fingerprints steigt die Sensitivität der Analyse, d.h. es ist auch möglich die Zugehörigkeit eines Proteins zu einer Proteinfamilie zu bewerten, wenn eines der betrachtetten Motive nicht vorliegt.

PROSITE • Proteinfamilien, Domänen, funktionelle Bereiche sind geführt. • Motive werden aus multiplen Alignements abgeleitet. • Die Klassifizierung erfolgt über die Bestimmung einzelner konservierter Motive.  Kurze Sequenzbereiche von 10‐20 AS, die aus Multiplen Alignements (einer Proteinfamilie) abgeleitet sind. → Bei jeder Proteinfamilie lässt sich so eine spezifische Signatur erkennen Diese nehmen meist eine Schlüsselfunktion im Protein ein.  Diese Signatur wird mit dem unbekannten Protein verglichen, um die Proteinfamilie/domäne zu identifizieren.

PFAM (Protein Familien Datenbank) • Ähnlich wie PRINTS, nur basierend auf HMM. • Klassifizierung von Proteinfamilien anhand bestimmten Profilen  Wahrscheinlichkeiten für bestimmte AS, Insertionen und Deletionen sind einprogrammiert. • Die Profile beziehen sich nur auf funktionell interessante Domänen.

CATH • Hierarchische Klassifizierung von Proteinstrukturen    

Class Architecture Topology Homologous Superfamily

SCOP (= Structual Classification of Proteins) • Klassifiziert Proteine mit bekannter Struktur hierarchisch • Drei Hauptklassifikationen:  Familien  Superfamilien  Faltungen

Proteindomänen Freitag, 1. Februar 2013 12:11

Eine Proteindomäne ist ein Bereich innerhalb der Aminosäuresequenz eines Proteins, der aufgrund definierter Eigenschaften von seiner Umgebungssequenz unterschieden werden kann. • Werden verwendet um Proteinfamilien zu definieren. • Unbekannte Proteine können anhand ihrer Domänen Klassifiziert werden. →Datenbanken: PROSITE, PRINTS, ...

Zinkfingerdomäne • Zinkfingerproteine sind eine Klasse von nucleinsäurebindenden Proteinen, die eine bestimmte Proteindomäne besitzen: die Zinkfingerdomäne, bei der ein Zinkion (Zn2+) koordinativ gebunden ist. • Die Polypeptidkette nimmt durch den Einbau des Zinkatoms eine schleifenförmige Struktur – den sogenannten Zinkfinger – ein, welche spezifisch mit der DNA oder auch RNA interagieren kann.

Signalpeptide Dienstag, 29. Januar 2013 12:15

• Die Signalsequenz, auch Signalpeptid oder Transitpeptid ist eine Abfolge von Aminosäuren eines Proteins. • Diese Aminosäuresequenz entscheidet über den Bestimmungsort und den Transportweg des Proteins innerhalb der Zelle. • Das Signalpeptid befindet sich üblicherweise in Proteinen, deren Bestimmungsort sich in Biomembranen oder Kompartimenten der Zelle befindet.

SignalP • Ist ein Signalpeptid da oder nicht?  Enzym mit Signalpeptid = Sekretorisches Enzym → Identifikation von Proteinfunktionen. • Siehe skript 6_Proteinstrukturen • NN newonates Netzwert (KNN, ANN) • HMM Hidden Markov Modell • Signalpepdid = kurz Transmembranprotein = protein

TMHMM = Transmembran prediction using HMM Dienstag, 27. November 2012 15:23

• Basiert auf der stochastischen Methode des Hidden Markov Modells (HMM) • Hier wird nach Transmembranproteinen gesucht. • In den membrandurchspannenden Abschnitten liegen fast ausschliesslich hydrophobe AS! • TMHMM ist eine Möglichkeit Transmembrandomänen vorherzusagen. TMHMM basiert auf dem Hidden Markov Modell (HMM), das darauf trainiert wurde, hydrophobe Transmembranhelices zu detektieren. • Darüber hinaus sagt das Programm auch die Orientierung der einzelnen Domänen (intrazellulär/extrazellulär) und damit des gesamten Proteins voraus.

Erfasster Bildschirmausschnitt: 01.02.2013; 18:13

Sekundärstruktur‐Vorhersage Freitag, 1. Februar 2013 12:10

• Da man in Helix‐, Blatt oder Schleifenstrukturen bestimmte Aminosäuren findet, kann man sich die Aminosäuresequenz zu nutze machen, um ein evtl. Vorkommen bestimmter Sekundärstrukturen in einer gegebenen Sequenz vorherzusagen. • Dazu nutzt man Alignement‐basierte Hybridmethoden  Es wird versucht homologe Regionen (Sequenzmotive) in den Sequenzen zu finden um die Sequenz einer bestimmten Gruppe oder Familie zuzuordnen • Oder Einzelsequenzmethode:  Die Struktur wird nur anhand der gegebenen Aminosäure‐Sequenz vorhergesagt.

Proteomanalyse Sonntag, 3. Februar 2013 17:58

Aufrennung der Proteine

Probenvorbereitung

Peptid‐Fragmente

Intakte Proteine

Sequenz‐ Analyse

Aminosäure‐ Analyse

Keine Trennung

Verschiedene massenspektrometrische Methoden, vor allem MALDI‐TOF und ESI‐ TOF

DNA‐ und Protein‐Datenbanken

Trennung durch LC/CE

2D‐Gelelektrophorese Sonntag, 3. Februar 2013 22:01

• Die 2D‐Gelelektrophorese ist eine analytische Methode in Biochemie, Molekularbiologie und Proteomik. • Sie kombiniert die isoelektrische Fokussierung (IEF) mit der SDS‐Polyacrylamidgelelektrophorese (SDS‐ PAGE) zur Trennung komplexer Proteingemische (Bakterienlysate, Lysate von höheren Zellen oder Geweben, Körperflüssigkeiten) in Einzelproteine. • Durch die Kombination der beiden orthogonal zueinander ausgeführten Trenntechniken wird eine besonders hochauflösende Trennung erreicht. • Jeder Fleck (Spot) im Proteinmuster entspricht einer Sorte (Spezies) von Proteinmolekülen. • Da sich Proteinmuster in biologischen Systemen umwelt‐ und zustandsabhängig verändern, können sie zur Unterscheidung geschädigter und gesunder oder auch optimal und suboptimal gewachsener Zellen herangezogen werden. • Sie geben beispielsweise Aufschluss über Krankheitsursachen oder den Wirkungsmechanismus von Medikamenten auf molekularer Ebene. • Aufgrund der Komplexität von zweidimensionalen Proteinmustern wird für deren Auswertung auf speziell entwickelte Computerprogramme zurückgegriffen.

Microarrays Dienstag, 29. Januar 2013 15:40

• Methode, die benutzt wird um die Präsenz und Menge einer Genexpression in einem Gewebe zu messen. → Über mRNA

Zwei Arten Microarrays • Spotted Microarrays  Fluoreszenz‐markierte cDNA wird auf das Trägermaterial gedruckt  Hybridisierung der Nucleinsäuren  Qualitative Analyse anhand von Fluoreszenz □ Intensität ist vom hybridisierungsgrad abhängig! • Oligonukleotide Microarrays • Es ist eine parallele Analyse von mehreren tausend Einzelnachweisen. • Sehr geringe Menge Probenmaterial • Programme Microarray Datenbank: Standford Microarray Datenbank 

Primer‐Design Montag, 4. Februar 2013 01:40

• Identifikation der DNA‐Sequenz → Welchen Primer brauch ich dafür? • Die Primer sollten in etwa 18‐25 Nucleotide lang sein • Die Primer sollten nicht mit sich selbst komplementär sein. • Im Falle der PCR sollten die Primer keine Dimere (Primerpaare) ausbilden. • Der GC‐Gehalt sollte zwischen 40 und 60% liegen. • Der TM‐Wert sollte für die PCR etwa zwischen 55°C und 65°C sein. • Im Falle der PCR sollte der TM‐Wert von beiden Primern sehr ähnlich sein. • Auswahl der Primer durch Programme:  Primer Selection Tool □ Sequenz wird in das Fenster eingegeben □ Pick Primer Button □ Ergebnis: → Länge, vorhergesagte Schmelztemperatur, G/C Gehalt...


Similar Free PDFs