Bioinof-Zusammenfassung PDF

Title Bioinof-Zusammenfassung
Course Einführung in die Bioinformatik
Institution Eberhard Karls Universität Tübingen
Pages 24
File Size 1 MB
File Type PDF
Total Downloads 73
Total Views 142

Summary

Download Bioinof-Zusammenfassung PDF


Description

Kapitel 1: Was ist Bioinformatik?

Definition: Die Bioinformatik vereint die Biologie mit der Informatik, Mathematik und Statistik. Biologische Probleme können durch computergestützte Methoden verarbeitet und gelöst werden.

Aufgaben: -

Verarbeiten von großen biologischen Datenmengen -> Beschleunigung der Analyse von Informationen

-

Entwicklung und Implementierung von Werkzeugen zum Gebrauch dieser Daten

-

Entwicklung von Algorithmen zur effizienten Analyse der Daten

-

Visualisierung biologischer Daten

-

Rekonstruktion unbekannter Genome

-

Vergleich von Sequenzen

Ursprung: Begründerin ist Margaret Dayhoff durch die Veröffentlichung einer Sammlung von Proteinsequenzen, alias Atlas of Protein Sequences and Structure.

Biologische Sequenzen: Sequenzen: Abfolge von Nukleotide oder Aminosäuren als String mit dem gegebenen Alphabet. Nukleotide {A = Adenin, G = Guanin, C = Cytosin, T = Thymin, U = Uracil (RNA T -> U)} Aminosäuren {A, R, N, D, C, Q, …}

Mutationen: Fehler während der Replikation. Quelle der phänotypischen Vielfalt (Grundlage der natürlichen Selektion). Lokale Veränderungen der Primärsequenz der DNS = Genmutation Arten:

-

Punktmutation (Austausch)

-

Deletion (Verlust)

-

Insertion (Einschub)

Strukturveränderung eines Chromosoms = Chromosomenmutation Veränderungen der Chromosomenanzahl = Genommutation

Sequenz-Aligment: Biologische Annahme: Ähnliche Gene/Proteine haben gemeinsame Abstammung (homolog), daraus lassen sich ähnliche Funktionen schlussfolgern.

Dotplots: Das Dotplot ist ein visuelles Verfahren, mithilfe deren man zwei Sequenzen miteinander vergleichen und übereinstimmende Sequenzregionen finden kann. Diese Methode erfolgt durch das Auflegen der Sequenzen auf einer horizontalen und vertikalen Achse. Dabei werden Übereinstimmungen im Raster (ergo zwischen Zeile und Spalte) durch einen Punkt, im englischen „dot“ erkenntlich gemacht. Nur eine qualitative Aussage, aber keine quantitative.

Alignment: Vergleich von Sequenzen (Strings) auf Ähnlichkeit. Buchstaben einer gegebenen Sequenz werden den Buchstaben der anderen Sequenz zugeordnet. Dies erfolgt so, dass jeder Buchstabe in der einen Sequenz genau einem anderen Buchstaben der anderen oder einem Gap (Leerstelle, Lücke) zugeordnet wird und die alignierten Sequenzen dieselbe Länge haben. Bei einem globalen Alignment zwischen zwei Sequenzen (= komplette Sequenz bzw. gesamtes Genom) werden alle Symbole berücksichtigt. Bei einem lokalen Alignment werden Teilsequenzen (= Sequenzausschnitte) von zwei Sequenzen verglichen. Bsp: Sequenz 1: T A T A – T A C G C T A G C A Sequenz 2: T A T A A T A G G C T - G C A

Obiges Alignment hat 80% Identität (12 von den 15 ausgerichteten Positionen sind identisch), einen Mismatch und 2 Gaps. Durch Hinzufügen der Gaps entstehen gleichzeitig mehrere Varianten der Ausrichtung/Alignierung. Bewertung von Alignments: durch additive Funktionen. Bsp: Match = +2, Mismatch = -1, Gap = -5

BLAST: Ist eine Sequenzdatenbank. Es ist ein lokales Alignment-Verfahren. Ist sehr schnell, jedoch nicht sehr genau. Das liegt daran, dass der BLAST-Algorithmus eine Heuristik ist, wodurch keine Garantie an ein genaues optimales Ergebnis gelegt wird.

Zusätzliche Algorithmen: -

Needleman-Wunsch Algorithmus

-

Smith-Waterman Algorithmus

-

Beide berechnen den optimalen Algorithmus, haben aber eine sehr lange Laufzeit (O(n^2)).

-

Für die Suche in großen Datenbanken werden nur schnelle Verfahren benötigt.

Zusatz: Zwei Gene (oder Proteine) sind zueinander homolog, wenn sie von einem gemeinsamen Vorläufer abstammen, dadurch können gleiche Funktionen erklärt werden. Homologe Chromosomen enthalten in der gleichen Reihenfolge der Genorte die gleichen Gene.

Kapitel 2: Von DNA zur Datenbank -

Die DNA ist die Grundlage des Lebens. Die Reihenfolge der Basen enthält Informationen über den Bau von Proteinen und somit auch von Zellen.

-

Die Struktur der DANN ist eine Doppelhelix.

-

Definition: o Genomik ist das Studium der Genomsequenzen einzelner Organismen: Themen: Sequenzierung und Assemblierung, Annotation und Analyse, Genomvergleich

-

Genomgröße (kb = Kilobasen, Mb = Millionen Basen, Gb = Milliarden Basen) beim Menschen an die 3 Milliarden Basen.

-

DNA-Sequenzierung oder Didesoxymethode nach Sanger, oder Kettenabbruch-

Synthese: Ausgehend von einem kurzen Abschnitt bekannter Sequenz ( Primer) wird durch eine DNA-Polymerase einer der beiden komplementären DNA-Stränge verlängert. Zunächst wird die DNA-Doppelhelix durch Erwärmung denaturiert, woraufhin Einzelstränge für das weitere Vorgehen zur Verfügung stehen. Jede Base wird dabei gemerkt und sein Genort und seine Häufigkeit sichtbar gemacht. -

Viele Sequenzierungsprojekte, was zu fallende Preis für die Sequenzierung führt.

-

Shotgun-Sequenzierung ist die Zerteilung des Genoms in Reads von einer Länge von bis zu 5k

-

„Sequence Assembly“ oder zu Deutsch „Assemblierung von Sequenzen“ ist eine Methode zur Zusammensetzung von Reads zu der vollständigen, originalen Sequenz. Dabei wird eine Sequenz, die zuvor durch die Shotgun Sequenzierung in Reads zerteilt wurde, mithilfe von übereinstimmenden Enden, sogenannten „Überlappungen“ wieder zu einem Ganzen zusammengefügt. Vergleichbar mit einem Puzzle.

-

Längere Sequenzabschnitte werden aus „Reads“ assembliert

Kapitel 3: Molekulare Maschinen

-

Ein Gen codiert ein Protein DNA bestimmt eindeutig (Transkription)-> mRNA (Translation) bestimmt eindeutig-> Protein-Sequenz bestimmt eindeutig -> Struktur

-

Bekannt Ausnahmen: o Retrovieren kehren Richtung der Transkription um; o Prionen kennen mehr als eine stabile Struktur o Spleißvarianten desselben Gens

-

Peptidbindung: Amino- und Carbonsäurefunktion verknüpfen sich unter Kondensation. Es entsteht eine Peptidebindung.

Weitere Verknüpfung von Dipeptid (2 AS) zu Oligopeptid (bis 10 AS) und Polypeptide (über 1 bis 100 AS) und Proteinen (über 100 AS). -

20 proteinogene Aminosäuren (Unterschied in den Seitenketten)

-

Proteinkristallographie: Die zu untersuchenden Proteine müssen zu Kristallen gezüchtet werden, damit die Elektronen der Proteine die Röntgenstrahlen beugen können. Damit kann man die Abstände zwischen den einzelnen Atomen und deren Einordnung in der Struktur der Proteine feststellen und daraus ein 3D-Modell der Proteinstrukturen erstellen. Dies nennt man eine Elektronendichte-Karte. Der größte Nachteil der

Proteinkristallographie ist diese Grundvoraussetzung, da die Züchtung von Kristallen aus Proteinen sehr aufwendig ist. Diese Kristalle sind dann auch noch sehr instabil und können leicht zusammenbrechen. Außerdem kann eine Auswertung sehr lange dauern. Allerdings ist es ein großer Vorteil dieser Methode, dass die Wellenlänge von Röntgenstrahlen ungefähr der Größe von Atomen entspricht, also ca. 10-10m, was 0,1nm entspricht. (-> wurde in der Vorlesung erwähnt) Außerdem kann man durch diese Methode die Funktionen der Proteine herausfinden. -

-

Molekülmechanische Methoden versuchen molekulare Wechselwirkungen mit einfachen Näherungsansätzen im Rechner zu modellieren.

-

Sogenannte Kraftfelder weisen dabei jeder Anordnung der Atome in einem Molekül (Konformation) eine Gesamtenergie zu.

-

Fünf Energiebeiträge: • Dehnung/Stauchung von Bindungslängen • Deformation von Bindungswinkeln • Torsionen um Einfachbindungen • Van-der-Waals-Wechselwirkung • Wechselwirkung zwischen yLadungen

-

Ein System versucht immer den Zustand der minimalen Energie anzunehmen

-

Newtonsche Axiome: 1. Ein Körper verharrt solange in Ruhe, bis eine äußere Kraft auf ihn wirkt. 2. Die Bewegung des Körpers ist proportional zur einwirkenden Kraft. 3. Aktion und Reaktion

-

Molekulardynamik Simulation (= können neben den statischen Strukturen die Dynamik – und damit die Funktion – erklären) Verfahren: Zu Beginn werden alle Informationen über das zu untersuchende Teilchen in den Computersimulator eingegeben, wie zum Beispiel seine Masse oder seine räumliche Struktur. Nun werden die Bewegungsgleichungen für das Teilchen berechnet und eine geeignete Kraftfeld-Berechnungsmethode (z.B. AMBER) gewählt und ausgewertet. Auch diese Informationen werden in das Programm eingegeben. Nach einer Weile, also nach einigen Zeitschritten stellt sich bei den Teilchen ein „Thermisches Gleichgewicht“ ein. Jetzt kann man die äußeren Einflüsse auf das Teilchen ändern. Man kann mit Druck und Temperatur experimentieren, um herauszufinden, wie das Teilchen auf die geänderten Einflüsse reagiert.

Eingaben, um eine MD-Simulation durchführen zu können: Man benötigt die Masse des gewählten Teilchens. Seine Größe und seine Ladung. Außerdem noch seine molekulare und räumliche Struktur und die Wechselwirkungen im Teilchen, bzw. die Energiebeiträge zur Berechnung des Kraftfelds.

Berechnung der Atomkoordinaten: Aus der Lösung der Bewegungsgleichungen kann man die Veränderung der Atomkoordinaten berechnen. Also dem Ort, die Geschwindigkeit und der Beschleunigung der Atome und diese in Abhängigkeit der Zeit.

-

Proteine sind ständig in Bewegung, man sieht v.a. Rotationen um Einfachbindungen

-

Rückgrat stabil, aber flexibel.

-

Struktur und Dynamik sind wesentlich, um die biologische Funktion der Proteine und ihre Interaktionen zu verstehen.

Kapitel 4: Designerdrogen -

Die Wirkstoffentwicklung von Arzneien ergaben sich meist durch Zufall.

-

Arzneistoffe Definition: Stoffe, die im Körper eine heilende oder lindernde Wirkung entfalten

-

Wirkstoffentwurf: Gezielte Schaffung von Wirkstoffen

-

Drug-Discovery:

-

Target: ein Zielmolekül, welches die Ausbreitung einer Krankheit vorantreibt. Verwendete Targets sind zum Großteil Enzyme. Lead/Ligand: chemischer Stoff, der als Ausgangspunkt für die Entwicklung eines Arzneistoff-Kandidaten untersucht und in seiner Wirksamkeit und seinen Eigenschaften optimiert wird. Wirkstoff, bindet an das Zielmolekül und schränkt es ein

-

Metabolische Netzwerke: zeigen einen Stoffwechselablauf und die dazu benötigten Moleküle.

-

Vergleich zwischen Krankheitserreger und Empfänger liefert Anhaltspunkte für geeignete Targets.

-

Therapeutisch interessant: • Geringe Wahrscheinlichkeit unerwünschter Wirkungen im Menschen • Wenn der Pfad keine Umwege besitzt, sind die Chancen gut, dass die Ausschaltung des Targets wirksam ist.

-

Rezeptortheorie: o Wirkung = Wechselwirkung des Wirkstoffs mit dem Rezeptor. Wirkung setzt Bindung voraus

-

Damit ein Wirkstoff - Ligand genannt - die Aktivität eines Zielmoleküls - Target genannt (Enzyme, Rezeptoren oder Ionenkanäle, welche für die Eindämmung/Bekämpfung einer Erkrankung genutzt wird) – beeinflussen kann, muss es an das Traget binden können. Ansonsten ist der Ligand wirkungslos. Um eine Bindung mit einem Liganden eingehen zu können, besitzt ein Target einen bestimmten räumlichen Teil in seiner Gesamtstruktur, das bei jedem Target unterschiedlich ist. Dieser Teil wird bei Enzymen zum Beispiel aktives Zentrum

genannt. Der Ligand muss nun von seinem Aufbau her das Gegenstück zu diesem Strukturteil bilden, um daran binden und seinen Einfluss auf das Target ausüben zu können. Wie ein Schlüssel in ein Schloss. -

Allosterie ist die Eigenschaft eines Proteins, seine Raumstruktur – der Quartärstruktur - und damit auch sein aktives Zentrum ändern zu können. Dies geschieht durch die Bindung von zum Beispiel Cofaktoren an das allosterische Zentrum des Proteins. Nicht alle Proteine besitzen ein solches Zentrum und somit auch nicht diese Eigenschaft. Eine Änderung der Raumstruktur des aktiven Zentrums kann dazu führen, dass es einem Liganden nicht mehr möglich ist, an ein Target zu binden. Das Target wird somit gehemmt. Es kann aber auch sein, dass sich das aktive Zentrum in der Art verändert, dass erst dadurch ein Ligand daran binden kann. Das Target wird also aktiviert. Auf diese Weise beeinflusst die Allosterie das Schlüssel-Schloss-Prinzip.

-

Algorithmen verwenden die Struktur eines Rezeptors/Proteins und testen, welche Strukturen daran binden können -> Teste viele Strukturen gegen ein Target.

-

Ablauf eines Docking-Verfahrens: Strukturerzeugung Filterung -> Manche Strukturen sind geometrisch oder energetisch ungünstig Bewertung -> nach ∆G geordnete Liste der Strukturen Korrekte Struktur ist ganz oben

-

Ablauf eines Virtual Screening: Docke alle Liganden an den Rezeptor Berechnung der Energie aus dem Docking Liste nach Energie sortiert

-

Lamarcksche Genetik: Adaptionen des Phänotyps im Lause des Lebens werden über Genotyp weitervererbt -> LGA in AutoDock: Liganden werden lokal nachoptimiert, Optimierte Koordinaten weren in „Chromosomen“ (Vektoren von Fließkommazahlen) kodiert, Nachfolgegenerationen besitzen optimierte Koordinaten

-

Der erforderliche Rechenaufwand ist erheblich, da sehr große Substanzbibliotheken untersucht werden müssen

Kapitel 5 Phylogenie -

Morphologische Merkmale: Evolutionäre Verwandtschaftsverhältnisse können häufig durch morphologischen Merkmalen bestimmt werden. Bsp.: Unterarmknochen

-

Topologisch gleich bedeutet, dass die Taxa in ihrer Abfolge verglichen mit einer anderen Version des Baumes in der Gleichen Reihenfolge sind.

-

Durch eine Alignierung von homologen Sequenzen verschiedener Arten kann man einen phylogenetischen Baum zeichnen

-

Ziel ist die Rekonstruktion der Evolutionsgeschichte auf Grund des Vergleiches molekularer Sequenzen

-

Der „Tree of Life“, also der phylogenetische Baum des Lebens basiert auf dem Vergleich der SSU rRNA (ribosomalen RNA), welche in allen prokaryotischen und eukaryotischen Genomen vorkommt und die Struktur ihrer Sequenz universell konserviert wurde.

-

Drei Domänen, 6 Reiche

-

Prokaryoten: Bakterien (kein Zellkern)

Eukaryoten: Tiere, Pflanzen, Pilze, Protisten Zwischending: Archaeen (durch die Analyse von 16S rRNA, Unterschied zu Bakterien) -

Baumrekonstruktionsmethoden: Distanzbasierte Methoden Maximum Parsimony Methoden (maximale Sparsamkeit an Mutationen) Maximum Likelihood Methoden (maximale Wahrscheinlichkeit) Bayesian Methoden

-

Max. Parsimony durch Fitch-Algorithmus: Distanz = Anzahl der Unterschiede bei einem Alignment Score = Anzahl der Mutationen in einem Baum Phase I: Bestimmung der möglichen Labels „bottom up“ Phase II: Wahl eines Labels für jeden Knoten „top down“

Kapitel 6 It’s hip to chip -

Mensch hat 1014 Zellen und ca. 220 unterschiedliche Zelltypen

-

Praktisch des „selbe“ Genom in jeder Zelle (jedem Zelltyp) (-> nicht mehr ganz richtig, Genom verändert sich ständig, jede Zelle besitzt ein unterschiedliches Genom)

-

Genotyp (Erbbild) ist die genetische Ausstattung eines Individuums, seines Satzes an Genen

-

Phänotyp (Erscheinungsbild) ist die Gesamtheit aller morphologischen und physiologischen Merkmale eines Individuums

-

Morphologische Merkmale beschreiben die Form und Struktur des Individuums

-

Physiologische Merkmale Beschreiben Stoffwechselabläufe des Individuums

-

Aus kleinen Unterscheidungen im Genom entstehen große Unterschiede in deren Ausprägung (im Phänotyp)

-

Die Abfolge der Nukleotide zu kennen, reicht nicht aus, um die Funktion von Zellen zu verstehen

-

Nicht nur Vergleich auf genomischer Ebene, auch Vergleich auf Expressionsebene notwendig

-

Expression: Beschreibt, wie aus dem Genotyp der Phänotyp ausgeprägt wird; Genexpression; Proteinbiosynthese

-

Das zentrale Dogma der Molekularbiologie, die Proteinbiosynthese, auf Francis Crick zurückzuführen

-

DNA (Transkription) -> mRNA (Translation) -> Protein

-

Transkriptom: Gesamtheit aller zu einem bestimmten Zeitpunkt in einer Zelle transkribierten Gene

-

Genomweite Genexpressionsanalyse: misst wann und welcher Menge (Anzahl Kopien) jedes Gen einer Zelle exprimiert wird

-

Messung eines Transkriptoms: DNA-Microarrays Sequenzierung (RNA-seq = Gesamt-Transkriptom-Shotgun-Sequenzierung)

-

Microarray: Miniatur-Labor auf einem Chip; kann sehr große Mengen biologischen Materials in einem Hochdurchsatzverfahren parallel untersuchen

-

Varianten: DNA-Microarrays -> Expression Protein-Microarrays Antikörper-Microarrays

-

DNA-Microarrays bestehen aus einer kleinen Glasplatte auf der DNA-Sonden in geordneter Weise aufgebracht und gebunden sind.

-

DNA-Sonden: meist Einzelstrang-Oligonukleotide (kurze DNA-/RNA-Moleküle), 50-60 bp lang

in

-

Microarrays nutzen die komplementäre Hybridisierungseigenschaften von Nukleinsäuren

-

Dafür werden geeignete Sonden für jedes Gen gesucht und auf die Glasplatte aufgetragen

-

Microarrays erlauben die parallele Analyse der Expression mehrerer tausend Gene bzw. des gesamten Transkriptoms einer Zelle

-

Ungefähr 2,6Mio. Sonden für das menschliche Genom

-

Versuchsablauf: Aus einer biologischen Probe isolierte mRNAs werden mit Fluoreszenzfarbstoff markiert Markierte mRNAs werden auf den Array aufgebracht -> hybridisieren mit ihrem komplementären Gegenpart auf dem Array Array mit Laserlicht angeregt: an jeder Stelle, an der mRNA auf dem Microarray gebunden wurde, leuchtet es Je heller die Intensität, desto mehr mRNA hat gebunden -> desto stärker ist entsprechendes Gen exprimiert Array aufgeteilt in Felder, an denen mehrmals die selbe DNA-Sonde vorhanden ist, um die Expressionsmenge eines Gens bestimmen zu können

-

Gebrauch: meist bei einem Vergleich der Expression zweier Zellpopulationen

-

Typische Fragen: Welche Gene sind aktiviert (hochreguliert) Elche Gene sind reprimiert (herunterreguliert)

-

Bsp.: Gesunde Zelle und Tumorzelle; Hefe unter abaeriben und aeroben Bedingungen

-

Datenanalyse: -> große Datenmengen; Bsp: 10Exp.: 2x5 Replikate, 500000 Sonden -> 500000x10 = 5Mio Datenpunkte

-

Rohdaten des Microarray-Scans bestehen aus Monochrom-Bildern

-

Laser meist 16-bit Auflösung

-

Bild: Spots auf dem Array zeigen Transkripte

-

Gemessene Signale entsprechen Anzahl Moleküle, die an die Sonden gebunden haben

-

Fluoreszenzsignal ~ Hybridisierungsintensität

-

Spots müssen zu einem Expressionssignal zusammengefasst werden

-

Hybridisierungen in einer Expressionsmatrix: meist 20000-30000Zeilen (Gene) und 10-100 Spalten (Proben)...


Similar Free PDFs