Proteindomäne
Eine Proteindomäne ist ein Bereich eines Proteins mit stabiler, meist kompakter Faltungsstruktur, der funktional und strukturell (quasi-) Ein Protein kann aus einer einzelnen Domäne oder aus mehreren bestehen. Eine Domäne entspricht dabei meist einem zusammenhängenden Abschnitt der Aminosäuresequenz. Ausnahmen sind die zwei- und mehrteiligen Proteindomänen (engl. bi- and multipartite domains) z. B. die POU-Domäne.[2] Nicht die gesamte Proteinkette besteht aus Domänen. Eine Domäne ist oftmals aus Bündeln von Sekundärstrukturen wie α-Helices und β-Faltblattstrukturen aufgebaut, mit verbindenden Kurven (engl. turn) zwischen den Sekundärstrukturen. Kleine Domänen sind oft durch eine Komplexbindung von Metallionen oder durch Disulfidbrücken stabilisiert. Innerhalb einer Proteindomäne befinden sich oftmals typische Strukturmotive. Die Länge von Domänen variiert zwischen 30 und mehr als 400 Aminosäuren,[3] typischerweise liegt sie etwa zwischen 100 und 200 Aminosäuren. Die Länge von Domänen wird vermutlich von Zwängen bei der Proteinfaltung nach oben hin begrenzt, da mit der Länge der Kette die Schwierigkeit der korrekten Faltung stark zunimmt. Der modulare Aufbau von Proteinen aus verschiedenen Domänen ist teilweise dadurch erklärbar. Aufgrund der sich aus der Primär- und Sekundärstruktur ergebenden Tertiärstruktur bleiben Proteindomänen in der Regel auch funktional, wenn sie aus dem größeren Protein, dessen Bestandteil sie bilden, herausgeschnitten werden. Die Tertiärstruktur setzt sich aus den aufeinanderfolgenden Proteindomänen zusammen. Proteindomänen sind entweder unbeweglich aneinander gebunden oder durch flexible Abschnitte (engl. linker) mit variabler Faltungsstruktur miteinander verbunden, an denen sie, wie an einem Gelenk oder Scharnier (engl. hinge), gegeneinander beweglich sind. Häufig entsprechen diese Bereiche zwischen den Domänen einer Einschnürung oder Furche der Außenkontur des Proteins. In vielen Fällen sind diese durch weitere Abschnitte die wie ein Arm von einer Domäne zur nächsten reichen, partiell fixiert. Innerhalb desselben Proteins kann eine Domäne mehrfach hintereinander vorkommen oder verschiedene Domänen miteinander kombiniert sein. Oft sind für eine bestimmte Funktion, z. B. Substratbindung, mehrere Domänen nötig. In einigen Fällen entsprechen Domänen in ihrer Abgrenzung exakt Exons der DNA, zum Beispiel in Immunglobulinen, können also auch als genetische Einheiten definiert werden. Dies gilt aber nicht in jedem Fall. Viele Proteine sind modular aus einer Zusammenstellung verschiedener Proteindomänen aufgebaut, die nur in ihrer Kombination die spezifische Funktion des Proteins wahrnehmen können. So bestehen Transkriptionsfaktoren in der Regel aus mindestens einer DNA-bindenden Domäne sowie einer Transaktivierungsdomäne, welche an der Initiation der Transkription beteiligt ist. Als ein weiteres Beispiel können Zell-Zell- und Zell-Matrix-Interaktionsproteine angeführt werden: Hier bewirken verschiedene Bindedomänen in z. T. variabler Zusammenstellung eine bestimmte Substratspezifität. Eine Proteindomäne kann dabei in über hundert verschiedenen Proteinen Verwendung finden, welche sich jedoch untereinander in der Kombination ihrer jeweiligen funktionellen Domänen unterscheiden. Dies ermöglicht evolutionär eine erhöhte Geschwindigkeit in der Entstehung neuer Proteine, da bereits vorhandene Bausteine schnell zusammengestellt werden können. Hierbei wirken vor allem zwei Mechanismen: nicht-allelische homologe Rekombination und Transposon-vermittelte Insertion eines DNA-Abschnittes an andere Stelle in das Genom.[4] Viele Proteindomänen haben keine bekannte Funktion. Sie werden Domänen unbekannter Funktion (engl. domain of unknown function, DUF) genannt. Solche Domänen sind erstaunlich häufig. Beispielsweise wurden in Bakterien ca. 2700 verschiedene DUFs identifiziert. In Eukaryonten gibt es ca. 1500 DUFs, von denen ca. 800 auch in Bakterien vorkommen (Stand: 2013).[5] Goodacre et al. (2013) haben außerdem 238 essentielle DUFs (eDUFs) in Bakterien identifiziert, deren Entfernung sich als tödlich für die Zellen erwies.[5] Pfam beinhaltet die Familien von Proteindomänen. Mit Hilfe bekannter Domänen kann der Benutzer über einem Sequenzvergleich in einem unbekannten Protein auf eine ähnlich Funktion oder eine evolutionäre Verwandtschaft schließen. ProDom enthält Proteindomänen, die von Sequenzen aus SWISS-PROT und TrEMBL stammen. Weiterhin kann die Domänenstruktur eines Proteins graphisch dargestellt werden. SMART ist die Abkürzung für Simple Modular Architecture Research Tool und ist eine Datenbank über Familien von Proteindomänen. Zu diesen kann der Benutzer Auskunft über Funktion, wichtige Aminosäuren, phylogenetische Entwicklung und der Tertiärstruktur erhalten. CDD steht für Conserved Domain Database und ist eine Datenbank, bei der man Domänen und das dazugehörige Sequenzalignment abfragen kann. Die Einträge sind hier aus Pfam, SMART und COG abgeleitet. Mit der HITS-Datenbank kann man Proteindomänen abfragen. Über die InterPro sind eine Beschreibung der Funktion der Proteinfamilie, Literaturreferenzen und Querverweise abrufbar. Informationen werden dabei durch Integration verschiedener Datenbanken wie PROSITE, PRINTS, Pfam und ProDom zusammengestellt. Mit Hilfe von 2ZIP lassen sich Vorhersagen über Leucin-Zipper-Domänen machen. Diese Datenbank enthält Definitionen von Proteindomänen. Das DALI-Wörterbuch der Domänen macht eine automatische Klassifikation von Proteindomänen auf der Basis von Sequenzübereinstimmungen. Mit diesem Wörterbuch kann der Benutzer 3-D-Proteinstrukturen vergleichen und strukturelle Domänen identifizieren, die sich in zwei verschiedenen Proteinen ähneln, obwohl sich die Sequenzen voneinander unterscheiden.Eigenschaften
Domänen unbekannter Funktion (DUFs)
Datenbanken zu Proteindomänen
Pfam
ProDom
SMART
CDD
HITS
InterPro
Identifikation von Domänen
2ZIP
3Dee
DALI Domain Dictionary
Proteindomänen
Einzelnachweise
Erweiterte Online-Version: The Anatomy & Taxonomy of Protein Structure, Epub 2007.Literatur