Genom

Als Genom oder auch Erbgut eines Lebewesens wird die Gesamtheit der vererbbaren Information einer Zelle oder die Gesamtheit der materiellen Träger dieser Information, also der Chromosomen bzw. der in diesen enthaltenen Desoxyribonukleinsäure (DNA), bezeichnet. Außerdem besitzen auch Viren Genome, wobei bei manchen Viren RNA anstelle von DNA als Speichermedium dient. Das Genom enthält die Information, die zur Entwicklung (Ontogenese) und zur Ausprägung der spezifischen Eigenschaften des Lebewesens oder Virus notwendig ist.
Die Bezeichnung Genom wurde 1920 von Hans Winkler geprägt. Die Erforschung des Genoms und die Wechselwirkung der darin enthaltenen Gene wird als Genomik bezeichnet (englisch Genomics).
Grundlagen
Die für die Vererbung von Eigenschaften und Merkmalen erforderliche und auf der Ebene der Zellen und der Individuen weitergegebene Information ist in der DNA enthalten, und zwar in der Sequenz (Abfolge) der DNA-Basen Adenin, Guanin, Cytosin und Thymin.
Man unterscheidet kodierende und nicht-kodierende Abschnitte der DNA. Nach Maßgabe der Basensequenz der kodierenden Abschnitte oder Gene werden im Zuge der Genexpression Ribonukleinsäuren (RNA) und Proteine gebildet. Aber auch nicht-kodierende Bereiche können wichtige Funktionen aufweisen, so etwa bei der Genregulation. Außerdem gibt es die sogenannten Pseudogene: durch Mutationen funktionslos gewordene und vom Organismus nicht mehr abgelesene Gene.
Die meisten Organismen haben neben der chromosomalen DNA (bei Eukaryoten Karyom genannt) weiteres genetisches Material in anderen Zellteilen. So haben Bakterien und Archaebakterien vielfach zusätzliche kleine, ringförmige DNA-Moleküle, die als Plasmide bezeichnet werden, und bei Eukaryoten (Pflanzen, Tiere, Pilze) haben die Mitochondrien und die Plastiden eigene kleine Genome.
Genomgrößen
Die Angabe der Genomgröße eines Organismus bezieht sich auf die vorhandene Menge an DNA pro haploidem Zellkern, wobei entweder die Zahl der jeweils vorhandenen Basenpaare (bp) angegeben wird oder die Masse der DNA in der Einheit pg (Picogramm). 1 pg doppelsträngiger DNA besteht aus etwa 0,978·109 bp, also aus knapp einer Milliarde Basenpaaren. Üblich sind auch die Bezeichnungen Kilo-Basenpaar (kbp oder kb) für 1.000 Basenpaare und Mega-Basenpaar (Mbp oder Mb) für eine Million Basenpaare. Davon zu unterscheiden ist die Angabe des Informationsgehalts in Megabytes (MB).
Nach neueren Untersuchungen besitzt der Südamerikanische Lungenfisch (Lepidosiren paradoxa) mit 80 pg (7,84 × 1010 bp) das größte bisher bekannte tierische Genom.[1] Ältere, aber wohl ungenauere Untersuchungen zeigen mit etwa 133 pg noch größere Genome, die ebenfalls bei Lungenfischen, allerdings bei der afrikanischen Art Äthiopischer Lungenfisch (Protopterus aethiopicus) gefunden wurden.[2] Mit 0,04 pg (weniger als 50 Millionen Basenpaare) besitzt das zum primitiven Tierstamm Placozoa gehörende, auf Algen lebende, etwa 2 mm große, wenig differenzierte Trichoplax adhaerens das kleinste bisher bekannte tierische Genom.[2] Die Zahl der Basenpaare des Darmbakteriums Escherichia coli ist nur um einen Faktor 10 kleiner. Das kleinste bisher quantifizierte bakterielle Genom besitzt der Blattfloh-Endosymbiont Carsonella ruddii: Sein zirkuläres DNA-Molekül enthält nur knapp 160.000 Basenpaare, in denen sämtliche Informationen gespeichert sind, die er zum Leben braucht.[3]
| ||||||||||||||||||||||||||||||||||||||||||||||||||||
| 1in Basenpaaren 2Anzahl der Gene pro Millionen Basenpaare |
Die DNA einer einzelnen menschlichen Zelle ist etwa 1,80 m lang. Eine Base auf einem DNA-Strang hat theoretisch einen Informationsgehalt von 2 bit, da sie 22 = 4 Zustände (A/T/G/C) annehmen kann. Mit etwa 3 Milliarden Basenpaaren hätte das Genom des Menschen demnach einen maximal möglichen Informationsgehalt von 6 Milliarden bit oder 750 MB. Auf der Grundlage der Shannonschen Informationstheorie ergibt sich jedoch ein Informationsgehalt von maximal 50 MB, und der tatsächliche Informationsgehalt liegt noch deutlich darunter, da große Teile der DNA zufällige Sequenzen aufweisen und daher praktisch keine Information enthalten.[4]
Ein Vergleich der Genom-Größe mit der Komplexität und dem Organisationsgrad des Organismus ergibt keinen klaren Zusammenhang.[5] So haben Schwanzlurche größere Genome als Reptilien, Vögel und Säugetiere. Lungenfische und Knorpelfische haben größere Genome als Knochenfische, und innerhalb von Taxa wie den Blütenpflanzen oder Protozoen variiert die Genomgröße in hohem Maß. Dies wird als „C-Wertparadoxon“ bezeichnet. Die größte DNA-Menge weisen einfache Eukaryoten wie einige Amöben sowie die Urfarne (Psilopsida) mit rund einer Billion Basenpaare auf. Diese Arten enthalten einzelne Gene als tausendfache Kopien und lange, nicht-Protein-kodierende Abschnitte. Auch im menschlichen Genom kommt ein etwa 300 Basenpaare langes DNA-Stück, die Alu-Sequenz, in über 1.000.000 Kopien vor und macht etwas über 10 % der gesamten DNA aus.[6]
Organisation von Genomen
Prokaryotengenome
Bei den Prokaryota (Bacteria und Archaea) besteht das Genom aus einem großen, in sich geschlossenen DNA-Molekül und mehreren kleineren, ebenfalls in sich geschlossenen, in ihrer Zahl variierenden DNA-Molekülen, den Plasmiden. Diese können sich unabhängig von der Haupt-DNA verdoppeln und an andere Bakterienzellen weitergegeben werden, ein Prozess, der als Konjugation bezeichnet wird. Sie enthalten in der Regel nur wenige Gene, die zum Beispiel Resistenzen gegen Antibiotika oder Fertilität, die Fähigkeit zur Konjugation vermitteln. Manche Plasmide sind reversibel in die Haupt-DNA integriert und werden dann als Episome bezeichnet.
Eukaryotengenome
Bei den Eukaryota (im Wesentlichen Pflanzen, Pilze und Tiere) ist das Genom in mehrere strangförmige Chromosomen unterteilt, die nur im Zellkern vorkommen und deshalb als Karyom bezeichnet werden. Neben dem Karyom können Organellgenome vorhanden sein.
Organellengenome
In eukaryotischen Zellen können Organelle vorhanden sein, die ihrerseits eigene vererbbare DNA enthalten. Man spricht in solchen Fällen vom Kerngenom und den Organellgenomen. Das Kerngenom ist das eigentliche in Chromosomen organisierte Genom der Zelle, welches sich im Zellkern befindet. Ein Organellgenom ist die Gesamtheit der genetischen Information des entsprechenden Organell-Typs. Organelle, welche eigene Genome enthalten, stammen nach der Endosymbiontentheorie von Bakterien ab, die in sehr früher Zeit der Lebewesenentwicklung in andere prokaryotische Wirtszellen eingewandert sind, wodurch - zusammen mit anderen Vorgängen - Eukaryoten entstanden sind. Das trifft sowohl auf die Mitochondrien als auch auf die Plastiden (z. B. Chloroplasten) zu.
Da die Organelle von ihren Wirtszellen versorgt werden, müssen sie ihrerseits nur spezielle Funktionen übernehmen. Diese Funktionen sind bei den Mitochondrien auf die Atmung und bei den Chloroplasten auf die Photosynthese fokussiert. Die Genome sind entsprechend klein. Bemerkenswert ist die Tatsache, dass die Organelle eigene genetische Codes besitzen und spezielle Nukleotide in den tRNAs aufweisen. Entsprechend ihrer Herkunft sind Organellgenome im Grunde Prokaryotengenome, wegen ihrer Größe werden sie eher als Plasmide bezeichnet.
Die Tatsache, dass die Mitochondrien nicht an der Rekombination durch die Meiose teilnehmen und bei Menschen (weitestgehend) durch die Eizelle nicht aber durch Spermien in die Zygote gelangen, führt dazu, dass bestimmte Bereiche in mitochondrialen Genomen als „evolutionäre Marker“ in der Humangenetik bzw. Populationsgenetik Anwendung finden.
Virusgenome
Die Genome von Viren besitzen einen geringeren Umfang (1.000 bis 350.000 bp), da weniger Proteine kodiert werden müssen und oft einzelne Genomabschnitte durch überlappende Leserahmen, alternative Start- und Stopcodons und verschiedene Leseraster für verschiedene Transkripte kodieren. Dadurch ist die genetische Information auf besondere Weise im viralen Genom konzentriert.
Das Genom von Viren ist weit vielfältiger als bei anderen Gruppen: es kann als RNA- oder DNA vorliegen, jeweils einzel- oder doppelsträngig, verschiedene Leserichtungen beinhalten, linear, zirkulär oder segmentiert sein. Eine Besonderheit stellen einige RNA-Viren dar, nämlich die Retroviren, da sie ihr RNA-Genom mittels Reverser Transkription in DNA umschreiben können. Die Eigenschaft des Genoms bei Viren dient als wichtiges Kriterium zu deren Einteilung (Virus-Taxonomie).
Bestandteile des menschlichen Genoms
Der Mensch besitzt 20.000 bis 25.000 Gene[7] (nach anderen Quellen werden – bei vorläufiger Berechnung – 30.000 bis 40.000 Gene angenommen[8]).
Gene
Ein Teil des Genoms besteht aus definierten DNA-Sequenzen, die in einem Transkription genannten Vorgang in RNA-Sequenzen übertragen werden. Diese DNA-Sequenzen werden auch als Gene bezeichnet.
Protein-kodierende Gene
Das RNA-Transkript enthält Basensequenzen, welche die Aminosäuresequenz von Proteinen kodieren. Die RNA wird dann als mRNA bezeichnet. Bei den Eukaryoten ist sie aus Exons und Introns zusammengesetzt und wird in diesem Zustand als prä-mRNA oder hnRNA bezeichnet. Sie wird noch vor der Translation bearbeitet (prozessiert), indem die nichtkodierenden Introns herausgeschnitten werden. Da die DNA der Prokaryoten keine Introns aufweist, hat auch die mRNA keine Introns und erfordert folglich auch kein Splicing.
Die Aminosäuresequenzen-kodierende DNA ist beim Menschen 90 Mb groß, das sind 3 % des Genoms. Das entspricht 25.000 Genen, die ungefähr 500.000 Proteine kodieren.
RNA-kodierende Gene
Das RNA-Transkript enthält Basensequenzen, welche die Basensequenz von RNAs kodieren. Diese Moleküle werden auch als ncRNAs (nc von engl. non coding = nicht kodierend) bezeichnet und erfüllen zahlreiche Aufgaben bei der Proteinbiosynthese. Einige davon sind erst vor kurzem bekannt geworden und noch nicht genauer erforscht.[9] Es wird vermutet, dass die ncRNAs molekulare Fossilien aus der RNA-Welt sind (siehe chemische Evolution) und damit von Bedeutung für das Verständnis der Evolution der Lebewesen sind.
- tRNAs transportieren Aminosäuren zu den Ribosomen.
- rRNAs sind Bestandteile der Ribosomen und erfüllen dort strukturelle und katalytische Aufgaben. ssRNA (ssuRNA, small subunit RNA) ist die RNA für die kleine, lsRNA (lsuRNA, large subunit RNA) die für die große Untereinheit der Ribosomen.
- snRNAs sind Bestandteile der Spliceosomen, welche aus der prä-mRNA die Introns herausschneiden.
- Ebenfalls ein junges Forschungsgebiet ist die RNA-Interferenz (RNAi), eine weitere Möglichkeit der Regulation der Proteinbiosynthese, wobei kleinere RNA-Moleküle mit Teilen der mRNA reagieren und dadurch in der Regel die Translation verhindern. Solche RNA-Moleküle sind siRNAs (si von engl. short interfering), microRNAs, von welchen das menschlichen Genom mehrere Hundert aufweist. Es gibt auch Interaktionen von RNAs mit der DNA, mit Proteinen und mit niedermolekularen Substanzen.
- Mikro-RNA: Manche Introns enthalten zueinander komplementäre Abschnitte, so dass die prä-RNA nach der Transkription Haarnadelschleifen bilden kann. Diese werden durch spezielle Proteine des „Zensursystems“ (ursprünglich ein Abwehr-System gegen virale Doppelstrang-RNA) erkannt und so abgebaut, dass einsträngige RNA-Abschnitte entstehen, die an andere mRNAs binden und somit spezifisch (zielgenau) mRNA zerstören können (RNA-Interferenz) oder ihre Translation unterdrücken. Für einzelne Moleküle ist ihre Funktion bekannt: Sie sorgen dafür, dass Stammzellen sich nicht differenzieren, und steuern Zellvermehrung und Apoptose (programmierter Zellselbstmord) beim Umbau embryonaler Gewebe.
- Antisense-RNA: Die mRNA entsteht am codogenen (Matrizen-) Strang der DNA. Wird auch der komplementäre Strang abgelesen, entsteht eine zur mRNA komplementäre RNA. Verbinden sich mRNA und Antisense-RNA zu einem Doppelstrang, kann kein Protein mehr bei den Ribosomen gebildet werden. Auch dies stellt eine Möglichkeit der Regulation der Proteinbiosynthese dar. Beim Menschen gibt es mindestens 1600 antisense-Gene.
- 7SL-RNA ist Bestandteil der signal recognition particles, das sind Protein-RNA-Komplexe, welche den zielgerichteten Transport von Proteinen in der Zelle gewährleisten.
Nichtkodierende Sequenzen
Der übrige Teil des Genoms besteht aus Sequenzen, die nicht transkribiert werden (siehe nichtkodierende Desoxyribonukleinsäure) und wird als extragenische DNA bezeichnet. Im humanen Genom weist diese eine Länge von insgesamt 2100 Mb auf.
Davon besteht der größte Teil (im humanen Genom 1680 Mb) aus einzelnen, individuellen oder nur selten wiederholten Basensequenzen. Dies sind in der Regel Sequenzen, an welche bestimmte Enzyme binden und dadurch die Replikation und Transkription steuern:
- An die Promotor-Sequenzen (TATA-Box) bindet die RNA-Polymerase
- Initiations- und Terminations-Sequenzen, markieren Beginn und Ende eines Gens
- Consense-Sequenzen sind hochkonservierte Sequenzen, die die Grenzen zwischen Exons und Introns markieren
- An Operator-Sequenzen oberhalb (engl. upstream) und unterhalb (engl. downstream) von Genen, an welche Regulatorproteine binden, um die Transkription zu beschleunigen oder zu verzögern und damit ihre Feinregulation übernehmen.
- Palindrome sind Erkennungssequenzen für Restriktionsendonukleasen.
- Bei den Abstandshaltern kommt es nicht auf die Sequenz, sondern die Zahl der Basen an. Deshalb können hier die Mutationsraten ohne Auswirkungen sehr hoch sein, solange es nicht zu Baseneinschub, oder Basenverlust kommt. Diese DNA-Abschnitte sorgen dafür, dass die Operator-Sequenzen im Falle der Transkription bei der Schleifenbildung in die richtige Position zu den Promotern gebracht werden, und so die RNA-Polymerase beeinflussen können.
- Untersuchungen an Cryptomonaden (einzelligen, Photosynthese betreibenden Eukaryonten) haben gezeigt, dass die Menge an nichtkodierender DNA proportional zur Größe des Zellkerns ist und vermutlich eine wesentliche Rolle für die Strukturierung des Zellkerns hat.
Der Rest der DNA von 420 Mb besteht aus hoch repetitiven Sequenzen.
Disseminierte (verstreute) genomweite Wiederholungen
- LTR-Elemente (LTR-Retrotransposons und Retroviren) (8,5 % des Gesamtgenoms). Sie gehen zum Teil auf Genom-Überreste von integrierten Retroviren zurück und können die gewebespezifische Aktivität von Wirtsgenen steuern. Derzeit (2005) sind 20 Gene des Menschen bekannt, die durch virale LTRs kontrolliert werden. Insgesamt konnten mindestens 600.000 retrovirale LTRs im menschlichen Genom gefunden werden.
- DNA-Transposone (3 % des Gesamtgenoms)
- LINE-Sequenzen (LINE 1, LINE 2) (long interspersed nuclear element) (21 % des Gesamtgenoms)
- SINE-Sequenzen (short interspersed nuclear element) (13 % des Gesamtgenoms) (z. B. Alu-Sequenz, die nur bei Primaten zu finden ist) ermöglichen eine Verlagerung einer Sequenz an eine andere Stelle des Genoms. Sie sind 70 bis ca. 500 Basen lange Retroposons, d.h. Elemente, deren Ortswechsel über eine transkribierte RNA-Sequenz erfolgt, deren cDNA-Produkt an anderer Stelle ins Genom integriert wird. In Genomen von Eukaryoten findet man bis zu 104 Kopien. Das Transkript der Alu-Sequenz wird durch das sogenannte „A-zu-I-Editing“ verändert: Das Nukleosid Adenosin zum Nukleosid Inosin umgewandelt. Dies findet vor allem im Gehirn statt. Es wird ein Zusammenhang zwischen Fehlern in diesem Prozess und Epilepsie und Depression vermutet.
Tandemwiederholungen
Die Anzahl der Wiederholungen variiert von Individuum zu Individuum, die Abweichungen sind vom Verwandtschaftsgrad abhängig. Deshalb sind sie für den genetischen Fingerabdruck geeignet. Die von der Norm abweichende Zahl an Wiederholungen kann Krankheiten auslösen.
- Mikrosatelliten-DNA, z. B. (CA)n, mit einer repetitiven Einheit von 2 bis 7 Basenpaaren. Sie sind im ganzen Genom verteilt, und werden auch zur genetischen Kartierung verwendet. Mikrosatelliten weisen eine hohe Mutationsrate auf und haben damit auch eine Bedeutung in der Evolution von Organismen.
- Minisatelliten-DNA, mit einer repetitiven Einheit von 20 bis 100 Basenpaaren sind ebenfalls im ganzen Genom verteilt.
- Satelliten-DNA tritt nur im Heterochromatin auf, z.B. im Centromer. Sie besteht aus kurzen Basensequenzen, die mehrfach hintereinander wiederholt werden. (Beim Menschen 100.000).
- In den Genen des MHC-Komplexes (Haupthistokompatibilitätskomplex) von Säugetieren wurden sich wiederholende (repetitive) Folgen von GT und GA in der DNA festgestellt, die eindeutig nicht für Eiweiße kodieren können. Gleichwohl sind sie funktional, denn sie binden Zellkern-Proteine und sind vermutlich über die DNA-Protein-Interaktion an der Genregulation beteiligt.
Weitere besondere DNA-Sequenzen
- Telomere: Bei Wirbeltieren befinden sich am Ende des 3’-Stranges der DNA 250 bis 15600 repetitive Sequenzen TTAGGG, da sonst die Replikation am anderen Strang vorzeitig abbrechen würde. Diese Abschnitte werden mit jeder Zellteilung kürzer. Sie schützen auch die Chromosomen vor dem Zusammenkleben oder vor Abbau. Bei Bruch der Chromosomen kann erkannt werden, welche Enden wieder zusammengefügt werden müssen.
- Der kurze Arm von Chromosom 22 (HSA22p), enthält nur Heterochromatin, das praktisch nur aus repetitiver DNA besteht.
- Fremdgene
- HERV (human endogene Retroviren) (9 % des Gesamtgenoms) sind Fremdgene, die von inaktiven Viren stammen, die in das Genom integriert sind.
- 1998 wurde eine Mutation entdeckt, die typisch für Menschenaffen ist und auch bei Menschen vorkommt: Eine Kopie eines Stücks des mitochondrialen Genoms (Kontrollregion) ist auf ungeklärte Weise in den Zellkern gelangt und dort auf Chromosom 9 zu finden (nachgewiesen bei Gibbons, Orang-Utan, Gorilla, Schimpanse, Mensch).
- Bakterielle Sequenzen machen ungefähr 2 Promille des Gesamtgenoms aus.
Sequenzierte Genome
Die DNA von Genomen verschiedener Organismen, die entweder für die medizinisch-pharmazeutische oder anwendungsorientierte Forschung oder auch für die Grundlagenforschung relevant sind, wurde annähernd vollständig „sequenziert“ (man spricht auch fälschlicherweise vom „Entschlüsseln“), das heißt ihre Basensequenz wurde ermittelt (DNA-Sequenzierung). Die Basensequenzen werden über das Internet u.a. vom NCBI bereitgestellt.
- Übersichten
- Quick Guide to Sequenced Genomes (GNN) (exzellente Übersichtseite, in alphabetischer Ordnung und hervorragend organisiert findet man bisher sequenzierte Organismen mit Abbildungen, Kurzinformationen, für die Sequenzierung verantwortliche Institution und relevante Literatur mit Links)
- Genome Atlas
- Einzelne Genome
Einzelnachweise
- ↑ A.E. Vinogradov: Genome size and chromatin condensation in vertebrates. Chromosoma 113, 2005; Seiten 362-369.
- ↑ a b T.R. Gregory: Animal Genome Size Database. 2005
- ↑ Petra Jacoby: Spektrum der Wissenschaft, Spektrum der Wissenschaft Verlagsgesellschaft mbH, Band 5, 2007, S. 16f
- ↑ Information content of DNA bei Panda's Thumb
- ↑ Siehe etwa Molekulargenetik der Eukaryoten (Universität Mainz, PDF), S. 7
- ↑ M. A. Batzer and P. L. Deininger. Alu Repeats and Human Genomic Diversity. Nature Reviews: Genetics 3: 370-9 (May 2002)
- ↑ Internationales Humangenomprojekt (IHGSC). In: Nature. London 431, S. 931. ISSN 0028-0836 (Von den 3,08 Milliarden Basenpaaren sind derzeit 2,88 Milliarden bei dem öffentlichen Genomprojekt verfügbar)
- ↑ Neil A. Campbell: Biologie. Spektrum Verlag, Heidelberg 1997, S. 467; Pearson Studium, München 2006. ISBN 3-8274-0032-5, ISBN 3-8273-7180-5
- ↑ G. Witzany: Noncoding RNAs: Persistent Viral Agents as Modular Tools for Cellular Needs. In: Annals of the New York Academy of Sciences. Vol. 1178, 2009, S. 244-267.
- ↑ Daniel Lang, Andreas Zimmer, Stefan Rensing, Ralf Reski (2008): Exploring plant biodiversity: the Physcomitrella genome and beyond. In: Trends in Plant Science. 13, 542-549. doi:10.1016/j.tplants.2008.07.002
Literatur
- Martin Mahner & Michael Kary (1997): What Exactly Are Genomes, Genotypes and Phenotypes? And What About Phenomes? In: Journal of Theoretical Biology. Bd. 186, S. 55-63. PMID 9176637 doi:10.1006/jtbi.1996.0335
- Ernst Peter Fischer: Das Genom. Fischer-Taschenbuch-Verlag, Frankfurt am Main 2002, ISBN 3-596-15362-X.
- W. Wayt Gibbs: Preziosen im DNA-Schrott. in: Spektrum der Wissenschaft. Heidelberg 2004,2 (Febr.), S.68-75. ISSN 0170-2971
- W. Wayt Gibbs: DNA ist nicht alles. in: Spektrum der Wissenschaft. Heidelberg 2004,3 (März), S.68-75. ISSN 0170-2971
- Günther Witzany: Natural Genome Editing Competences of Viruses. in: Acta Biotheoretica 54, 2006, S.235-253. doi:10.1007/s10441-006-9000-7
- Ernst-Ludwig Winnacker: Das Genom. Möglichkeiten und Grenzen der Genforschung. Eichborn, 2002, ISBN 3-8218-3931-7.