Zum Inhalt springen

„Gap (Bioinformatik)“ – Versionsunterschied

aus Wikipedia, der freien Enzyklopädie
[gesichtete Version][gesichtete Version]
Inhalt gelöscht Inhalt hinzugefügt
Belege fehlen
Artikel vollständig überarbeitet, belegt und bebildert, Baustein entfernt
Zeile 1: Zeile 1:
[[Datei:RPLP0 90 ClustalW aln.gif|mini|440x440px|Darstellung der Aminosäuren-Zusammensetzung des r-Proteins L10E in verschiedenen Spezies, mit mehreren Gaps und Ersetzungen.]]
{{Belege fehlen|}}
Ein '''Gap''' ([[englische Sprache|engl.]], zu deutsch: ''Lücke'') bezeichnet in der [[Bioinformatik]] eine Lücke oder Leerstelle in einer Sequenz, insbesondere beim [[Sequenzalignment]] in der [[Genetik]]. Liegt beim Vergleichen zweier verwandter Sequenzen (z. B. den [[Genom]]-Codes zweier verwandter [[Art (Biologie)|Spezies]]) in der einen Sequenz eine Lücke vor, während dort in der anderen Sequenz weitere Elemente stehen, spricht man von einem Gap.


Gaps können durch verschiedene Arten von [[Mutation]]en entstehen: Bei einer [[Insertion (Genetik)|Insertion]] wurde ein zusätzliches Element eingefügt, der Gap besteht dann in der älteren Sequenz. Bei einer [[Deletion]] wurde umgekehrt ein Element gelöscht, sodass der Gap in der jüngeren Sequenz entsteht. Da meist nicht bekannt ist welche Sequenz [[Evolution|evolutionär]] älter ist, werden Mutation auch mit dem neutralen [[Kofferwort|Portmonteau]] ''indel'' oder ''insdel'' (von „<u>ins</u>ert“ und „<u>del</u>ete“) bezeichnet.
Ein '''Gap''' ([[englische Sprache|engl.]], zu deutsch: ''Lücke'') bezeichnet in der [[Bioinformatik]] eine Lücke oder Leerstelle in einer Sequenz, insbesondere beim [[Sequenzalignment]]. Ein Gap bedeutet, dass an der entsprechenden Stelle in einer verwandten Sequenz ein weiteres Element steht.


== Informatische Bewertung ==
Es ist meist nicht bekannt, welche Sequenz [[Evolution|evolutionär]] älter ist, also durch welche Art der [[Mutation]] die Sequenz verändert wurde. Bei einer [[Insertion (Genetik)|Insertion]] wäre ein Element an der Stelle, an der sich jetzt das Gap befindet, eingefügt worden, bei einer [[Deletion]] wäre umgekehrt ein Element gelöscht worden, was zum Gap führt. Aufgrund dieser beiden Möglichkeiten werden Gaps auch als '''indels''' bezeichnet.
In der [[Algorithmus|algorithmischen]] Bioinformatik wird die Ähnlichkeit zweier Sequenzen danach bewertet, an wie vielen Stellen diese sich durch Ersetzungen (wenn beide Sequenzen an einer Stelle unterschiedliche Werte haben) und Lücken (Gaps) unterscheiden. Das Maß dafür ist die [[Distanzfunktion|Distanz]], eine Kostenfunktion, welche abstrahiert wie viele Änderungen nötig wären, um eine Sequenz in die andere zu überführen. Je höher dies Distanz (= die „Kosten“ der Überführung von einer Sequenz in die andere), desto geringer ist die Ähnlichkeit beider Sequenzen.


Aufgrund [[Biochemie|biochemischer]] Gegebenheiten wird in der Bioinformatik davon ausgegangen, dass die Existenz eines Gaps wesentlich mehr über die Distanz zweier Sequenzen aussagt, als dessen Länge. Beim Vergleich zweier Sequenzen fallen in der Distanzfunktion daher hohe Kosten für die Entstehung eines Gaps an (die sogenannte ''gap opening penalty'', GOP), während jede weitere Stelle des Gaps teils deutlich weniger harsch gewertet wird (die ''gap extension penalty'', GEP).
Verwandte Begriffe sind GOP (''gap opening penalty''), womit die Kosten für das Beginnen einer Lücke bezeichnet werden, und GEP (''gap extension penalty''), womit die Kosten für das Erweitern einer Lücke bezeichnet werden.


== Literatur ==
* {{Internetquelle |autor=[[Volkhard Helms]] |url=https://www-cbi.cs.uni-saarland.de/wp-content/uploads/Softwarewerkzeuge_WS_12-13/SW10-Skript.pdf |titel=Vorlesungsskript – Softwarewerkzeuge der Bioinformatik |hrsg=Universität des Saarlandes |datum=2010 |seiten=6–8, 22–38 |format=PDF; 27 MB |sprache=de |abruf=2024-01-29}}
* {{Internetquelle |autor=Olivier Woumpe Dounla |url=http://ls11-www.cs.tu-dortmund.de/people/rahmann/teaching/ws2008-09/GrundlegendeBioinformatik/skript.pdf |titel=Lokales Sequenz Alignment, beliebige und affine Gap kosten |hrsg=TU Dortmund |datum=2009-05-05 |seiten=7–12 |format=PDF; 2,2 MB |sprache=de |abruf=2024-01-29}}

== Siehe auch ==
* [[BLAST-Algorithmus]]
* [[FASTA-Algorithmus]]
* [[Hidden Markov Model]]
* [[Needleman-Wunsch-Algorithmus]]


[[Kategorie:Bioinformatik]]
[[Kategorie:Bioinformatik]]
[[Kategorie:Genetik]]

Version vom 29. Januar 2024, 21:03 Uhr

Darstellung der Aminosäuren-Zusammensetzung des r-Proteins L10E in verschiedenen Spezies, mit mehreren Gaps und Ersetzungen.

Ein Gap (engl., zu deutsch: Lücke) bezeichnet in der Bioinformatik eine Lücke oder Leerstelle in einer Sequenz, insbesondere beim Sequenzalignment in der Genetik. Liegt beim Vergleichen zweier verwandter Sequenzen (z. B. den Genom-Codes zweier verwandter Spezies) in der einen Sequenz eine Lücke vor, während dort in der anderen Sequenz weitere Elemente stehen, spricht man von einem Gap.

Gaps können durch verschiedene Arten von Mutationen entstehen: Bei einer Insertion wurde ein zusätzliches Element eingefügt, der Gap besteht dann in der älteren Sequenz. Bei einer Deletion wurde umgekehrt ein Element gelöscht, sodass der Gap in der jüngeren Sequenz entsteht. Da meist nicht bekannt ist welche Sequenz evolutionär älter ist, werden Mutation auch mit dem neutralen Portmonteau indel oder insdel (von „insert“ und „delete“) bezeichnet.

Informatische Bewertung

In der algorithmischen Bioinformatik wird die Ähnlichkeit zweier Sequenzen danach bewertet, an wie vielen Stellen diese sich durch Ersetzungen (wenn beide Sequenzen an einer Stelle unterschiedliche Werte haben) und Lücken (Gaps) unterscheiden. Das Maß dafür ist die Distanz, eine Kostenfunktion, welche abstrahiert wie viele Änderungen nötig wären, um eine Sequenz in die andere zu überführen. Je höher dies Distanz (= die „Kosten“ der Überführung von einer Sequenz in die andere), desto geringer ist die Ähnlichkeit beider Sequenzen.

Aufgrund biochemischer Gegebenheiten wird in der Bioinformatik davon ausgegangen, dass die Existenz eines Gaps wesentlich mehr über die Distanz zweier Sequenzen aussagt, als dessen Länge. Beim Vergleich zweier Sequenzen fallen in der Distanzfunktion daher hohe Kosten für die Entstehung eines Gaps an (die sogenannte gap opening penalty, GOP), während jede weitere Stelle des Gaps teils deutlich weniger harsch gewertet wird (die gap extension penalty, GEP).

Literatur

Siehe auch