Přeskočit na obsah

Dot plot

Z Wikipedie, otevřené encyklopedie

Dot plot je nejjednodušší bioinformatickou metodou pro srovnávání 2 sekvencí, tzv. pairwise sequence alignment.

Sequence alignment

Soubor:Self-dotplot HgIK proteinu.png
Dot plot HgIK proteinu zobrazující jeho pentapeptidovou repetici

Sequence alignment provádíme nejčastěji z důvodů zjištění příbuznosti daných sekvencí, tedy zda jsou dané sekvence homologické (mající stejného předka). Homologní jsou sekvence se sekvenční identitou větší než 35 %, při sekvenční identitě 20 - 35 % lze uvažovat o homolozích, ale jsou třeba ještě další data a při sekvenční identitě menší než 20 % je sekvence nedostatečná k jakémukoliv odhadování homologie. Dále nám srovnávání sekvencí může poskytnou vodítko při určování funkce, struktury a evoluce proteinu.

Dot plot

Metoda dot plot je ideální k odhalení repetic a oblastí s malou komplexitou. Srovnávané sekvence jsou buď aminokyselinové, nebo nukleotidové. Je možné provádět i tzv. self-dot plot, tedy srovnání sekvence se sebou samotnou, což umožní vyhledávání symetrických sekvenci, repetice (sekvence s vysokým množstvím kopií), inverze (vzájemná výměna bází) a odhalení oblastí s nízkou komplexitou. Dále pomáhá odhalit přeházené domény či frame shift (změna čtecího rámce). Umožňuje odhadnout podobnost sekvencí, ale není pro tuto funkci úplně ideální.

Praktická ukázka

Srovnání 2 nukleotidových sekvencí pomocí dot plotu

Dot plot je jednou z nejstarších metod pro srovnávání 2 sekvencí. Pracuje tak, že srovná jednu sekvenci do řádku a druhou do sloupce. V případě shodného nukleotidu/aminokyselin je zakreslena jeho pozice. Obvykle počítá s několika po sobě jdoucími aminokyselinami či nukleotidy a pole je označeno pouze pokud je dosažené určitého množství shod (treshold). Největší nevýhodou dot plotu je, že generuje příliš mnoho šumu.

Zdroje

ROST, Burkhard. Twilight zone of protein sequence alignments. Protein Engineering. 1999, č. 12, s. 85-94.