Retrieval-augmented generation
Retrieval-augmented generation (RAG) je technika v oblasti umělé inteligence a zpracování přirozeného jazyka, která kombinuje schopnosti velkých jazykových modelů (LLM) s připravenými databázemi informací. Poprvé byla představena ve výzkumné práci z roku 2020,[1] vzniklé v laboratořích společnosti Meta.[2][3] Cílem RAG je zlepšit přesnost, aktuálnost a spolehlivost odpovědí generovaných AI systémy tím, že během generování odpovědi mají přístup k externím zdrojům znalostí. RAG tak velkým jazykovým modelům umožňuje vyhledávat a začleňovat nové informace.[4] Neodpovídají tedy na uživatelské dotazy, dokud se neopřou o předem určenou sadu dokumentů, která doplní informace z již existujících tréninkových dat jazykového modelu.[5] To umožňuje, aby LLM používal specifické a/nebo aktualizované informace, které nejsou dostupné v tréninkových datech.[5][3] To například pomáhá chatbotům založeným na LLM přistupovat k interním firemním datům nebo generovat odpovědi založené na autoritativních zdrojích.
RAG vylepšuje velké jazykové modely (LLM) začleněním vyhledávání informací před generováním odpovědí.[1] Na rozdíl od tradičních LLM, které spoléhají na statická tréninková data, RAG vybírá relevantní text z databází, nahraných dokumentů nebo webových zdrojů.[4] Tím pomáhá omezovat halucinace AI,[1][6] jež například způsobily, že chatboti popisovali neexistující předpisy nebo doporučovali neexistující právní případy právníkům, kteří hledali citace na podporu svých argumentů.[7]
RAG také snižuje potřebu přetrénovat LLM s novými daty, což šetří výpočetní a finanční náklady.[4] Kromě zisků v efektivitě RAG také umožňuje zahrnovat zdroje do odpovědí, takže si je uživatelé mohou ověřit. To poskytuje větší transparentnost, protože uživatelé si mohou zkontrolovat vyhledaný obsah, aby ověřili přesnost a relevanci.
Historie
[editovat | editovat zdroj]Koncept RAG byl uveden roku 2020 v článku „Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" autorů Patricka Lewise, Ethana Pereze, Aleksandry Piktus a dalších z Meta AI.[8] Tato práce reagovala na omezení tehdejších jazykových modelů, které spoléhaly pouze na znalosti zakódované v jejich parametrech během trénovací fáze a nemohly přistupovat k aktuálním nebo doménovým informacím.
Předchůdce RAG lze nalézt v expertních systémech z 60. let 20. století a pozdějších systémech jako IBM Watson. Moderní RAG však využívá pokročilé neuronové architektury a vektorové reprezentace textu, které umožňují efektivní vyhledávání v rozsáhlých databázích dokumentů.
Funkce
[editovat | editovat zdroj]RAG funguje na principu kombinace tří hlavních komponent: retrieveru (vyhledávače), databáze znalostí a generátoru (generativního jazykového modelu). Retriever je zodpovědný za nalezení relevantních dokumentů z rozsáhlé databáze. Moderní retrievery využívají husté vektorové reprezentace, které umožňují sémantické vyhledávání na základě významu, nikoli pouze klíčových slov. Databáze obsahuje externí informace ve formě dokumentů, webových stránek, vědeckých článků nebo jiných textových zdrojů. Tyto dokumenty jsou předem zpracovány a převedeny do vektorové podoby. Generátor je obvykle předtrénovaný jazykový model (například GPT nebo LLaMA), který produkuje finální odpověď na základě obohaceného (augmentovaného) vstupu.
Odpověď na dotaz probíhá ve třech základních krocích:
- retrieval/vyhledávání – pro zadaný dotaz systém vyhledá relevantní dokumenty nebo pasáže z externí databáze znalostí
- augmented/obohacení – nalezené informace jsou připojeny k původnímu dotazu jako dodatečný kontext
- generation/vytvoření – jazykový model využije jak původní dotaz, tak vyhledané informace k vytvoření odpovědi
Technicky RAG využívá vektorové databáze, kde jsou dokumenty uloženy ve formě numerických vektorů získaných pomocí embeddingových modelů. Dotaz je v prvním kroku převeden do stejného vektorového prostoru a systém vyhledá nejpodobnější vektory pomocí kosinové podobnosti nebo jiných metrik vzdálenosti.
Novější implementace zahrnují pokročilé techniky jako jsou hierarchické vyhledávání, re-ranking dokumentů nebo iterativní RAG, kde systém může provádět několik kol vyhledávání a generování.
Výhody a omezení
[editovat | editovat zdroj]RAG oproti tradičním jazykovým modelům přináší několik významných výhod. Umožňuje přístup k aktuálním informacím bez nutnosti přetrénování modelu, což je časově i finančně náročné. Systémy mohou pracovat s doménovými znalostmi, které nebyly součástí původních tréninkových dat. RAG také snižuje riziko halucinací, protože odpovědi jsou založeny na konkrétních zdrojových dokumentech. Další výhodou je možnost ověření zdrojů - uživatelé mohou kontrolovat, z jakých dokumentů systém čerpal informace.
Kvalita výstupu ovšem závisí na kvalitě vyhledaných dokumentů. Pokud databáze obsahuje nesprávné nebo zastaralé informace, bude to mít vliv na generované odpovědi. RAG systémy jsou také výpočetně náročnější než samostatné jazykové modely, protože vyžadují dodatečný krok vyhledávání. Latence systému může být vyšší, zejména při práci s rozsáhlými databázemi. Integrace retrieveru a generátoru může být technicky složitá a vyžaduje pečlivé ladění parametrů.
Aplikace
[editovat | editovat zdroj]RAG se široce využívá v podnikových chatbotech, které potřebují přístup k aktuálním informacím o produktech, službách nebo interních firemních dokumentech. Systémy mohou poskytovat přesné odpovědi na otázky zákazníků na základě nejnovější dokumentace. To, že RAG umožňuje vytváření inteligentních vyhledávačů, které nejen naleznou relevantní dokumenty, ale také poskytnou sumarizované odpovědi, je užitečné například při analýze vědecké literatury nebo právních dokumentů.
RAG má široké uplatnění také v nekomerční sféře. V lékařské oblasti RAG pomáhá při klinickém rozhodování integrací nejnovějších výzkumných poznatků a klinických doporučení. Systematické přehledy ukazují až 10% zlepšení přesnosti u složitých medicínských dotazů oproti samostatným LLM.[9] RAG systémy dále nacházejí uplatnění při tvorbě vzdělávacího obsahu, personalizovaném učení a inteligentních doučovacích systémech, kde mohou přizpůsobit materiály konkrétním potřebám studentů.
Výhled
[editovat | editovat zdroj]RAG představuje rychle se rozvíjející oblast s významným komerčním potenciálem. Podle tržních analýz se očekává, že trh s RAG technologiemi vzroste z 1,24 miliardy dolarů v roce 2024 na 67,42 miliardy dolarů do roku 2034, což představuje roční růst přes 49 %.[10]
Současný výzkum se zaměřuje na několik klíčových oblastí. Multimodální RAG rozšiřuje koncept na obrázky, video a další typy médií. Adaptivní RAG dynamicky přizpůsobuje strategie vyhledávání na základě složitosti dotazu. Federated RAG umožňuje vyhledávání napříč distribuovanými databázemi při zachování ochrany soukromí.
Významným trendem je také vývoj evaluačních metrik specifických pro RAG systémy, které hodnotí nejen kvalitu generovaného textu, ale také relevanci vyhledaných dokumentů a faktickou správnost odpovědí.
Reference
[editovat | editovat zdroj]V tomto článku byl použit překlad textu z článku Retrieval-augmented generation na anglické Wikipedii.
- ↑ a b c KIELA DOUWE, LEWIS PATRICK, PEREZ ETHAN, PIKTUS ALEKSANDRA, PETRONI FABIO, Karpukhin Vladimir, Goyal Naman, Küttler Heinrich, Lewis Mike, Yih Wen-Tau, Rocktäschel Tim, Riedel Sebastian. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. [s.l.]: [s.n.], 2020. Dostupné online. ISBN 978-1-7138-2954-6. arXiv 2005.11401. S. 9459–9474.
- ↑ Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [online]. 2020. Dostupné online.
- ↑ a b SINGHAL, Rahul. The Power Of RAG: How Retrieval-Augmented Generation Enhances Generative AI [online]. Nov 30, 2023. Dostupné online.
- ↑ a b c What is retrieval-augmented generation? [online]. 22 August 2023 [cit. 2025-03-07]. Dostupné online.
- ↑ a b Why Google's AI Overviews gets things wrong [online]. 31 May 2024 [cit. 2025-03-07]. Dostupné online.
- ↑ TUROW JON, Kiela Douwe. RAG Inventor Talks Agents, Grounded AI, and Enterprise Impact [online]. March 26, 2025. Dostupné online.
- ↑ Can a technology called RAG keep AI models from making stuff up? [online]. 6 June 2024 [cit. 2025-03-07]. Dostupné online.
- ↑ LEWIS, Patrick; PEREZ, Ethan; PIKTUS, Aleksandra. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems. 2020, s. 9459–9474. arXiv 2005.11401.
- ↑ LIU, Siru; MCCOY, Allison B; WRIGHT, Adam. Improving large language model applications in biomedicine with retrieval-augmented generation: a systematic review, meta-analysis, and clinical development guidelines. Journal of the American Medical Informatics Association. 2025, s. 605–615. doi:10.1093/jamia/ocaf008.
- ↑ Retrieval Augmented Generation Market Size to Hit USD 67.42 Billion by 2034 [online]. Precedence Research [cit. 2025-06-18]. Dostupné online.