Zum Inhalt springen

Dense Passage Retrieval

aus Wikipedia, der freien Enzyklopädie
QS-Informatik
Beteilige dich an der Diskussion!
Dieser Artikel wurde wegen inhaltlicher Mängel auf der Qualitätssicherungsseite der Redaktion Informatik eingetragen. Dies geschieht, um die Qualität der Artikel aus dem Themengebiet Informatik auf ein akzeptables Niveau zu bringen. Hilf mit, die inhaltlichen Mängel dieses Artikels zu beseitigen, und beteilige dich an der Diskussion! (+)


Begründung: Als zu fachspezifisch aus der allgemeinen QS übertragen. --Alossola (Diskussion) 09:05, 1. Feb. 2026 (CET)

Dense Passage Retrieval (DPR) ist ein Verfahren des maschinellen Lernens, das für die semantische Suche nach Informationen in großen Textsammlungen verwendet wird.[1] Die Grundidee wurde 2020 bei Facebook AI Research vorgestellt und veröffentlicht.[2] Im Gegensatz zu klassischen, auf Schlüsselwörtern basierenden Methoden wie TF-IDF oder BM25 ermöglicht DPR eine semantische Suche, die inhaltliche Beziehungen zwischen Texten berücksichtigt.

Das Verfahren wird in Open-Domain Question Answering (domänenunabhängige Fragebeantwortung), modernen Suchmaschinen und Retrieval-Augmented-Generation-Systemen (RAG) eingesetzt.[3]

Um Informationen in Texten automatisch auffinden zu können (Dokumentenretrieval), müssen sowohl Textpassagen aus Dokumenten als auch Suchanfragen in natürlicher Sprache in eine miteinander vergleichbare numerische Darstellung überführt werden. Dieser Schritt wird als Worteinbettung bezeichnet. Dabei werden Texte in Vektoren in einem Vektorraum-Modell umgewandelt.

Für die Suche kann anschließend rechnerisch die Ähnlichkeit zwischen dem Einbettungs-Vektor der Suchanfrage und den Einbettungs-Vektoren der Textpassagen bestimmt und so passende Textpassagen identifiziert werden.

In der ursprünglichen Veröffentlichung[1] zu DPR wird die Ähnlichkeit zwischen Suchanfrage- und Passagenvektor über das Skalarprodukt berechnet. Bei L2-normalisierten Vektoren (euklidische Norm gleich 1) entspricht das Skalarprodukt der Kosinus-Ähnlichkeit, da diese als normiertes Skalarprodukt definiert ist.

Zur Skalierung auf große Dokumentmengen wird die Vektorsuche typischerweise mittels Approximate-Nearest-Neighbor-Verfahren (ANN) realisiert.

Für die Worteinbettung werden zwei getrennte Encoder-Modelle verwendet, typischerweise Transformer-basierte Sprachmodelle wie BERT. Ein Encoder verarbeitet die Suchanfrage, der andere die Textpassagen.[1] Diese Encoder projizieren ihre Eingaben anschließend gemeinsamen in einen Vektorraum.

Dünn und dicht besetzte Vektoreinbettung

[Bearbeiten | Quelltext bearbeiten]

Um zu verstehen, wie Frage und Text miteinander verglichen werden, ist es hilfreich, zunächst den Ansatz der dünn (sparse) besetzten Worteinbettung zu betrachten.

Ein Beispiel für eine dünn besetzte Worteinbettung ist die Bag-of-Words-Einbettung. Im einfachsten Fall werden dabei potenziell vorkommenden Wörter durchnummeriert. Jedes dieser Wörter erhält dann einen festen Index im Einbettungsvektor, und als Wert an diesem Index wird eingetragen, wie oft das Wort im Text enthalten ist. Die Dimension des Vektors entspricht somit der Anzahl der potenziell möglichen Wörter. Synonyme werden nicht automatisch berücksichtigt.

Da ein Text üblicherweise nur wenige Wörter aus dem gesamten Wortschatz enthält, bekommen die meisten Indizes den Wert 0 und nur wenige einen Wert ungleich 0. Werte, die nicht 0 sind, werden dann genutzt, um über einen mathematischen Vergleich die Relevanz des Textes zu bestimmen. Diese Art der Worteinbettung wird als dünn bezeichnet, weil die meisten Indizes einen Wert gleich 0 besitzen.[4]

Demgegenüber werden in der dicht besetzten Worteinbettung die Wörter erst durch einen neuronalen Encoder verarbeitet. Dieser wandelt den Text in einen Vektor mit deutlich geringerer Dimension um. In diesem Vektor ist die Bedeutung des Textes auf die verschiedenen Indizes verteilt. Durch diese Verteilung haben nahezu alle Indizes einen Wert, der ungleich 0 ist, was dieser Methode den Namen dichte Worteinbettung gibt. Da bei dieser Repräsentation nur wenige Nullen auftreten, kann die inhaltliche Relevanz eines Textes oft besser bestimmt werden.[4]

Bei der Worteinbettung wird angestrebt, Texte mit ähnlicher Bedeutung in Vektoren umzuwandeln, die – abhängig vom verwendeten Distanzmaß – möglichst nahe beieinander liegen. Der Vergleich zwischen Suchanfragen und Textpassagen erfolgt somit auf Basis der Bedeutung und nicht auf Basis einzelner Wörter, sodass Synonyme weniger problematisch sind.

Training von DPR

[Bearbeiten | Quelltext bearbeiten]

DPR wird mittels kontrastivem Lernen trainiert. Dabei soll das Modell lernen, zu einer gegebenen Frage die zugehörige Textpassage im Vektorraum näher zu repräsentieren als nicht relevante Textpassagen. Hierzu wird ein Ähnlichkeitswert über das Skalarprodukt zwischen Frage- und Passagenvektor berechnet und so optimiert, dass relevante Paare höhere Werte erhalten als irrelevante.[1]

Beim Training werden neben der jeweils korrekten Textpassage auch nicht relevante Textpassagen als Negativbeispiele berücksichtigt. In der einfachsten Form stammen diese aus dem aktuellen Trainingsbatch oder werden zufällig ausgewählt.

Zusätzlich können sogenannte Hard Negatives eingesetzt werden. Dabei handelt es sich um inhaltlich ähnliche, aber nicht relevante Textpassagen, die für das Modell schwerer von der korrekten Textpassage zu unterscheiden sind. Die Verwendung solcher Hard Negatives führt in der Regel zu einer stärkeren Trennschärfe im Vektorraum und verbessert die Retrieval-Leistung.[1]

Anwendungsmöglichkeiten

[Bearbeiten | Quelltext bearbeiten]

DPR wird häufig in Bereichen eingesetzt, in denen es notwendig ist, große Sammlungen von Texten effizient auf relevante Informationen zu durchsuchen. Der Einsatz in Systemen zur Verarbeitung natürlicher Sprache ist besonders verbreitet.[1]

Open-Domain Question Answering

[Bearbeiten | Quelltext bearbeiten]

Ursprünglich wurde DPR für Open-Domain-Frage-Antwort-Systeme entwickelt.

Durch die Verwendung dichter, semantischer Worteinbettungen kann das Verfahren relevante Textpassagen auch dann identifizieren, wenn deren Wortwahl deutlich von der Formulierung der Suchanfrage abweicht.[1]

Suchmaschinen und Dokumentenretrieval

[Bearbeiten | Quelltext bearbeiten]

DPR wird in modernen Suchsystemen eingesetzt, insbesondere zur semantischen Erweiterung klassischer lexikalischer Retrieval-Verfahren. In der Praxis erfolgt häufig eine Kombination mit traditionellen Retrieval-Methoden, um unterschiedliche Suchstrategien zu integrieren.[5]

Retrieval-Augmented Generation (RAG)

[Bearbeiten | Quelltext bearbeiten]

RAG bezeichnet eine Modellarchitektur, bei der ein generatives Sprachmodell mit einem externen Retrieval-System kombiniert wird. Ziel ist es, Antworten oder Texte nicht ausschließlich auf dem während des Trainings im Modell gespeicherten Wissen zu erzeugen, sondern zusätzlich externe Dokumente einzubeziehen. Hierzu werden für eine Anfrage zunächst relevante Textpassagen aus einem Dokumentkorpus abgerufen und dem Sprachmodell als Kontext bereitgestellt.

DPR übernimmt hier die Rolle des Retrievers. Zu einer gegebenen Anfrage werden mittels semantischer Vektorsuche relevante Textpassagen identifiziert und dem generativen Sprachmodell als zusätzlicher Kontext bereitgestellt. Die Antwort wird anschließend vom Sprachmodell unter Einbeziehung dieser externen Informationen generiert.[3]

Wissensmanagement und Unternehmenssuche

[Bearbeiten | Quelltext bearbeiten]

DPR wird auch in unternehmensweiten Suchsystemen verwendet, zum Beispiel um interne Dokumentationen, Wissensdatenbanken oder Supportsysteme zu durchsuchen.[6]

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. 1 2 3 4 5 6 7 Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-tau Yih: Dense Passage Retrieval for Open-Domain Question Answering. In: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). Association for Computational Linguistics, Stroudsburg, PA, USA 2020, S. 6769–6781, doi:10.18653/v1/2020.emnlp-main.550.
  2. facebookresearch/DPR. Meta Research, 30. November 2025, abgerufen am 30. November 2025.
  3. 1 2 Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, Douwe Kiela: Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. 12. April 2021, abgerufen am 9. Dezember 2025.
  4. 1 2 Dense Vectors: Capturing Meaning with Code | Pinecone. Abgerufen am 21. Januar 2026 (englisch).
  5. Prawaal Sharma, Navneet Goyal: Zero-shot reductive paraphrasing for digitally semi-literate. In: Forum for Information Retrieval Evaluation. ACM, New York, NY, USA 13. Dezember 2021, S. 91–98, doi:10.1145/3503162.3503171.
  6. Helia Hashemi, Yong Zhuang, Sachith Sri Ram Kothur, Srivas Prasad, Edgar Meij, W. Bruce Croft: Dense Retrieval Adaptation using Target Domain Description. In: Proceedings of the 2023 ACM SIGIR International Conference on Theory of Information Retrieval. ACM, New York, NY, USA 9. August 2023, S. 95–104, doi:10.1145/3578337.3605127.