XML-Retrieval
XML-Retrieval, oder auch XML Information Retrieval, ist das inhalts-basierte Retrieval von Dokumenten, die mit der eXtensible Markup Language (XML) strukturiert sind [7].
Anfragen
Die meisten Ansätze für das XML-Retrieval basieren auf Techniken aus dem Bereich des Information Retrievals (IR) und berechnen beispielsweise die Ähnlichkeit zwischen einer aus Stichworten bestehenden Anfrage und dem Dokument. In XML-Retrieval kann die Anfrage darüber hinaus auch Strukturhinweise enthalten. Sogenannte "content and structure" (CAS) Anfragen ermöglichen es dem Benutzer, die XML-Struktur zu spezifizieren, die den gewünschten Suchterm enthalten soll oder kann.
Nutzung von XML-Struktur
Die selbstbeschreibende Struktur von XML-Dokumenten kann dazu genutzt werden, die Suche nach XML-Dokumenten teilweise erheblich zu verbessern. Dies umfasst die Verwendung und Nutzung von CAS-Anfragen, die Zuweisung unterschiedlicher Gewichte zu verschiedenen XML-Elementen (so dass z.B. ein Titel-Element höher gewichtet wird als eine Fussnote), oder das fokusierte Retrieval von Teildokumenten.
Ranking
Das Ranking, also die Relevanzbewertung eines Dokumentes, kann beim XML-Retrieval sowohl Inhalt als auch Struktur-Ähnlichkeit berücksichtigen, also die Ähnlichkeit zwischen der Struktur, die in der CAS-Anfrage angegeben wurde und der Struktur im zu bewertendem Dokument. Darüber hinaus können die Ergebnisse einer strukturierten Anfrage entweder komplette Dokumente sein, oder auch beliebig tief verschachtelte XML-Elemente eines Dokumentes. Das Ziel ist dabei, das kleinste Ergebnis zu finden, das die höchste Relevanz aufweist, wobei Relevanz auch als Spezifität zu verstehen ist, also als das Ausmass zu dem das Ergebnis auf das gewünschte Ergebnis fokusiert ist [4].
Existierende XML-Suchmaschinen
Eine Übersicht über existierende Lösungsansätze wird in [1] and [5] gegeben. Die "INitiative for the Evaluation of XML-Retrieval" (INEX) wurde 2002 gegründet und stellt eine Plattform zur Verfügung zur Evaluierung solcher Algorithmen [4]. Drei Gebiete beeinflussen XML-Retrieval [2]:
• XML-Anfragesprachen:
Anfragesprachen wie der W3C Standard XQuery [8] ermöglichen kompexe Suchanfragen, jedoch werden nur exakte Treffer ermöglicht, also keine Relevanzberechnung und Ranking der Ergebnisse. Sie müssen daher erweitert werden, damit die vage Suche durch Relevanzberechnung möglich ist. Die meisten XML-basierten Ansätze setzen leider ein genaues Wissen des den Dokumenten zugrundeliegenden Schemas (XML Schema oder DTD) voraus [6].
• Datenbanken:
Klassische Datenbanksysteme bieten mittlerweile die Möglichkeit, auch semi-strukturierte Daten abzuspeichern [2], was zur Entwicklung von XML-Datenbanken geführt hat. Oft sind solche Ansätze sehr formal, konzentrieren sich mehr auf die Suche selbst als auf das Ranking, und sind für erfahrene Benutzer gedacht, die komplexe Anfragen formulieren können.
• Information Retrieval:
Klassische Information Retrieval Modelle wie das Vektor Space Modell basieren auf Relevanzberechnungen, sie nutzen jedoch keine Dokumentenstruktur aus, sondern erlauben lediglich einfache Anfragen. Sie setzen desweiteren auf ein statisches Dokumentenkonzept, so dass die Ergebnisse üblicherweise aus kompletten Dokumenten bestehen [6]. Sie können jedoch erweitert werden, um Strukturinformation und dynamisches Dokumentretrieval zu ermöglichen. Beispiele für solche Ansätze sind [3] und [6]: sie benutzen Dokument-Teilbäume (Index Terme plus Struktur) als Dimensionen des Vektorraums.
Referenzen
[1] Amer-Yahia, S.; Lalmas, Mounia: XML Search: Languages, INEX and Scoring. SIGMOD Rec. Vol. 35, No. 4, 2006.
[2] Fuhr, Norbert; Gövert, N.; Kazai, Gabriella; Lalmas, Mounia (eds.): INitiative for the Evaluation of XML Retrieval (INEX).
In: Proc. of the First INEX Workshop, Dagstuhl, Germany, 2002, ERCIM Workshop Proceedings, France, 2003.
[3] Liu, S.; Zou, Q.; Chu, W.: Configurable Indexing and Ranking for XML Information Retrieval.
In: Proc. of the 27th Annual International ACM SIGIR Conference, ACM Press, 2004.
[4] Malik, Sadia; Trotman, Andrew; Lalmas, Mounia; Fuhr, Norbert: Overview of INEX 2006.
In: Proc. of the Fifth Workshop of the INitiative for the Evaluation of XML Retrieval, Germany, 2007.
[5] Pal, Sukomal: XML Retrieval – A Survey. 2007, Technical Report, CVPR, [1].
[6] Schlieder, Torsten; Meuss, H.: Querying and Ranking XML Documents. Journal of the American Society for Information Science and Technology, Vol. 53, No. 6, 2002.
[7] Winter, Judith; Drobnik, Oswald: An Architecture for XML Information Retrieval in a Peer-to-Peer Environment.
ACM PIKM2007 at ACM 16th Conference on Information and Knowledge Management (CIKM 2007), Lisbon, Portugal, 2007.
[8] World Wide Web Consortium: XQuery 1.0: An XML Query Language. W3C Recommendation, 23. Jan. 2007, http://www.w3.org/TR/xquery/.