Informationsintegration
Als Informationsintegration lässt sich das Problem der Zusammenführung von Daten und Inhalten aus verschiedenen Quellen zu einer einheitlichen Menge von Informationen bezeichnen. Dabei sollen vor allem heterogene Quellen möglichst vollständig und effizient zu einer strukturierten Einheit zusammengeführt werden, die sich effektiver nutzen lässt, als dies bei direktem Zugriff auf die einzelnen Quellen möglich wäre. Informationsintegration ist vor allem dort notwenig, wo mehrere gewachsene Systeme miteinander verbunden werden sollen, also beispielsweise bei der Zusammenführung von Firmen, Arbeitsabläufen und Anwendungen oder bei der Informationssuche im Internet. Konkret müssen dabei eine Reihe von Datenbanken und Informationssystemen integriert werden. Ein relativ einfaches Beispiel für ein integrierendes Informationssystem ist eine Metasuchmaschine. Die Integration komplexerer Systeme ist erst in den 1990er Jahren in den Blickpunkt der informatischen Forschung gerückt und somit in der Entwicklung begriffen.
Methoden der Informationsintegration
Die Integration heterogener Informationen aus unterschiedlichen Informationssystemen betrifft sowohl die Integration der konkreten Daten als auch der Strukturen (Schema), in denen sie vorliegen. Zur Datenintegration sind unter Anderem Verfahren der Datenfusion und Duplikaterkennung notwendig, während die Schemaintegration mittels Schema Mapping/Schema Matching durchgeführt wird.
Materialisierte vs. Virtuelle Integration
Grundsätzlich lassen sich zwei Arten der Integration unterscheiden:
- Materialisierte Integration: Die Daten werden zuerst in eine zentrale Datenbasis integriert und stehen danach für Anfragen zur Verfügung (beispielsweise in einem Data Warehouse oder dem Datenaustausch der Open Archives Initiative).
- Virtuelle Integration: Die Daten verbleiben in den unterschiedlichen Quellen und die Integration findet erst bei einer Anfragen statt (Mediator-basiertes Informationssystem).
Im Vergleich ergeben sich folgende Vor- und Nachteile
- Aktualität: Während bei materialisierter Integration die Daten nur in regelmäßigen Abständen von den Quellen aktualisiert werden, ist ein virtuell integriertes System abgesehen von gecachten Daten stets so aktuell wie seine Quellen
- Antwortzeit: Da in einem materialisiertes System alle Daten zentral gehalten werden, können sie auf schnelle Antwortzeiten optimiert abgelegt werden (allerdings können typische Anfragen sehr komplex sein). Bei virtueller Integration hängt die Antwortzeit stark von der Geschwindigkeit der Quellen, der Übertragungswege sowie den zusätzlich stattfindenden Aufgaben wie der Datenbereinigung ab.
- Flexibilität: Als große Datenspeicher sind materialisierte Systeme grundsätzlich schwieriger zu warten als virtuell integrierte Systeme, bei denen die Wartung der Daten Aufgabe der Quellen ist. Außerdem kann das Hinzufügen einer Quelle die gesamte Integration beeinflussen (Global-as-View), während bei virtueller Integration das Hinzufügen, Entfernen oder Ändern einer Quelle nur auf ihr Mapping auf ein globales Schema Auswirkungen hat (Local-as-View).
Verwandte Themengebiete
Die Informationsintegration weist unter Anderem Überschneidungen und Verwandtschaften mit folgenden Themengebieten auf:
Siehe auch
- Datenbankschema, SchemaSQL
- Data Warehouse, Föderiertes Datenbanksystem, Verteilte Datenbank
- ETL-Prozess
- Data Lineage
- Semantic Web, Hidden Web
- Global-as-View, Local-as-View
- Mediator-Wrapper-Architektur
- Schema Matching, Schema Mapping
- Sorted Neighborhood (naiv und elaboriert)
Literatur
- Stefan Conrad: Föderierte Datenbanksysteme. Konzepte der Datenintegration. Springer, 1997 ISBN 3540631763
- M. Tamer Özsu, Patrick Valduriez: Principles of Distributed Database Systems. Prentice Hall, 1999 ISBN 0-13-659707-6