Zum Inhalt springen

Informationsintegration

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 29. März 2005 um 21:42 Uhr durch 217.231.39.171 (Diskussion) (Siehe auch). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Als Informationsintegration lässt sich das Problem der Zusammenführung von Daten und Inhalten aus verschiedenen Quellen zu einer einheitlichen Menge von Informationen bezeichnen. Dabei sollen vor allem heterogene Quellen möglichst vollständig und effizient zu einer strukturierten Einheit zusammengeführt werden, die sich effektiver nutzen lässt, als dies bei direktem Zugriff auf die einzelnen Quellen möglich wäre. Informationsintegration ist vor allem dort notwenig, wo mehrere gewachsene Systeme miteinander verbunden werden sollen, also beispielsweise bei der Zusammenführung von Firmen, Arbeitsabläufen und Anwendungen oder bei der Informationssuche im Internet. Konkret müssen dabei eine Reihe von Datenbanken und Informationssystemen integriert werden. Ein relativ einfaches Beispiel für ein integrierendes Informationssystem ist eine Metasuchmaschine. Die Integration komplexerer Systeme ist erst in den 1990er Jahren in den Blickpunkt der informatischen Forschung gerückt und somit in der Entwicklung begriffen.

Methoden der Informationsintegration

Die Integration heterogener Informationen aus unterschiedlichen Informationssystemen betrifft sowohl die Integration der konkreten Daten als auch der Strukturen (Schema), in denen sie vorliegen. Zur Datenintegration sind unter Anderem Verfahren der Datenfusion und Duplikaterkennung notwendig, während die Schemaintegration mittels Schema Mapping/Schema Matching durchgeführt wird.

Materialisierte vs. Virtuelle Integration

Grundsätzlich lassen sich zwei Arten der Integration unterscheiden:

  • Materialisierte Integration: Die Daten werden zuerst in eine zentrale Datenbasis integriert und stehen danach für Anfragen zur Verfügung (beispielsweise in einem Data Warehouse oder dem Datenaustausch der Open Archives Initiative).

Im Vergleich ergeben sich folgende Vor- und Nachteile

  • Aktualität: Während bei materialisierter Integration die Daten nur in regelmäßigen Abständen von den Quellen aktualisiert werden, ist ein virtuell integriertes System abgesehen von gecachten Daten stets so aktuell wie seine Quellen
  • Antwortzeit: Da in einem materialisiertes System alle Daten zentral gehalten werden, können sie auf schnelle Antwortzeiten optimiert abgelegt werden (allerdings können typische Anfragen sehr komplex sein). Bei virtueller Integration hängt die Antwortzeit stark von der Geschwindigkeit der Quellen, der Übertragungswege sowie den zusätzlich stattfindenden Aufgaben wie der Datenbereinigung ab.
  • Flexibilität: Als große Datenspeicher sind materialisierte Systeme grundsätzlich schwieriger zu warten als virtuell integrierte Systeme, bei denen die Wartung der Daten Aufgabe der Quellen ist. Außerdem kann das Hinzufügen einer Quelle die gesamte Integration beeinflussen (Global-as-View), während bei virtueller Integration das Hinzufügen, Entfernen oder Ändern einer Quelle nur auf ihr Mapping auf ein globales Schema Auswirkungen hat (Local-as-View).


Verwandte Themengebiete

Die Informationsintegration weist unter Anderem Überschneidungen und Verwandtschaften mit folgenden Themengebieten auf:

Siehe auch


Literatur