Data Warehouse
Ein Datawarehouse (deutsch Datenlager) ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten von unterschiedlichen Datenquellen zusammensetzt. Die Daten werden von den Datenquellen in das Data-Warehouse kopiert und dort vor allem für die Datenanalyse und zur betriebswirtschaftlichen Entscheidungshilfe in Unternehmen langfristig gespeichert. Der Begriff stammt aus dem Informationsmanagement in der Betriebswirtschaft. Bei der Erstellung eines Data-Warehouse handelt es sich um eine Form der materialisierten Informationsintegration.
Der Erstellung eines Data-Warehouses liegen zwei Leitgedanken zugrunde:
- Integration von Daten aus verteilten und unterschiedlich strukturierten Datenbeständen, um im Data-Warehouse eine globale Sicht auf die Quelldaten und damit übergreifende Auswertungen zu ermöglichen.
- Trennung der Daten, die i.w. für das operative Geschäft genutzt werden, von solchen Daten, welche im Data-Warehouse z.B. für Zwecke des Berichtswesens, der Entscheidungsunterstützung, der Geschäftsanalyse sowie des Controlling und der Unternehmensführung verwendet werden.
Ein Data-Warehouse ist die zentrale Komponente eines Data-Warehouse-Systems. Daten werden im Rahmen des ETL-Prozesses aus verschiedenen Quellen extrahiert, durch Transformation bereinigt und vereinheitlicht, um danach in das Data-Warehouse geladen zu werden. Dieser Prozess kann turnusgemäß durchgeführt werden, so dass im Data-Warehouse nicht nur Daten nach inhaltlichen Aspekten sondern auch nach dem Aspekt Zeit - also langfristig - gehalten werden, was auch Analysen über die Zeit ermöglicht.
In den letzten Jahren hat sich mehr und mehr die Abkehr von turnusmäßiger Beladung hin zum Real-Time-Data-Warehousing vollzogen. Manche Branchen wie die Telekom-Industrie und der Einzelhandel (z.B. Wal-Mart) hatten Bedarf nach sofort verfügbaren Daten unter Wahrung der Trennung von operativen und auswertenden Systemen.
Definition
Es gibt derzeit keine einheitliche Definition für den Data-Warehouse-Begriff. Weitgehend einig ist man sich in Folgendem:
- Ein Data-Warehouse ermöglicht eine globale Sicht auf heterogene und verteilte Datenbestände, indem die für die globale Sicht relevanten Daten aus den Datenquellen zu einem gemeinsamen konsistenten Datenbestand zusammengeführt werden.
- Somit entsteht der Inhalt eines Data-Warehouse durch Kopieren und Aufbereiten von Daten aus unterschiedlichen Quellen.
- Meist ist ein Data-Warehouse die Basis für die Aggregation von betrieblichen Kennzahlen und Analysen innerhalb mehrdimensionaler Matrizen, dem so genannten Online Analytical Processing (OLAP).
- Ein Data-Warehouse ist häufig Ausgangsbasis für Data Mining.
- In der Regel operieren die Anwendungen mit anwendungsspezifisch konstruierten Auszügen aus dem Data-Warehouse, den so genannten Data Marts.
Unterschiede bei den Definitionen finden sich vor allem im generellen Zweck eines Data-Warehouse sowie im Umfang und Umgang der Daten im Data-Warehouse.
- Das Spektrum der Definitionen beginnt mit der restriktiven Sicht von Inmon:
- „Ein Data-Warehouse ist eine themenorientierte, integrierte, chronologisierte und persistente Sammlung von Daten, um Manager bei Entscheidungsprozessen zu unterstützen.“
- Im Original: „A data warehouse is a subject-oriented, integrated, time-variant, nonvolatile collection of data in support of management´s decision-making process.“ Vorlage:Lit
- Die folgende Definition von Bauer und Günzel ist weniger restriktiv, ist aber auf einen speziellen Zweck, die Analysefunktion, ausgerichtet:
- „Ein Data-Warehouse ist eine physische Datenbank, die eine integrierte Sicht auf (beliebige) Daten darstellt, um Analysen zu ermöglichen.“ Vorlage:Lit
- Das Spektrum der Definitionen endet bei der Definition von Zeh, die ohne Restriktionen an Umfang und Umgang der Daten sowie ohne Zweckbestimmung ist:
- „Ein Data-Warehouse ist ein physischer Datenbestand, der eine integrierte Sicht auf die zugrundeliegenden Datenquellen ermöglicht.“ Vorlage:Lit
Die Einschränkung „physisch“ ist notwendig, um das Data-Warehouse von dem „logischen“ föderierten Datenbanksystem abzugrenzen.
- Ergänzend kann noch die Sicht von Kimball angeführt werden:
- „..., the operational systems are where the data is put in, and the data warehouse is where we get the data out.“ Vorlage:Lit
Geschichte des Begriffs
Der Data-Warehouse-Begriff wurde Mitte der 1980er Jahre bei IBM geprägt und mit Information-Warehouse bezeichnet. Der Terminus Data-Warehouse wurde erstmals 1988 von Devlin verwendet. In jüngerer Zeit werden Data-Warehouse-Systeme auch als Business-Warehouse-Systeme oder als Business-Intelligence-Systeme bezeichnet, wodurch die geschäftliche Bedeutung derartiger Systeme betont werden soll.
Betrieb eines Data-Warehouse (Data-Warehousing)
Der Gesamtprozess der Datenbeschaffung, Verwaltung und Auswertung eines Data-Warehouses wird auch als Data-Warehousing bezeichnet. Zum Data-Warehousing gehören:
- Datenbeschaffung, Staging und Weiterverarbeitung im ETL-Prozess
- Datenhaltung, das heißt die langfristige Speicherung der Daten im Data-Warehouse (siehe auch Langzeitarchivierung).
- Versorgung und Datenhaltung der für die Analyse notwendigen separaten Datenbeständen, den Data-Marts.
- Datenauswertung und -analyse.
Im Data-Warehouse wie auch in den Data-Marts werden die Daten häufig als mehrdimensionale Matrizen im sog. Sternschema oder in verwandten Datenschemata wie Snowflake- und Galaxy-Schema abgelegt.
Data-Warehouse-Anwendungen

- Integration von Daten aus unterschiedlich strukturierten und verteilten Datenbeständen, um eine globale Sicht auf die Quelldaten und damit übergreifende Auswertungen zu ermöglichen.
- Ermittlung verborgener Zusammenhänge zwischen Daten durch Data-Mining
- Schnelle und flexible Verfügbarkeit von Berichten, Statistiken und Kennzahlen, um z. B. Zusammenhänge zwischen Markt und Leistungsangebot erkennen zu können
- Umfassende Information über Geschäftsobjekte und Zusammenhänge
- Transparenz im Zeitablauf zu Geschäftsprozessen, Kosten und Ressourceneinsatz
- Informationsbereitstellung z. B. für die Erstellung von Produktkatalogen
Risiken
Die 59. Konferenz der Datenschutzbeauftragten des Bundes und der Länder vom 14./15. März 2000 weist in ihrer Entschließung zum Thema Data Warehouse, Data Mining und Datenschutz auf das rechtliche Risiko hin, das mit diesen Verfahren verbunden ist. Insbesondere sind das Grundrecht auf informationelle Selbstbestimmung und für den Schutz der Privatheit in Gefahr. Grund ist die Möglichkeit der genannten Verfahren, personenbezogene Daten über ihre Zweckbindung hinaus zu speichern und zu nutzen, was unter bestimmten Umständen rechtswidrig ist. Als Empfehlung gilt, auf Techniken zu setzen, die eine anonymisierte oder pseudonymisierte Form der ursprünglich personenbezogenen Form der Daten verwenden.
Weiterführendes
- Data-Warehouse-System
- Informationsintegration
- Föderiertes Datenbanksystem
- Business-Intelligence
- Common Warehouse Metamodel
- Management-Informationssystem (MIS)
Literatur
- William H. Inmon, Richard D. Hackathorn: Using the Data Warehouse. John Wiley & Sons, New York 1994, ISBN 0-471-05966-8
- Andreas Bauer, Holger Günzel (Hrsg.): Data Warehouse Systeme.Architektur, Entwicklung, Anwendung. 2.Auflage. dpunkt, Heidelberg 2004, ISBN 3-898642-51-8
- Thomas Zeh: Data Warehousing als Organisationskonzept des Datenmanagements. Eine kritische Betrachtung der Data-Warehouse-Definition von Inmon. In: Informatik. Forschung und Entwicklung. Band 18, Heft 1, Aug. 2003
- Ralph Kimball, Mary Ross: The Data Warehouse Toolkit. The Complete Guide to Dimensional Modeling. 2. Auflage. John Wiley & Sons, New York u. A. 2002, ISBN 0-471-20024-7
- Barry Devlin: Data Warehouse. From Architecture to Implementation. Addison-Wesley, Reading/Massachusetts 1997, ISBN 0-201-96425-2
- Wolfgang Lehner: Datenbanktechnologie für Data-Warehouse-Systeme. Konzepte und Methoden. dpunkt, Heidelberg 2003, ISBN 3-89864-177-5
- Alex Schweizer: Data Mining, Data Warehousing. Datenschutzrechtliche Orientierungshilfen für Privatunternehmen. Orell Füssli, Zürich, ISBN 3-280-02540-0
- Jan Holthuis: Der Aufbau von Warehouse-Systemen, Konzept - Datenmodellierung - Vorgehen, 2. Auflage, Deutscher-Universitäts-Verlag 1998, ISBN 3-8244-6959-6