Content-Addressed Storage

Content-Addressed Storage (CAS) ist ein Speicherverfahren für Festplatten. Es ermöglicht einen direkten Zugriff auf einzelne Objekte und stellt gleichzeitig die Unveränderbarkeit der gespeicherten Informationen sicher. Bei einem Content-Addressed-Storage-System wird auf gespeicherte Daten nicht über ihre Lage auf dem physischen Medium, sondern über den Inhalt der Information zugegriffen. Genutzt wird es üblicherweise für Highspeed-Speicherungen und Abfragen von statischem Inhalt. Dieser „Fixed Content“ (unveränderbarer Inhalt) besteht aus Daten, die einmal geschrieben und danach nicht mehr verändert werden sollen, z. B. Geschäftsdokumente, Belege, Abrechnungsdaten usw.. Mögliche Einsatzgebiete für CAS-Systeme zur elektronischen Archivierung sind Medienarchive oder auch Archive im Gesundheits- oder Finanzwesen. Eine unveränderbare Speicherung ist häufig auf Grund von Gesetzen und Verordnungen (z. B. GDPdU, GoBS, HGB u. a.) oder anderen Vorschriften (z. B. GxP, FDA u. a.) notwendig. Man spricht in diesem Zusammenhang auch von revisionssicherer Archivierung.

Funktionsweise

Das erste kommerziell verfügbare CAS-System war die Centera-Plattform von EMC. Sie ist bis heute typisch für eine CAS-Lösung. Die EMC Centera wurde entwickelt, um digitale Daten und Langzeit-Informationen auf schnellen Festplatten aufzubewahren. In diesem Bereich kamen bis dahin nur digitale optische Speicherplatten (WORM) zum Einsatz. Die CAS-Technik bietet einen Online-Zugriff mit gesicherter inhaltlicher Authentizität und lässt sich bis auf mehrere Petabyte Kapazität skalieren. Das System besteht aus einer Reihe von Netzwerkknoten, bei denen man zwischen Speicher- und Zugangsknoten unterscheidet. Die Zugangsknoten enthalten ein synchronisiertes Verzeichnis von Inhaltsadressen und dem jeweils zugehörigen Speicherknoten, in dem sie gefunden werden können. Wenn ein neues Datenelement oder Blob (Binary Large Object) hinzugefügt wird, berechnet die Speichereinheit den Inhalts-Hash und gibt ihn als Inhaltsadresse des Datenelements zurück. Mit dem Hash-Wert lässt sich zudem sicherstellen, dass der gleiche Inhalt nicht noch einmal gespeichert wird und damit unnötig Platz belegt wird. Stößt die Speichereinheit auf ein Objekt mit dem gleichen Hash-Wert, verwirft sie stattdessen die zweite Datei und referenziert auf das Original. Neue Datensätze werden dagegen nach der Prüfung zu einem Speicherknoten weitergeleitet und auf das physikalische Medium geschrieben.

Wenn auf ein gespeichertes Objekt zugegriffen werden soll, fragt das Speichersystem zunächst das Verzeichnis für die physische Speicherstelle der Inhaltsadresse ab. Diese Information erhält sie von einem Speicherknoten. Anschließend wird der Daten-Hash neu berechnet und verifiziert. Sobald das abgeschlossen ist, übermittelt die Speichereinheit die abgefragten Daten an den Client. In einem CAS-System repräsentiert jede Inhaltsadresse mehrere Datensätze/Blobs, außerdem kann sie zusätzliche Metadaten aufnehmen. Wenn ein Client einen Inhaltsblock um einen zusätzlichen Datensatz oder Blob erweitert, wird die Adresse des Inhalts neu berechnet.

Eine andere typische Implementierung ist das kommerzielle Datenmanagement-System iTernity. Sein Konzept basiert auf Containern, jeder Container wird durch seinen Hash-Wert adressiert. Außerdem enthält er mehrere unveränderbare Dokumente. Damit ist der einzelne Container nicht veränderbar, was dann auch für die Hash-Werte gilt.

Neben dem CAS-Verfahren von EMC gibt es noch ähnliche Verfahren anderer Festplatten-Hersteller. Sie erreichen den gleichen Effekt - Unveränderbarkeit der archivierten Informationen - mit anderen Ansätzen. Zu nennen sind in diesem Zusammenhang z. B. IBM, NetApp, FAST LTA Hitachi und HP. Eine Open-Source-Implementierung von CAS+ wurde unter dem Namen Twisted Storage^[1] veröffentlicht.

Unterschiede zu anderen Speichertechnologien

Im Unterschied zum Verfahren bei Content-Addressed Storage ist etwa bei Direct Attached Storage - DAS und Storage Area Network SAN die Position jedes Datenelements auf dem physischen Medium gespeichert. Wird ein bestimmtes Objekt angefordert, wird nur die Adresse (zum Beispiel Pfad und Dateinamen) der Daten zurückgegeben. Mit diesen Informationen lokalisiert die Speichereinheit die Daten auf dem physischen Medium und ruft sie ab. Wenn hingegen neue Informationen auf den Datenträger geschrieben werden, werden sie einfach nur in dem freiem Speicherplatz abgelegt. Der Inhalt spielt dabei keine Rolle.

CAS-Lösungen kamen erstmals 2004 auf dem Markt und verdrängen seitdem zunehmend WORM-Speicher und Jukeboxen als Archivsysteme.

Stärken und Schwächen

CAS arbeitet effizient bei einem Datenbestand, der sich selten ändert. Ziel ist es, die Suche nach einem bestimmten Dokumenteninhalt zu beschleunigen und sicherzustellen, dass das gefundene Dokument auch identisch mit dem gespeicherten Original ist. Zusätzlich wird gewährleistet, dass ein Datensatz in einem CAS-System entsprechend seinem Inhalt gespeichert wird. Somit kann es nicht vorkommen, dass zwei identische Datensätze auf dem Speichermedium abgelegt werden (nach dem CAS-Allozierungsverfahren hätten zwei identische Dokumente die gleiche Inhaltsadresse und damit dieselbe Speicherposition).

Traditionelle Plattenspeicher-Systeme eignen sich für die Speicherung von Daten im Volumen von etwa zehn bis hundert Terabyte. Sie sind jedoch nicht in der Lage, größere Mengen an Fixed Content - und das können Hunderte von Terabyte bis Petabyte sein - effizient zu verwalten und zu skalieren. Eine zusätzliche Herausforderung an das Speichersystem ist das Einhalten der Balance zwischen Datensicherung und Kapazitätenplanung einerseits sowie langfristig gesicherter Authentizität andererseits.

Für Daten, die sich häufig ändern, erreicht ein CAS-System weniger Effizienz als die herkömmliche, den Speicherort adressierende Technologien. Denn in solchen Szenarien müsste das CAS-System für alle geänderten Datensätze deren Adressposition immer wieder neu berechnen. Das Verwaltungssystem für die gespeicherten Objekte wäre somit dazu gezwungen, permanent die Informationen, wo sich das Dokument nun befindet, zu erneuern.

Ein wirtschaftlicher Einsatz der CAS-Systeme ist immer dort gegeben, wo sehr große Dokumentenmengen mit hohen Zugriffsraten zusammentreffen und kurze Antwortzeiten gefordert werden. Für kleine Informationsmengen rechnen sich CAS-Systeme häufig nicht. Anders als Datenbanken und Fileserver, bei denen Änderungen konstant durchgeführt werden, liegt der Wert des Fixed Content in der Kombination aus erweiterter Nutzbarkeit, Authentizität und Langlebigkeit.

Fixed Content

Derzeit wird davon ausgegangen, dass 80% aller gespeicherten Daten sich nicht ändern. Denn entweder handelt es sich um nicht mehr bearbeitete Dokumente, oder wenn die Dateien noch verändert werden, bleibt noch eine Kopie des ursprünglichen Dokuments erhalten. Diese Daten bezeichnet man als Fixed Content. CAS-Systeme eignen sich prinzipiell für alle Bereiche, in denen große Mengen an Fixed Content anfallen.

Standard

Mit XAM wollen einige der CAS-Hersteller einen Standard für die Ansteuerung von CAS-Systemen entwickeln.^[2]

Einzelnachweise

Literatur

Die neue Welt der Datenspeicherung

Siehe auch

[twistedstorage-1] ttp://twistedstorage.sourceforge.net

[2] ttp://www.snia.org/forums/xam/

[1]

[2]