RAID

Ein RAID-System dient zur Organisation zweier oder mehrerer physikalischer Festplatten eines Computers zu einem logischen Laufwerk, das eine größere Speicherkapazität und/oder einen größeren Datendurchsatz erlaubt als eine physikalische Platte. Während die meisten in Computer verwendeten Techniken und Anwendungen darauf abzielen Redundanzen (das Vorkommen doppelter Daten) zu vermeiden, werden bei RAID-Systemen redundante Informationen gezielt erzeugt, damit beim Ausfall einzelner Komponenten das RAID als ganzes seine Funktionalität behält.

Der Begriff wurde von Patterson, Gibson und Katz an der Berkeley University of California in dem Papier "A Case for Redundant Array of Inexpensive Disks (RAID)" zum ersten Mal verwendet (frei übersetzt: Redundanter Verbund kostengünstiger Festplatten). Das Papier untersuchte die Möglichkeit kostengünstige Festplatten im Verbund als logisches Laufwerk zu betreiben, um die Kosten für eine große (zum damaligen Zeitpunkt teure) Festplatte einzusparen. Dem gestiegenen Ausfallrisiko im Verbund sollte durch die Speicherung redundanter Daten begegnet werden, die einzelnen Anordnungen wurden als RAID-Level diskutiert.

Die weitere Entwicklung des RAID-Konzepts führte zunehmend zum Einsatz in Serveranwendungen, die den erhöhten Datendurchsatz und die Ausfallsicherheit nutzen, der Aspekt der Kostenersparnis wurde dabei aufgegeben. Der Möglichkeit, in einem solchen System einzelne Festplatten im laufenden Betrieb zu wechseln, entspricht die heute gebräuchliche Übersetzung: Redundant Array of Independent Disks (Redundante Anordnung unabhängiger Festplatten).

Der Betrieb eines RAID-Systems setzt mindestens zwei Festplatten voraus. Die Festplatten werden gemeinsam betrieben und bilden einen Verbund, der unter mindestens einem Aspekt betrachtet leistungsfähiger ist als die einzelnen Festplatten. Mit RAID-Systemen kann man folgende Vorteile erreichen:

Erhöhung der Ausfallsicherheit (Redundanz)
Steigerung der Transferraten (Performance)
Aufbau großer logischer Laufwerke
Austausch von Festplatten und Erhöhung der Speicherkapazität während des Systembetriebes
Kostenreduktion durch Einsatz mehrerer preiswerter Festplatten
schnelle Steigerung der Systemleistungsfähigkeit

Die genaue Art des Zusammenwirkens der Festplatten wird durch den RAID-Level spezifiziert. Die gebräuchlichsten RAID-Level sind RAID 0, RAID 1 und RAID 5. Sie werden unten beschrieben.

Aus Sicht des Benutzers oder eines Anwendungsprogramms unterscheidet sich ein logisches RAID-Laufwerk nicht von einer einzelnen Festplatte.

Aufbau und Anschluss - Hardware-RAID, Software-RAID

Hardware-RAID

Von Hardware-RAID spricht man, wenn das Zusammenwirken der Festplatten von einem speziell dafür entwickelten Hardware-Baustein, dem RAID-Controller, organisiert wird.

Der Hardware-RAID-Controller befindet sich physikalisch in der Nähe der Festplatten. Er kann im Gehäuse des Computers enthalten sein. Häufiger befindet er sich aber in einem eigenen Gehäuse, einem Disk Array, in dem auch die Festplatten untergebracht sind. Vermehrt werden in den letzten Jahren auch RAID-Controller auf Mainboards für den Heimcomputer- bzw. Personal Computer-Bereich verbaut. Üblicherweise sind diese häufig auf RAID 0 und RAID 1 beschränkt. Um die Karten im Consumer-Bereich so erschwinglich wie möglich zu machen, überlässt man hier jedoch oft die RAID-Logik der CPU, was sie dann noch schlechter aussehen lässt als eine echte Software-RAID-Lösung. Ebenfalls mit dem Nachteil, an den Controller gebunden zu sein und bei einer Fehlfunktion desselben alle Daten mitzuverlieren. Diese Controller (hier ähnlich wie Win-Modems) werden im Linux-Jargon oft auch als Fake-Raid bezeichnet.

Software-RAID

Von Software-RAID spricht man, wenn das Zusammenwirken der Festplatten komplett softwareseitig organisiert wird. Auch der Begriff Host based RAID ist geläufig, da nicht das Speicher-Subsystem, sondern der eigentliche Computer die RAID-Verwaltung durchführt. Die meisten modernen Betriebssysteme, wie Apple Mac OS X, HP HP-UX, IBM AIX, Linux, Microsoft Windows ab Windows NT oder SUN Solaris sind dazu in der Lage. Die einzelnen Festplatten sind in diesem Fall entweder über einfache Festplattencontroller am Computer angeschlossen oder die Speichercontroller wie RAID-Controller oder andere Disk Arrays von Firmen wie EMC oder HDS an den Computer angeschlossen. Die Verwaltung der einzelnen Devices übernimmt der Computer.

Der Vorteil von Software-RAID ist, dass kein spezieller RAID-Controller benötigt wird. Die vom Betriebssystem mitgelieferte RAID-Software oder eine separat installierte Software wird dann genutzt. Allerdings kann die Abhängigkeit von einem bestimmten Betriebssystem bzw. einer bestimmten Plattform auch ein Nachteil sein, und nicht zuletzt wird der Hauptprozessor (CPU) des Computers bei Festplattenzugriffen belastet. Ebenfalls fällt die Möglichkeit weg, einen im RAID-Controller oder Disk Array vorhandenen Cache zu nutzen.

In bestimmten Fällen kann Software-RAID schneller sein, z. B. wenn der Volume Manager des Betriebssystems die Zugriffe auf die Platten besser optimieren kann als der RAID-Controller. Das Betriebssystem kann den verfügbaren Hauptspeicher als Cache verwenden.

Das Programm, welches die Verwaltung der Festplatten übernimmt, wird gemeinhin als Volume Management Software oder Logical Volume Manager bezeichnet.

Anschluss der Festplatten am Computer

Die Festplatten können auf verschiedene Arten am Computer angeschlossen sein. Bei PCs sind die Schnittstellen SCSI, ATA/ATAPI und Serial ATA üblich. An Serversystemen finden fast ausschließlich die Anschluss-Typen Fibre Channel, SCSI, ESCON und FICON Einsatz.

Geschichte

1987 veröffentlichten D. A. Patterson, G. Gibson und R. H. Katz von der University of California, Berkeley, USA einen Vorschlag, um die langsamen Plattenzugriffe zu beschleunigen und die MTBF (Mean time between failures) zu erhöhen. Dazu sollten die Daten auf vielen kleineren (billigeren) Platten anstatt auf wenigen großen (teuren) abgelegt werden. Deshalb hieß die frühere Schreibweise auch "Arrays of Inexpensive Disks" (heute Independent), im Gegensatz zu den damaligen SLEDs (Single Large Expensive Disk). Die Varianten RAID 0 und RAID 6 wurden erst später von der Industrie geprägt. Seit 1992 erfolgt eine Standardisierung durch das RAB (RAID Advisory Board), bestehend aus etwa 50 Herstellern.

Die gebräuchlichen RAID-Level im Einzelnen

RAID 0: Striping - Beschleunigung ohne Redundanz

Streng genommen ist dies gar kein RAID, da es keine Redundanz gibt.

RAID 0 bietet gesteigerte Transferraten, indem mehrere Festplatten zusammengeschlossen und Schreiboperationen auf allen parallel durchgeführt werden (engl. striping, was bedeutet "in Streifen zerlegen", abgeleitet von stripe - der "Streifen"). Die Performance-Steigerung (insbesondere bei sequentiellen Zugriffen) beruht darauf, dass die zu schreibenden Daten zunächst auf die Caches der verschiedenen Platten verteilt werden und jede einzelne Platte so weniger zu tun hat. Die Größe der Datenblöcke wird als Striping-Granularität(aka "chunk size" oder "interlace size") bezeichnet. Umgekehrt wird auch der Lesevorgang beschleunigt. Fällt jedoch eine der Festplatten durch einen Defekt aus, kann der RAID-Controller ohne deren Teildaten die ursprüngliche Datei nicht mehr rekonstruieren. Die Wahrscheinlichkeit von Datenverlust durch Festplattendefekt ist bei RAID 0 mit zwei Festplatten knapp doppelt so groß wie bei einem gewöhnlichen Computer mit nur einer Festplatte, da sich die Defektwahrscheinlichkeit entsprechend der Festplattenanzahl vervielfacht, der Defekt einer einzigen Festplatte aber schon zum Totalausfall führt. RAID 0 ist daher nur in Computersystemen zu empfehlen, bei denen Datensicherheit kaum von Bedeutung ist. Der Einsatzzweck dieses Verbundsystems erstreckt sich demnach auf Anwendungen, bei denen große Datenmengen anfallen die schnell abgelegt werden sollen, z. B. Musik- oder Videoaufnahme.

RAID 1: Mirroring - Spiegelung

Ein RAID-1-Array besteht aus zwei oder mehr Festplatten, die dieselben Daten enthalten (engl. mirroring oder duplexing, s.u.). RAID 1 bietet die volle Redundanz der gespeicherten Daten, während die Kapazität des Arrays höchstens so groß ist, wie die kleinste beteiligte Festplatte.

Fällt eine der gespiegelten Platten aus, können die anderen weiterhin die Daten liefern. Besonders für Echtzeitanwendungen ist das unverzichtbar. RAID 1 bietet eine hohe Ausfallsicherheit. Zum Totalverlust der Daten führt erst der Ausfall aller Platten.

Wenn alle Festplatten am selben Controller angeschlossen sind, wird dies als Mirroring bezeichnet. Es kann immer nur ein Zugriff pro Controller ausgeführt werden, was zur Folge hat, dass die Redundanz eines Sektors nicht sofort gegeben ist, sondern erst, nachdem auf mindestens zwei Festplatten geschrieben wurde. Ein Anschluss der Festplatten an verschiedenen Controllern wird als Duplexing bezeichnet.

Bei RAID 1 wird beim Lesen immer auf beide Festplatten zugegriffen. Wenn die Antworten vorliegen, werden die beiden Datenströme verglichen und bei Unstimmigkeiten ein Fehler ausgegeben (da das Array dann nicht mehr synchron läuft).

RAID 5: Performance + Parität

RAID 5 bietet gesteigerte Performance beim Lesen von Daten als auch Redundanz bei relativ geringen Kosten und ist dadurch die beliebteste RAID-Variante. In schreibintensiven Umgebungen ist RAID 5 nicht zu empfehlen, da sowohl bei sequenziellen als auch bei zufälligen Schreibzugriffen die Performance deutlich abnimmt. An dieser Stelle wäre eine RAID 0+1-Konfiguration zu empfehlen. Allerdings ist RAID 5 die kostengünstigere Möglichkeit, Daten auf mindestens 3 Festplatten redundant zu speichern.

Die nutzbare Gesamtkapazität errechnet sich aus der Formel s × (n - 1) (s = kleinste Platte im Array, n = Anzahl der Platten), da jeder n-te Datenblock für die Paritätsdaten (Redundanz) benötigt wird.

Einige Beispiele:

3 Festplatten à 160 GB:
320 GB Nutzdaten; 160 GB Redundanz
5 Festplatten à 76 GB:
304 GB Nutzdaten; 76 GB Redundanz
7 Festplatten à 9 GB:
54 GB Nutzdaten; 9 GB Redundanz

Die Nutzdaten werden wie bei RAID 0 auf alle Festplatten verteilt. Die Paritätsinformationen werden jedoch nicht wie bei RAID 4 auf einer Platte konzentriert, sondern ebenfalls verteilt. Die Berechnung der Parität erfordert leistungsfähige RAID-Controller und führt beim Schreiben zu leichter bis erheblicher Verminderung der Datentransferrate im Vergleich zu RAID 0. Da die Paritätsinformationen beim Lesen nicht benötigt werden, stehen alle Platten zum parallelen Zugriff zur Verfügung. Dieser (theoretische) Vorteil greift allerdings nicht bei kleinen Dateien, erst bei größeren Dateien tritt eine nennenswerte Performanceverbesserung ein.

Bei RAID 5 ist die Datensicherheit des Arrays beim Ausfall von maximal einer Platte gewährleistet. Allerdings lässt nach Ausfall einer Festplatte oder während des Rebuilds auf die Hotspare-Platte (bzw. nach Austausch der defekten Festplatte) die Performance deutlich nach. Der Rebuild dauert länger als bei RAID 1, da bei RAID 5 Daten aus den Parity-Informationen rekonstruiert werden müssen. Je mehr Festplatten in einem RAID-5-Verbund sind, desto länger dauert der Rebuild bzw. desto schlechter ist die Performance während eines Defekts einer Festplatte.

Eine noch junge Methode zur Verbesserung der Rebuild-Performance und damit der Ausfallsicherheit ist präemptives RAID 5. Hierbei werden interne Fehlerkorrekturstatistiken der Platten zur Vorhersage eines Ausfalls herangezogen (S.M.A.R.T.). Vorsorglich wird nun die Hot-spare-Platte mit dem kompletten Inhalt der ausfallverdächtigsten Platte im RAID-Verbund synchronisiert, um zum vorhergesagten Versagenszeitpunkt sofort in deren Stelle treten zu können. Das Verfahren erreicht bei geringerem Platzbedarf eine ähnliche Ausfallsicherheit wie RAID 6 und andere Dual-Parity Implementierungen. Allerdings wurde präemptives RAID 5 aufgrund des hohen Aufwands bislang nur in wenigen "high-end" Speichersystemen mit server-basierten Controllern implementiert.

Weniger gebräuchliche oder bedeutungslos gewordene RAID-Level

NRAID / Linear Mode / concat(enation): Festplattenverbund

Bei NRAID (auch als linear mode oder concat(enation) bekannt) werden – wie bei RAID 0 – mehrere Festplatten zusammengeschlossen. Im Gegensatz zu RAID 0 bietet NRAID aber keinen Performance-Gewinn. Dafür kann man Festplatten unterschiedlicher Größe ohne Speicherverlust miteinander kombinieren (Beispiel: eine 10 GB-Festplatte und eine 30 GB-Festplatte ergeben in einem NRAID eine virtuelle 40 GB-Festplatte, während in einem RAID 0 nur 20 GB (2 x 10 GB) angesprochen werden könnten). Der Ausfall einer Platte führt zu Datenverlust, jedoch wäre es möglich einen Teil der Daten wieder zu restaurieren, solange sie komplett auf der funktionierenden Platte liegen. NRAID ist weder einer der nummerierten RAID-Levels, noch bietet es Redundanz. Man kann es aber durchaus als entfernten Verwandten von RAID 0 betrachten. NRAID macht aus mehreren Festplatten eine einzige Partition, deren Datenkapazität der Summe der Kapazitäten aller verwendeten Platten entspricht. Heutzutage sind Controller, die mit der Eigenschaft NRAID verkauft werden, in der Lage, dies zu tun.

RAID 2

RAID 2 spielt in der Praxis keine Rolle mehr. Das Verfahren wurde nur bei Großrechnern verwendet. Die Daten werden hierbei in Bitfolgen fester Größe zerlegt und mittels eines Hamming-Codes auf größere Bitfolgen abgebildet (8 Bit für Daten noch 2 Bit für den ECC-Code). Die einzelnen Bits des Hamming-Codeworts werden dann über einzelne Platten aufgeteilt, was prinzipiell einen hohen Durchsatz erlaubt. Ein Nachteil ist jedoch, dass die Anzahl der Platten ein Vielfaches der Hamming-Codewortlänge sein muss.

Ein RAID 2-Verbund benötigt mindestens zehn Festplatten.

RAID 3: Striping mit Paritätsinformationen auf separater Festplatte

RAID 3 ist der Vorläufer des RAID 5. Im RAID 3 wird die Redundanz auf einer zusätzlichen Festplatte gespeichert. Als Redundanz bezeichnet man hier die bitweise Addition der einzelnen Bits der anderen Festplatten. Die bitweise Addition berechnet Summen von Einzelbits, die den Wert 0 und 1 enthalten können, und befolgt die Rechenregeln des mathematischen Zahlkörpers, welcher nur die Elemente 0 und 1 enthält, und bei dem die folgenden Rechenregeln gelten: 1+1=0, 0+1=1, 1+0=1, 0+0=0, und Subtraktion = Addition. In der Mikroelektronik ist dies identisch mit der XOR-Verknüpfung.

Der Gewinn durch ein RAID 3 ist folgender: Angenommen der RAID 3-Verbund besteht aus n datentragenden Festplatten und einer dedizierten Parity-Disk mit Hausnummer n+1. Bei einem Ausfall einer der ersten n Festplatten werden, nach Austausch dieser Festplatte, alle Daten auf die neue n-te Festplatte zurück synchronisiert, ausgehend von den Parity-Informationen der n+1-ten Festplatte und den übrigen, unversehrten n-1 Daten-Festplatten. Der Ausfall der Parity-Disk selbst wird, nach Ersetzen der Festplatte, repariert durch einfache Neuberechnung der Parity-Bits.

RAID 3 ist inzwischen vom Markt verschwunden und wurde weitgehend durch RAID 5 ersetzt, bei dem die Parität gleichmäßig über alle Disks verteilt wird. Die dedizierte Paritätenfestplatte stellte einen Flaschenhals dar (performance bottleneck). Vor dem Übergang zu RAID 5 wurde RAID 3 zudem partiell durch RAID 4 verbessert, bei dem Ein-/Ausgabe-Operationen mit größeren Blockgrößen aus Performancegründen standardisiert wurden.

Zusätzlich sei hier bemerkt, dass ein RAID 3-Verbund aus lediglich zwei Festplatten identisch ist mit einem RAID 1 aus zwei Festplatten - per Definition.

RAID 4

Datei:RAID 4.png

RAID Level 4

Es werden ebenfalls Paritätsinformationen berechnet, die auf eine dedizierte Festplatte geschrieben werden. Allerdings sind die Einheiten, die geschrieben werden, größere Chunks und nicht einzelne Bytes, was die Gemeinsamkeit zu RAID 5 ausmacht.

Ein Vorteil von RAID 4 besteht darin, dass bei einem Ausfall einer Datenplatte eine "vorgenullte" Datenplatte eingesetzt werden kann. Dadurch wird eine zeit- und rechenintensive Wiederherstellung vermieden und das RAID-4-System kann ohne Einschränkungen weiterbetrieben werden. Außerdem entfällt ein Umkopieren der bereits geschriebenen Stripes im Falle einer Erweiterung des RAID Sets.

Ein Nachteil bei klassischem RAID 4 besteht darin, dass die Parity-Platte bei allen Schreib- und Leseoperationen beteiligt ist. Dadurch ist die maximal mögliche Performance durch die Performance der Parity-Disk begrenzt. Da bei jeder Operation immer eine der Daten-Disks und die Parity-Disk verwendet werden, fällt die Parity-Disk häufiger aus.

Wegen der fest definierten Paritätsplatte wird statt RAID 4 fast immer RAID 5 bevorzugt.

Eine Ausnahme bildet ein Systemdesign, bei dem die Lese- und Schreiboperationen auf ein NVRAM erfolgen. Das NVRAM bildet einen Puffer, der die Performance kurzfristig erhöht, die Lese- und Schreiboperationen sammelt und in sequenziellen Abschnitten auf das RAID 4-Plattensystem schreibt. Dadurch werden die Nachteile von RAID 4 vermindert und die Vorteile bleiben erhalten.

Network Appliance nutzt RAID 4 in ihren NAS-Systemen, das verwendete Dateisystem WAFL wurde speziell für den Einsatz mit RAID 4 entworfen. Da RAID 4 nur bei sequentiellen Schreibzugriffen effektiv arbeitet, verwandelt WAFL wahlfreie Schreibzugriffe (random writes) im NVRAM-Cache in sequentielle - und merkt sich jede einzelne Position für den späteren Abruf. Beim Lesen tritt allerdings das klassische Fragmentierungsproblem auf: Zusammengehörige Daten stehen nicht notwendigerweise auf physisch hintereinanderliegenden Blöcken, wenn sie im nachhinein aktualisiert bzw. überschrieben wurden. Die verbreitetste Beschleunigung von Lesezugriffen, der cache prefetch, ist daher ohne Wirkung. Die Vorteile beim Schreiben ergeben somit einen Nachteil beim Lesen. Das Filesystem muss dann regelmäßig defragmentiert werden.

RAID 6: Redundanz über zwei zusätzliche Festplatten

RAID 6 funktioniert ähnlich wie RAID 5, verkraftet aber den Ausfall von bis zu zwei Festplatten. Hier werden nicht ein, sondern zwei Fehlerkorrekturwerte berechnet und so über die Platten verteilt, dass Daten und Paritäten blockweise auf unterschiedlichen Platten liegen. Das bedeutet eine Anzahl von n+2 Festplatten brutto für einen Dateninhalt von n Festplatten netto, was allerdings schon bei wenigen Netto-Festplatten eine Kosten-Ersparnis gegenüber einfacher Spiegelung (siehe RAID 1) darstellt. Jedoch ist der Rechenaufwand bei den zugrundeliegenden XOR-Prozessen erheblich höher als bei RAID 5. Bei RAID 5 werden für ein Parity-Bit die Daten aus einer Daten-Zeile addiert (und bei erforderlicher Resynchronisation die Daten aus einer Daten-Zeile per Addition zurück resynchronisiert). Dagegen muss bei RAID 6 das Parity-Bit über mehrere Daten-Zeilen berechnet werden - die Resynchronisation, insbesondere bei zwei ausgefallenen Festplatten, erfordert einen Kalkül über Matrizen und Umkehrmatrizen aus der linearen Algebra.

Ein RAID 6-Verbund benötigt mindestens vier Festplatten.

RAID 7

RAID 7 ist eine kaum verwendete Variante und basiert auf RAID 5. Allerdings läuft im Controller ein lokales Echtzeitbetriebssystem, welches die Lese- und Schreiboperationen steuert. RAID 7 unterstützt zusätzlich die Verwendung mehrerer Paritätsinformationen gemäß RAID 6.

RAIDn

Bei RAIDn handelt es sich um eine Entwicklung der Inostor Corp., einer Tochter von Tandberg Data. RAIDn hebt die bisher starre Definition der RAID-Level auf.

Dieses RAID wird definiert durch die Gesamtzahl der Festplatten (n) sowie die Anzahl der Festplatten, die ohne Datenverlust ausfallen dürfen (m). Als Schreibweise hat sich RAID(n,m) oder RAID n+m eingebürgert.

Aus diesen Definitionen können die Kenndaten des RAID wie folgt berechnet werden:

Lesegeschwindigkeit = n * Lesegeschwindigkeit der Einzelplatte
Schreibgeschwindigkeit = (n - m) * Schreibgeschwindigkeit der Einzelplatte
Kapazität = (n - m) * Kapazität der Einzelplatte

Einige spezielle Definitionen wurden wie folgt festgelegt:

m = 0 entspricht RAID 0
m = 1 entspricht RAID 5
m = n/2 entspricht RAID 10

RAID DP

RAID DP (double parity) ist eine von Network Appliance [1] weiter entwickelte Version von RAID 4. Hierbei wird eine zweite Parität nach der selben Formel, aber mit anderen Datenblöcken, wie die erste Parität P berechnet. Die erste Parität wird horizontal, die zweite Parität Q diagonal berechnet. Zudem wird bei der Berechnung der diagonalen Parität jeweils die erste Parität, und dafür abwechselnd eine Festplatte nicht, miteinbezogen. Da in einem RAID DP zwei beliebige Festplattenfehler kompensiert werden können, ist die Verfügbarkeit eines solchen Systemes gegenüber einem lokalen Spiegel um das 2000 bis 4000 fache (je nach RAID Set Größe) gesteigert.

P_{1}=\operatorname {xor} \left(A_{1},B_{1},C_{1}\right)

P_{2}=\operatorname {xor} \left(A_{2},B_{2},C_{2}\right)

P_{3}=\operatorname {xor} \left(A_{3},B_{3},C_{3}\right)

\dots

Q_{1}=\operatorname {xor} \left(P_{1},A_{2},B_{3},0\right)

Q_{2}=\operatorname {xor} \left(P_{2},A_{3},0,C_{1}\right)

Q_{3}=\operatorname {xor} \left(P_{3},0,B_{1},C_{2}\right)

Q_{4}=\operatorname {xor} \left(P_{4},A_{5},B_{6},0\right)

\dots

Der Aufbau vereinfacht die Wiederherstellung. Hierbei wird zuerst mit der diagonalen Parität die Daten der ersten ausgefallenen Festplatte berechnet und danach aus der horizontalen Parität der Inhalt der zweiten Festplatte.

Die Rechenoperationen beschränken sich im Gegensatz zum RAID 6, wo ein Gleichungssystem zu lösen ist, auf einfache xor-Operationen. RAID DP kann jederzeit auf RAID 4 umgeschaltet werden (und umgekehrt), indem man einfach die zweite Paritätsplatte abschaltet (bzw. wiederherstellt). Dies geschieht ohne ein Umkopieren oder Umstrukturieren der bereits gespeicherten Daten im laufenden Betrieb.

Kombinations-RAIDs

Obschon die RAID-Level 0, 1 und 5 die weitaus größte Verwendung finden, existieren nebst den Levels 0 bis 7 noch "RAID-Kombinationen". Hier wird ein RAID zu einem zweiten RAID nochmal zusammengefasst. Beispielsweise können mehrere Platten zu einem parallelen RAID 0 zusammengefasst werden, und aus mehreren dieser RAID-0-Arrays z. B. ein RAID-5-Array gebildet werden. Man bezeichnet diese Kombinationen dann z. B. als RAID 05 (0+5). Umgekehrt würde ein Zusammenschluss von mehreren RAID-5-Arrays zu einem RAID-0-Array als RAID 50 (oder RAID 5+0) bezeichnet werden. Auch RAID 1- und RAID 5-Kombinationen sind möglich (RAID 15 und RAID 51), die beliebtesten Kombinationen sind allerdings das RAID 01, bei dem je zwei Platten parallel arbeiten und dabei von zwei anderen Platten gespiegelt werden (insgesamt 4 Platten), oder RAID 10, bei dem zwei Platten gespiegelt werden, und dabei um zwei weitere gespiegelte Platten zu einem Ganzen ergänzt werden.

RAIDs können auch mit mehr als nur zwei Layern zusammengefasst werden (z.B. RAID 100), allerdings wird dies kaum verwendet.

RAID 00

Ein RAID 00-Verbund Bildet ein großes RAID 0 (Upper-Level) aus mehreren kleinen RAID 0 (Lower Level). Die Eckdaten entsprechen dem RAID 0, allerdings werden mindestens vier Festplatten benötigt. RAID 00 wurde von IBM entwickelt.

RAID 0+1

Ein RAID 0+1-Verbund ist ein RAID 1 über mehrere RAID 0. Es werden dabei die Eigenschaften der beiden RAIDs kombiniert: Sicherheit (jedoch geringer als beim Raid 10) und gesteigerte Performance.

Häufig wird behauptet ein RAID 01-Verbund benötige mindestens vier Festplatten. Dieses ist nicht ganz richtig. Mindestens vier (oder genereller: eine gerade Anzahl) von Festplatten werden nur für die klassischen RAID 01-Verbunde benötigt. Aber auch mit nur 3 Festplatten lässt sich auf vielen RAID Controllern ein RAID 01 bilden. Die Platten werden dabei jeweils zu 50% mit Nutzdaten belegt, die übrigen 50% jeder Platte enthalten eine Kopie der Nutzdaten einer der anderen Platten. Die Nutzdaten sowie die gespiegelten Daten werden gestriped. Bei drei Platten sieht das so aus:

Platte A: 50% Nutzdaten + 50% Spiegelung Nutzdaten Platte C

Platte B: 50% Nutzdaten + 50% Spiegelung Nutzdaten Platte A

Platte C: 50% Nutzdaten + 50% Spiegelung Nutzdaten Platte B

Die Nutzdaten werden dabei ebenso wie die gespiegelten Daten RAID 0 typisch über die Platten A, B und C gestriped. Bei Ausfall einer Platte sind immer noch alle Daten vorhanden

RAID 10

Ein RAID 10-Verbund ist ein RAID 0 über mehrere RAID 1. Es werden dabei die Eigenschaften der beiden RAIDs kombiniert: Sicherheit und gesteigerte Performance.

Ein RAID 10-Verbund benötigt mindestens vier Festplatten.

RAID 10 bietet gegenüber RAID 0+1 eine bessere Ausfallsicherheit und schnellere Rekonstruktion nach einem Plattenausfall, da nur ein Teil der Daten rekonstruiert werden muss.

RAID 03

RAID 03 ist gleichwertig mit RAID 30.

RAID 05

Ein RAID 05-Verbund besteht aus einem RAID 5-Array, das aus mehreren gestripeten RAID 0 besteht.

Ein RAID 05-Verbund benötigt mindestens sechs Festplatten.

RAID 1.5

Die Firma Highpoint entwickelte zusätzlich noch das RAID 1.5, nicht zu verwechseln mit RAID 15. Gedacht für Privatanwender kombiniert es die Vorteile von RAID 0 und RAID 1 und sieht sich deshalb als eine Zwischenstufe der RAID-Levels 1 und 2, deswegen auch die Bezeichnungswahl mit Kommastelle. Hauptvorteil ist die gleichzeitige Steigerung der Sicherheit und Geschwindigkeit bei nur 2 Festplatten, was durch keinen anderen "echten" RAID-Level realisierbar wäre. Allerdings scheint auch diese Lösung in der Praxis keine signifikanten Vorteile gegenüber den etablierten RAID-Leveln zu bieten.

Siehe auch: [2].

RAID 15

Das RAID 15-Array wird gebildet, indem man einen gestripeten Satz mit Parität mit mehrfachen widergespiegelten Paaren als Bestandteile verwendet; sie ist im Konzept ähnlich wie RAID 10, außer dass das Striping mit einer Parität erfolgt.

Bei einem Acht-Festplatten-RAID-15 können bis zu drei beliebige gleichzeitig ausfallen.

Ein RAID 15-Verbund benötigt mindestens sechs Festplatten.

Die Performance ist gut, aber nicht sehr hoch. Die Kosten sind mit den anderen RAID-Systemen nicht direkt vergleichbar.

RAID 1E

Beim RAID 1E werden einzelne Datenblöcke auf die jeweils nächste Festplatte gespiegelt. Es dürfen hierbei weder zwei benachbarte, noch die erste und die letzte Festplatte gleichzeitig ausfallen. Für ein RAID 1E wird immer eine ungerade Anzahl von Festplatten benötigt. Die nutzbare Kapazität reduziert sich um die Hälfte.

RAID 1E0

Bei einem RAID 1E0 werden mehrere RAID 1E mit einem RAID 0 zusammengeschaltet. Die maximale Anzahl der auszufallenden Platten und die Nettokapazität entspricht dem zugrundeliegenden RAID 1E.

RAID 30

RAID 30 wurde ursprünglich von AMI entwickelt. Es stellt eine gestripete Variante von RAID 3 dar (dh. ein RAID 0 welches mehrere RAID 3 zusammenfasst).

Ein RAID 30-Verbund benötigt mindestens sechs Festplatten (zwei Legs mit je drei Festplatten). Es darf eine Festplatte in jedem Leg ausfallen.

RAID 45

Ein RAID 45-Verbund fasst, ähnlich dem RAID 55, mehrere RAID 4 mit einem RAID 5 zusammen. Man benötigt hierfür mindestens 3 RAID-4 Legs zu je 3 Festplatten und damit 9 Festplatten. Bei 9 Festplatten sind nur 4 Festplatten nutzbar, das Verhältnis verbessert sich allerdings mit der Anzahl der verwendeten Festplatten. RAID 45 wird daher nur in großen Festplattenverbünden eingesetzt. Die Datensicherheit ist sehr hoch, da mindestens drei beliebige Festplatten, zusätzlich eine Festplatten in jedem Leg und dazu noch ein komplettes Leg ausfallen dürfen.

RAID 50

Ein RAID 50-Verbund besteht aus einem RAID 0-Array, das aus mehreren gestripeten RAID 5 besteht.

Ein RAID 50-Verbund benötigt mindestens sechs Festplatten. Beispielsweise zwei RAID 5-Controller mit jeweils 3 Platten pro Controller zusammengeschaltet mit einem Software-Stripe RAID 0. Sehr hohe Schreib-/Leseperformance, da die Rechenarbeit auf zwei XOR-Units verteilt wird.

Wird bei Datenbanken verwendet wo Redundanz und Schreibperformance im Vordergrund steht.

RAID 51

Der RAID 51-Verbund wird ähnlich wie RAID 15 gebildet, indem man die gesamte Reihe eines RAID 5 spiegelt und ist ähnlich zu RAID 01 abgesehen vom Paritätsschutz.

Bei einem Acht-Festplatten-RAID-51 können bis zu drei beliebige gleichzeitig ausfallen. Darüber hinaus können fünf Festplatten ausfallen solange keine aus dem gespiegelten RAID 5-Verbund betroffen sind.

Ein RAID 51-Verbund benötigt mindestens sechs Festplatten.

Die Performance ist gut, aber nicht sehr hoch. Die Kosten sind mit den anderen RAID-Systemen nicht direkt vergleichbar.

RAID 53

RAID 53 ist eine in der Praxis gängige Bezeichnung für ein RAID 30.

RAID 55

Der RAID 55-Verbund wird ähnlich wie RAID 51 gebildet, indem mehrere RAID 5-Systeme über ein weiteres RAID 5 zu einem RAID 55 zusammen geschaltet werden. Im Gegensatz zu RAID 51 ist der Overhead geringer und es ist möglich, schneller die Daten zu lesen.

Bei einem Neun-Festplatten-RAID-55-System können bis zu drei beliebige Festplatten gleichzeitig ausfallen. Darüber hinaus können fünf Festplatten ausfallen. Ein RAID 55-Verbund benötigt mindestens neun Festplatten (drei Legs zu je drei Festplatten). Die Performance ist gut, aber nicht sehr hoch. Die Kosten sind mit den anderen RAID-Systemen nicht direkt vergleichbar.

RAID 5E

RAID 5E ist die Abkürzung für RAID 5 Enhanced. Es kombiniert einen RAID 5 mit einem Hot-Spare. Der Hot-Spare wird dabei allerdings nicht als getrenntes Laufwerk ausgeführt, sondern auf die einzelnen Platten aufgeteilt. Anders ausgedrückt wird auf jeder Platte Speicherplatz für den Fall eines Ausfalles reserviert. Sollte eine Festplatte ausfallen wird der Inhalt dieser Platte im freiem Speicherplatz mit Hilfe der Parität wiederhergestellt und das Array kann als RAID 5 weiter betrieben werden.

Der Vorteil liegt nicht in einer gesteigerten Sicherheit gegenüber RAID 5, sondern in der besseren Performance durch ständige Nutzung aller vorhandenen Plattenspindeln, inklusive der üblicherweise leer mitlaufenden Hot-Spare-Platte.

Die Technik wird schon lange bei IBM für RAID-Controller eingesetzt, jedoch immer mehr durch RAID 5EE ersetzt.

RAID 5EE

RAID 5EE arbeitet ähnlich wie RAID 5E. Allerdings wird hierbei der Freie Speicherplatz nicht am Ende der Festplatten reserviert, sondern ähnlich der RAID 5-Parität über die Platten diagonal verteilt. Dadurch bleibt im Falle eines Ausfalles eine höhere Performance bei der Wiederherstellung der Daten.

RAID 5DP, RAID ADG

RAID 5DP ist die von Hewlett Packard verwendete Bezeichnung der Implementierung für RAID 6 in den Speicher-Systemen der VA-Baureihe. Durch die Übernahme von Compaq AG durch Hewlett Packard ging die für die durch Compaq entwickelte RAID 6 Variante RAID ADG für die Compaq Smart Arrays ebenfalls in das geistige Eigentum von Hewlett Packard über.

Matrix-RAID

Ab dem Intel ICH6R-Southbridge ist seit etwa Mitte 2004 erstmals eine neue Technologie integriert, die als "Matrix-RAID" bezeichnet wird. Sie soll die Vorteile von RAID 0 und RAID 1 auf nur 2 Festplatten vereinen. Jede der beiden Platten wird vom Controller zu diesem Zweck in 2 Bereiche aufgeteilt. Ein Bereich wird dann auf die andere Festplatte gespiegelt, während im verbleibenden Bereich die Daten auf beide Platten aufgeteilt werden. Man kann dann z.B. im ersten Bereich sein "unwichtiges" Betriebssystem und Programme installieren, um von RAID 0 zu profitieren, während man im zweiten Bereich dann seine wichtigen Daten abspeichern kann, und auf die Redundanz von RAID 1 vertrauen kann. Im Falle eines Plattencrashes müsste man dann nur sein Betriebssystem und Programme neu aufspielen, während die wichtigen Daten im anderen Festplattenbereich erhalten bleiben.

Mit mehreren Festplatten kann man in einem Matrix-RAID auch andere RAID-Typen einsetzen und beispielsweise ab drei Festplatten eine Partition als RAID5 betreiben.

RAID S bzw. Parity RAID

RAID S bzw. Parity RAID, manchmal auch als RAID 3+1 bzw. RAID 7+1 bezeichnet, ist eine proprietäre gestripte Parity RAID vom Hersteller EMC. Ursprünglich nannte EMC diese Form RAID S bei den Symmetrix Systemen. Seit dem Markauftritt der neuen Modelle DMX heißt diese RAID Variante Parity RAID. Inzwischen bietet EMC auch Standard RAID 5 an. Laut Angaben von EMC können bei Parity RAID bis zu zwei Festplatten ausfallen.

RAID S stellt sich nun wie folgt dar: Ein Volume ist jeweils auf einem physischen Laufwerk, mehrere Volumes (meistens drei bzw. sieben) werden willkürlich zu Paritäts Zwecken kombiniert. Dies ist nicht mit RAID 5 zu verwechseln.

Eine Parity RAID 3+1 beinhaltet drei Daten Volumes und ein Paritäts Volume. Hiermit ist eine 75 % Nutzung der Kapazität möglich. Beim Parity RAID 7+1 hingegen sind sieben Daten Volumes und ein Paritäts Volume vorhanden. Hiermit ist jedoch eine 87,5 % Nutzung der Kapazität möglich, bei geringerer Ausfallsicherheit.

Darüberhinaus bietet EMC noch als Option für diese RAID Varianten die Hypervolume Extension (HVE) an. HVE erlaubt mehrere Volumes auf einem physischem Laufwerk.

  EMC               EMC
  parity RAID       parity RAID mit HVE
A1  B1  C1  pABC   A    B    C    pABC  
A2  B2  C2  pABC   D    E    pDEF F
A3  B3  C3  pABC   G    pGHI H    I
A4  B4  C4  pABC   pJKL J    K    L

Hinweis: A1, B1, et cetera stellen einen Datenblock dar; jede Spalte stellt eine Festplatte dar.
      A, B, et cetera sind gesamte Volumen.

RAID TP bzw. RAID Triple Parity

RAID TP bzw. RAID Triple Parity ist eine proprietäre RAID mit dreifacher Parity vom Hersteller easyRAID. Laut Angaben vom Hersteller können bei RAID TP bis zu drei Festplatten ausfallen.

Die Datenblöcke und die Paritäten werden parallel jeweils auf die einzelnen physischen Festplatten geschrieben. Die drei Paritäten werden auf verschiedene Stripes auf unterschiedlichen Platten abgelegt. Der RAID Triple Parity Algorithmus benutzt zur Erstellung der Paritäten drei voneinander unabhängige Formeln, um die Sicherheit bei der Wiederherstellung zu gewährleisten.

  RAID TP bzw. RAID Triple Parity
A1        B1        pP(A1B1)  pQ(A1B1)  pR(A1B1)
C1        pP(C1D1)  pQ(C1D1)  pR(C1D1)  D1
pP(E1F1)  pQ(E1F1)  pR(E1F1)  E1        F1
A2        B2        pP(A2B2)  pQ(A2B2)  pR(A2B2)
C2        pP(C2D2)  pQ(C2D2)  pR(C2D2)  D2
pP(E2F2)  pQ(E2F2)  pR(E2F2)  E2        F2

Hinweis: A1, B1, et cetera stellen einen Datenblock dar; jede Spalte stellt eine Festplatte dar.
      A, B, et cetera sind gesamte Volumen.

RAID-Z im Dateisystem ZFS

Ein von Sun im Dateisystem ZFS integriertes RAID, ähnlich dem Aufbau von RAID 5. Gegenüber eines RAID 5-Arrays ist RAID-Z gegen Synchronisations-Probleme („write hole“) geschützt. Der Begriff write hole bezeichnet eine Situation, die bei Schreibzugriffen entsteht, wenn die Daten bereits auf die Festplatten geschrieben wurden, die dazugehörige Paritätsinformation aber noch nicht. Sollte während dieses Zustands ein Problem beim Berechnen oder Schreiben der Paritätsinformation auftreten, passen diese nicht mehr zu den gespeicheren Datenblöcken.
Siehe auch: [3]

Zusammenfassung

Anzahl der Festplatten
Die Anzahl der Festplatten n gibt an wie viele Festplatten benötigt werden um das jeweilige RAID aufbauen zu können.
Nettokapazität
Die Nettokapazität k gibt die nutzbare Kapazität in Abhängigkeit der Anzahl der verwendeten Festplatten n an. Dies entspricht der Anzahl der benötigten Festplatten ohne RAID, die die gleiche Speicherkapazität aufweisen.
Ausfallsicherheit
Die Ausfallsicherheit S gibt an wie viele Festplatten ohne Datenverlust ausfallen dürfen.
Leg
Ein Leg (englisch für Bein) oder lower level RAID ist ein RAID-Array, welches mit anderen gleichartigen Legs über ein übergeordnetes RAID-Array (upper level RAID) zusammengefasst wird. Hierbei ist n_{in Leg} die Anzahl der Festplatten in einem Leg und n_{of Leg} die Anzahl der Legs im übergeordnetem Array.

Übersicht über die Standard-RAIDs
RAID	n	k	S
0	≥ 2	n	0
1	≥ 1 × 2	${\frac {n}{2}}$	${\frac {n}{2}}$
2	10	${\frac {8\,n}{10}}$	2
3	≥ 2	n-1	1
4	≥ 2	n-1	1
5	≥ 3	n-1	1
6	≥ 4	n-2	2
DP	≥ 3	n-2	2

Übersicht über die Kombinations-RAIDs
RAID	n	k	S
00	≥ 4	n	0
10		${\frac {n}{2}}$	${\frac {1}{Leg}}$
0+1			${\frac {1}{Leg}}$
1E	≥ 1 + 2		${\frac {n-1}{2}}$
1E0	≥ 6		${\frac {{\frac {n}{2}}-1}{Leg}}$
1.5	2		1
Matrix- RAID	2	$n+{\frac {3}{4}}$	0
15	≥ 6	${\frac {n}{2}}-1\,$	$3\dots {\frac {1}{Leg}}+1$
51	≥ 6	${\frac {n}{2}}-1\,$	$1\,{Leg}+1$
55	≥ 9	$\left(n_{in\,Leg}-1\right)\cdot \left(n-1\right)$	${\frac {1}{Leg}}+1\,{Leg}$
45	≥ 9	$\left(n_{in\,Leg}-1\right)\cdot \left(n-1\right)$	${\frac {1}{Leg}}+1\,{Leg}$
5E	≥ 2	n-2	1
5EE	≥ 2	n-2	1
53	≥ 6	$n-n_{of\,Leg}$	${\frac {1}{Leg}}$
5DP	≥ 4	n-2	2
ADG	≥ 4	n-2	2

Andere Begriffe

Cache

Der Cache Speicher spielt bei RAID eine große Rolle. Grundsätzlich sind folgende Caches zu unterscheiden:

Betriebssystem
RAID Controller
Enterprise Disk Array

Üblicherweise werden Daten beim Schreiben dem Betriebssystem quittiert, wenn sie auf die Platte geschrieben wurden (Software-RAID, RAID Controller). In Enterprise-Speichersystemen ist der Cache redundant ausgelegt, das erlaubt ein Quittieren des Schreibvorgangs, sobald die Daten im Cache sind. Das bringt einen Geschwindigkeitsgewinn, solange der Cache nicht voll ist, da das Schreiben in Cache (RAM) schneller ist als das Schreiben auf Platte.

Der Cache des Betriebssystems oder eines einfachen RAID-Controllers bringt in der Regel nur Geschwindigkeitssteigerung beim Lesen von Daten.

siehe auch: Cache

JBOD

JBOD bedeutet Just a Bunch Of Disks, also Nur ein Bündel Platten.

Der Begriff wird verwendet in Abgrenzung zu RAID-Systemen, um anzugeben, wenn Festplatten nicht im Verbund, sondern einzeln betrieben werden. Viele Hardware-RAID-Controller sind in der Lage, die angeschlossenen Festplatten dem Betriebssystem einzeln zur Verfügung zu stellen; die RAID-Funktionen des Controllers werden dabei abgeschaltet und er arbeitet als einfacher Festplatten-Controller.

Ein JBOD kann auch unabhängig vom Controller eine irgendwie an den Computer angeschlossene Anzahl Festplatten bezeichnen. Mithilfe einer Volume Management Software kann ein solches JBOD zu einem Software-RAID zusammengeschaltet werden.

Bei bestimmten RAID-Tools, wie z.B. dem VIA RAID-TOOL, wird der Begriff JBOD auch gleichbedeutend mit NRAID verwendet.

Stripe Size

Stripe size bezeichnet die Größe des aus einem oder mehreren Datenblöcken bestehenden zusammenhängenden Datenbereichs als kleinste adressierbare Einheit zur Verteilung von Daten auf RAID-Speichermedien. Bei einer Vergrößerung der Stripe-Size wächst der maximale Durchsatz, gleichzeitig erhöht sich aber die Zugriffszeit. Auch Striping-Granularität. Heute üblich sind Stripe-Größen von 64 kbyte bis 256 kbyte.

Hot Swapping

Hot Swapping ist die Möglichkeit, Festplatten im laufenden Betrieb austauschen zu können. Dazu muss der Bus-Controller Hot Plugging unterstützen (i.d.R. nur SCSI oder SATA).

Hot-Spare-Laufwerk

Das Hot-Spare-Laufwerk ist ein unbenutztes Reservelaufwerk. Fällt ein Laufwerk innerhalb des RAID-Verbundes aus, wird es durch das Reservelaufwerk ersetzt. Dadurch ist die Redundanz schnellstmöglich wiederhergestellt. Während der Rebuild-Phase hat man allerdings keine Redundanz, weswegen hier zur Vermeidung dieses Problems beispielsweise ein RAID 6 statt RAID 5 verwendet werden kann.

RAIDIOS (RAID I/O Steering)

Offener Standard von Intel zur Verwendung der vorhandenen Anschlüsse. Es wird nur der fehlende I/O-Controller (mit 0 Kanälen) nachgerüstet. Kostengünstige und ökonomische Variante.

Siehe auch

Weblinks

Vergleich: Single vs. Raid 0 (englisch)
RAID-Informationen von tecchannel.de
Original-Dokument von Patterson, Gibson, Katz (englisch)
Vergleich der RAID-Level und weiteres
Informationen zum RAIDn von Inostor (englisch)