Dateisystem
Ein Dateisystem ist ein System, dass Daten in Form von Dateien auf einem Computersystem speichert und verwaltet. Die meisten Betriebssysteme verwenden Dateisysteme. Historisch wurden Dateisysteme zur Organisation des Zugriffs auf Massenspeicher wie Festplattenlaufwerke entwickelt. Jede Datei belegt einen Teil des Massenspeichers. Ein Dateisystem bietet die Möglichkeit per Namen auf eine Datei zu zugreifen. Das Konzept der Dateisysteme wurde dann soweit abstrahiert, so dass man auch Zugriffe auf Dateien im Netz und in Geräten, die virtuell als Datei verwaltet werden, über Dateisysteme geregelt werden können.
Dateien haben in einem Dateisystem fast immer mindestens einen Dateinamen sowie Attribute, die nähere Informationen über die Datei geben. Die Dateinamen sind in speziellen Dateien, den Verzeichnissen, abgelegt. Über diese Verzeichnisse kann ein Dateiname und damit eine Datei vom System gefunden werden. Ein Dateisystem bildet somit einen Namensraum. Alle Dateien (oder dateiähnliche Objekte) sind so über einen eindeutigen Namen/Adresse (Dateiname inkl. Pfad oder URL) – innerhalb des Dateisystems – aufrufbar.
Für unterschiedliche Datenträger (wie Magnetband, Festplatte, optische Datenträger (CD, DVD,… ), Flashspeicher, …) gibt es spezielle Dateisysteme, die deren Besonderheiten berücksichtigen.
Zugriffe auf Massenspeicher
Massenspeichergeräte wie Festplatten-, CD-ROM- und Diskettenlaufwerke haben normalerweise eine Blockstruktur, d.h. aus Betriebssystemsicht lassen sich Daten nur als ganze Blöcke lesen oder schreiben. Ein Block hat dabei eine feste Größe, die früher 512 (29) Bytes, heute meist 4096 (212) oder 8192 (213) Bytes umfasst. Die Hardware der Speichergeräte präsentiert sich gegenüber dem Betriebssystem lediglich als große Fläche mit vielen nummerierten Blöcken.
Blockstruktur eines Massenspeichergeräts (jeder Block besteht beispielsweise aus 8192 Bytes):
Block0 | Block1 | Block2 | Block3 | … |
Ein Programm greift auf die Massenspeicher über das Dateisystem zu. Unter UNIX und ähnlichen Betriebssysteme werden dazu Systemaufrufe zur Verfügung gestellt. Die wichtigsten Systemrufe sind hier:
- open, close – Öffnen und Schließen einer Datei
- read, write – Lesen und Schreiben
- creat, unlink – Erzeugen und Löschen einer Datei
- mkdir, rmdir – Erzeugen und Löschen eines Verzeichnisses
- readdir – Lesen von Verzeichniseinträgen
Außerdem bietet das Betriebssystem Verwaltungs-Funktionen, z. B. für das Erzeugen eines Dateisystems auf einem neuen Datenträger, für Konsistenzprüfung, Komprimierung oder Sicherung (je nach Betriebssystem/Dateisystem verschieden).
Eine Datei ist eine Speicherfläche beliebiger Größe, die auf dem Gerät aus ein oder mehreren Blöcken besteht. Jede Datei erhält außerdem eine Beschreibungsstruktur, die die tatsächliche Größe, Referenzen auf die verwendeten Blöcke und evtl. weitere Informationen wie Dateityp, Eigentümer, Zugriffsrechte enthalten kann.
Verzeichnisse enthalten Dateinamen und Referenzen zu dem jeweiligen Beschreibungsblock. Da Verzeichnisse auch Speicherflächen sind, werden meist speziell gekennzeichnete Dateien als Verzeichnisse verwendet. Der erste Beschreibungsblock kann dabei das Ausgangsverzeichnis enthalten. Oft ist der erste Block für einen Bootblock reserviert, der für das Hochfahren des Systems verwendet werden kann. Er ist nicht Teil des eigentlichen Dateisystems.
Ein Beispiel für die Aufteilung eines Massenspeichers für ein simples Dateisystem:
Boot | Beschreibungsblöcke | Freiliste | Blöcke mit Dateien und Verzeichnissen |
Die Umsetzung der Systemrufe eines Programms werden vom Kernel eines Betriebssystems implementiert und unterscheiden sich bei den verschiedenen Dateisystemen. Der Kernel übersetzt die Zugriffe dann in die Blockoperationen des jeweiligen Massenspeichers.
Wenn ein Programm eine Datei mittels open öffnet, wird der Dateiname im Verzeichnis gesucht. Die Blöcke auf dem Massenspeicher ermittelt der Kernel aus den entsprechenden Beschreibungsstrukturen. Falls eine Datei im Verzeichnis gefunden wird, erhält man auch ihre Beschreibungsstruktur und damit Referenzen zu den Blöcken.
Mit read kann das Programm dann auf die Blöcke der Datei zugreifen. Falls mit write die Datei vergrößert wird, wird bei Bedarf ein neuer Block aus der Freiliste entnommen und in der Beschreibungsstruktur der Datei hinzugefügt. Auch die anderen Systemrufe lassen sich in Blockzugriffe übersetzen.
Für die Zuordnung von Blöcken zu Dateien gibt es dabei mehrere Möglichkeiten.
- Referenz der Datei besteht aus der Blocknummer des Anfangsblocks und der Anzahl der darauf (physikalisch sequenziell) folgenden Blöcke. Nachteile: bei Vergrößerung muss ggf. ganze Datei verschoben werden. ⇒ langsam, Zerklüftung der Datei.
- Referenz der Datei besteht aus der ersten Blocknummer. In jedem Block der Datei wird die Blocknummer des nächsten Blocks gespeichert. Es ergibt sich eine verlinkte Liste. Nachteile: sehr inperformant, da viele Lesearmbewegungen der Festplatte.
- Freie Zuordnung von Dateiblöcken zu Blöcken auf dem Massenspeicher (Bsp.: FAT). Nachteile: sehr große Beschreibungsstruktur, sequenzielles Lesen langsam, da viele Armbewegungen der Festplatte.
- Speicherung eines Feldes von Tupeln (Extent-Anfangsblock, Extentlänge) in der Beschreibungsstruktur der Datei. Ein Extent ist dabei eine Folge von physikalisch sequentiellen Blöcken auf dem Massenspeicher. Heute in vielen Dateisystemen so umgesetzt.
Arten von Dateisystemen
Hierarchische Dateisysteme
Frühe Dateisysteme hatten nur ein einzelnes Verzeichnis, das dann Verweise auf alle Dateien des Massenspeichers enthielt. In den meisten modernen Dateisystemen ist dieses Verzeichnis das Wurzelverzeichnis. Hier können Verzeichnisse neben normalen Dateien auch Verweise auf weitere Verzeichnisse, die Unterverzeichnisse, enthalten. Auch diese dürfen wieder Unterverzeichnisse haben.
Dadurch entsteht eine Verzeichnishierarchie, die oft als Verzeichnisbaum dargestellt wird. Das Festplattenlaufwerk C: unter Windows beinhaltet beispielsweise neben Dateien, wie boot.ini und ntldr, auch Verzeichnisse wie Programme, Dokumente und Einstellungen usw. Ein Verzeichnis, wie z. B. Eigene Dateien, kann dann wieder Unterverzeichnisse wie Eigene Bilder oder Texte enthalten. In Texte können dann beispielsweise die normalen Dateien Brief1.txt und Brief2.txt stehen.
Windows 2000/XP: Mac OS X: Unix / Linux: [Laufwerk C:] [Wurzelverzeichnis] [Wurzelverzeichnis] +- boot.ini +- [Libary] +- [boot] +- ntldr +- [System] +- [etc] +- [Dokumente und Einstellungen] +- [Users] +- [home] | +- [benutzername] | +- [benutzername] | +- [benutzername] | +- [Eigene Dateien] | +- [Bilder] | +- [Bilder] | +- [Eigene Bilder] | | +- Bild1.png | | +- Bild1.png | | +- Bild1.png | | | | | | | +- [Texte] | +- [Texte] | +- [Texte] | +- Brief1.txt | +- Brief1.txt | +- Brief1.txt | +- Brief2.txt | +- Brief2.txt | +- Brief2.txt | | | +- [Applications] +- [usr] +- [Programme] Verzeichnisse sind mit [eckigen Klammern] gekennzeichnet.
Die Verzeichnisse werden auch Ordner genannt und sind, je nach Betriebssystem, durch Backslash \ (DOS / Windows), Slash / (Unix / Linux / Mac OS X) oder Doppelpunkt : (ältere Mac OS Versionen) getrennt. Da sich eine Hierarchie von Verzeichnissen und Dateien ergibt, spricht man hier von hierarchischen Dateisystemen. Den Weg durch das Dateisystem, angegeben durch Ordnernamen, die mit den Trennzeichen voneinander getrennt werden, nennt man Pfad. Auf die Datei Brief1.txt kann man als
C:\Dokumente und Einstellungen\benutzername\Eigene Dateien\Texte\Brief1.txt (Windows 2000/XP) /Users/benutzername/Texte/Brief1.txt (Mac OS X) /home/benutzername/Texte/Brief1.txt (Unix / Linux)
zugreifen. Bei DOS / Windows gibt es Laufwerksbuchstaben gefolgt von einem Doppelpunkt, die den Pfaden innerhalb des Dateisystems vorangestellt werden. Jeder Datenträger bekommt seinen eigenen Buchstaben, z. B. meist C: für die erste Festplatte. Bei Unix gibt es keine Laufwerksbuchstaben, sondern nur einen einzigen Verzeichnisbaum. Die einzelnen Datenträger werden dort an bestimmten Stellen im Baum eingehängt (Kommando mount), so dass alle Datenträger zusammen den Gesamtbaum ergeben. Windows-Varianten, die auf Windows NT basieren, arbeiten intern ebenfalls mit einem solchen Baum, dieser Baum wird aber dem Anwender verborgen.
Häufig bezeichnet der Begriff Dateisystem, nicht nur die Struktur und die Art wie die Daten auf einem Datenträger organisiert werden, sondern allgemein den ganzen Baum mit mehreren verschiedenen Dateisystemen (Festplatte, CD-ROM, …). Korrekterweise musste man hier von einem Namensraum sprechen, der von verschiedenen Teilnamensräumen (die eingebundenen Datenträgern mit deren Dateisystemen) gebildet wird, da aber dieser Namensraum sehr Datei bezogen ist, wird häufig nur vom Dateisystem gesprochen.
Netzwerkdateisysteme
Die Systemrufe wie open, read, usw. können auch über ein Netzwerk an einen Server übertragen werden. Dieser führt dann die Zugriffe auf seine Massenspeicher durch und liefert die angeforderte Information an den Client zurück.
Da dieselben Systemrufe verwendet werden, unterscheiden sich die Zugriffe aus Programm- und Anwendersicht nicht von der auf die lokalen Geräte. Man spricht hier von transparenten Zugriffen, weil der Anwender die Umlenkung auf den anderen Rechner nicht sieht, sondern scheinbar unmittelbar auf die Platte des entfernten Rechners schaut – wie durch eine transparente Glasscheibe. Für Netzwerkdateisysteme stehen spezielle Netzwerkprotokolle zur Verfügung.
Spezielle Dateien und Dateisysteme
Das open-read-Modell lässt sich auch auf Geräte und Objekte anwenden, die normalerweise nicht über Dateisysteme angesprochen werden. Dadurch wird der Zugriff auf diese Objekte identisch mit dem Zugriff auf normale Dateien, was meist Vorteile bringt.
Unter den derzeitigen Linux-Kernels (u. a. Version 2.6) lassen sich System- und Prozessinformation über das virtuelle proc-Dateisystem abfragen und ändern. Die virtuelle Datei /proc/cpuinfo liefert Informationen über den Prozessor. Der Kernel gaukelt hier quasi die Existenz einer Datei vor, wie sie auch auf einem Massenspeicher vorhanden sein kann.
Unter Unix erhalten auch die Tastatur, Maus und die Schnittstellen spezielle Dateinamen, auf die mit open, read, write zugegriffen werden kann. Sogar der Hauptspeicher hat einen Dateinamen (/dev/mem)
Die Unix-Philosophie dazu lautet: Alles ist eine Datei, und wenn nicht, sollte es eine Datei sein
Datenbank-Dateisysteme
Neue Konzepte für Dateiverwaltung sind Datenbank-basierende Dateisysteme. Statt in einer hierarchisch aufgebauten Verwaltung, werden Dateien anhand ihrer Eigenschaften, wie Dateityp, Thema, Autor oder ähnlichen Meta-Informationen identifiziert. Die Formulierung einer Dateisuche kann daher in SQL oder in natürlicher Sprache erfolgen. Das Beispiel rechts zeigt eine begonnene Abfrage nach movies that were directed by spielberg.
Erste Ansätze dafür sind GNOME Storage und WinFS.
Beispiele für Dateisysteme
Viele frühe Betriebssysteme (z. B. CP/M, Apple DOS, Commodore DOS) hatten jeweils nur ein Dateisystem, welches keinen eigenen Namen trug. Diese kann man im Bedarfsfall einfach als CP/M-Dateisystem etc. bezeichnen.
Modernere Betriebssysteme:
- minix (vom gleichnamigen Betriebssystem)
- ext2 (second extended file system, lange Zeit das Linux-Standard-Dateisystem)
- ext3 (weiterentwickelte Variante von ext2 mit journaling)
- FFS Vorgänger von UFS unter BSD
- ReiserFS (Linux Journaling File System von Hans Reiser)
- Journaled_File_System (Journaled File System von IBM)
- UFS (UNIX File System, verwendet unter Solaris und BSD)
- XFS (ein weiteres journaling Dateisystem von SGI)
- xFS Netzwerk-Dateisystem
- NFS Network File System (von Sun für Solaris entwickelt)
- SYSV (das klassische Dateisystem des System V-Unix von AT&T)
- ADFS (Acorn StrongARM)
- GNOME Storage (Datenbank-basierendes Dateisystem)
DOS:
- FAT bzw. FAT12 (File Allocation Table, für Disketten)
- FAT16 (Erweitertes FAT-System für Festplatten)
- FAT32 (Erweitertes FAT für große Festplatten)
MS-Windows unterstützt sämtliche DOS-Dateisysteme, zusätzlich:
- VFAT (Virtual FAT: längere Dateinamen für alle FAT-Systeme)
- NTFS (Journaling-Dateisystem von Windows NT und Nachfolgern)
- WinFS (für die Zukunft angekündigtes Datenbank-basierendes Dateisystem)
- ProDOS (Dateisystem der späten Apple II-Modelle)
- MFS (Macintosh File System)
- HFS (Hierarchical File System)
- HFS+ (Erweiterung von HFS u. a. auf Dateinamen mit mehr als 32 Zeichen)
- HFSX Case sensitive Variante von HFS+ Technote dazu
OS/2:
- ISO9660 (Dateisystem für CD-ROMs nach dem Motto „kleinster gemeinsamer Nenner“)
- Joliet (Erweiterung des ISO9660 von der Firma Microsoft)
- Rockridge (Erweiterung des ISO9660 für UNIX)
- UDF (Universal Disk Format, u. a. auf DVDs aller Typen gebräuchlich)
Netzwerk:
- NFS (Network File System; ein über Netzwerke angeschlossenes Dateisystem v. a. für Unix-artige Systeme)
- Coda (ein fortgeschrittenes Netzwerk-Dateisystem ähnlich zu NFS)
- SMB/CIFS (ein über Netzwerke angeschlossenes Dateisystem vor allem für Windows-Systeme)
- xFS (ein verteiltes und dezentrales Netzwerk-Dateisystem)
- AFS (Andrew File System)
- NCP (NetWare Core Protocol)
- DFS (distributed file system der Open Group, eine Weiterentwicklung des Andrew File System; dieselbe Abkürzung bezeichnet das gleichnamige System von Microsoft)
Bei einigen der oben genannten Dateisysteme handelt es sich um Journaling-Dateisysteme. Alle Dateisysteme haben gemeinsam, dass auf sie auch von Fremdsystemen zugegriffen werden kann, sofern das Betriebssystem dies direkt unterstützt oder es dem Betriebssystem über entsprechende Treibersoftware ermöglicht wird. Ausnahmen bilden Dateisysteme, die eine erweiterte Berechtigung unterstützen, die Möglichkeit der Verschlüsselung bieten, oder deren genaue Funktionsweise ein Betriebsgeheimnis ist (zum Beispiel NTFS).