Dataset (IBM-Großrechner)

Ein Dataset bezeichnet eine größere, zusammenhängende Datenmenge, nicht zu verwechseln mit einem Datensatz einer Datenbanktabelle. Im Detail hat der Begriff aber je nach Kontext unterschiedliche Bedeutungen:

Dataset, .net

In der .net - Entwicklungsumgebung von Microsoft bezeichnet ein Dataset eine im Hauptspeicher verwaltete zusammengehörige Datenmenge in tabellarischer Struktur. Typischerweise werden die Daten mit einer SQL-Abfrage aus einer relationalen Datenbank ausgelesen oder von einem Web Service angefordert, dann lokal in einem PC, auf einem Web Server oder Application Server bearbeitet und ggf. in die Datenbank zurückgespeichert. In der SOA-Architektur werden Datenänderungen im Dataset in einem Diffgram zusammengefasst und dieses an den datenliefernden Web Service zurückgegeben.

Ein Dataset enthält also i.d.R. zunächst eine Kopie der Daten aus einer bestimmten Sicht auf die Datenbank, ähnlich einem Query oder einem View, dient aber auch der Zwischenspeicherung neuer oder geänderter Daten. Er ist der zentrale Datenpuffer in ASPX- oder Smart Client-Anwendungen.

Dataset, IBM-Großrechner

Hier ist Dataset eine andere Bezeichnung für eine Datei, die auf einem IBM Großrechnersystem existiert. Ein Dataset Name (DSN) kann maximal 44 Zeichen lang sein und besteht aus mehreren Qualifiern, die durch Punkte voneinander getrennt werden. Jeder Qulifier kann maximal 8 Stellen haben. Beispiel: MEIN.PRIVATES.TEST.DATASET.V1

In Anwendungsprogrammen wird in der Regel nicht direkt auf ein Dataset zugegriffen. Stattdessen erfolgt der Zugriff über einen DD-Namen, der auf ein entsprechendes DD-Statements eines Jobs verweist.

Für Datasets existieren verschiedene Organisationsformen:

Sequentielle Dateien: Bei dieser Dateiform werden die Daten sequentiell von Dateianfang bis zum Dateiende gelesen.
Direct Access Dataset: Die relative Adresse eines Datensatz wird mittels Hash aus dem Schlüssel berechnet.
Partitioned Dataset: Eine Dateiorganisation, bei der das Dataset ein Verzeichnis mit Membernamen enthält, wobei jedes Member wieder eine einzelne sequentielle Datei darstellt.
VSAM-Cluster: Hierbei handelt es sich um eine Dateiorganisation, die auf VSAM basiert.
ISAM Dataset (Indexed Sequential Access Method): Veraltete Organisationsform, die praktisch vollständig durch VSAM abgelöst worden ist. Ein ISAM Dataset bestand aus drei physischen Dateien (PRIME, INDEX und OVWERFLOW)
HFS Dataset: Ein Plattenbereich, der zur Aufnahme von Unix-Dateien vorgesehen ist.

Der Begriff des Datasets wird nur für Dateien auf dem Großrechner verwendet, die unter der MVS-Personality angelegt wurden. Dateien, die unter den Unix System Services angelegt wurden, werden in der Regel nicht als Datasets bezeichnet.

Die Metadaten (Dateiattribute) der Datasets stehen teils im VTOC (bei Plattenspeichern) oder Tape Label bei Magnetbänderen, teils im Catalog.

Sequentielle Dateien können als Generation Data Groups (GDG) gruppiert werden.