Dataset (IBM-Großrechner)

Ein Dataset ist eine Datei, die auf einem IBM-Großrechnersystem existiert. Ein Dataset-Name (DSN) kann maximal 44 Zeichen lang sein und besteht aus mehreren Qualifiern (Namensteilen), die durch Punkte voneinander getrennt werden. Jeder Qualifier kann maximal acht Stellen lang sein. Beispiel: MEIN.PRIVATES.TEST.DATASET.V1

In Anwendungsprogrammen wird in der Regel nicht direkt über den Dataset-Namen auf ein Dataset zugegriffen. Stattdessen erfolgt der Zugriff über einen logischen Namen (auch Data Definition (DD)-Name genannt), der auf ein entsprechendes DD-Statement eines Jobs verweist, das den DSN und optional weitere Angaben zur Verarbeitung enthält.

Datasets können in verschiedenen Dateiorganisationsformen existieren:

  • Direct Access Dataset: Die relative Adresse eines Datensatz wird mittels Hashfunktion aus dem Schlüssel berechnet.
  • HFS-Dataset: Ein Plattenbereich, der zur Aufnahme von Unix-Dateien vorgesehen ist (in Unix-Terminologie würde man sagen: ein Loopback-Dateisystem).
  • ISAM-Dataset (Indexed Sequential Access Method): Veraltete Organisationsform, die praktisch vollständig durch VSAM abgelöst worden ist. Ein ISAM-Dataset besteht aus drei physischen Dateien (PRIME, INDEX und OVERFLOW).
  • Partitioned Data Set (PDS und PDSE): Eine Dateiorganisation, bei der das Dataset ein Verzeichnis mit Membernamen enthält, wobei jedes Member wieder eine einzelne sequentielle Datei darstellt.[1]
  • Sequentielle Dateien: Bei dieser Dateiform werden die Daten sequentiell von Dateianfang bis zum Dateiende geschrieben bzw. gelesen.
    • Eine Sonderform sind versionierte sequentielle Dateien. Diese werden als Generation Data Groups (GDG) bezeichnet.
  • VSAM-Organisationsformen: Die Betriebssystemkomponente VSAM stellt unterschiedliche Organisationsformen zur Verfügung, deren leistungsfähigste, KSDS (key-sequenced dataset), den schlüsselbasierten Zugriff auf die einzelnen Datensätze unterstützt. VSAM-organisierte Dateien werden auch VSAM-Cluster genannt; zu den einzelnen VSAM-Organisationsformen siehe den Artikel VSAM.

Der Begriff des Datasets wird nur für Dateien auf dem Großrechner verwendet, die unter der MVS-Personality angelegt wurden. Dateien, die unter den Unix System Services (d. h. innerhalb eines HFS-Datasets) angelegt wurden, werden in der Regel nicht als Datasets bezeichnet.

Die Metadaten (Dateiattribute) der Datasets stehen teils im VTOC (bei Plattenspeichern) oder Tape Label (bei Magnetbändern), teils im Catalog.

Anmerkungen

  1. Im Alltag wird der Begriff "Dataset" oft im Sinne von "Dataset Member" verwendet.