Sparse-Datei

Eine Sparse-Datei (englisch sparse file; sparse für „dünnbesetzt“, „spärlich“ oder „zerstreut“) bezeichnet eine Datei, die in einem Dateisystem kompakt gespeichert werden kann, da sie weniger Daten enthält als die angegebene Dateigröße – sie enthält also Abschnitte mit unbestimmtem Inhalt. In einer Sparse-Datei wechseln sich Bereiche, in denen sich bereits gespeicherte Daten befinden, mit Bereichen ab, die noch nicht beschrieben wurden. Für diese unbeschriebenen Bereiche muss im Dateisystem kein Platz belegt werden.

Grundlagen

Prinzip einer Sparse-Datei: Unbestimmte Bereiche der Datei brauchen nicht gespeichert zu werden, stattdessen werden nur die Informationen über deren Umfang in den Metadaten der Datei gespeichert

Es handelt sich um eine platzsparende Speicherungsform für Dateien, die (große) Bereiche mit unbestimmtem Inhalt enthalten. Diese Art der Speicherung kommt aus der Welt der inodebasierten Dateisysteme und ist heute vor allem typisch für alle modernen unixartigen Betriebssysteme und auch NTFS. Im Allgemeinen ist vom Dateisystem vorgegeben, dass diese unbestimmten Bereiche bei lesendem Zugriff als Folge von Nullzeichen wiedergegeben werden.

Bei einer Sparse-Datei werden nur die Teile im Hintergrundspeicher abgelegt, in die auch tatsächlich Daten geschrieben worden sind. Solche Dateien können entstehen, wenn in die Datei Blöcke an verschiedene Stellen innerhalb der Datei geschrieben werden, sodass diese Blöcke nicht aneinandergrenzen. Dadurch entstehen dazwischen Bereiche innerhalb der Datei, die keinen definierten Inhalt aufweisen. So kann z. B. eine Datei mit einer nominellen Länge von 100 GiB effektiv nur einen logischen Block im Dateisystem umfassen, wenn etwa nur an einer Stelle in der Datei Daten geschrieben wurden. Nicht alle Betriebssysteme und Dateisysteme unterstützen Sparse-Dateien, die am Ende einen undefinierten Bereich besitzen.

Eine solche Form der Speicherung kann sehr sinnvoll bei einigen Formen von Binärdatenbanken sein, sowie bei der Abbildung von Partitionen in eine Datei (z. B. bei der Virtualisierung).

Probleme bei der Verwendung

Sparse-Dateien können problematisch werden, wenn sie kopiert werden. Ein Problemfall dabei besteht dann, wenn das Dateisystem der Zielpartition nicht die Fähigkeit besitzt, Sparse-Dateien anzulegen und außerdem nicht genügend freier Speicherplatz existiert, um die komplette Datei inklusive der dann explizit zu speichernden Null-Bytes aufzunehmen. Ein solches Problem kann etwa beim Zurückspielen von Backups auftreten.

Ein ähnliches Problem tritt dann auf, wenn ein Kopier- oder Backupprogramm nicht in der Lage ist zu erkennen, dass es sich um eine solche Datei handelt. Sparse-Dateien werden im Allgemeinen nicht automatisch erzeugt, sondern bedürfen einer bestimmten Zugriffstechnik.

Ein weiteres Problemfeld besteht in der automatischen Fragmentierung: Sparse-Dateien werden aufgrund ihrer Anlage sozusagen inhärent fragmentiert und sind damit beim Plattenzugriff oft nicht optimal zu erreichen. Ein lineares Einlesen einer Sparse-Datei kann daher recht zeitintensiv sein, was bei Datenbanken durchaus von Bedeutung sein kann.

NTFS-Sparse

Das Windows-Dateisystem NTFS verfügt im Gegensatz zu unixbasierten Dateisystemen ab Version 3 über ein spezielles Dateiattribut, welches das Eingabe-/Ausgabesubsystem des Windows-Dateisystems veranlasst, für zusammenhängende Bereiche einer Datei, die lediglich aus Nullwerten besteht, keinen Speicher auf dem Datenträger zu belegen.

Sowohl normale als auch komprimierte Daten können von NTFS als Sparse-Datei behandelt werden. Unter Windows Server 2003 und Windows XP kann eine einmal als Sparse-Datei deklarierte Datei von NTFS nicht mehr in eine normale Datei umgewandelt werden. Bei späteren Windows-Versionen ist dies nur möglich, wenn keine Löcher mehr vorhanden sind.[1]

Die für unixbasierte Dateisysteme genannten Probleme bestehen im Prinzip in gleicher Weise bei NTFS, wobei allerdings das Dateiattribut dafür sorgt, dass zumindest nach den generellen Programmierrichtlinien geschriebene Programme Sparse-Dateien transparent kopieren können, ohne dass die Sparse-Eigenschaft verloren geht.

Behandlung von Sparse-Dateien unter unixartigen Betriebssystemen

Erzeugen von Sparse-Dateien

Sparse-Dateien lassen sich mit dem Unix-Kommando dd erzeugen:

dd if=/dev/zero of=sparsefile bs=1 count=1 seek=9999999

Dieses exemplarische Kommando erzeugt eine 10 Megabyte große Sparse-Datei, indem es den Schreibzeiger mittels seek auf die Position 9999999 setzt, und dann ein Byte schreibt.

Das Erzeugen von Sparse-Dateien, die in einem „Loch“ enden, ist bei manchen dd-Implementierungen nur indirekt möglich. Dazu muss zunächst eine Datei erzeugt werden, die wie im obigen Beispiel auf geschriebenen Daten endet. Danach kann der letzte Datenanteil der Datei mit Hilfe des Systemaufrufs truncate() bzw. ftruncate() entfernt werden. Dies gilt beispielsweise für Solaris. Für Linux reicht es, count=0 zu setzen, um zu verhindern, dass nach dem „Loch“ noch Daten geschrieben werden. Unter Linux wird, wenn count=0 gesetzt wurde, ohne Schreiboperation nur ein ftruncate() ausgeführt, was eine Sparsedatei ohne ein vom Null-Byte verschiedenes Zeichen darin anlegt.

Mit dem GNU-dd lässt sich eine identische Datei auch mit dem folgenden verkürzten Aufruf erzeugen:

dd of=sparsefile bs=1 count=0 seek=10000000

Erkennen von Sparse-Dateien

Bei Sparse-Dateien unterscheidet sich die logische und physische Dateigröße. Während die logische Dateigröße auch die Null-Bytes umfasst, bezeichnet die physische Dateigröße den Platz, den die Datei tatsächlich im Dateisystem benötigt.

Die option -s des Unix-Kommandos ls zeigt zusätzlich die physische Dateigröße an, allerdings in Blocks. Mit -k wird auch die logische Größe in Blocks angezeigt, mit -h werden beide im lesbaren Format angezeigt:

 ls -lhs sparse-file
 ls -lks sparse-file

Alternativ kann mit dem Unix-Kommando du die logische Dateigröße angezeigt werden, allerdings zunächst auch in Blocks. Die Option --block-size 1 zeigt die physische Größe in Bytes an, während --bytes die logische Größe in Bytes anzeigt:

 du --block-size 1 sparse-file
 du --bytes sparse-file

Anwendungsbeispiel

Im Folgenden wird eine 10 MB große Sparse-Datei erzeugt. Beim Vergleich mit einer 3 MB großen Datei fällt erst durch einen einfachen du-Aufruf auf, dass es sich um eine Sparse-Datei handelt, welche nur 10 Blöcke auf der Festplatte benötigt.

> dd if=/dev/zero of=sparsefile bs=1 count=0 seek=10M
0+0 Datensätze ein
0+0 Datensätze aus
0 Bytes (0 B) kopiert, 2,9615e-05 s, 0,0 kB/s
> dd if=/dev/urandom of=normalfile bs=1M count=3
3+0 Datensätze ein
3+0 Datensätze aus
3145728 Bytes (3,1 MB) kopiert, 1,71034 s, 1,8 MB/s
> ls -lh
insgesamt 3,1M
-rw-r--r-- 1 sven users 3,0M 18. Mai 03:08 normalfile
-rw-r--r-- 1 sven users 10M 18. Mai 03:06 sparsefile
> du *
3075 normalfile
10 sparsefile

Behandlung von Sparse-Dateien unter Microsoft Windows

Erzeugen von Sparse-Dateien

Eine Datei lässt sich mit dem Windows-Kommando fsutil als Sparse-Datei kennzeichnen:

fsutil sparse setflag <Dateiname>

Dadurch werden bei zukünftigen Schreiboperationen ungeschriebene Bereiche der Datei nicht auf dem Datenträger allokiert. Um bereits vorhandene Bereiche einer als Sparse-Datei markierten Datei freizugeben, kann ebenfalls das Kommando verwendet werden:

fsutil sparse setrange <Dateiname> <Position in Byte> <Länge in Byte>

Dadurch wird der angegebene Bereich deallokiert. Zu beachten ist dabei, dass nur vollständige Blöcke, deren Länge ein Vielfaches von 64 KiB betragen und deren Startpositionen sich an Vielfachen von 64 KiB befinden, freigegeben werden können.

Um diese Operationen programmgesteuert durchzuführen, kann die Kernel-Funktion DeviceIoControl mit den Kontrollcodes FSCTL_SET_SPARSE und FSCTL_SET_ZERO_DATA verwendet werden. Letzterer Code funktioniert auch bei Dateien, die keine Sparse-Dateien sind, jedoch werden die Datenbereiche nicht freigegeben, sondern mit Null-Bytes gefüllt.

Erkennen von Sparse-Dateien

Ob eine Datei eine Sparse-Datei ist, kann ebenfalls mit dem fsutil-Kommando ermittelt werden:

fsutil sparse queryflag <Dateiname>

Um die tatsächlich allozierten Bereiche aufzulisten, wird das Kommando wie folgt aufgerufen:

fsutil sparse queryrange <Dateiname>

Erzeugen von Sparse-Dateien mit MSSQL

Das Erzeugen von Sparse-Dateien durch MSSQL ab Version 2005 ist als Datenbank-Snapshot möglich. Die folgenden SQL-Anweisungen erzeugen eine Sparse-Datei der Größe 2 Gigabyte unter dem Namen C:\UnCompressed\Dummy_Snap.mdf

 CREATE DATABASE [Dummy]
 ON PRIMARY (NAME=N'Dummy',FILENAME=N'C:\UnCompressed\Dummy.mdf',SIZE=2097152KB)
 LOG ON  (NAME=N'Dummy_log',FILENAME=N'C:\UnCompressed\Dummy_log.ldf')
 GO
 CREATE DATABASE [Dummy_Snap]
 ON PRIMARY (NAME=N'Dummy',FILENAME=N'C:\UnCompressed\Dummy_Snap.mdf')
 AS SNAPSHOT OF [Dummy]

Siehe auch

Literatur

Weblinks

Einzelnachweise

  1. FSCTL_SET_SPARSE control code (Windows). Microsoft, abgerufen am 17. Januar 2013 (englisch).

Auf dieser Seite verwendete Medien

Sparse file de2.svg
Autor/Urheber:
This file was made by User:Sven
Nuvola apps locale.svg
Translation

If this image contains text, it can be translated easily into your language. If you need help, contact me

SemiPD-icon.svg
Flexible licenses

If you want to use this picture with another license than stated below, contact me

Nuvola apps email.png
Contact the author

If you need a really fast answer, mail me. If you need only a fast answer, write me here.

, Lizenz: CC BY-SA 3.0
Visualizing the conzept of a en:sparse file