Self-Monitoring, Analysis and Reporting Technology

Self-Monitoring, Analysis and Reporting Technology (SMART bzw. S.M.A.R.T., deutsch System zur Selbstüberwachung, Analyse und Statusmeldung) ist ein Industriestandard zur Überwachung von Festplattenlaufwerken (HDD) und Solid-State-Drives (SSD) und dient der Vorhersage eines möglichen Ausfalls des Speichermediums. Es werden dabei die Werte verschiedener Sensoren mit Hilfe von unterschiedlichen Parametern ausgewertet.

Seit Kurzem ist S.M.A.R.T. auch für Flash-Speicher wie MicroSD-Karten verfügbar^[1].

Überblick

Die Auswertung der überwachten Daten erfolgt beim Starten des Rechners durch das entsprechend eingestellte BIOS, bzw. andere Firmware, oder durch spezielle Software, die zusätzlich zum Betriebssystem installiert werden muss. Microsoft beispielsweise stellt dafür seit Windows 95b (OSR 2) einen Treiber bereit, der dann von dieser Software angesprochen wird.

Dabei orientiert sich das Programm an vom Festplattenhersteller festgelegten Grenzwerten für die einzelnen Parameter, etwa für die Temperatur. Nach einem längeren Zeitraum kann die Software dann auch zu erwartende Ausfälle prognostizieren.

Das „Abschalten“ von S.M.A.R.T. etwa in den BIOS-Einstellungen schaltet nicht die Datenerfassung, sondern nur die Warnungen bei Überschreitung der Schwellenwerte ab. Gespeichert werden die gesammelten Daten in einem reservierten, durch Programme nicht änderbaren Bereich der Festplatte.

Die gesamte Überwachung verlangsamt die Festplatte nicht, da sie das Geschehen nur protokolliert, ohne korrigierend einzugreifen. Das erledigen bereits festplatteninterne Mechanismen, so bei Erschütterungen, die wiederum schon vor S.M.A.R.T. existierten. Alles Weitere, etwa Laufleistung und Temperatur, wird durch speziell dafür eingebaute Sensoren und Chipfunktionen erfasst. Dabei gibt es eine Einteilung in „Online“-Parameter, die permanent notiert werden, und jene, die in Ruhepausen aktualisiert werden, wenn das Laufwerk gewissermaßen „offline“ ist.

Aussagekraft

S.M.A.R.T. bleibt auf die damit überwachten Massenspeicher wie Festplatten oder SSDs beschränkt und liefert keine Aussage zur Gesamtzuverlässigkeit des Rechnersystems. Eine Verknüpfung der gewonnenen Daten mehrerer Massenspeicher gibt es nicht. Auch ist das System nicht normiert, sondern es bleibt den Herstellern überlassen, welche Parameter sie in welchen Grenzen überwachen. Unter Anwendern wird auch die Genauigkeit der Überwachung diskutiert. So gelten manche Temperatursensoren als falsch platziert oder zu optimistisch eingestellt, da sie beim Start des Systems z. B. deutlich unter Raumtemperatur liegen.

Eine unabhängige Google-Studie^[2]^[3], die über neun Monate ging, alle Hersteller und insgesamt 100.000 Festplatten umfasste, brachte 2006 folgendes Ergebnis: Unter Einbeziehung aller relevanten Parameter sind 64 % aller Ausfälle mit S.M.A.R.T. vorhersagbar. Dabei wurden alle anderen, also akustisch oder als Datenfehler bemerkbaren, Warnsignale ignoriert. Beim übrigen Drittel aller Ausfälle meldete sich die Festplatte selbst fälschlicherweise als problemfrei.

Die Beanspruchung der Festplatte hatte dabei einen weit geringeren Einfluss auf ihre Haltbarkeit als bisher angenommen. Übersteht ein Laufwerk das erste Jahr, spielt der Leerlaufanteil bis zu seinem turnusmäßigen Austausch nach vier Jahren keine Rolle mehr. Nur im ersten und nach dem vierten Jahr verdoppelt permanentes Lesen und Schreiben die Ausfallrate.

Geschichte

1992 erkannte IBM, dass mit zunehmender Verbreitung von PCs in Unternehmen ebenso das in sie gesetzte Vertrauen stieg. Ausfälle wurden zunehmend zu einem finanziellen Problem, dem man mit PFA (Predictive Failure Analysis) begegnen wollte. IBM-Festplatten mit diesem System teilten dem Computer jegliche Parameteränderungen mit, damit dessen Nutzer so rechtzeitig mit Austausch reagieren konnte. Etwas später wurde durch Compaq IntelliSafe vorgestellt. Dieses filtert Irrelevantes und meldet der mitlaufenden Software nur die bedrohlichen Änderungen und Sollwerte. Seagate, Quantum und Conner waren an der Entwicklung beteiligt und passten es an ihre Produkte an; Compaq selbst fertigte keine Festplatten.
Das Potenzial ahnend und mit einem Industriestandard vor Augen, wurde die Offenlegung des Systems durch Compaq und insbesondere Seagate forciert. Zusammen mit Conner, Quantum, Western Digital und dann auch IBM entstand eine Fusion der beiden Ansätze unter dem Namen S.M.A.R.T.

Seit 1996 und dem Start des ATA-3-Standards, respektive SCSI-3 vier Jahre zuvor, gehört es beinahe ausnahmslos zur Standardausstattung einer Festplatte.

Die Spezifikation für die S.M.A.R.T.-Parameter wurde jedoch vor der Verabschiedung des ATA-3-Standards wieder entfernt (siehe Weblinks). Daher sind weder die Bedeutung der gespeicherten Werte noch deren Skalierung festgeschrieben (zu letzterem siehe auch Übliche Parameter). Nur ihr Speicherort ist offiziell standardisiert. So gibt es strenggenommen auch laut ATA-7-Standard keine Möglichkeit, beispielsweise die Temperatur einer Platte auszulesen. Praktisch alle erhältlichen Platten halten aber das Datenformat aus dem ATA-3-Entwurf ein. Ein auslesendes Programm ergänzt zur besseren Verständlichkeit noch zu jeder Parameter-ID eine Bezeichnung wie „Seek Error Rate“. Über die Jahre entstand so ein verlässlicher De-facto-Standard.

Solid-State-Drives (SSDs) benötigen systembedingt viele der bisherigen Prüfpunkte nicht mehr, dafür aber andere, neue. Hierfür fehlt jedoch bislang eine Abstimmung zwischen den SSD-Controller-Herstellern. Im Ergebnis wurden teilweise neue Parameter-IDs ergänzt, mitunter aber auch bestehende IDs einfach mit einer neuen Bedeutung versehen. Daraus entstehen Fehlinterpretationen in allen S.M.A.R.T.-Programmen, welche noch nicht die Bedeutung in den neuen Laufwerken kennen.^[4]

Eine Kurzauswertung wichtiger S.M.A.R.T.-Parameter ist zudem allerdings auch in den meisten BIOS-Versionen enthalten, so dass beim Anschalten des Computers Warnmeldungen zu defekten SSDs erscheinen können. In diesem Fall ist eine Abschaltung der S.M.A.R.T.-Selftest-Funktion im BIOS empfehlenswert und eine manuelle Prüfung mit einem aktuellen Programm im Betriebssystem anzuraten (siehe S.M.A.R.T.-Programme im Vergleich).

Variationen nach Anschluss

Die Umsetzung des S.M.A.R.T.-Standards unterscheidet sich je nach dem Festplattenanschluss im PC. Davon gibt es zwei: ATA- und SCSI-Standard. Beide kennen den HEALTH STATUS. Dabei gibt die Firmware des Laufwerks an, ob es sich als „okay“ oder als „problematisch“ einstuft. Beide Standards unterstützen auch das Auslesen der Temperatur und mehrere Varianten von Selbsttests und Logbüchern.

Bei ATA-Festplatten können zusätzlich über eine mitlaufende Software zahlreiche Werte und ihre Grenzen abgefragt werden. So kann die Software oder der Nutzer genauer einstufen, ob und warum ein Fehler auftreten wird. Diese Parameter sind allerdings nicht genau standardisiert und unterscheiden sich in Umfang und Interpretation, auch zwischen Modellen eines Herstellers.

Die Kommandos und Datenformate für alle diese Funktionen sind allerdings bei ATA und SCSI völlig unterschiedlich implementiert.

Auf dem USB-Anschluss werden im Grunde SCSI-Kommandos übertragen. Die über USB angeschlossenen Festplatten sind aber fast ausnahmslos keine SCSI-, sondern (S)ATA-Platten. Im Zuge der Einführung der USB 3.0 Schnittstelle wurde das Protokoll USB Attached SCSI (UAS) eingeführt, dieses kann auch auf USB 2.0 mit reduzierter Geschwindigkeit verwendet werden, welches im Gegensatz zu den technisch einfacheren Bulk-Transfer der USB-Speichersticks eine Tunnelung der ATA-Kommandos über den USB-Bus ermöglicht und die SMART-Abfragen über USB ermöglicht. Chip-Hersteller wie Cypress, JMicron oder SunPlusIT verwenden herstellerspezifische Kommandos. Einige Programme beherrschen diese Kommandos (siehe Abschnitt S.M.A.R.T.-Programme im Vergleich). Daneben gibt es auch USB-SATA-Bridges, die den herstellerunabhängigen SCSI/ATA Translation-Standard unterstützen.^[5]

Der FireWire-Anschluss – besonders bei Apple-Computern üblich – ermöglicht die Übermittlung nativ, Mac OS X nutzt das aber nicht.

Per eSATA angeschlossene Laufwerke sind wie ihre internen SATA-Pendants problemlos auslesbar.

Über Serial Attached SCSI (SAS) angeschlossene Serial-ATA-Platten können geprüft werden, wenn die entsprechenden SAT-Kommandos zur Verfügung stehen.

Für Bandlaufwerke gibt es zu S.M.A.R.T. analoge Funktionen mit der Bezeichnung TapeAlert. Sie dienen zur Warnung bei abgenutzten Bändern.

Auswertung

Übliche Parameter

Jeder Wert wird zuerst als Raw-Data gespeichert. Dieser wird dann zum besseren Verständnis auf einer Werteskala von 0 bis 100, 200 oder 255 einsortiert. Die unterschiedlichen Skalen dienen dabei einer feineren Abstufung, wo der Hersteller sie für sinnvoll erachtet. Mit dem Skalenmaximum startend, nähert sich der Wert (value) bei Fehlern oder zunehmendem Alter null. Häufig ist die kritische Grenze (Threshold) aber schon weit darüber angesiedelt.^[6]

Nachstehende Tabelle zeigt die einzelnen Parameter und die Bewertung der jeweiligen Raw-Werte auf (nicht zu verwechseln mit den Values der Werteskala):

Legende der Raw-Werte
A	Ausfallsrelevanter Parameter. So vorhanden, können damit mögliche Ausfälle prognostiziert werden.
I	Informierend, für die Ausfallsprognose wenig bis nicht relevanter Parameter
	Je höher der Raw-Wert, desto besser
	Je niedriger der Raw-Wert, desto besser

ID	Hex	Parametername (Englisch)	Parametername (Deutsch)	I	Beschreibung
01	0x01	(Raw) Read Error Rate	Lesefehlerrate (roh)		Nicht korrigierbare Fehler beim Lesen von der Festplatte, führt zum erneuten Einlesen. Deutet auf Problem mit der Plattenoberfläche hin. Einige Laufwerke haben hier sehr hohe Raw-Werte, die auch zwischen Modellen eines Herstellers nicht vergleichbar sind. Bei neueren Seagate-Laufwerken ist er fälschlicherweise identisch mit dem bei Hardware ECC Recovered. Ausfallrelevant sind nur die Skalenwerte.
02	0x02	Throughput Performance	Durchsatz		allgemeiner Datendurchsatz bzw. Effizienz der Festplatte Deutet stark auf bremsende Probleme im Laufwerk hin.
03	0x03	Spin Up Time	Beschleunigungszeit		Durchschnitt der Startzeit in (Milli-)Sekunden. Deutet auf Probleme beim Motor oder den Plattenlagern hin. Bei fabrikneuen Maxtor- und Quantum-Laufwerken kam es hier im ersten Monat häufig zu Falschalarmen.
04	0x04	Start/Stop Count	Start/Stop-Vorgänge	ja	Anzahl der Start- bzw. Stop-Vorgänge eines Laufwerkes (auch Standby) Deutet auf Abnutzung hin, da dieser Vorgang Festplatten am stärksten belastet.
05	0x05	Reallocated Sectors Count	wiederzugewiesene Sektoren		Anzahl der verbrauchten Reservesektoren. Deutet auf Oberflächenprobleme hin, da nur dann automatisch ein Reservesektor einen bisher verwendeten ersetzt. Ist dieser RAW-Zähler ungleich null, ist die Wahrscheinlichkeit für einen Ausfall verfünffacht. Meist folgt dieser dem ersten „Reallocation Event“ binnen eines halben Jahres.
07	0x07	Seek Error Rate	Suchfehlerrate		Nicht korrigierbare Fehler beim Lesen von der Festplatte, führt zum erneuten Einlesen. Deutet auf Positionierungsproblem der Schreib-Lese-Einheit hin. Auch vom Hersteller unerklärt, tragen hier einige fabrikneue Seagate-Laufwerke Skalenwerte weit unter 100 ein.^[7]
09	0x09	Power On Hours Count	Anzahl der Betriebsstunden	ja	Laufleistung in Stunden oder Sekunden (inklusive Standby) Deutet auf Abnutzung hin, sagt aber nichts über Nutzungsumstände in dieser Zeit aus. Bei einigen Modellen von Maxtor, z. B. bei der Maxtor DiamondMax 10 6L250S0, sind es Minuten.
10	0x0A	Spin Retry Count	Anlaufwiederholungen, nur bei HDDs relevant		Anzahl der Anlaufversuche zum Hochdrehen der Festplatten auf Nenndrehzahl. Ein ansteigender Wert deutet auf mechanische Probleme im Antrieb der Festplatte hin.
12	0x0C	Power Cycle Count	Anzahl der Einschaltungen	ja	Gibt an, wie oft das Laufwerk ein- und ausgeschaltet worden ist.
184	0xB8	End-To-End error	Ende-zu-Ende Fehler		Steigende Werte zeigen Parityfehler zwischen den Speichermedium und Laufwerkcontroller an.
187	0xBB	Reported uncorrectable Error	Gemeldete unkorrigierbare Fehler		Fehler, welche durch die integrierte Vorwärtsfehlerkorrektur (ECC) nicht korrigiert werden konnten.
188	0xBC	Command Timeout	Kommandos welche nicht rechtzeitig ausgeführt werden konnten		Anzahl der Kommandoabbrüche wegen Zeitüberschreitung
193	0xC1	Load Cycle Count bzw. Load/Unload Cycle Count	Parkvorgänge	ja	Parkvorgänge der Schreib-Lese-Einheit auf die neben den Platten befindliche Plastikrampe. Meist nur bei Notebooklaufwerken. Deutet auf Abnutzung hin; vorgesehen sind rund 300.000 – der Raw-Wert zeigt die bisherigen. Geparkt wird die Schreib-Lese-Einheit beim Ausschalten oder nach rund 10 s Leerlauf. Das erzeugt ein mitunter irritierendes Geräusch. Kommt das Notebook zu Fall, stößt so die Schreib-Lese-Einheit nicht mehr auf die Magnetscheiben. Die Stoßfestigkeit wird auf rund 1000 g verdreifacht. Auch das An- bzw. Ausschalten ist schonender, da die Einheit nicht schleifend auf einen Sonderbereich der Platten abgesenkt wird („Landing Zone“).^[8]
194	0xC2	Drive Temperature	Festplatten-Temperatur		Temperatur des Laufwerkes in °C Da manche Laufwerke auch Maximal- und Minimalwert speichern, ist eine frühere Unterkühlung oder Überhitzung während des Betriebes erkennbar. Der als raw-value angegebene Wert enthält dann alle drei Zahlen hintereinander. Hohe Temperaturen (ab 40 °C) haben erst nach drei Jahren Auswirkung. In diesem Jahr verdoppeln sie die Ausfallwahrscheinlichkeit. Danach verlieren sie ihre Bedeutung wieder. Über alle Alter gemittelt, sind Temperaturen unter 25 °C weit gefährlicher als solche über 40 °C. 20 °C verdoppeln, 15 °C verdreifachen die Ausfallrate; gemessen wurde dabei bis 52 °C. Manche Hersteller verwenden ungenaue oder falsch platzierte Sensoren.^[3]
195	0xC3	Hardware ECC Recovered	gerettete Bitfehler		korrigierte Bitfehler beim Lesen Kann auf Problem mit der Plattenoberfläche hindeuten. Die hohe Datendichte heutiger Festplatten hat zur Folge, dass beim Lesen die Fehlerkorrektur zwangsläufig anschlägt.^[Beleg?] Auch sehr hohe Werte hier sind also kein Grund zur Beunruhigung. Samsung-Laufwerke der P80-Serie tragen hier fälschlicherweise oft sehr niedrige Skalenwerte ein. Generell sind sehr hohe Raw-Werte üblich, die wegen Wechseln von einer Technik auf eine neuere (engl.: „technology change“) auch zwischen Modellen desselben Herstellers nicht vergleichbar sind. Sie steigen bei Lesevorgängen, da nur dann eine Fehlerkorrektur stattfindet. Ausfallrelevant sind nur die Skalenwerte. Selten werden die Werte auch „ECC On-the-fly“ genannt.
196	0xC4	Reallocation Event Count			Anzahl bisher durchgeführten erfolgreichen und fehlgeschlagenen Neuzuweisungen der Sektorposition als Folge von Lesefehlern von defekten Sektoren.
197	0xC5	Current Pending Sector Count	Aktuell ausstehende Sektoren		Anzahl der aufgrund von Lesefehlern wartenden Sektoren auf Zuweisung einer neuen Sektorposition
198	0xC6	Uncorrectable Sector Count	Nicht korrigierbare Sektoren		Anzahl bisheriger nicht korrigierbarer Sektorfehler bei Schreibe- oder Leseoperationen.
199	0xC7	Ultra DMA CRC Error Count	DMA-CRC-Fehler	ja	Anzahl der aufgetretenen CRC-Fehler Ursache können defekte Kabel, verschmutzte Kontakte, Übertaktung oder fehlerhafte Festplattentreiber sein. Die Übertragung wird in Stufen immer langsamer wiederholt. Misslingt dies, wird der Zugriff auf die Festplatte gesperrt.
201	0xC9	Soft Read Error Rate			Anzahl der nicht per Software korrigierbaren Lesefehler.

Es gibt noch zahlreiche weitere Parameter, auch herstellerexklusive. Vollständige Listen finden sich im Literatur-Abschnitt der Weblinks.

Beispiel

Die Auswertung wichtiger S.M.A.R.T.-Parameter am Beispiel einer Hitachi 250 GB-Festplatte, angeschlossen über Serial-ATA und ausgelesen mit den smartmontools.

Parameter-ID	Parametername	Value (normalisierter aktueller Messwert)	Worst (bisher schlechtester Wert)	Threshold (Grenzwert – Value sollte größer sein)	Typ (maximaler Messwert kurz vor dem Ausfall)	Updated (Echtzeit- oder Messwert nach einem Selbsttest)	RAW Value (eigentlicher Messwert)	Bemerkung
2	Throughput Performance	100	100	050	Pre-fail	Offline	0
3	Spin Up Time	118	118	024	Pre-fail	Always	294	Hitachi verwendet eine eigene Zählweise, keine (Milli-)Sekunden.
4	Start Stop Count	100	100	000	Old age	Always	772	772 mal wurde der Festplattenmotor an-/ausgeschaltet, inklusive Standby-Starts.
5	Reallocated Sector Count	100	100	005	Pre-fail	Always	55	55 Sektoren wurden wegen Defekts gegen Reservesektoren ausgetauscht. Das Laufwerk schätzt das aber noch als problemlos ein (der Value ist nach wie vor 100) – vielleicht zu Unrecht.
7	Seek Error Rate	100	100	067	Pre-fail	Always	0	Bisher gab es keine Schreib-/Lesefehler.
9	Power On Hours	100	100	000	Old age	Always	1775	Laufwerk wurde bisher 1775 Stunden mit Strom versorgt. Das umfasst auch Standbyphasen, in denen die Platten stillstanden. Wenn das Auswertungsprogramm das Festplattenmodell nicht kennt, muss man selbst einschätzen, ob der Wert Stunden, Minuten oder Sekunden darstellt.
10	Spin Retry Count	100	100	060	Pre-fail	Always	0	Bisher gab es keine Fehlstarts, die Festplatte lief immer problemlos an.
12	Power Cycle Count	100	100	000	Old age	Always	745	Bisher wurde der PC mit dieser Festplatte 745-mal an- und ausgeschaltet.
194	Temperature	161	161	000	Old age	Always	34 +(10·2¹⁶ + 49·2³²)	Aktuelle Temperatur wäre hier 34 °C. Bisherige Lebensmaxima des Laufwerkes waren 10 °C bzw. 49 °C. Value ist daher von 200 auf 161 gesunken.
199	UDMA CRC Error Count	200	253	000	Old age	Always	730	Bisher gab es 730 Übertragungsfehler zur Hauptplatine („mainboard“). Ursache ist entweder ein fehlerhafter Festplatten-Controller, ein defektes Anschlusskabel oder ein Wackelkontakt.

Value	ist ein normalisierter Messwert, der zumeist rückwärts zählt (je niedriger, desto schlechter).
Worst	der bisher schlechteste Wert.
Threshold	die Grenze, unter die der Wert nicht fallen darf.
Typ	steht für die Bedeutung des Parameters: „Pre-fail“ ist eine Warnung vor einem baldigen Ausfall, während „Old age“ bedeutet, dass es sich allgemein um fortschreitende Alterung handelt (Die aktuelle Temperatur fällt nicht unbedingt in eine der beiden Kategorien).
Updated	zeigt an, ob der Wert permanent (always) oder erst durch einen Selbsttest vom Typ „Offline data collection“ aktualisiert wird.
RAW Value	ist der eigentliche Messwert, also etwa die gemessene Temperatur oder die Zahl der Fehler.

Auswertung: Laut festplatteneigener Einschätzung ist dieses Laufwerk völlig in Ordnung. Nirgends wurde der Grenzwert annähernd erreicht. Nur die 55 ausgewechselten Sektoren sind laut einer Google-Studie bedenklich. Dieser Wert sollte daher im Blick behalten werden. Erhöht sich nach dem vorgenommenen Kabeltausch aber der „UDMA CRC Error Count“ nicht weiter und wird die Kühlung so verbessert, dass etwa 45 °C (Temperature) nicht mehr überschritten werden, ist das Laufwerk eigentlich problemlos weiter verwendbar.

Selbsttest und Fehler-Logbuch

Neben der laufenden Protokollierung obiger Parameter gibt es noch weitere Tests. Einige Hersteller starten diese periodisch im Leerlauf, andere überlassen das dem Nutzer. Das kann er mit manchen der angebotenen Programme durchführen. Was schließlich getestet wird, ist ebenso herstellerbestimmt. Standard ist ein Kurztest mit Prüfung aller Parameter, gefolgt von Stichproben der Lesbarkeit der einzelnen Scheiben. Die Langversion tauscht die Stichprobe gegen eine Komplettüberprüfung.

ATA-6 ergänzt zwei weitere Varianten. Die eine empfiehlt sich nach einem Laufwerkstransport (genannt Conveyance – ähnlich dem Kurztest), die andere ermöglicht die Prüfung selbst wählbarer Bereiche des Laufwerkes (Selective – ähnlich dem Langtest).

Seit 1999 und dem ATA-5-Standard werden aufgetretene Fehler nicht nur in die Parameterwerte eingerechnet (Ergebnis etwa: „Fehlerrate: hoch“), sondern ausführlich protokolliert. Notiert werden dabei die Fehler, die Zeit seit dem letzten Anschalten und die fünf zuvor ausgeführten Schritte. Für die Ergebnisse der obigen Selbsttests gibt es sogar eine eigene Tabelle. Generell gelten hier nur aktuelle Fehlerhäufungen als bedenklich.

Unterstützt die Festplatte das Erneuern ihrer Firmware, wird beim Neuschreiben derselben (gleich, mit welcher Version) das Fehlerprotokoll gelöscht. Die Parameterwerte bleiben meist erhalten.

S.M.A.R.T.-Programme im Vergleich

In der folgenden Tabelle sind bekannte Programme zum Auslesen der S.M.A.R.T.-Daten aufgeführt.

Programmname	Betriebssystem(e)	Preis	Laufzeit der Demoversion	Zielgruppe	Benutzeroberfläche	Anschluss	RAID-Controller-Unterstützung	Korrekte Interpretation von SSDs	Anzeige des Fehlerprotokolls	Starten der Selbsttests	Ausfallvorhersage	Benachrichtigung bei	Benachrichtigung per	Anbieter	Bemerkungen
Argus Monitor	Windows	14,95 €	30 Tage	Einsteiger bis Fortgeschrittene	grafisch	(S)ATA, USB	ja (nicht bei allen)	ja	nein	nein	ja	wählbaren Parameteränderungen, Grenzwert, Temperatur	Fenster, Ton, E-Mail, beliebiges Kommando ausführen	ArgusMonitor	Zusätzlich grafische Anzeige von CPU und Grafikkartentemperatur sowie CPU Kernfrequenz und Intel 'Turbo Boost' Status; Anzeige und Regelung von Mainboard- und GPU-Lüfter
smartmontools	Windows (nativ oder Cygwin), Linux, Darwin (Mac OS X), Free/Open/NetBSD, Solaris, OS/2, QNX	Open Source	-	Profianwender	Kommandozeile, optional Daemon bzw. Dienst, grafisches Frontend	(S)ATA, SCSI, SAT, USB	3ware (Linux, FreeBSD, Windows), Compaq/HP (Linux, FreeBSD), HighPoint (Linux), Intel Matrix RAID (Windows)	ja	ja	ja (auch zeitgesteuert)	nein	wählbaren Parameteränderungen, Grenzwert, Temperatur	Fenster (nur Windows), E-Mail, Systemprotokoll, beliebiges Kommando ausführen	smartmontools GSmartControl	Anleitung
HDAT2	DOS	Freeware	-	Profianwender	Textmenü	(S)ATA, SCSI, USB, FireWire (einige)	ja (nicht bei allen)	-	ja	ja	nein	-	-	Lubomir Cabla	Bietet Einstellung von AAM und weiterer Parameter, sowie Oberflächentests.
DriveSitter	Windows	ab 29,69 $	30 Tage	Fortgeschrittene	grafisch	(S)ATA	-	?	ja	ja	ja	wählbaren Parameteränderungen, Grenzwert, Temperatur	Fenster, Ton, E-Mail, Netzwerknachricht, Systemprotokoll, beliebiges Kommando ausführen	Oliver Marr	Hoch skalierbar, schaltet auf Wunsch bei kritischer Temperatur in Ruhezustand.
EASIS Drive Check	Windows	Freeware / Pro €19.-	-	Fortgeschrittene	grafisch	(S)ATA, USB, Oberflächentest alle	-	?	ja	nein	nein	Parameteränderungen	Fenster, E-Mail	EASIS	Kann Oberflächentests durchführen um defekte Sektoren aufzufinden
HDD Health	Windows	Freeware	-	Einsteiger bis Fortgeschrittene	grafisch	(S)ATA	-	-	ja (in neuer Version)	ja (in neuer Version)	ja	jeder Parameteränderung, Temperatur	Fenster, Ton, E-Mail, Netzwerknachricht (E-Mail und Netzwerk nur in kommerzieller Version)	PANTERASoft
Active SMART	Windows	ab 18,46 €	21 Tage	Einsteiger bis Fortgeschrittene	grafisch	(S)ATA, SCSI, USB	angekündigt	-	nein	nein	ja	Grenzwert, Temperatur	Fenster, Ton, E-Mail, Netzwerknachricht	Ariolic ATA / SCSI / USB	Schaltet auf Wunsch bei kritischer Temperatur in Ruhezustand.
SpeedFan	Windows	Freeware	-	Einsteiger bis Fortgeschrittene	grafisch	(S)ATA, SCSI	-	ja (nicht bei allen)	nein	ja	ja	Grenzwert, Temperatur	Systembenachrichtigung, Ton, E-Mail, beliebiges Kommando ausführen	Alfredo Milani Comparetti	Bietet Online-Analyse des Laufwerks [1], überwacht PC-Temperaturen
SMARTReporter	Mac OS X	Open Source / Pro 4,49 €	-	Einsteiger	grafisch	(S)ATA	-	ja (basiert auf smartmontools)	ja	ja	nein	Grenzwert	Fenster, E-Mail, beliebiges Kommando ausführen	Julian Mayer
HDTune	Windows	Freeware HD Tune Pro 24.95 EUR	-	Einsteiger bis Fortgeschrittene	grafisch	(S)ATA, USB (die meisten)	-	-	nein	nein	nein	-	-	EFD Software	Führt Benchmark und Oberflächentests durch; Health für ext. HDD nur in der Pro-Version
Norton System Doctor	Windows	proprietär	-	Einsteiger	grafisch	(S)ATA, SCSI, USB	?	?	nein	nein	nein	Grenzwert (für jeden Datenträger einzeln)	Taskleisten-Symbol, Ton, administrative Nachricht	Symantec weblink	Lässt sich für jeden Datenträger einzeln konfigurieren, Interface für Disc Doktor/chkdsk: Oberflächentest, Kompletttest bei Neustart
CrystalDiskInfo	Windows	Open Source	-	Einsteiger bis Fortgeschrittene	grafisch	(S)ATA, USB (einige)	Intel Matrix RAID	ja	ja	nein^[9]	ja	Grenzwert, Temperatur (für jeden Datenträger einzeln)	Taskleisten-Symbol, Ton, E-Mail, Ereignisprotokoll	Crystal Dew World	Bietet Einstellung von AAM und weiteren Parametern
Acronis® Drive Monitor™	Windows	Freeware / proprietär	-	Einsteiger bis Fortgeschrittene	grafisch	(S)ATA, USB (die meisten), Software-RAID-Controller (viele)	Software-RAID-Controller JA, Hardware-Controller-Support angekündigt	?	ja	?	ja	Festplattenproblemen, Temperatur, "kritischen Ereignissen", Backup-Meldungen	Taskleisten-Symbol, Alarmmeldung, E-Mail	Acronis	Handbuch
Samsung SSD Magician	Windows	proprietär	-	Einsteiger bis Fortgeschrittene	grafisch	(S)ATA	-	ja	ja	?	?	?	-
DHE Drive Info	Windows	Freeware	-	Einsteiger bis Fortgeschrittene	grafisch	(S)ATA, SCSI, USB	experimentell	ja	ja	ja	?	Grenzwert, Temperatur	Fenster	Dirk Hauschild	portable, keine Installation nötig

Auslesen von Festplatten an RAID-Controllern

Nur der Controller-Hersteller hat die nötigen Informationen zum Auslesen des S.M.A.R.T.-Status im RAID-Verbund. Also muss er diesen per API-Funktion mit seinem Treiber zur Verfügung stellen. Das tun jedoch nicht alle – und wenn, dann oft herstellerspezifisch und nur für ausgewählte Modelle. Von welchen Herstellern das Programm die Funktionen kennt, wird in der Tabelle gewertet.
Ein direktes Ansprechen des Controllers ohne Verwendung der Treiberfunktionen ist erfolgreicher, aber auch potentiell instabil und daher nur unter DOS akzeptabel.
Wird in den Spezifikationen des Controllers eine S.M.A.R.T-Unterstützung genannt, ist das häufig nur eine Controller-interne. Der Treiber reicht die Informationen dann nicht an Programme weiter, manche auch nur die eines Laufwerks.
Immer auslesbar sind Festplatten in sogenannten Software-RAIDs (d. h. Verbunde, die vom Betriebssystem verwaltet werden) und jene, die an RAID-Controllern als einzelne Laufwerke statt im Verbund eingerichtet sind. Daher wird das nicht gewertet.

Quellen

↑ Yves Jeanrenaud: TEAMGROUP veröffentlicht microSD-Speicherkarten mit S.M.A.R.T. 22. September 2023, abgerufen am 22. September 2023 (deutsch).
↑ Heise-Meldung vom 16. Februar 2007
↑ ^a ^b http://research.google.com/archive/disk_failures.pdf
↑ — (Memento desOriginals vom 21. März 2014 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2 Beispiel einer Umwidmung eines bestehenden S.M.A.R.T.-Attributs bei Indilinx-Controllern
↑ Einige USB-Geräte mit S.M.A.R.T.-Unterstützung (smartmontools-Wiki)
↑ Michael Schmelzle: Diese S.M.A.R.T.-Daten sind wichtig. IDG Tech Media GmbH, 30. Oktober 2013, abgerufen am 5. April 2017.
↑ http://forums.storagereview.net/index.php?showtopic=20731
↑ Bild: Schreib-Lesekopf in Parkposition
↑ Ticket #20275: Add support for starting tests

Weblinks

Herstellereigene Software
- Fujitsu
- Hitachi
- Maxtor (Memento vom 15. April 2007 im Internet Archive)
- Samsung
- Seagate
- Western Digital
- Ultimate Boot CD – Herstellereigene und andere Tools auf einer bootfähigen CD.
- SSD-Tools: Fluch oder Segen? eine Bestandsaufnahme…, pc-experience.de

Software nach Verfügbarkeit für Betriebssysteme
- FreeBSD RAID Monitoring

Literatur
- Linux-community: „Vorbeugen statt Crash“
- Einführung (englisch)
- Kompendium (englisch, PDF; 679 kB)
- Hintergrund (englisch)
- Ausfallstudie (englisch, auch als PDF)

Standards
- ATA-3 Standard, Draft 7b (englisch, PDF) – Die hier noch erwähnten SMART-Attribute wurden vor Verabschiedung des Standards wieder entfernt.
- ATA-8 ACS Standard, Draft 6a (Memento vom 11. Dezember 2009 im Internet Archive) (englisch, PDF; 2,8 MB) – Letzter Entwurf des aktuell gültigen Standards, die SMART-Attribute fehlen weiterhin.
- ATA-8 Anhang über SMART-Attribute (Memento vom 3. Juli 2007 im Internet Archive) (englisch, PDF; 24 kB) – Nicht angenommener Vorschlag für einen informellen Anhang zum ATA-8 ACS Standard.

[1] Yves Jeanrenaud: TEAMGROUP veröffentlicht microSD-Speicherkarten mit S.M.A.R.T. 22. September 2023, abgerufen am 22. September 2023 (deutsch).

[2] Heise-Meldung vom 16. Februar 2007

[google_pdf-3] ttp://research.google.com/archive/disk_failures.pdf

[4] — (Memento desOriginals vom 21. März 2014 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2 Beispiel einer Umwidmung eines bestehenden S.M.A.R.T.-Attributs bei Indilinx-Controllern

[5] Einige USB-Geräte mit S.M.A.R.T.-Unterstützung (smartmontools-Wiki)

[6] Michael Schmelzle: Diese S.M.A.R.T.-Daten sind wichtig. IDG Tech Media GmbH, 30. Oktober 2013, abgerufen am 5. April 2017.

[7] ttp://forums.storagereview.net/index.php?showtopic=20731

[8] Bild: Schreib-Lesekopf in Parkposition

[9] Ticket #20275: Add support for starting tests

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

Navigation