Soft Error

Ein Soft Error ist in der Informatik eine Sonderform eines Fehlers, also eines unerwartet und ungewollt auftretenden Zustandes einer Logikschaltung oder eines Datenspeichers. Im Gegensatz zu Fehlern, die z. B. durch Defekte der Hardware entstehen und das System permanent verändern, werden durch Soft Errors nur temporäre Zustandsänderungen bewirkt. Werden die falschen Daten korrigiert, ist keine weitere Beeinflussung des Systems durch den aufgetretenen Soft Error festzustellen, insbesondere wird die Zuverlässigkeit des Systems nicht beeinflusst.

Soft Errors werden primär durch energiereiche Strahlung, also z. B. kosmische Strahlung (Höhenstrahlung) oder ionisierende Strahlung radioaktiver Stoffe ausgelöst. Im weiteren Sinne können Soft Errors auch durch (externe) Störsignale z. B. Übersprechen von Signalen oder Rauschen verursacht werden.

Geschichte

Beobachtet wurden Soft Errors zunächst bei den ersten Halbleiterspeichern, besonders DRAMs. Bei diesen wird die Information in Form von elektrischer Ladung, d. h. Elektronen, auf einem Kondensator gespeichert. Da pro gespeichertem Bit ein Kondensator mit zugehörigem Ansteuertransistor benötigt wird, wird die Kapazität des Kondensators klein ausgelegt, um eine große Anzahl von Speicherzellen auf einem Chip unterzubringen. Mit zunehmender Integrationsdichte von ursprünglich 1024x1 bit (Intel 1103) im Jahr 1970 bis zu heutigen (2011) 8Gbit DRAMs stehen immer weniger Elektronen zur Verfügung, um zwischen einer logischen "0" und "1" zu unterscheiden.

Ähnlich empfindlich wie DRAMs sind auch Flash-Speicher, bei denen die Information ebenfalls in Form von Elektronen auf isolierten Gates von MOS-Transistoren gespeichert wird. Durch die immer kleiner werdenden Strukturen der Halbleiter sind auch die eigentlich stabileren SRAMs gefährdet, deren Speicherelement meist aus sechs Transistoren besteht.

Ursachen

Werden durch ein energiereiches Strahlungsteilchen einige Elektronen des Speicherkondensators „weggeschossen“, kann sich der Zustand des Speichers ändern. Dieser so entstandene Fehler ist reversibel, d. h., durch ein erneutes Beschreiben der Speicherzelle mit der korrekten Information kann der Fehler behoben werden.

Selbst die eigentliche integrierte Schaltung bzw. deren Gehäuse enthält einige wenige, nicht vermeidbare radioaktive Atome, die beim Zerfall Alphateilchen emittieren. Diese aus zwei Protonen und zwei Neutronen bestehenden Heliumkerne haben eine relativ große Masse und deshalb eine sehr kleine Reichweite (wenige cm in Luft bzw. bis ca. 0,1 mm in festen Stoffen), da sie auf ihrem Weg schnell mit anderen Atomen zusammenstoßen. Allerdings kann das Alphateilchen auf diesem kurzen Weg viele andere Atome ionisieren, d. h., Elektronen von den Atomkernen trennen und dadurch die in einer Speicherzelle gespeicherte Information verändern.

Ebenso kann Alphastrahlung ein kurzzeitiges Kippen des Zustandes einer Logikschaltung hervorrufen, was dann im Falle von Schaltwerken einen permanenten Zustandswechsel bewirken kann.

Durch Auswahl verbesserter Materialien konnte die durch Alphastrahlung ausgelöste Fehlerrate in den letzten Jahrzehnten reduziert werden.

Als weitere Quelle für die störende Strahlung kommt kosmische Strahlung in Betracht, vornehmlich schnelle Neutronen. Durch ihre elektrische Neutralität durchdringen sie meist ungehindert die Erdatmosphäre und erzeugen durch verschiedene komplexe Prozesse, z. B. durch Interaktion mit dem Silizium der Halbleiter, ionisierende Teilchen, die wiederum die Speicherinformation verändern können. Da Neutronen nur schwer abzuschirmen sind – wenn, dann höchstens auf Systemebene, nicht auf IC-Ebene – wird kosmische Strahlung heute als der Hauptfaktor für Soft Errors angesehen.

Wird durch die energiereiche Strahlung die atomare Struktur der Schaltung zerstört, kann dieses zu einem permanenten Defekt (Hard Error) führen.

Schutz vor Soft Errors

Die Wahrscheinlichkeit des Auftretens von Soft Errors wird als Soft-Error-Rate (SER) bezeichnet. Da sie normalerweise sehr gering ist, ist sie schwierig zu messen. Um die (Un-)Empfindlichkeit der eigentlichen Halbleiterschaltung abzuschätzen, werden die freiliegenden Chips (Gehäuse evtl. aufgeätzt) einem standardisierten Alphastrahler ausgesetzt und die entstehende Fehlerrate gemessen. Mit dieser beschleunigten Messung wird eine Accelerated Soft Error Rate (ASER) bestimmt.

Da die Anwesenheit von radioaktiven Atomen und die kosmische Strahlung nicht gänzlich ausgeschlossen werden können, müssen schaltungstechnische Maßnahmen ergriffen werden, um die Auswirkung von Soft Errors zu verringern. Eine Möglichkeit besteht in der Einführung von Redundanz, so dass zumindest eine zuverlässige Erkennung von Fehlern oder, mit entsprechenden Fehlerkorrekturverfahren, der Ausfall von einzelnen oder mehreren (Speicher-)Bits hardwareseitig erkannt und korrigiert werden kann.

In Rechnersystemen können auch Softwareverfahren herangezogen werden, um die Datenintegrität zu prüfen und evtl. wiederherzustellen.

Für Bauteile, die in der Automobilindustrie eingesetzt werden und nach AEC-Q100 qualifiziert werden sollen, empfiehlt der gegenwärtige Standard Untersuchungen nach JESD89, wenn SRAM/DRAM-Blöcke >1Mbit enthalten sind.[1]

Siehe auch

Quellen

  1. http://www.aecouncil.com/AECDocuments.html