High Bandwidth Memory

(c) Shmuel Csaba Otto Traian, CC BY-SA 4.0
Schnitt durch eine Grafikkarte mit High Bandwidth Memory: Jeder HBM-Stapel ist über 1024 Leitungen mit dem HBM-Controller verbunden, der sich in der GPU befindet.

High Bandwidth Memory (engl. kurz: HBM, deutsch Speicher mit hoher Bandbreite) ist eine von AMD zusammen mit SK Hynix entwickeltes breitbandiges Interface, um größere Mengen dynamischen Arbeitsspeichers (8 bis 64 GByte) auf Chipebene mit hoher Übertragungsrate an Grafik- oder Hauptprozessoren anzubinden.

Aufbau und Technik

Im Gegensatz zu „normalen“ RAM ist das Interface von HBM wesentlich breiter ausgelegt (1024 bit statt 8...32 bit), die Verbindung findet nicht über Steckverbinder (Hauptspeicher von Computer) oder auf der Hauptleiterplatte statt, sondern über Imposer aus Silizium. Der Abstand der Kontakte liegt bei 40 bis 100 µm und ist damit um den Faktor 5 dichter als der von BGA-Pins „gewöhnlicher“ Schaltkreise. Die Datenrate pro Pin liegt im Bereich von normalem Arbeitsspeicher und ist langsamer als die von Grafikkartenspeichern. Die hohe Datenrate wird über sehr viele Datenpins und gemäßigte Datenraten pro Pin erreicht.

TypReleaseTakt
(GHz)
Stackpro Stack (1024 bit)
Kapazität
(230 Byte)
Datenrate
(GByte/s)
HBM 1EOkt. 20130,5
128 bit
040128
HBM 2EJan. 20161,0…1,2080256…307
HBM 2EAug. 20191,8160461
HBM 3EOkt. 20213,216×
64 bit
240819
HBM 4E20265,6321434

HBM 1

HBM 1 wurde im Oktober 2013 von der JEDEC als US-Industrie-Standard angenommen.[1]

HBM ist eine Speichertechnologie, die es ermöglicht, mehrere Dies übereinander zu stapeln und parallel anzubinden (vgl. 3D-Integration). Die Schnittstelle wird zwischen Speicher und CPUs, GPUs und FPGAs verwendet.[2][3]

In der ersten Anwendung wurden 4 DRAM-Module zu je 1 GB gestapelt. Dieser Stapel stellt durch einen sogenannten Interposer eine schnellere Verbindung zur CPU oder GPU her als der bisher als Standard verbaute GDDR5-Speicher. Die Busbreite ist hierbei 1024 Datenleitungen pro Stapel. Der Speicher ist mit 500 MHz getaktet, Daten werden bei steigender und fallender Flanke übertragen (DDR). Bis zu vier dieser HBM-Stapel werden zusammen mit einer CPU oder GPU auf den Interposer gebumpt und diese Gesamt-Einheit mit einer Platine verbunden. Aufgrund der großen Busbreite erreicht der Gesamt-Datendurchsatz ein halbes Terabyte pro Sekunde.[4]

Obwohl diese HBM-Stapel nicht physisch in die CPU oder GPU integriert sind, sind sie dort über den Interposer mit extrem kurzen Leitungswegen schnell angebunden, sodass sich die Eigenschaften des HBM kaum von auf dem Chip integriertem RAM unterscheiden.

Ein HBM-Speicher weist zudem eine geringere Leistungsaufnahme als GDDR5 auf. AMD gibt an, dass HBM mehr als die dreifache Speicherbandbreite pro Watt bietet.

HBM benötigt deutlich weniger Platinenfläche als GDDR5, was vorteilhaft für den Bau von Notebooks oder Tablets mit hoher Grafikleistung sein kann.[5] Die sehr enge Positionierung am Grafikprozessor erlaubt ferner, Grafikchip und RAM mit einem einzigen, relativ kleinen Kühlkörper zu überdecken. Jedoch können vor allem die untenliegenden Dies auch nur eingeschränkt Wärme ableiten.

HBM 2

Am 12. Januar 2016 wurde HBM 2 als JESD235a von der JEDEC angenommen.[6]

HBM 2 erlaubt es, bis zu 8 Dies aufeinander zu stapeln, und verdoppelt den Speicherdurchsatz auf bis zu 100 GB/s pro Die-Stapel. Die Größe der Stapelspeicher kann zwischen 1 und 8 GiB liegen, womit ein maximaler Ausbau auf 32 GiB möglich wird. Sowohl SK Hynix als auch Samsung haben 4-GiB-Stapel auf den Markt gebracht.

Verwendung findet HBM2 seit 2016 in Nvidia Tesla- und seit 2017 in Nvidia-Quadro-Grafikkarten, seit Mitte 2017 in der AMD-Radeon-Vega-Serie.

HBM 2E

Vorgestellt am 13. August 2019 verdoppelt sich die maximale Kapazität pro Stapel, die Datenrate erhöht sich um 50 Prozent.[7] Die Speicherhersteller Samsung, SK Hynix und Micron hatten HBM 2E als Zwischenschritt eingeschoben, um die Kapazität zu verdoppeln und die Übertragungsrate ausgehend von 256 GByte/s bei HBM2 zu erhöhen, ohne auf HBM3 warten zu müssen.[8]

HBM 3

HBM3 setzt genauso wie HBM, HBM2 und HBM2e auf 1024 Datenverbindungen pro Stack. Die zusätzliche Geschwindigkeit entsteht durch höhere Taktfrequenzen von 6,4 Gbit/s pro Pin. Die schnellsten HBM-2E-Stapel kamen noch auf 3,6 Gbit/s pro Pin beziehungsweise 461 GByte/s je Stack. Die HBM3-Spezifikation ermöglicht jetzt, 12 statt wie bisher maximal 8 SDRAM-Chips zu stapeln; Ein Stack überträgt jetzt 819 GByte/s und fasst bis zu 24 GByte. Im Oktober 2021 kündigte SK Hynix den ersten HBM-3-Speicher an.[8]

AMD-Fiji-Grafikprozessor: Das Package Substrate trägt mehrere kleine SMDs sowie den Silizium-Interposer. Auf diesem befindet sich die Fiji-GPU sowie vier HBM-Stapel.

HBM 4

Für das Jahr 2026 ist die Auslieferung von HBM 4 angekündigt.[9] Es sind anfangs bis zu 12, später bis zu 16 gestapelte Chips vorgesehen, was Speichergrößen bis zu 32 GByte pro Stack ermöglicht. Als maximaler Takt werden 5,6 GHz anvisiert, was reichlich 1,4 TByte/s pro Stack ermöglicht.

Geschichte

Die Entwicklung von HBM begann im Jahr 2008 bei AMD. Version 1 wurde offiziell im Jahr 2013 von der JEDEC verabschiedet, Version 2 im Jahr 2016.

Erstmals verbaut wurde HBM 1 auf den Grafikkarten Radeon R9 Fury, Radeon R9 Fury X[10] und der Radeon R9 Fury Nano der AMD-Radeon-R300-Serie.

Einzelnachweise

  1. JESD235: High Bandwidth Memory. 12. Oktober 2015;.Vorlage:Cite web/temporär
  2. Wissolik, Zacher, Torza, Day: Alternatives to the DDR4 DIMM. (PDF) In: www.xilinx.com. Xilinx, 15. Juli 2019, abgerufen am 15. Juli 2020 (englisch).
  3. https://www.cs.utah.edu/thememoryforum/mike.pdf
  4. Christof Windeck: AMD Radeon R9 Fury × dank HBM-Speicher mit 512 GByte/s. In: Heise online. 16. Juni 2015. Abgerufen am 14. Januar 2016.
  5. First Radeon with High Bandwidth Memory will launch at E3 on June 16th. In: Digital Trends. 2. Juni 2015 (digitaltrends.com [abgerufen am 23. August 2017]).
  6. JESD235a: High Bandwidth Memory 2. 12. Januar 2016;.Vorlage:Cite web/temporär
  7. Mark Mantel: HBM2E-Stapelspeicher: Hohe Transferraten und Kapazität für GPUs und FPGAs. In: Heise online. 13. August 2019. Abgerufen am 14. August 2019. Mark Mantel: HBM2E-Stapelspeicher: Hohe Transferraten und Kapazität für GPUs und FPGAs. In: heise online. 13. August 2019, abgerufen am 14. August 2019.
  8. a b Mark Mantel: Stapelspeicher HBM3: Schnellstes DRAM für Grafikkarten und Beschleuniger. In: Heise online. 20. Oktober 2021. Abgerufen am 22. Oktober 2021.
  9. https://www.heise.de/news/Groesser-und-schneller-HBM4-Speicher-knackt-ab-2026-die-TByte-s-Marke-6660216.html
  10. http://www.grafikkarten-bewertung.de/produkt/sapphire-r9-fury-4gb-hbm-4096-bit-pci-e-hdmi-tripl/. Abgerufen am 5. November 2016.

Auf dieser Seite verwendete Medien

AMD Fiji GPU package with GPU, HBM memory and interposer.jpg
Autor/Urheber: C. Spille/pcgameshardware.de, Lizenz: CC BY-SA 4.0
Photo of the AMD Fiji GPU package which includes the Fiji GPU, HBM memory, interposer, substrate and the rest of the package. This is GPU that powers the AMD Radeon R9 Fury X, AMD Radeon R9 Fury, AMD Radeon Nano, AMD Project Quantum and a future dual-GPU graphics card.