High Bandwidth Memory

High Bandwidth Memory (engl. kurz: HBM, deutsch Speicher mit hoher Bandbreite) ist eine von AMD zusammen mit SK Hynix entwickeltes breitbandiges Interface, um größere Mengen dynamischen Arbeitsspeichers (8 bis 64 GByte) auf Chipebene mit hoher Übertragungsrate an Grafik- oder Hauptprozessoren anzubinden.

Aufbau und Technik

Im Gegensatz zu „normalen“ RAM ist das Interface von HBM wesentlich breiter ausgelegt (1024 bit statt 8...32 bit), die Verbindung findet nicht über Steckverbinder (Hauptspeicher von Computer) oder auf der Hauptleiterplatte statt, sondern über Interposer aus Silizium. Der Abstand der Kontakte liegt bei 40 bis 100 µm und ist damit um den Faktor 5 dichter als der von BGA-Pins „gewöhnlicher“ Schaltkreise. Die Datenrate pro Pin liegt im Bereich von normalem Arbeitsspeicher und ist langsamer als die von Grafikkartenspeichern. Die hohe Datenrate wird über sehr viele Datenpins und gemäßigte Datenraten pro Pin erreicht.

HBM ist eine Speichertechnologie, die es ermöglicht, mehrere Dies übereinander zu stapeln und parallel anzubinden (vgl. 3D-Integration). Die Schnittstelle wird zwischen Speicher und CPUs, GPUs und FPGAs verwendet.^[1]^[2]

Obwohl diese HBM-Stapel nicht physisch in die CPU oder GPU integriert sind, sind sie dort über den Interposer mit extrem kurzen Leitungswegen schnell angebunden, sodass sich die Eigenschaften des HBM kaum von auf dem Chip integriertem RAM unterscheiden.

Ein HBM-Speicher weist zudem eine geringere Leistungsaufnahme als GDDR5 auf. AMD gibt an, dass HBM mehr als die dreifache Speicherbandbreite pro Watt bietet.

HBM benötigt deutlich weniger Platinenfläche als GDDR5, was vorteilhaft für den Bau von Notebooks oder Tablets mit hoher Grafikleistung sein kann.^[3] Die sehr enge Positionierung am Grafikprozessor erlaubt ferner, Grafikchip und RAM mit einem einzigen, relativ kleinen Kühlkörper zu überdecken. Jedoch können vor allem die untenliegenden Dies auch nur eingeschränkt Wärme ableiten.

Typ	Release	Takt (GHz)	Stack	pro Stack (1024 bit)
Typ	Release	Takt (GHz)	Stack	Kapazität (2³⁰ Byte)	Datenrate (GByte/s)
HBM 1E	Okt. 2013	0,5	8× 128 bit	1×04 = 04	0128
HBM 2E	Jan. 2016	1,0…1,2		1×08 = 08	0256…3070
HBM 2E	Aug. 2019	1,6…1,8		2×08 = 16	0409…4610
HBM 3E	Okt. 2021	2,8…3,2	16× 64 bit	2×12 = 24	0717…8190
HBM 3E	2023	4,0…4,8		3×16 = 48	1024…1229
HBM 4E	2026	5,6		2×16 = 32	1434^[4]

HBM 1

HBM 1 wurde im Oktober 2013 von der JEDEC als US-Industrie-Standard angenommen.^[5]

In der ersten Anwendung wurden 4 DRAM-Module zu je 1 GB gestapelt. Dieser Stapel stellt durch einen sogenannten Interposer eine schnellere Verbindung zur CPU oder GPU her als der bisher als Standard verbaute GDDR5-Speicher. Die Busbreite ist hierbei 1024 Datenleitungen pro Stapel. Der Speicher ist mit 500 MHz getaktet, Daten werden bei steigender und fallender Flanke übertragen (DDR). Bis zu vier dieser HBM-Stapel werden zusammen mit einer CPU oder GPU auf den Interposer gebumpt und diese Gesamt-Einheit mit einer Platine verbunden. Aufgrund der großen Busbreite erreicht der Gesamt-Datendurchsatz ein halbes Terabyte pro Sekunde.^[6]

HBM 2

Am 12. Januar 2016 wurde HBM 2 als JESD235a von der JEDEC angenommen.^[7]

HBM 2 erlaubt es, bis zu 8 Dies aufeinander zu stapeln, und verdoppelt den Speicherdurchsatz auf bis zu 100 GB/s pro Die-Stapel. Die Größe der Stapelspeicher kann zwischen 1 und 8 GiB liegen, womit ein maximaler Ausbau auf 32 GiB möglich wird. Sowohl SK Hynix als auch Samsung haben 4-GiB-Stapel auf den Markt gebracht.

Verwendung findet HBM2 seit 2016 in Nvidia Tesla- und seit 2017 in Nvidia-Quadro-Grafikkarten, seit Mitte 2017 in der AMD-Radeon-Vega-Serie.

HBM 2E

Vorgestellt am 13. August 2019 verdoppelt sich die maximale Kapazität pro Stapel, die Datenrate erhöht sich um 50 Prozent.^[8] Die Speicherhersteller Samsung, SK Hynix und Micron hatten HBM 2E als Zwischenschritt eingeschoben, um die Kapazität zu verdoppeln und die Übertragungsrate ausgehend von 256 GByte/s bei HBM2 zu erhöhen, ohne auf HBM3 warten zu müssen.^[9]

HBM 3

HBM3 setzt genauso wie HBM, HBM2 und HBM2e auf 1024 Datenverbindungen pro Stack. Die zusätzliche Geschwindigkeit entsteht durch höhere Transferraten von 6,4 Gbit/s pro Pin. Die schnellsten HBM-2E-Stapel kamen noch auf 3,6 Gbit/s pro Pin beziehungsweise 461 GByte/s je Stack. Die HBM3-Spezifikation ermöglicht jetzt, 12 statt wie bisher maximal 8 SDRAM-Chips zu stapeln; ein Stack überträgt jetzt 819 GByte/s und fasst bis zu 24 GByte. Im Oktober 2021 kündigte SK Hynix den ersten HBM-3-Speicher an.^[9]

HBM 3E

Im Mai 2023 wurde HBM3E angekündigt. Die Transferrate beträgt nun 8 Gbit/s.^[10] Erste Produkte sollen in der ersten Hälfte 2024 verfügbar sein.

^[11]

HBM 4

Für das Jahr 2026 ist die Auslieferung von HBM 4 angekündigt.^[12] Es sind anfangs bis zu 12, später bis zu 16 gestapelte Chips vorgesehen, was Speichergrößen bis zu 32 GByte pro Stack ermöglicht. Als maximaler Takt werden 5,6 GHz anvisiert, was reichlich 1,4 TByte/s pro Stack ermöglicht.

HBM2 DRAM-Chip
HBM2 Controller-Chip
HBM2-Interposer mit entfernten HBM-Chips

Geschichte

Die Entwicklung von HBM begann im Jahr 2008 bei AMD. Version 1 wurde offiziell im Jahr 2013 von der JEDEC verabschiedet, Version 2 im Jahr 2016.

Erstmals verbaut wurde HBM 1 auf den Grafikkarten Radeon R9 Fury, Radeon R9 Fury X^[13] und der Radeon R9 Fury Nano der AMD-Radeon-R300-Serie.

Einzelnachweise

↑ Wissolik, Zacher, Torza, Day: Alternatives to the DDR4 DIMM. (PDF) In: www.xilinx.com. Xilinx, 15. Juli 2019, abgerufen am 15. Juli 2020 (englisch).
↑ https://www.cs.utah.edu/thememoryforum/mike.pdf
↑ First Radeon with High Bandwidth Memory will launch at E3 on June 16th. In: Digital Trends. 2. Juni 2015 (digitaltrends.com [abgerufen am 23. August 2017]).
↑ https://www.nextplatform.com/2024/02/27/he-who-can-pay-top-dollar-for-hbm-memory-controls-ai-training/
↑ JESD235: High Bandwidth Memory. 12. Oktober 2015; abgerufen im 1. Januar 1.
↑ Christof Windeck: AMD Radeon R9 Fury × dank HBM-Speicher mit 512 GByte/s. In: Heise online. 16. Juni 2015. Abgerufen am 14. Januar 2016.
↑ JESD235a: High Bandwidth Memory 2. 12. Januar 2016; abgerufen im 1. Januar 1.
↑ Mark Mantel: HBM2E-Stapelspeicher: Hohe Transferraten und Kapazität für GPUs und FPGAs. In: Heise online. 13. August 2019. Abgerufen am 14. August 2019. Mark Mantel: HBM2E-Stapelspeicher: Hohe Transferraten und Kapazität für GPUs und FPGAs. In: heise online. 13. August 2019, abgerufen am 14. August 2019.
↑ ^a ^b Mark Mantel: Stapelspeicher HBM3: Schnellstes DRAM für Grafikkarten und Beschleuniger. In: Heise online. 20. Oktober 2021. Abgerufen am 22. Oktober 2021.
↑ SK hynix Inc. Global Public Relations: SK hynix Enters Industry’s First Compatibility Validation Process for 1bnm DDR5 Server DRAM. In: News von SK Hynix. SKHynix, 30. Mai 2023, abgerufen am 23. Mai 2024 (englisch).
↑ He Who Can Pay Top Dollar For HBM Memory Controls AI Training
↑ Mark Mantel: Größer und schneller: HBM4-Speicher knackt ab 2026 die TByte/s-Marke. In: heise.de. 1. April 2022, abgerufen am 3. Februar 2024.
↑ http://www.grafikkarten-bewertung.de/produkt/sapphire-r9-fury-4gb-hbm-4096-bit-pci-e-hdmi-tripl/. Abgerufen am 5. November 2016.

[1] Wissolik, Zacher, Torza, Day: Alternatives to the DDR4 DIMM. (PDF) In: www.xilinx.com. Xilinx, 15. Juli 2019, abgerufen am 15. Juli 2020 (englisch).

[2] ttps://www.cs.utah.edu/thememoryforum/mike.pdf

[3] First Radeon with High Bandwidth Memory will launch at E3 on June 16th. In: Digital Trends. 2. Juni 2015 (digitaltrends.com [abgerufen am 23. August 2017]).

[4] ttps://www.nextplatform.com/2024/02/27/he-who-can-pay-top-dollar-for-hbm-memory-controls-ai-training/

[HBM_JEDEC-5] JESD235: High Bandwidth Memory. 12. Oktober 2015; abgerufen im 1. Januar 1.

[6] Christof Windeck: AMD Radeon R9 Fury × dank HBM-Speicher mit 512 GByte/s. In: Heise online. 16. Juni 2015. Abgerufen am 14. Januar 2016.

[HBM2_JEDEC-7] JESD235a: High Bandwidth Memory 2. 12. Januar 2016; abgerufen im 1. Januar 1.

[8] Mark Mantel: HBM2E-Stapelspeicher: Hohe Transferraten und Kapazität für GPUs und FPGAs. In: Heise online. 13. August 2019. Abgerufen am 14. August 2019. Mark Mantel: HBM2E-Stapelspeicher: Hohe Transferraten und Kapazität für GPUs und FPGAs. In: heise online. 13. August 2019, abgerufen am 14. August 2019.

[Heise1-9] Mark Mantel: Stapelspeicher HBM3: Schnellstes DRAM für Grafikkarten und Beschleuniger. In: Heise online. 20. Oktober 2021. Abgerufen am 22. Oktober 2021.

[10] SK hynix Inc. Global Public Relations: SK hynix Enters Industry’s First Compatibility Validation Process for 1bnm DDR5 Server DRAM. In: News von SK Hynix. SKHynix, 30. Mai 2023, abgerufen am 23. Mai 2024 (englisch).

[11] He Who Can Pay Top Dollar For HBM Memory Controls AI Training

[12] Mark Mantel: Größer und schneller: HBM4-Speicher knackt ab 2026 die TByte/s-Marke. In: heise.de. 1. April 2022, abgerufen am 3. Februar 2024.

[13] http://www.grafikkarten-bewertung.de/produkt/sapphire-r9-fury-4gb-hbm-4096-bit-pci-e-hdmi-tripl/. Abgerufen am 5. November 2016.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

Navigation