Neue Epyc-Serverprozessoren stellt AMD auf einer hauseigenen Veranstaltung in San Francisco vor. Die Epyc 98x4 auf Basis von Zen 4c "Bergamo" haben bis zu 128 Kerne inklusive Simultaneous Multithreading, stellen also bis zu 256 Threads bereit. Die "Genoa-X" wie der Epyc 9684X trumpfen mit bis zu 1,125 GByte L3-Cache auf.
Dabei passen die Epyc-Prozessoren Bergamo und Genoa-X in dieselben Systeme wie Genoa und sind nach einem BIOS-Update lauffähig. Dadurch können Kunden einfach ihre Rackserver mischen, wenn unterschiedliche Workloads laufen sollen.
Die aktuellen AMD Epycs kommen ab sofort auch in der Preview von EC2 M7a Instanzen in der Amazon AWS Cloud zum Einsatz. Die sollen 50 Prozent mehr Leistung als die M6a mit älteren Epycs bringen und die schnellsten x86-Instanzen im Amazon-Angebot sein. Oracle Cloud will mit den E5-Instanzen ab Juli nachziehen. Auch Microsoft will Genoa-X ab sofort in HBv4/HX-Instanzen seiner Azure-Cloud einsetzen und verspricht einen Performance-Sprung gegenüber HBv3 mit Milan-X von bis zu Faktor 5,7 in NASTRAN, einer Anwendung für Simulationen mit der Finite-Elemente-Methode.
Bereits die existierenden Genoa-Prozessoren schneiden gegenüber Intels Xeon-Prozessoren sehr gut ab, speziell in Sachen Energieeffizienz sieht sich AMD im SPECpower_ssj 2008 um 90 Prozent vorn. Auch die genannten Cloud-Partner legen Wert auf hohe Energieeffizienz, weil das die Betriebskosten senkt.
Außer den normalen Epyc 9004 (Details zur Technik siehe unten) verkauft AMD nun auch die spezialisierten Ableger Bergamo und Genoa-X. Für Telekommunikation und Edge-Anwendungen soll in der zweiten Jahreshälfte 2023 noch Siena mit weiteren, speziellen Optimierungen hinzukommen. Dazu hüllt AMD sich allerdings noch in Schweigen.
Epyc 97x4: Rasanter Bergamo mit 256 vCPUs
Bergamo ist ein überarbeiteter Genoa und hat somit Zen-4-Kerne. AMD hat jedoch das Schaltungslayout bei diesen Zen-4c-Kernen optimiert und die genutzte Zelldichte deutlich erhöht. Damit schaffen es die Chipdesigner, in ein Cache-Compute-Die (CCD) nun 32 statt zuvor 16 Kerne zu integrieren. Allerdings verbleibt der L3-Cache bei 32 MByte. Je ein 16-MByte-Block gehört einer Partition aus 16 Kernen (CCX), pro CCD gibt es, wie in früheren Zen-Generationen, zwei CCX-Partitionen, die über den Infinity Fabric anstatt direkt miteinander kommunizieren. Das vereinfacht das L3-Cache-Design und erlaubt eine höhere Transistordichte, verschlechtert aber die Latenz, wenn Daten von einem CCX ins andere müssen. Insgesamt sind in Bergamo 82 Milliarden Transistoren verbaut.
AMD gibt an, in Sachen Performance mit Bergamo und seinen 128 Zen-4c-Kernen die schnellste Server-CPU im Angebot zu haben, wenn es nach den Werten des CPU-Benchmarks SPECrate 2017 in der Disziplin int_base geht, also Ganzzahlberechnungen mit einem eingeschränkten Satz an Optimierungen. Ein einzelner Epyc 9754 soll hierbei 981,4 Punkte schaffen, ein 2P-System 1950. Bei gleicher Thermal Design Power von bis zu 400 Watt können - je nach Workload - die Bergamo-Epycs effizienter arbeiten als die bekannten Epyc 9004.
AMD sieht die Bergamo-Epyc 97x4 vor allem in Cloud-Rechenzentren, wo zum Beispiel viele virtuelle Maschinen parallel laufen, denen feste Kerne zugeordnet sind. Mit Epyc 97x4 will das Unternehmen ARM-Serverprozessoren in Schach halten, aber auch Amperes Altra Max mit ebenfalls 128 Kernen oder den kommenden 192-Kerner mit RISC-V-Technik vom US-Startup Ventana Micro. So kann AMD mit Bergamo auch nur mit den meisten logischen Prozessoren oder vCPUs pro Fassung werben, denn im Gegensatz zu den ARM- oder RISC-V-Servern beherrscht Bergamo Simultaneous Multithreading (SMT) und stellt dem Betriebssystem pro physischem zwei virtuelle Kern bereit. Damit kann man Speicherlatenzen kompensieren und die Rechenwerke besser auslasten. SMT nutzen einige Cloud-Anbieter aus Sicherheitsgründen allerdings nicht, denn SMT erleichtert manche Seitenkanalangriffe.
Genoa-X mit viel Cache
AMDs 3D- oder V-Cache-Technik debütierte bereits in der vorigen Server-CPU-Generation Milan-X und dem Epyc 7xx3X. Sie kommt bei den Genoa-Dies erneut zum Einsatz und erweitert den L3-Cache für jedes der zwölf CCDs von 32 auf 96 MByte. Insgesamt kann eine CPU dann auf maximal 1152 MByte L3-Cache zurückgreifen.
Nicht alle Anwendungen profitieren gleich stark von viel Cache; so sieht AMD den Genoa-X hauptsächlich bei technischen Berechnungen, etwa beim Produktdesign, Strukturanalysen, Aerodynamik- oder anderen Simulationen. Sie lösen die normalen Epyc 9004 nicht ab, sondern werden zusätzlich angeboten. Durch den größeren Cache sollen einige Anwendungen bis zu doppelt so schnell laufen, was den Durchsatz pro Arbeitstag ebenfalls verdoppelt. Damit lassen sich nicht nur schnellere, sondern auch energieeffizientere Serversysteme konstruieren.
Das Topmodell Epyc 9964X soll nach AMD-Angaben Intels Xeon Platinum 8480+ und auch den 60-Kerner 8490H bei solchen Anwendungen schlagen. AMD selbst spricht von Faktor 2,2 (also 120 Prozent mehr) bei OpenFOAM bis hin zu 2,9x in Ansys Fluent. AMDs V-Cache-Technik nutzt Through-Silicon Vias (TSVs), also vertikale Verbindungen durch ein Die hindurch, um oberhalb der regulären 32 MByte Level-3-Caches der Genoa-Compute-Chiplets einen weiteren Silizium-Chip mit flächenoptimiertem Cache anzubringen.
Die Stapeltechnik von TSMC ermöglicht extrem hohe Kontaktdichten und kommt ohne Lötverbindungen aus. Stattdessen sitzen die Chips mit direkten Kupferverbindungen unmittelbar aufeinander. Der zusätzliche Cache-Chip benötigt laut AMD keine zusätzliche Logik wie L3-Tags oder ähnliches; er lässt sich daher deutlich kompakter bauen. Daher fasst er pro Chip 64 statt 32 zusätzlicher MByte.
Zen-4-Technik
Im Epyc 9004 für die Fassung SP5 stecken CPU-Kerne aus der im Vergleich zu Zen 3 verbesserten Generation Zen 4. Aufgrund der feineren Fertigungstechnik TSMC N5 statt N7 gibt es doppelt so große L2-Caches: 1 MByte pro Kern statt bisher 0,5 MByte. Der L3-Cache blieb bei 32 MByte pro acht Kerne, die gemeinsam in einem Core Complex Die (CCD) sitzen. Genau wie Intels Xeons verarbeiten Zen-4-Kerne nun sowohl AVX-512-Befehle als auch die Vector Neural Network Instructions (VNNI) und das Datenformat BFloat16 (BF16) für KI-Algorithmen.
Während die stärksten Xeons (aber nicht alle) je zwei AVX-512-Rechenwerke pro CPU-Kern haben, schaltet AMD für AVX-512 zwei AVX2-Einheiten zusammen. Bei gleicher Taktfrequenz kann ein Xeon-Kern also doppelt so viele AVX-512-Instruktionen verarbeiten wie ein Epyc-Kern. Weil die Xeons jedoch beim Verarbeiten von AVX-512-Code niedriger takten als bei sonstigem Code, ist der Vorteil nicht sonderlich groß.
Das Genoa-IOD hat nicht nur mehr und schnellere Infinity-Fabric-Links für die CCDs, sondern stellt auch sehr viel höhere Datentransferraten zum Arbeitsspeicher (RAM) und zu PCI-Express-(PCIe-)Peripherie bereit. Denn statt bisher acht DDR4-3200-Speicherkanälen gibt es nun zwölf Kanäle für DDR5-4800 und somit eine um 125 Prozent höhere Datentransferrate von 460 statt 204 GByte/s.
64 der 128 PCIe-Lanes beherrschen außerdem Compute Express Link (CXL). Damit lassen sich Rechenbeschleuniger Cache-kohärent anbinden, was die Effizienz steigert: Daten müssen seltener hin- und herkopiert werden. Wichtiger ist beim Epyc 9004, dass CXL auch zusätzliche DRAM-Module sowie superschnelle SSDs mit Spezialfunktionen anbinden kann, etwa Storage Class Memory (SCM) und Computational Storage.
(csp)
Author: Miss Sandy Vang
Last Updated: 1704409442
Views: 1948
Rating: 4.5 / 5 (49 voted)
Reviews: 85% of readers found this page helpful
Name: Miss Sandy Vang
Birthday: 1991-10-29
Address: 3933 Skinner Course Apt. 100, Pateltown, LA 95716
Phone: +4257064164482306
Job: Astronaut
Hobby: Billiards, Ice Skating, Poker, Woodworking, Motorcycling, Running, Beekeeping
Introduction: My name is Miss Sandy Vang, I am a Gifted, expert, accomplished, vivid, tenacious, resolute, unreserved person who loves writing and wants to share my knowledge and understanding with you.