Nvidia Spectrum-X Ethernet umožní největší světový superpočítač s umělou inteligencí

NVIDIA Spectrum-4

Jednou z výzev při budování špičkových datových center pro umělou inteligenci je propojení serverů a zajištění součinnosti a bezproblémové práce desítek tisíc GPU, takže síťové propojení je stejně důležité jako GPU. Pro vybudování superpočítače Colossus společnosti xAI, který má nyní 100 000 procesorů Hopper společnosti Nvidia a v příštích měsících se rozšíří na 200 000 GPU H100 a H200, si společnost vybrala síť Spectrum-X Ethernet společnosti Nvidia.

Platforma Nvidia Spectrum-X zahrnuje ethernetový přepínač Spectrum SN5600, který umožňuje rychlost portů až 800 Gb/s a je postaven na přepínači Spectrum-4 ASIC. Síťová platforma spolupracuje s BlueField-3 SuperNIC od společnosti Nvidia a poskytuje výjimečnou rychlost a efektivitu při přenosu masivních datových toků potřebných pro trénink umělé inteligence. Díky Spectrum-X dosahuje Colossus trvale vysoké propustnosti dat (95 %) a prakticky eliminuje problémy se síťovou latencí a ztrátou paketů, což umožňuje bezproblémový provoz v dosud nevídaném měřítku.

Tradiční Ethernet by takové množství dat zvládal jen s obtížemi, často by docházelo k silnému přetížení a nízké datové propustnosti. Naproti tomu technologie adaptivního směrování, řízení přetížení a izolace výkonu společnosti Spectrum-X tyto problémy řeší a zajišťují stabilní a vysoce výkonné prostředí.

„Umělá inteligence se stává kriticky důležitou a vyžaduje vyšší výkon, bezpečnost, škálovatelnost a nákladovou efektivitu,“ řekl Gilad Shainer, senior viceprezident pro sítě ve společnosti Nvidia. „Síťová platforma Nvidia Spectrum-X Ethernet je navržena tak, aby inovátorům, jako je xAI, poskytovala rychlejší zpracování, analýzu a provádění pracovních úloh AI a následně urychlila vývoj, nasazení a dobu uvedení řešení AI na trh.“

I se 100 000 grafickými procesory Hopper je xAI Colossus jedním z nejvýkonnějších superpočítačů pro trénink AI na světě. Přesto byl zkonstruován za pouhých 122 dní a jeho rychlé nasazení ostře kontrastuje s typickými lhůtami pro takto masivní systémy, které často trvají měsíce nebo dokonce roky. Tato efektivita se rozšířila i na jeho provozní nastavení, kdy byl trénink zahájen 19 dní po dodání a instalaci prvního hardwaru.

Uvidíme, jak dlouho bude xAI trvat instalace dalších 100 000 grafických procesorů Hopper, i když lze s jistotou říci, že po nějakou dobu půjde o nejvýkonnější superpočítač s umělou inteligencí na světě, přinejmenším do doby, než Microsoft a Oracle nasadí své počítače na bázi Blackwell.

„Colossus je nejvýkonnější tréninkový systém na světě,“ řekl Elon Musk na X. „Dobrá práce týmu xAI, společnosti NVIDIA a mnoha našich partnerů/dodavatelů.“

Zdroj: tomshardware.com

Foto: NVIDIA Spectrum-4

Související články

Leave a Comment