下一代AI超算——DGX SuperPOD
在發(fā)布Blackwell GPU后,英偉達還推出了下一代AI超級計算機——由 NVIDIA GB200 Grace Blackwell 超級芯片提供支持的 NVIDIA DGX SuperPOD,用于處理萬億參數(shù)模型,并具有持續(xù)的正常運行時間,以實現(xiàn)超大規(guī)模生成式 AI 訓(xùn)練和推理工作負(fù)載。
據(jù)英偉達介紹,新型 DGX SuperPOD 采用新型高效液冷機架規(guī)模架構(gòu),采用 NVIDIA DGX? GB200 系統(tǒng)構(gòu)建,可在 FP4 精度下提供 11.5 exaflops 的 AI 超級計算能力和 240 TB 的快速內(nèi)存,可通過額外的機架擴展到更多。
每個 DGX GB200 系統(tǒng)均配備 36 個 NVIDIA GB200 超級芯片,其中包括 36 個 NVIDIA Grace CPU 和 72 個 NVIDIA Blackwell GPU,通過第五代NVIDIA NVLink?連接為一臺超級計算機。與 NVIDIA H100 Tensor Core GPU 相比,GB200 Superchips 對于大型語言模型推理工作負(fù)載的性能提升高達 30 倍。
NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示:“NVIDIA DGX AI 超級計算機是 AI 工業(yè)革命的工廠。” “新的 DGX SuperPOD 結(jié)合了 NVIDIA 加速計算、網(wǎng)絡(luò)和軟件的最新進展,使每個公司、行業(yè)和國家都能完善和生成自己的人工智能?!?/span>
下一代AI網(wǎng)絡(luò)交換機——X800
英偉達還在演講中發(fā)布了專為大規(guī)模人工智能而設(shè)計的新一代網(wǎng)絡(luò)交換機 X800 系列。
英偉達表示,NVIDIA Quantum-X800 InfiniBand和 NVIDIA Spectrum-X800 Ethernet是全球首款能夠?qū)崿F(xiàn)端到端 800Gb/s 吞吐量的網(wǎng)絡(luò)平臺, 突破了計算和 AI 工作負(fù)載網(wǎng)絡(luò)性能的界限。它們配備的軟件可進一步加速各類數(shù)據(jù)中心中的人工智能、云、數(shù)據(jù)處理和 HPC 應(yīng)用程序,包括那些采用新發(fā)布的基于 NVIDIA Blackwell 架構(gòu)的產(chǎn)品系列的數(shù)據(jù)中心。
具體而言,Quantum-X800 平臺包括英偉達Quantum Q3400交換機和英偉達ConnectX-8 SuperNIC,共同實現(xiàn)了業(yè)界領(lǐng)先的800Gb/s端到端吞吐量。與上一代產(chǎn)品相比,帶寬容量提高了 5 倍,利用英偉達可擴展分級聚合和縮減協(xié)議(SHARPv4)進行的網(wǎng)內(nèi)計算能力提高了 9 倍,達到 14.4Tflops。
Spectrum-X800平臺為人工智能云和企業(yè)基礎(chǔ)設(shè)施提供了優(yōu)化的網(wǎng)絡(luò)性能。利用SpectrumSN5600 800Gb/s交換機和英偉達BlueField-3超級網(wǎng)卡,Spectrum-X800平臺可提供對多租戶生成式人工智能云和大型企業(yè)至關(guān)重要的高級功能集。
英偉達網(wǎng)絡(luò)高級副總裁 Gilad Shainer 表示:“NVIDIA 網(wǎng)絡(luò)對于我們 AI 超級計算基礎(chǔ)設(shè)施的可擴展性至關(guān)重要。” “NVIDIA X800 交換機是端到端網(wǎng)絡(luò)平臺,使我們能夠?qū)崿F(xiàn)對新 AI 基礎(chǔ)設(shè)施至關(guān)重要的萬億參數(shù)規(guī)模的生成式 AI?!?/span>
據(jù)英偉達透露,這兩款產(chǎn)品的目前客戶包括微軟Azure 和 Oracle Cloud Infrastructure。
AI助力光刻
在演講一開始,英偉達就宣布,臺積電和新思將使用英偉達的計算光刻平臺即去年宣布的cuLitho 投入生產(chǎn),以加速制造并突破下一代先進半導(dǎo)體芯片的物理極限。
計算光刻是半導(dǎo)體制造過程中計算最密集的工作負(fù)載,每年在 CPU 上消耗數(shù)百億小時。芯片的典型掩模組(其生產(chǎn)的關(guān)鍵步驟)可能需要 3000 萬小時或更多小時的 CPU 計算時間,因此需要在半導(dǎo)體代工廠內(nèi)建立大型數(shù)據(jù)中心。
而英偉達稱,通過加速計算,350 個 NVIDIA H100 系統(tǒng)現(xiàn)在可以取代 40,000 個 CPU 系統(tǒng),加快生產(chǎn)時間,同時降低成本、空間和功耗。
自去年推出以來,cuLitho 為 TSMC 的創(chuàng)新圖案化技術(shù)帶來了新的機遇。在共享工作流上進行的 cuLitho 測試顯示,兩家公司共同將曲線流程速度和傳統(tǒng)曼哈頓式流程速度分別提升了 45 倍和近 60 倍。這兩種流程的不同點在于曲線流程的光掩模形狀為曲線,而曼哈頓式流程的光掩模形狀被限制為水平或垂直。
英偉達表示,自己開發(fā)了應(yīng)用生成式人工智能的算法,以進一步提升cuLitho平臺的價值。在通過 cuLitho 實現(xiàn)的加速流程的基礎(chǔ)上,新的生成式人工智能工作流程可將速度提高 2 倍。通過應(yīng)用生成式人工智能,可以創(chuàng)建近乎完美的反向掩膜或反向解決方案,以考慮光的衍射。然后通過傳統(tǒng)的嚴(yán)格物理方法得出最終光罩,從而將整個光學(xué)近似校正(OPC)流程的速度提高了兩倍。
目前,工廠工藝中的許多變化都需要對 OPC 進行修改,從而增加了所需的計算量,并在工廠開發(fā)周期中造成了瓶頸。cuLitho 提供的加速計算和生成式人工智能可減輕這些成本和瓶頸,使工廠能夠分配可用的計算能力和工程帶寬,在開發(fā) 2 納米及更先進的新技術(shù)時設(shè)計出更多新穎的解決方案。
TSMC 首席執(zhí)行官魏哲家博士表示:“通過與 NVIDIA 一同將 GPU 加速計算整合到 TSMC 的工作流中,我們大幅提升了性能、增加了吞吐量、縮短了周期時間并減少了功耗。TSMC 正在將NVIDIA cuLitho 投入到生產(chǎn)中,利用這項計算光刻技術(shù)推動關(guān)鍵的半導(dǎo)體微縮環(huán)節(jié)。
Synopsys 總裁兼首席執(zhí)行官 Sassine Ghazi 表示:“二十多年來,Synopsys Proteus 光掩模合成軟件產(chǎn)品一直是經(jīng)過生產(chǎn)驗證的首選加速計算光刻技術(shù),而計算光刻是半導(dǎo)體制造中要求最嚴(yán)苛的工作負(fù)載。發(fā)展至先進的制造工藝后,計算光刻的復(fù)雜性和計算成本都急劇增加。通過與 TSMC 和 NVIDIA 合作,我們開創(chuàng)了能夠運用加速計算的力量將周轉(zhuǎn)時間縮短若干數(shù)量級的先進技術(shù),因此這一合作對于實現(xiàn)埃米級微縮至關(guān)重要?!?/span>
隨著EDA廠商新思將該技術(shù)集成到其軟件工具中,以及代工龍頭臺積電的應(yīng)用,計算光刻未來前景廣闊,可能會被更多芯片廠商所采用。
依舊遙遙領(lǐng)先
B200的推出,延續(xù)了H100之后英偉達的GPU霸權(quán),就目前來說,依舊沒有公司能夠撼動它的地位,這是它過去深耕十年應(yīng)有的回報。
但你可以注意到一個小細(xì)節(jié),英偉達終于放棄了單體芯片設(shè)計,而是轉(zhuǎn)向多芯片設(shè)計,原因也很簡單,B200采用的是臺積電改進版的N4P工藝,在晶體管密度上沒有大幅升級,而H100已經(jīng)是一個全掩模版尺寸的芯片——它的芯片尺寸為 814 mm2,理論最大值為 858 mm2,在這樣的情況下,轉(zhuǎn)向雙芯片似乎并不難理解。
此外,英偉達也不再滿足于銷售單個芯片,而是兜售一整個系統(tǒng),也就是英偉達 B200 NVL72,包含 600000 個零件,重1361 公斤的它,可能會成為AI企業(yè)的新寵兒。
可以說,英偉達已經(jīng)靠B200牢牢吸住了AI產(chǎn)業(yè)下一年的金,依舊是這一領(lǐng)域中毫無爭議的王。
文章來源:半導(dǎo)體行業(yè)觀察
聯(lián)系人:袁經(jīng)理
手機:051683539599
電話:051683539599
地址: 徐高新康寧路1號高科金匯大廈A座14樓