行業(yè)新聞

黃仁勛剛剛發(fā)布，英偉達最強GPU B200，首次采用Chiplet？（下）

下一代AI超算——DGX SuperPOD

在發(fā)布Blackwell GPU后，英偉達還推出了下一代AI超級計算機——由 NVIDIA GB200 Grace Blackwell 超級芯片提供支持的 NVIDIA DGX SuperPOD，用于處理萬億參數(shù)模型，并具有持續(xù)的正常運行時間，以實現(xiàn)超大規(guī)模生成式 AI 訓(xùn)練和推理工作負(fù)載。

據(jù)英偉達介紹，新型 DGX SuperPOD 采用新型高效液冷機架規(guī)模架構(gòu)，采用 NVIDIA DGX? GB200 系統(tǒng)構(gòu)建，可在 FP4 精度下提供 11.5 exaflops 的 AI 超級計算能力和 240 TB 的快速內(nèi)存，可通過額外的機架擴展到更多。

每個 DGX GB200 系統(tǒng)均配備 36 個 NVIDIA GB200 超級芯片，其中包括 36 個 NVIDIA Grace CPU 和 72 個 NVIDIA Blackwell GPU，通過第五代NVIDIA NVLink?連接為一臺超級計算機。與 NVIDIA H100 Tensor Core GPU 相比，GB200 Superchips 對于大型語言模型推理工作負(fù)載的性能提升高達 30 倍。

NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示：“NVIDIA DGX AI 超級計算機是 AI 工業(yè)革命的工廠。” “新的 DGX SuperPOD 結(jié)合了 NVIDIA 加速計算、網(wǎng)絡(luò)和軟件的最新進展，使每個公司、行業(yè)和國家都能完善和生成自己的人工智能?！?/span>

下一代AI網(wǎng)絡(luò)交換機——X800

英偉達還在演講中發(fā)布了專為大規(guī)模人工智能而設(shè)計的新一代網(wǎng)絡(luò)交換機 X800 系列。

英偉達表示，NVIDIA Quantum-X800 InfiniBand和 NVIDIA Spectrum-X800 Ethernet是全球首款能夠?qū)崿F(xiàn)端到端 800Gb/s 吞吐量的網(wǎng)絡(luò)平臺，突破了計算和 AI 工作負(fù)載網(wǎng)絡(luò)性能的界限。它們配備的軟件可進一步加速各類數(shù)據(jù)中心中的人工智能、云、數(shù)據(jù)處理和 HPC 應(yīng)用程序，包括那些采用新發(fā)布的基于 NVIDIA Blackwell 架構(gòu)的產(chǎn)品系列的數(shù)據(jù)中心。

具體而言，Quantum-X800 平臺包括英偉達Quantum Q3400交換機和英偉達ConnectX-8 SuperNIC，共同實現(xiàn)了業(yè)界領(lǐng)先的800Gb/s端到端吞吐量。與上一代產(chǎn)品相比，帶寬容量提高了 5 倍，利用英偉達可擴展分級聚合和縮減協(xié)議（SHARPv4）進行的網(wǎng)內(nèi)計算能力提高了 9 倍，達到 14.4Tflops。

Spectrum-X800平臺為人工智能云和企業(yè)基礎(chǔ)設(shè)施提供了優(yōu)化的網(wǎng)絡(luò)性能。利用SpectrumSN5600 800Gb/s交換機和英偉達BlueField-3超級網(wǎng)卡，Spectrum-X800平臺可提供對多租戶生成式人工智能云和大型企業(yè)至關(guān)重要的高級功能集。

英偉達網(wǎng)絡(luò)高級副總裁 Gilad Shainer 表示：“NVIDIA 網(wǎng)絡(luò)對于我們 AI 超級計算基礎(chǔ)設(shè)施的可擴展性至關(guān)重要。” “NVIDIA X800 交換機是端到端網(wǎng)絡(luò)平臺，使我們能夠?qū)崿F(xiàn)對新 AI 基礎(chǔ)設(shè)施至關(guān)重要的萬億參數(shù)規(guī)模的生成式 AI?！?/span>

據(jù)英偉達透露，這兩款產(chǎn)品的目前客戶包括微軟Azure 和 Oracle Cloud Infrastructure。

AI助力光刻

在演講一開始，英偉達就宣布，臺積電和新思將使用英偉達的計算光刻平臺即去年宣布的cuLitho 投入生產(chǎn)，以加速制造并突破下一代先進半導(dǎo)體芯片的物理極限。

計算光刻是半導(dǎo)體制造過程中計算最密集的工作負(fù)載，每年在 CPU 上消耗數(shù)百億小時。芯片的典型掩模組（其生產(chǎn)的關(guān)鍵步驟）可能需要 3000 萬小時或更多小時的 CPU 計算時間，因此需要在半導(dǎo)體代工廠內(nèi)建立大型數(shù)據(jù)中心。

而英偉達稱，通過加速計算，350 個 NVIDIA H100 系統(tǒng)現(xiàn)在可以取代 40,000 個 CPU 系統(tǒng)，加快生產(chǎn)時間，同時降低成本、空間和功耗。

自去年推出以來，cuLitho 為 TSMC 的創(chuàng)新圖案化技術(shù)帶來了新的機遇。在共享工作流上進行的 cuLitho 測試顯示，兩家公司共同將曲線流程速度和傳統(tǒng)曼哈頓式流程速度分別提升了 45 倍和近 60 倍。這兩種流程的不同點在于曲線流程的光掩模形狀為曲線，而曼哈頓式流程的光掩模形狀被限制為水平或垂直。

英偉達表示，自己開發(fā)了應(yīng)用生成式人工智能的算法，以進一步提升cuLitho平臺的價值。在通過 cuLitho 實現(xiàn)的加速流程的基礎(chǔ)上，新的生成式人工智能工作流程可將速度提高 2 倍。通過應(yīng)用生成式人工智能，可以創(chuàng)建近乎完美的反向掩膜或反向解決方案，以考慮光的衍射。然后通過傳統(tǒng)的嚴(yán)格物理方法得出最終光罩，從而將整個光學(xué)近似校正（OPC）流程的速度提高了兩倍。

目前，工廠工藝中的許多變化都需要對 OPC 進行修改，從而增加了所需的計算量，并在工廠開發(fā)周期中造成了瓶頸。cuLitho 提供的加速計算和生成式人工智能可減輕這些成本和瓶頸，使工廠能夠分配可用的計算能力和工程帶寬，在開發(fā) 2 納米及更先進的新技術(shù)時設(shè)計出更多新穎的解決方案。

TSMC 首席執(zhí)行官魏哲家博士表示：“通過與 NVIDIA 一同將 GPU 加速計算整合到 TSMC 的工作流中，我們大幅提升了性能、增加了吞吐量、縮短了周期時間并減少了功耗。TSMC 正在將NVIDIA cuLitho 投入到生產(chǎn)中，利用這項計算光刻技術(shù)推動關(guān)鍵的半導(dǎo)體微縮環(huán)節(jié)。

Synopsys 總裁兼首席執(zhí)行官 Sassine Ghazi 表示：“二十多年來，Synopsys Proteus 光掩模合成軟件產(chǎn)品一直是經(jīng)過生產(chǎn)驗證的首選加速計算光刻技術(shù)，而計算光刻是半導(dǎo)體制造中要求最嚴(yán)苛的工作負(fù)載。發(fā)展至先進的制造工藝后，計算光刻的復(fù)雜性和計算成本都急劇增加。通過與 TSMC 和 NVIDIA 合作，我們開創(chuàng)了能夠運用加速計算的力量將周轉(zhuǎn)時間縮短若干數(shù)量級的先進技術(shù)，因此這一合作對于實現(xiàn)埃米級微縮至關(guān)重要?！?/span>

隨著EDA廠商新思將該技術(shù)集成到其軟件工具中，以及代工龍頭臺積電的應(yīng)用，計算光刻未來前景廣闊，可能會被更多芯片廠商所采用。

依舊遙遙領(lǐng)先

B200的推出，延續(xù)了H100之后英偉達的GPU霸權(quán)，就目前來說，依舊沒有公司能夠撼動它的地位，這是它過去深耕十年應(yīng)有的回報。

但你可以注意到一個小細(xì)節(jié)，英偉達終于放棄了單體芯片設(shè)計，而是轉(zhuǎn)向多芯片設(shè)計，原因也很簡單，B200采用的是臺積電改進版的N4P工藝，在晶體管密度上沒有大幅升級，而H100已經(jīng)是一個全掩模版尺寸的芯片——它的芯片尺寸為 814 mm2，理論最大值為 858 mm2，在這樣的情況下，轉(zhuǎn)向雙芯片似乎并不難理解。

此外，英偉達也不再滿足于銷售單個芯片，而是兜售一整個系統(tǒng)，也就是英偉達 B200 NVL72，包含 600000 個零件，重1361 公斤的它，可能會成為AI企業(yè)的新寵兒。

可以說，英偉達已經(jīng)靠B200牢牢吸住了AI產(chǎn)業(yè)下一年的金，依舊是這一領(lǐng)域中毫無爭議的王。

文章來源：半導(dǎo)體行業(yè)觀察

上一個：黃仁勛剛剛發(fā)布，英偉達最強GPU B200，首次采用Chiplet？（上）下一個：多地公布“強芯”政策確定發(fā)展目標(biāo)