遙想2023年3月,英偉達(dá)舉行了GTC 2023主題演講,英偉達(dá)CEO黃仁勛不僅闡述了該公司在人工智能時代的諸多成就和對未來發(fā)展愿景的期待,同時也帶來Grace Hopper超級芯片、AI Foundations云服務(wù)、AI超級計算服務(wù)DGX Cloud、全球首個GPU加速量子計算系統(tǒng)等在內(nèi)的多款重磅硬件新品。
而在北京時間2024年3月19日上午,英偉達(dá)再次舉辦了一年一度的 NVIDIA GTC主題演講,英偉達(dá)CEO 黃仁勛通過這次演講,分享了新一代的AI突破,也讓各位觀眾見證了AI的又一次變革時刻。
穿著熟悉皮衣的黃仁勛自然是這場演講里的主角,“世界上沒有哪一個會議有如此多樣化的研究人員,其中有大量的生命科學(xué)、醫(yī)療保健、零售、物流公司等等,”他說,“全球價值 100 萬億美元的公司都聚集在 GTC。”
黃仁勛表示:“我們已經(jīng)到了一個臨界點,我們需要一種新的計算方式......加速計算是一種巨大的提速。所有的合作伙伴都要求更高的功率和效率,那么英偉達(dá)能做些什么呢?
下一代AI平臺——Blackwell
隨后登場的是Blackwell B200,一個更大的GPU,其命名來自于大衛(wèi)·哈羅德·布萊克威爾他是一位專門研究博弈論和統(tǒng)計學(xué)的數(shù)學(xué)家,也是第一位入選美國國家科學(xué)院的黑人學(xué)者。
據(jù)英偉達(dá)介紹,B200的尺寸是“人工智能超級芯片”Hopper 的兩倍,集成有 2080 億個晶體管,其采用定制的兩掩模版極限 N4P TSMC 工藝制造,GPU 芯片通過 10TBps 芯片到芯片鏈路連接成為單個GPU。這在上面有兩個讓人好奇的點:
首先,從技術(shù)上講,雖然他們使用的是新節(jié)點 - TSMC 4NP - 但這只是用于 GH100 GPU 的 4N 節(jié)點的更高性能版本。這也讓英偉達(dá)多年來第一次無法利用主要新節(jié)點的性能和密度優(yōu)勢。這意味著 Blackwell 的幾乎所有效率增益都必須來自架構(gòu)效率,而該效率和橫向擴(kuò)展的絕對規(guī)模的結(jié)合將帶來 Blackwell 的整體性能增益。
其次,從字面上我們可以看到,這個全新旗艦將在單個封裝上配備兩個 GPU 芯片。換而言之,NVIDIA 終于在他們的旗艦加速器實現(xiàn)了Chiplet化。雖然他們沒有透露單個芯片的尺寸,但我們被告知它們是“reticle-sized”的芯片,每個芯片的面積應(yīng)該超過 800mm2。GH100 芯片本身已經(jīng)接近臺積電的 4 納米掩模版極限,因此 NVIDIA 在此方面的增長空間很小 - 至少不能停留在單個芯片內(nèi)。
黃仁勛指出:“人們認(rèn)為我們制造GPU,但GPU的外觀和以前不一樣了?!?/span>
英偉達(dá)表示,新的 B200 GPU 通過其 2080 億個晶體管提供高達(dá) 20 petaflops的 FP4 性能,配備 192GB HBM3e 內(nèi)存,提供高達(dá) 8 TB/s 的帶寬。對于他們的首款多芯片芯片,NVIDIA 打算跳過尷尬的“一個芯片上有兩個加速器”階段,直接讓整個加速器像單個芯片一樣運行。據(jù) NVIDIA 稱,這兩個芯片作為“一個統(tǒng)一的 CUDA GPU”運行,可提供完整的性能,毫不妥協(xié)。其關(guān)鍵在于芯片之間的高帶寬 I/O 鏈路,NVIDIA 將其稱為 NV 高帶寬接口 (NV-HBI:NV-High Bandwidth Interface ),并提供 10TB/秒的帶寬。據(jù)推測,這是總計,這意味著芯片可以在每個方向上同時發(fā)送 5TB/秒。
由于英偉達(dá)迄今尚未詳細(xì)說明此鏈接的構(gòu)建,所以我們不清楚NVIDIA 是否始終依賴晶圓上芯片 (如CoWoS)還是使用基礎(chǔ)芯片策略 (如AMD MI300),或者是否依賴在一個單獨的本地中介層上,僅用于連接兩個芯片(例如 Apple 的 UltraFusion)。不管怎樣,英偉達(dá)這個方案比我們迄今為止看到的任何其他雙芯片橋接解決方案的帶寬都要大得多,這意味著有大量的引腳在發(fā)揮作用。
在 B200 上,每個芯片與 4 個 HBM3E 內(nèi)存堆棧配對,總共 8 個堆棧,形成 8192 位的有效內(nèi)存總線寬度。所有人工智能加速器的限制因素之一是內(nèi)存容量(也不要低估對帶寬的需求),因此能夠放置更多堆棧對于提高加速器的本地內(nèi)存容量非常重要。
總的來說,B200 提供 192GB 的 HBM3E,即 24GB/堆棧,與 H200 的 24GB/堆棧容量相同(并且比原來的 16GB/堆棧 H100 多出 50% 的內(nèi)存)。
據(jù) NVIDIA 稱,該芯片的 HBM 內(nèi)存總帶寬為 8TB/秒,每個堆棧的帶寬為 1TB/秒,即每個引腳的數(shù)據(jù)速率為 8Gbps。正如我們之前所說,內(nèi)存最終設(shè)計為每針 9.2Gbps 或更高,但我們經(jīng)??吹?NVIDIA 在其服務(wù)器加速器的時鐘速度上表現(xiàn)得有點保守。不管怎樣,這幾乎是 H100 內(nèi)存帶寬的 2.4 倍(或者比 H200 高出 66%),因此 NVIDIA 看到了帶寬的顯著增加。
最后,目前我們還沒有關(guān)于單個 B200 加速器的 TDP 的任何信息。毫無疑問,它會很高——在后登納德世界中,你不可能將晶體管增加一倍以上,而不付出某種功率損失。NVIDIA 將同時銷售風(fēng)冷 DGX 系統(tǒng)和液冷 NVL72 機(jī)架,因此 B200 并不超出風(fēng)冷范圍,但在 NVIDIA 確認(rèn)之前,我預(yù)計數(shù)量不會少。
總體而言,與集群級別的H100 相比,NVIDIA 的目標(biāo)是將訓(xùn)練性能提高 4 倍,將推理性能提高 30 倍,同時能源效率提高 25 倍。我們將在此過程中介紹其背后的一些技術(shù),并且更多有關(guān) NVIDIA 打算如何實現(xiàn)這一目標(biāo)的信息無疑將在主題演講中披露。
但這些目標(biāo)最有趣的收獲是干擾性能的提高。NVIDIA 目前在訓(xùn)練領(lǐng)域占據(jù)主導(dǎo)地位,但推理市場是一個更廣泛、競爭更激烈的市場。然而,一旦這些大型模型經(jīng)過訓(xùn)練,就需要更多的計算資源來執(zhí)行它們,NVIDIA 不想被排除在外。但這意味著要找到一種方法,在競爭更加激烈的市場中取得(并保持)令人信服的領(lǐng)先地位,因此 NVIDIA 的工作任務(wù)艱巨。
與 Hopper 系列一樣,Blackwell 也有“超級芯片”提供——兩個 B200 GPU 和一個 Nvidia Grace CPU,芯片間鏈路速度為 900GBps。英偉達(dá)表示,與 Nvidia H100 GPU 相比,GB200 Superchip 在 LLM 推理工作負(fù)載方面的性能提高了 30 倍,并將成本和能耗降低了 25 倍。
最后,還將推出 HGX B100。它的基本理念與 HGX B200 相同,配備 x86 CPU 和 8 個 B100 GPU,只不過它設(shè)計為與現(xiàn)有 HGX H100 基礎(chǔ)設(shè)施直接兼容,并允許最快速地部署 Blackwell GPU。每個 GPU 的 TDP 限制為 700W,與 H100 相同,吞吐量下降至 FP4 的 14 petaflops。
除了紙面性能的提升外,Blackwell還支持了第二代 Transformer 引擎,它通過為每個神經(jīng)元使用 4 位而不是 8 位,使計算、帶寬和模型大小加倍,而配備的第五代 NVLink能夠為每個 GPU 提供 1.8TB/s 雙向吞吐量,確保多達(dá) 576 個 GPU 之間的無縫高速通信。
英偉達(dá)還公布了由GB200驅(qū)動的GB200 NVL72,這是一個多節(jié)點、液冷、機(jī)架式系統(tǒng),適用于計算最密集的工作負(fù)載。它結(jié)合了36個Grace Blackwell超級芯片,其中包括72個Blackwell GPU和36個Grace CPU,通過第五代NVLink互連。
新的 NVLink 芯片具有 1.8 TB/s 的全對全雙向帶寬,支持 576 個 GPU NVLink 域。它是在同一臺積電 4NP 節(jié)點上制造的 500 億個晶體管芯片。該芯片還支持 3.6 teraflops 的 Sharp v4 片上網(wǎng)絡(luò)計算,這有助高效處理更大的模型。
上一代支持高達(dá) 100 GB/s 的 HDR InfiniBand 帶寬,因此這是帶寬的巨大飛躍。與 H100 多節(jié)點互連相比,新的 NVSwitch 速度提高了 18 倍。這應(yīng)該能夠顯著改善更大的萬億參數(shù)模型人工智能網(wǎng)絡(luò)的擴(kuò)展性。
與此相關(guān)的是,每個 Blackwell GPU 都配備了 18 個第五代 NVLink 連接。這是 H100 鏈接數(shù)量的十八倍。每個鏈路提供 50 GB/s 的雙向帶寬,或每個鏈路 100 GB/s
此外,GB200 NVL72還包括NVIDIA BlueField-3數(shù)據(jù)處理單元,可在超大規(guī)模人工智能云中實現(xiàn)云網(wǎng)絡(luò)加速、可組合存儲、零信任安全和GPU計算彈性。與相同數(shù)量的英偉達(dá)H100 Tensor Core GPU相比,GB200 NVL72在LLM推理工作負(fù)載方面的性能最多可提升30倍,成本和能耗最多可降低25倍。
在演講中,亞馬遜、谷歌、Meta、微軟、甲骨文云和 OpenAI 等公司確認(rèn)將在今年晚些時候部署 Blackwell GPU。
“Blackwell 提供了巨大的性能飛躍,并將加快我們交付領(lǐng)先模型的能力。我們很高興繼續(xù)與 Nvidia 合作增強(qiáng) AI 計算能力?!監(jiān)penAI 首席執(zhí)行官 Sam Altman 說道。
特斯拉和 xAI 首席執(zhí)行官埃隆·馬斯克 (Elon Musk) 補(bǔ)充道:“目前沒有什么比 Nvidia 的人工智能硬件更好的了?!?/span>
文章來源:半導(dǎo)體行業(yè)觀察
聯(lián)系人:袁經(jīng)理
手機(jī):051683539599
電話:051683539599
地址: 徐高新康寧路1號高科金匯大廈A座14樓