行業(yè)新聞

干掉HBM?

AI離不開HBM，這種看法正在不斷深入人心。

對于AI大模型訓練來說，大量并行數(shù)據(jù)處理要求大算力和高帶寬，算力決定了每秒處理數(shù)據(jù)的速度越快，而帶寬決定了每秒可訪問的數(shù)據(jù)，GPU負責提供算力，而存儲器負責提供帶寬。

如今的局面是，大家可以不用英偉達的GPU，但絕對離不開海力士、三星或美光的HBM，英偉達雖然有CUDA這條護城河，但也不能完全阻止用戶遷移向其他廠商，但HBM就不同了，不論是AMD還是英特爾，還是其他定制芯片，上面無一例外都嵌著密密麻麻的HBM。

但HBM并不是普通DRAM，它的價格早已到了一個令人咋舌的地步，在相同密度的情況下，HBM 的價格大約是DDR5的5倍，據(jù)了解，目前HBM成本在AI服務器成本中占比排名第三，約占9%，單機平均售價高達18000美元。

（圖片來自美光）

即便是如此昂貴的HBM，依舊處于供不應求的狀態(tài)，還在不斷漲價。TrendForce在今年5月表示，2025年HBM定價談判已于2Q24開啟，但由于DRAM整體產能有限，供應商已初步漲價5~10%以管理產能限制，影響范圍涵蓋HBM2e、HBM3與HBM3e。

其指出，從各大AI方案商來看，HBM規(guī)格需求將明顯朝HBM3e轉移，12Hi堆疊產品預期將會增加，將帶動單顆芯片HBM容量提升，預估2024年HBM需求年增率將逼近200%，2025年則有望再翻一番。

掏的起錢的巨頭會繼續(xù)加價買更大容量的HBM，但對于中小型廠商來說，昂貴的HBM已經(jīng)成為了它們踏上大模型之路后的最大阻礙。

誰會給昂貴的AI內存解圍呢？

硅仙人，要把內存價格打下來

“硅仙人”吉姆·凱勒（Jim Keller）曾不止一次批評了目前AI芯片的昂貴價格。

吉姆·凱勒是誰？他的職業(yè)生涯橫跨 DEC、AMD、SiByte、Broadcom、PA Semi、Apple、Tesla、Intel，從AMD的K8架構，到蘋果的A4和A5處理器，再到AMD的Zen架構，最后是特斯拉的FSD自動駕駛芯片，背后都有著這位大神的身影。

而在2021年，他離開了英特爾，加入了位于加拿大多倫多的AI芯片初創(chuàng)公司Tenstorrent，擔任這家公司的CTO，負責開發(fā)下一代AI芯片。

凱勒一直致力于解決人工智能硬件成本高昂的問題，將其視為 Tenstorrent 等初創(chuàng)公司挑戰(zhàn) 英偉達等巨頭的切入點。他曾提出，英偉達在開發(fā) Blackwell GPU 時，如果使用以太網(wǎng)互連技術，本可以節(jié)省 10 億美元。

“有很多市場沒有得到英偉達的良好服務，”凱勒在接受日經(jīng)亞洲采訪時表示，隨著 AI 在智能手機、電動汽車和云服務中的應用不斷擴大，越來越多的公司在尋找更便宜的解決方案，他提到，“有很多小公司不愿意支付 20000 美元購買市場上被認為是最佳選擇的英偉達高端GPU?！?/span>

Tenstorrent正準備在今年年底出售其第二代多功能 AI 芯片。該公司表示，在某些領域，其能效和處理效率優(yōu)于英偉達的 AI GPU。據(jù) Tenstorrent 稱，其 Galaxy 系統(tǒng)的效率是英偉達AI 服務器 DGX 的三倍，且成本降低了 33%。

凱勒表示，這一成就的原因之一是公司不使用高帶寬內存（HBM），這種先進的內存芯片能夠快速傳輸大量數(shù)據(jù)。HBM 是生成型 AI 芯片的重要組件，在英偉達產品的成功中發(fā)揮了重要作用。

然而，HBM 也是 AI 芯片高能耗和高價格的罪魁禍首之一?！凹词故鞘褂?HBM 的人也在與其成本和設計時間作斗爭，”凱勒說道，因此，他做出了不使用這項技術的技術決策。

在典型的 AI 芯片組中，GPU 每次執(zhí)行過程時都會將數(shù)據(jù)發(fā)送到內存。這需要 HBM 的高速數(shù)據(jù)傳輸能力。然而，Tenstorrent 特別設計了其芯片，大幅減少此類傳輸。凱勒表示，通過這種新方法，公司設計的芯片在某些 AI 開發(fā)領域可以替代 GPU 和 HBM。

他還表示，公司正在盡可能地設計其產品以實現(xiàn)“成本效益”。他補充說，許多其他公司也在尋找更好的內存解決方案，但他謹慎地承認，顛覆現(xiàn)有的龐大 HBM 產業(yè)需要數(shù)年時間。

凱勒預測，將會有更多新玩家出現(xiàn)，填補英偉達未能服務的各種 AI 市場，而不是由某一家公司取代英偉達。

值得一提的是，Tenstorrent首席CPU架構師此前也分享了類似的觀點，他強調該公司更務實、更經(jīng)濟的精神使其系統(tǒng)設計比Nvidia更具成本效益，計算能力更強。

他表示："客戶不需要支付保時捷或法拉利的價格來運行他們的生成式人工智能模型，他們只需要性價比最高、運行速度最快的汽車。" Lien 預計，目前硬件價格昂貴的趨勢將逐漸消退，市場最終將趨于穩(wěn)定。

對于吉姆·凱勒來說，過于昂貴的HBM似乎已經(jīng)阻礙到了AI的發(fā)展，盡管大公司有雄厚的財力來承擔這一切，但小公司早就難以為繼，而他負責的Tenstorrent芯片，就是為了解決這一問題而來的。

無需HBM的AI芯片？

2020年5月，Tenstorrent 推出了自己首款產品—— Grayskull，這是一款基于 GF 12nm 工藝，約 620 平方毫米的處理器，最初設計為推理加速器和主機。它包含 120 個定制核心，采用 2D 雙向網(wǎng)格結構，提供 368 TeraOPs 的 8 位計算能力，功耗僅為 65 瓦。每個定制核心都配備了數(shù)據(jù)控制的包管理引擎、包含 Tenstorrent 自定義 TENSIX 核心的包計算引擎，以及用于非標準操作（如條件語句）的五個 RISC 核心。該芯片側重于稀疏張量運算，將矩陣運算優(yōu)化為壓縮數(shù)據(jù)包，通過圖形編譯器和數(shù)據(jù)包管理器實現(xiàn)計算步驟的流水線并行化。這也實現(xiàn)了動態(tài)圖形執(zhí)行，與其他一些人工智能芯片模型相比，它允許計算和數(shù)據(jù)異步傳輸，而不是特定的計算/傳輸時間域。

今年3月，Tenstorrent開始銷售基于Grayskull的兩款開發(fā)板。Tenstorrent表示，Grayskull e75 和 e150是 Tenstorrent 的基礎、僅用于推理的 AI 圖形處理器，每個都采用 Tensix Cores 構建，包括一個計算單元、片上網(wǎng)絡、本地緩存和“小型 RISC-V”核心，從而在芯片中實現(xiàn)獨特高效的數(shù)據(jù)移動，專為尋求經(jīng)濟高效、可定制的傳統(tǒng) GPU 替代方案的冒險型 ML 開發(fā)人員而設計。

其中Grayskull e75是一款75瓦的PCIe Gen 4卡，售價為600美元，其擁有一顆1GHz的NPU芯片，集成了96顆Tensix核心和96MB的SRAM，該板還包含8GB的標準LPDDR4 DRAM，而Grayskull e150將時鐘頻率提高到1.2GHz，核心數(shù)量增加到120個，片上內存相應增加到120MB，但片外DRAM仍為8GB的LPDDR4，其功耗提升至200瓦，售價800美元。

據(jù)了解，Tenstorrent Grayskull架構不同于其他數(shù)據(jù)中心AI加速器（GPU/NPU），排列的Tensix核心包含多個CPU，供計算單元使用，后者包括向量和矩陣引擎。這種結構化的顆粒方法可以增加數(shù)學單元的利用率，從而提高每瓦性能。每個Tensix核心還具有1MB的SRAM，提供了充足的片上內存總量，與其他大內存的NPU不同，Grayskull可以連接到外部內存。

當然最重要的還是，Grayskull使用標準DRAM而不是昂貴的HBM，僅這一項，就省去了一大半成本，這也符合吉姆·凱勒所提到的追求成本效益的目標。

軟件是NPU和其他處理器挑戰(zhàn)者的一個薄弱環(huán)節(jié)，也是Grayskull與競爭對手相比的一個強項。Tenstorrent為此提供兩種軟件流程：TT-Buda基于標準AI框架（如PyTorch和TensorFlow）將模型映射到Tenstorrent硬件上，而TT-Metalium則為開發(fā)人員提供直接的硬件訪問，并允許他們創(chuàng)建用于更高級框架的庫。在Grayskull架構的支持下，Metalium因提供類似計算機的編程模型而脫穎而出，并可能吸引擁有低級編程資源的客戶。

此外，從一開始，Tenstorrent就將功耗效率作為一個差異化因素，e75相對較低的75瓦，符合標準PCIe和OCP功率范圍，像這樣的設計可能是一個很好的服務器附加板，用于推理領域。除了Grayskull芯片和板卡外，Tenstorrent還開始授權其高性能RISC-V CPU和Tensix核心，并與合作伙伴共同開發(fā)Chiplets。

當然，這只是一個開始，在吉姆·凱勒加盟后，Tenstorrent的野心開始變得更大。

今年7月，Tenstorrent推出了新一代Wormhole處理器，專為AI工作負載設計，承諾以低價提供不錯的性能。該公司目前提供兩種附加的PCIe卡，分別搭載一個或兩個Wormhole處理器，還有TT-LoudBox和TT-QuietBox工作站，專為軟件開發(fā)人員設計。此次發(fā)布主要面向開發(fā)人員，而非那些將Wormhole板用于商業(yè)工作負載的用戶。

Tenstorrent首席執(zhí)行官吉姆·凱勒表示：“讓更多產品進入開發(fā)者手中總是令人感到滿意的。發(fā)布搭載Wormhole卡的開發(fā)系統(tǒng)有助于開發(fā)人員進行多芯片AI軟件的擴展和開發(fā)工作。除了此次發(fā)布之外，我們也很高興第二代產品Blackhole的流片和啟動進展順利?！?/span>

每個Wormhole處理器配備72個Tensix核心（包含五個支持各種數(shù)據(jù)格式的RISC-V核心），擁有108MB的SRAM，以1GHz頻率提供262 FP8 TFLOPS的性能，功耗為160W。單芯片Wormhole n150卡配備12GB的GDDR6內存，帶寬為288GB/s。

Wormhole處理器提供靈活的可擴展性，以滿足各種工作負載的需求。在標準工作站設置中，四張Wormhole n300卡可以合并為一個單元，在軟件中顯示為一個統(tǒng)一的、廣泛的Tensix核心網(wǎng)絡。該配置允許加速器處理相同的工作負載、分配給四個開發(fā)人員或同時運行多達八個不同的AI模型。這種可擴展性的一個關鍵特征是它可以原生運行，無需虛擬化。在數(shù)據(jù)中心環(huán)境中，Wormhole處理器可以通過PCIe在一臺機器內部擴展，也可以通過以太網(wǎng)在多臺機器之間擴展。

從性能角度來看，Tenstorrent的單芯片Wormhole n150卡（72個Tensix核心，1GHz，108MB SRAM，12GB GDDR6，帶寬為288GB/s）在160W功耗下提供262 FP8 TFLOPS，而雙芯片Wormhole n300板（128個Tensix核心，1GHz，192MB SRAM，24GB GDDR6，帶寬為576GB/s）在300W功耗下可提供高達466 FP8 TFLOPS（根據(jù)Tom's Hardware的數(shù)據(jù)）。

與英偉達的產品相比，英偉達的A100不支持FP8，但支持INT8，峰值性能為624 TOPS（稀疏時為1,248 TOPS），而英偉達的H100支持FP8，峰值性能高達1,670 TFLOPS（稀疏時為3,341 TFLOPS），這與Tenstorrent的Wormhole n300相比有很大差距。

不過價格又彌補了性能上的不足，Tenstorrent的Wormhole n150售價為999美元，而n300售價為1,399美元。相比之下，一張英偉達H100卡的售價可能高達30,000美元。

除了板卡外，Tenstorrent還為開發(fā)者提供預裝四張n300卡的工作站，包括價格較低的基于Xeon的TT-LoudBox和高端的基于EPYC的TT-QuietBox。

不論是Grayskull還是Wormhole，都只是Tenstorrent路線圖里的第一步，真正的重頭戲還在后面。

（圖片來自Tenstorrent）

根據(jù)Tenstorrent披露的路線圖，第二代架構Blackhole 芯片有 140 個 Tensix 內核，以及更多的 DRAM 和更快的以太網(wǎng)，同時具備16 個 RISC-V 內核，獨立于 Tensix 內核，可以脫離x86 CPU來運行操作系統(tǒng)，其已在臺積電 N6 上流片并進展順利。

而Tenstorrent 的第三代架構將基于芯片組，并將遷移到三星 SF4，其包括Quasar 和 Grendel ，將采用更新的 Tensix 核心，目的是將四個 Tensix 核心與共享的 L2 聚集在一起，以便更好地重用內存中已有的權重，它們預計將于 2025 年推出。

當然，路線圖中后續(xù)的三款芯片，都沒有采用HBM，而是選擇了GDDR6，Tenstorrent和吉姆·凱勒都有一個目標，那就是打破HBM這個昂貴的神話。

曲線救國的小眾方案

Tenstorrent并不是唯一一個想要用其他內存替代HBM的公司。

2024年2月，谷歌TPU第一代設計者Jonathan Ross所創(chuàng)立的Groq公司正式宣布，其新一代LPU在多個公開測試中，以幾乎最低的價格，相比GPU推理速度翻倍，后續(xù)有三方測試結果表明，該芯片對大語言模型推理進行優(yōu)化效果顯著，速度相較于英偉達GPU提高了10倍。

根據(jù)知情人士透露，LPU的工作原理與GPU截然不同。它采用了時序指令集計算機（Temporal Instruction Set Computer）架構，這意味著它無需像使用高帶寬存儲器（HBM）的GPU那樣頻繁地從內存中加載數(shù)據(jù)。Groq選擇了SRAM，其速度比GPU所用的存儲器快約20倍，這一特點不僅有助于避免HBM短缺的問題，還能有效降低成本。

有從事人工智能開發(fā)的用戶稱贊，Groq是追求低延遲產品的“游戲規(guī)則改變者”，低延遲指的是從處理請求到獲得響應所需的時間。另一位用戶則表示，Groq的LPU在未來有望對GPU在人工智能應用需求方面實現(xiàn)“革命性提升”，并認為它可能成為英偉達A100和H100芯片的“高性能硬件”的有力替代品。

但Groq并非沒有缺點，其選擇SRAM的主要理由，是因為它只負責推理、不訓練，而推理所需要的存儲空間比訓練要小得多，所以Groq的單板卡只有230MB的內存，雖然SRAM確實要比DRAM快，但其價格很貴，容量較小，LPU乃至其他計算芯片，大量使用SRAM時需要有所權衡。

2012 年在加利福尼亞州圣何塞創(chuàng)立的NEO Semiconductor則是提出了自己的HBM替代方案，近日，該公司宣布，自己開發(fā)出了帶有附加神經(jīng)元電路的三維 DRAM，通過避免從高帶寬內存到 GPU 的數(shù)據(jù)傳輸，可以加速 AI 處理。

據(jù)了解，Neo 的3D DRAM 技術是其 3D X-AI 300 層、128 Gbit DRAM 芯片的基礎，每個芯片有 8,000 個神經(jīng)元和 10 TBps 的 AI 處理能力。3D X-AI 芯片的容量和性能可以擴展 12 倍，最多可堆疊 12 個 3D X-AI 芯片，就像高帶寬內存 (HBM) 一樣，提供 192 GB (1,536 Gb) 的容量和 120 TBps 的處理吞吐量。

NEO Semiconductor 創(chuàng)始人兼首席執(zhí)行官 Andy Hsu 在一份聲明中表示：“典型的 AI 芯片使用基于處理器的神經(jīng)網(wǎng)絡。這涉及結合高帶寬內存來模擬突觸以存儲權重數(shù)據(jù)，以及圖形處理單元 (GPU) 來模擬神經(jīng)元以執(zhí)行數(shù)學計算。性能受到 HBM 和 GPU 之間數(shù)據(jù)傳輸?shù)南拗?，來回的?shù)據(jù)傳輸會降低 AI 芯片的性能并增加功耗。”

3D X-AI 模擬人工神經(jīng)網(wǎng)絡 (ANN)，包括用于存儲重量數(shù)據(jù)的突觸和用于處理數(shù)據(jù)的神經(jīng)元，Neo 表示這使其非常適合加速下一代 AI 芯片和應用，Hsu 補充道：“帶有 3D X-AI 的 AI 芯片使用基于內存的神經(jīng)網(wǎng)絡。這些芯片具有神經(jīng)網(wǎng)絡功能，每個 3D X-AI 芯片中都有突觸和神經(jīng)元。它們用于大幅減少執(zhí)行 AI 操作時 GPU 和 HBM 之間數(shù)據(jù)傳輸?shù)姆敝毓ぷ髁?。我們的發(fā)明大大提高了 AI 芯片的性能和可持續(xù)性。”

此前，SK海力士和三星等NAND供應商已經(jīng)嘗試過計算內存，但用例太小眾，不足以證明大規(guī)模生產是合理的，而Neo 希望 AI 處理能夠變得如此普及，從而遠遠超越這種小眾現(xiàn)象，其表示，3D X-AI 芯片可與標準 GPU 一起使用，可以以更低的成本提供更快的 AI 處理。

HBM，并非固若金湯？

對于內存廠尤其是SK海力士來說，HBM是在堅持多年后獲得的一筆意外之財，事實上，就連行業(yè)領先了三十余年的三星都出現(xiàn)了誤判，在AI浪潮來臨的前夜錯失了機會。

HBM因AI而興，在大模型中扮演著不可或缺的角色，這是毋庸置疑的，但HBM也在面臨著各種挑戰(zhàn)，尤其是更多具備成本優(yōu)勢的方案在不斷涌現(xiàn)，如果HBM不能通過其他方式來降低成本，它未來的地位就恐怕有點危險了。

文章來源：半導體行業(yè)觀察

上一個：芯片巨頭，新豪賭下一個：以色列的芯片新革命