8月27日消息,在近日召開的Hot Chips 2024大會上,美國AI芯片初創(chuàng)公司SambaNova首次詳細(xì)介紹了其新推出的全球首款面向萬億參數(shù)規(guī)模的人工智能(AI)模型的AI芯片系統(tǒng)——基于可重構(gòu)數(shù)據(jù)流單元 (RDU) 的 AI 芯片 SN40L。
據(jù)介紹,基于SambaNova 的 SN40L 的8芯片系統(tǒng),可以為 5 萬億參數(shù)模型提供支持,單個系統(tǒng)節(jié)點上的序列長度可達(dá) 256k+。對比英偉的H100芯片,SN40L不僅推理性能達(dá)到了H100的3.1倍,在訓(xùn)練性能也達(dá)到了H100的2倍,總擁有成本更是僅有其1/10。
SambaNova SN40L基于臺積電5nm制程工藝,擁有1020億個晶體管(英偉達(dá)H100為800億個晶體管),1040個自研的“Cerulean”架構(gòu)的RDU計算核心,整體的算力達(dá)638TFLOPS(BF16),雖然這個算力不算太高,但是關(guān)鍵在于SN40L還擁有三層數(shù)據(jù)流存儲器,包括:520MB的片上SRAM內(nèi)存(遠(yuǎn)高于此前Groq推出的號稱推理速度是英偉達(dá)GPU的10倍、功耗僅1/10的LPU所集成的230MB SRAM),集成的64GB的HBM內(nèi)存,1.5TB的外部大容量內(nèi)存。這也使得其能夠支持萬億參數(shù)規(guī)模的大模型的訓(xùn)練和推理。
SambaNova在推出基于8個SN40L芯片系統(tǒng)的同時,還推出了16個芯片的系統(tǒng),將可獲得8GB片內(nèi)SRAM、1TB HBM和24TB外部DDR內(nèi)存,使得片上SRAM和集成的HBM內(nèi)存之間的帶寬高達(dá)25.5TB/s,HBM和外部DDR內(nèi)存之間的帶寬可達(dá)1600GB/s。高帶寬將會帶來明顯的低延時的優(yōu)勢,比如運行Llama 3.1 8B模型,延時低于0.01s。
下圖是SambaNova SN40L的內(nèi)部結(jié)構(gòu),包括:計算單元(PCU)、存儲單元(PMU)、網(wǎng)狀開關(guān)(S)、片外存儲器和IO(AGCU)。
SN40L 內(nèi)部的計算單元(PCU)的內(nèi)部架構(gòu),它具有一系列靜態(tài)階段,而不是傳統(tǒng)的獲取/解碼等執(zhí)行單元。PCU可以作為流媒體單元(從左到右的數(shù)據(jù))運行,藍(lán)色是交叉車道減少樹。在矩陣計算操作中,它可以用作收縮陣列。支持BF16、FP32、INT32、INT8等數(shù)據(jù)類型。
下圖是SN40L 的高級存儲單元框架圖。這些是可編程管理的暫存區(qū),而不是傳統(tǒng)的緩存。
SN40L 的網(wǎng)狀網(wǎng)絡(luò)擁有三種物理網(wǎng)絡(luò),包括矢量網(wǎng)絡(luò)、標(biāo)量網(wǎng)絡(luò)和控制網(wǎng)絡(luò)。
AGCU單元用于訪問片外存儲器(HBM和DDR ),而PCU用于訪問片內(nèi)SRAM暫存區(qū)。
下圖是SN40L 的頂層互聯(lián)結(jié)構(gòu):
SN40L 的關(guān)鍵核心在于其可重構(gòu)數(shù)據(jù)流架構(gòu),可重構(gòu)數(shù)據(jù)流架構(gòu)使其能夠通過編譯器映射優(yōu)化各個神經(jīng)網(wǎng)絡(luò)層和內(nèi)核的資源分配。
下面是一個例子,說明Softmax是如何被編譯器捕獲,然后映射到硬件的。
可以看到,將它映射到大語言模型(LLM)和生成式AI的Transformer模型,下面是映射。在解碼器內(nèi)部,有許多不同的操作。
下圖是解碼器放大圖。每個方框內(nèi)都是一個操作符。同時,通常可以運行多個操作符,并把數(shù)據(jù)保存在芯片上以便重用。
以下是SambaNova對運算符如何在GPU上融合的猜測,不過他們也指出這可能不準(zhǔn)確。
在RDU中,整個解碼器是一個內(nèi)核調(diào)用。編譯器負(fù)責(zé)這種映射。
解碼器作為RDU上的單個內(nèi)核。
回到Transformer的結(jié)構(gòu),下圖展示了解碼器的不同功能??梢钥吹?,每個函數(shù)調(diào)用都有啟動開銷。
不是32個調(diào)用,而是寫成一個調(diào)用。
換句話說,這意味著調(diào)用開銷減少了,因為只有一個調(diào)用,而不是多個調(diào)用。結(jié)果,增加了芯片對數(shù)據(jù)做有用工作的時間。
SambaNova 首席執(zhí)行官兼創(chuàng)始人 Rodrigo Liang 表示:“借助數(shù)據(jù)流,你可以不斷改進(jìn)這些模型的映射,因為它是完全可重構(gòu)的。因此,隨著軟件的改進(jìn),你獲得的收益不是增量的,而是相當(dāng)可觀的,無論是在效率方面還是在性能方面。”
下面是SambaNova的16個SN40L芯片系統(tǒng)在Llama3.1 405B/70B/7B上的表現(xiàn),在Llama 3.1 7B模型下,以完全的16bit精度運行,其每秒的Token生成數(shù)竟然高達(dá)1100個。這比此前Groq推出的基于LPU(號稱推理速度是英偉達(dá)GPU的10倍,功耗僅1/10)的服務(wù)器系統(tǒng)在Llama 3 8B上的最快基準(zhǔn)測試結(jié)果每秒生成800個Token還要快。即使是在Llama3.1 405B模型上,以完全的16bit精度運行,16個SN40L芯片的系統(tǒng)每秒Token生成數(shù)也能夠高達(dá)114個。而在Llama 3.1 7B模型下,其每秒的Token生成數(shù)更是高達(dá)1100個。由于內(nèi)存容量限制,與其最接近的競爭對手需要數(shù)百塊芯片來運行每個模型的單個實例,因為 GPU 提供的總吞吐量和內(nèi)存容量相對較低。
SN40L在Llama 3.1 70B模型上進(jìn)行批量推理和吞吐量縮放表現(xiàn),隨著批量大小的變化,吞吐量接近理想規(guī)模。
據(jù)SambaNova 介紹,基于8個SN40L芯片的標(biāo)準(zhǔn)AI服務(wù)器系統(tǒng)在運行80億參數(shù)的AI大模型時,速度達(dá)到了基于8張英偉達(dá)H100加速卡的DGX H100系統(tǒng)的3.7倍(每生成20個Token所耗費的時間),而整個系統(tǒng)所占用的空間也只有DGX H100的1/19,模型切換時間也僅有DGX H100系統(tǒng)的1/15。
在芯片推理性能方面,SN40L達(dá)到了英偉達(dá)H100的3.1倍;在訓(xùn)練性能方面,SN40L也達(dá)到了英偉達(dá)H100的2倍。
總結(jié)來說,SambaNova 可以在8個SN40L芯片的系統(tǒng)上運行數(shù)百個大模型(在16個SN40L芯片的系統(tǒng)上可以同時運行多達(dá) 1000 個 Llama 3 7B大模型),同時還能夠保持很快的響應(yīng)速度,擁有完全精度。更為關(guān)鍵的是,其總擁有成本比競爭對手低 10 倍(雖然未明確是哪款競品芯片,但從前面的對比來看,應(yīng)該說的是H100)。
“SN40L的速度展現(xiàn)了Dataflow的魅力,它加速了 SN40L 芯片上的數(shù)據(jù)移動,最大限度地減少了延遲,并最大限度地提高了處理吞吐量。它比 GPU 更勝一籌——結(jié)果就是即時 AI,”SambaNova Systems 聯(lián)合創(chuàng)始人、斯坦福大學(xué)知名計算機(jī)科學(xué)家 Kunle Olukotun 表示。
值得一提的是,在基于SN40L芯片的系統(tǒng)之上,SambaNova 還構(gòu)建了自己的軟件堆棧,其中包括今年2月28日首次發(fā)布的擁有1萬億參數(shù)的Samba-1 模型,也稱為 Samba-CoE(專家組合),其使得企業(yè)能夠組合使用多個模型,也可以單獨使用,并根據(jù)公司數(shù)據(jù)對模型進(jìn)行微調(diào)和訓(xùn)練。
在芯智訊看來,SN40L相比目前的一些AI芯片來說,擁有著顯著的優(yōu)勢,比如其可重構(gòu)的數(shù)據(jù)流架構(gòu),可以調(diào)整硬件來滿足各類工作負(fù)載要求,使得其可以很好的處理圖像、視頻及文本等不同的數(shù)據(jù)類型,適合多模態(tài)AI應(yīng)用。但是,相對于英偉達(dá)的GPU可以靈活的處理各種模型來說,SN40L在靈活性上還是要略遜一籌,因為相關(guān)模型必須要經(jīng)過專門的調(diào)整才能在其上面運行。而且,英偉達(dá)強(qiáng)大的CUDA生態(tài)對于其來說也是一大挑戰(zhàn)。
不過,在AI模型參數(shù)越來越大,所需的芯片數(shù)量和資金成本越來越高的背景之下,SN40L在性能和成本上的優(yōu)勢,以及可以輕松實現(xiàn)對于萬億參數(shù)大模型的支持,因此也有著與英偉達(dá)直接競爭的機(jī)會?;蛟S正因為如此,SambaNova也獲得了資本的青睞,目前已經(jīng)累計獲得了超過10億美元的融資。
文章來源:芯智訊
聯(lián)系人:袁經(jīng)理
手機(jī):051683539599
電話:051683539599
地址: 徐高新康寧路1號高科金匯大廈A座14樓