英偉達(dá)今年的“壞消息”實(shí)在是有點(diǎn)多。
早在今年早些時(shí)候,就有媒體爆料今年剛發(fā)布的Blackwell GPU出了一點(diǎn)小小的問(wèn)題,其指出這款GPU存在設(shè)計(jì)缺陷,影響了量產(chǎn)進(jìn)度,據(jù)稱該問(wèn)題與臺(tái)積電的CoWoS先進(jìn)封裝有關(guān),最終通過(guò)更改GPU的光罩解決了問(wèn)題。
盡管英偉達(dá)官方并未正面回應(yīng)這一問(wèn)題,但英偉達(dá)首席執(zhí)行官黃仁勛后續(xù)在10月份駁斥了臺(tái)積電應(yīng)承擔(dān)責(zé)任的謠言,強(qiáng)調(diào)臺(tái)積電幫助解決了問(wèn)題并“以驚人的速度”恢復(fù)了生產(chǎn)。
而在他駁斥的一個(gè)月后,新的問(wèn)題誕生了,這次輪到了機(jī)架。據(jù)The Information報(bào)道,英偉達(dá)的Blackwell GPU安裝在高容量服務(wù)器機(jī)架中時(shí),遇到了過(guò)熱問(wèn)題,這一問(wèn)題導(dǎo)致了GPU設(shè)計(jì)的修改和延遲,還引發(fā)了谷歌、Meta和微軟等主要客戶對(duì)Blackwell能否及時(shí)部署的擔(dān)憂。
Blackwell的量產(chǎn)進(jìn)度一拖再拖,具體交付遲遲未確定,即使是英偉達(dá)最忠實(shí)的粉絲,也禁不住會(huì)問(wèn)一句:英偉達(dá),怎么了?
芯片,太熱了?
據(jù)熟悉情況的內(nèi)部人士向外媒透露,英偉達(dá)的Blackwell GPU用于AI和高性能計(jì)算(HPC),在搭載72顆處理器的服務(wù)器中容易過(guò)熱,這類服務(wù)器預(yù)計(jì)每個(gè)機(jī)架的耗電量高達(dá)120千瓦。過(guò)熱問(wèn)題迫使英偉達(dá)多次重新評(píng)估服務(wù)器機(jī)架的設(shè)計(jì),因?yàn)檫^(guò)熱不僅限制了GPU性能,還可能損壞組件??蛻魮?dān)心,這些問(wèn)題可能會(huì)阻礙新處理器在其數(shù)據(jù)中心的部署時(shí)間表。
報(bào)道稱,英偉達(dá)已指示供應(yīng)商對(duì)機(jī)架進(jìn)行多項(xiàng)設(shè)計(jì)修改以解決過(guò)熱問(wèn)題,公司與供應(yīng)商及合作伙伴密切合作,進(jìn)行工程改進(jìn)以提升服務(wù)器的散熱能力,盡管這些調(diào)整在大型技術(shù)發(fā)布中屬于常見(jiàn)做法,但仍然增加了延遲,進(jìn)一步推遲了預(yù)期的發(fā)貨時(shí)間。
針對(duì)延遲和過(guò)熱問(wèn)題,英偉達(dá)發(fā)言人表示,公司正在與云服務(wù)提供商合作,并將設(shè)計(jì)變更描述為正常的開(kāi)發(fā)流程的一部分,其表示,與云服務(wù)商和供應(yīng)商的合作旨在確保最終產(chǎn)品滿足性能和可靠性的期望,同時(shí)繼續(xù)努力解決這些技術(shù)挑戰(zhàn)。
此前,因Blackwell處理器的設(shè)計(jì)缺陷影響良率,英偉達(dá)不得不推遲生產(chǎn)計(jì)劃。據(jù)拆解分析,Blackwell B100和B200 GPU使用臺(tái)積電的CoWoS-L封裝技術(shù),將其兩顆芯片通過(guò)RDL中介層及本地硅互連(LSI)橋連接起來(lái),該設(shè)計(jì)支持高達(dá)10 TB/s的數(shù)據(jù)傳輸速度。
然而,由于GPU芯片、LSI橋、中介層和主板基板之間的熱膨脹特性不匹配,導(dǎo)致了器件翹曲及系統(tǒng)故障。為了解決這個(gè)問(wèn)題,英偉達(dá)對(duì)GPU芯片的頂部金屬層和焊點(diǎn)結(jié)構(gòu)進(jìn)行了修改,以提高生產(chǎn)可靠性。盡管英偉達(dá)未披露具體修改細(xì)節(jié),但表示修復(fù)過(guò)程中需要新掩膜。
最終版本的Blackwell GPU直到10月底才進(jìn)入量產(chǎn)階段,這意味著英偉達(dá)將于明年1月底開(kāi)始發(fā)貨。
過(guò)熱似乎是英偉達(dá)兩次出現(xiàn)問(wèn)題的主要原因,封裝內(nèi)的過(guò)熱,機(jī)架的過(guò)熱,很難保證未來(lái)Blackwell其他地方不會(huì)出現(xiàn)過(guò)熱的問(wèn)題。
事實(shí)上,此前英偉達(dá)準(zhǔn)備要用的HBM就傳出了過(guò)熱問(wèn)題,據(jù)今年5月來(lái)自路透社的報(bào)道,三星最新的HBM3和HBM3E由于過(guò)熱和功耗問(wèn)題,它們未能通過(guò)英偉達(dá)的測(cè)試,直到好幾個(gè)月后,三星才解決了這一問(wèn)題并正式供貨給英偉達(dá)。
有意思的是,半導(dǎo)體分析公司Semianalysis的首席分析師表示,雖然隨著B(niǎo)lackwell的加速推出以及后續(xù)所有芯片,散熱將是一個(gè)主要關(guān)注點(diǎn),但與散熱相關(guān)的Blackwell設(shè)計(jì)問(wèn)題已得到解決。
帕特爾說(shuō):“我認(rèn)為過(guò)熱問(wèn)題已存在數(shù)月,并且大多已得到解決?!彼f(shuō),過(guò)熱芯片的傳言可以追溯到夏天,“當(dāng)我們追蹤這些傳言時(shí),發(fā)現(xiàn)它們被夸大了,”帕特爾8月在X上發(fā)布道。
今年8月,Semianalysis報(bào)告說(shuō),散熱系統(tǒng)出現(xiàn)了問(wèn)題,導(dǎo)致幾家供應(yīng)商進(jìn)行了重新設(shè)計(jì),負(fù)責(zé)報(bào)告的分析師稱這些改動(dòng)“較小”。
Semianalysis指出,大型數(shù)據(jù)中心需要液冷來(lái)作為散熱手段,其分析師在10月寫道:“任何不愿意或無(wú)法提供更高密度液冷的數(shù)據(jù)中心都將錯(cuò)過(guò)為其客戶帶來(lái)巨大性能總擁有成本(TCO)改進(jìn)的機(jī)會(huì),并將在生成式人工智能的競(jìng)賽中落后。”
也有其他學(xué)者提出了不同的觀點(diǎn),喬治亞理工學(xué)院教授Bara Cola認(rèn)為,熱量本身并不是Blackwell面臨的最大挑戰(zhàn)。
“真正的挑戰(zhàn)是機(jī)械應(yīng)力,而不是熱量。我相信英偉達(dá)會(huì)找到為客戶運(yùn)行這些芯片的辦法。像這樣的高性能芯片總是會(huì)運(yùn)行得很熱,關(guān)鍵在于如何平衡溫度——聰明的工程師會(huì)解決這個(gè)問(wèn)題,”Cola通過(guò)電子郵件告訴《PCMag》?!暗?dāng)界面無(wú)法承受熱膨脹應(yīng)力帶來(lái)的影響時(shí),就會(huì)發(fā)生早期失效。這是一個(gè)困難的材料科學(xué)問(wèn)題?!?/p>
但不管是Semianalysis,還是Bara Cola,他們都會(huì)承認(rèn)這樣一個(gè)觀點(diǎn),那就是熱量已經(jīng)成為了英偉達(dá)崛起之路上的最大絆腳石。
芯片,如何散熱?
首先要指出的是,過(guò)熱所導(dǎo)致的問(wèn)題非常致命,過(guò)熱的芯片在冷卻之前會(huì)停止工作,而保持芯片冷卻的能力會(huì)影響每個(gè)芯片在給定時(shí)間段內(nèi)能完成多少計(jì)算工作,停機(jī)時(shí)間和散熱成本會(huì)影響芯片使用壽命期間的總擁有成本,簡(jiǎn)而言之,它決定了每一個(gè)數(shù)據(jù)中心是賺錢還是虧錢。
目前半導(dǎo)體行業(yè)中大部分擔(dān)憂都集中在GB200 NVL72上,它代表了數(shù)據(jù)中心的新前沿。名稱中的“72”指的是服務(wù)器中的72個(gè)Blackwell圖形處理單元,此外還有36個(gè)傳統(tǒng)中央處理單元。由于這么多芯片被緊密地組合在一起以作為一個(gè)超級(jí)芯片發(fā)揮作用,因此單個(gè)機(jī)架會(huì)變得非常熱,需要引入新的散熱手段。
Semianalysis所提到的液冷并非新鮮事物,但迄今為止,在數(shù)據(jù)中心規(guī)模上應(yīng)用液冷的情況相對(duì)較少,據(jù)報(bào)道,Meta已重新設(shè)計(jì)了其數(shù)據(jù)中心,以適應(yīng)未來(lái)幾代AI芯片更高的功率密度和散熱需求。
隨著超大規(guī)模企業(yè)和少數(shù)其他英偉達(dá)客戶在2024年末至2025年上半年開(kāi)始收到他們的芯片,液冷可能會(huì)成為更多企業(yè)的選擇。未來(lái),新的數(shù)據(jù)中心將配備液冷設(shè)施,許多現(xiàn)有設(shè)施也正在進(jìn)行改造。這是一項(xiàng)相當(dāng)艱巨的任務(wù),除了所有組件都必須完美配合以避免任何泄漏外,液體還必須在精確的溫度下循環(huán)。
除了工程和運(yùn)營(yíng)挑戰(zhàn)外,大規(guī)模液冷還帶來(lái)了一系列環(huán)境問(wèn)題。亞馬遜內(nèi)部文件顯示,亞馬遜在一些地區(qū)正在“給當(dāng)?shù)卣默F(xiàn)有基礎(chǔ)設(shè)施帶來(lái)壓力”,以獲取水資源,并“依賴長(zhǎng)期基礎(chǔ)設(shè)施升級(jí)或建立自己的解決方案”來(lái)緩解這一問(wèn)題。
盡管轉(zhuǎn)向液冷需要付出艱苦的努力并給環(huán)境帶來(lái)壓力,但這樣做的激勵(lì)因素也很強(qiáng)烈,隨著越來(lái)越多的Blackwell被交付,數(shù)據(jù)中心必然會(huì)采取這一更優(yōu)異的散熱手段。
不過(guò)英偉達(dá)顯然遠(yuǎn)比數(shù)據(jù)中心更早看到熱量這一問(wèn)題,隨著服務(wù)器芯片的TDP不斷增加,B200芯片的TDP已經(jīng)達(dá)到了1000W,傳統(tǒng)的空氣冷卻解決方案已無(wú)法滿足需求,GB200 NVL36和NVL72完整機(jī)架系統(tǒng)的TDP分別達(dá)到了70kW和近140kW,因此必須用到液冷的解決方案。
去年,英偉達(dá)對(duì)于數(shù)據(jù)中心散熱提出了一個(gè)想法,即同時(shí)用上液體冷卻和浸沒(méi)式冷卻這兩種方式。這一概念結(jié)合了直接液體冷卻(DLC)硅片和為其他組件提供浸沒(méi)式冷卻,是美國(guó)能源部(DOE)在其COOLERCHIPS計(jì)劃下授予的500萬(wàn)美元資助的研究主題。該計(jì)劃旨在將數(shù)據(jù)中心冷卻所消耗的電力降低到IT本身所消耗電力的5%以下。
“很快,當(dāng)今的空氣冷卻系統(tǒng)將無(wú)法滿足需求。當(dāng)前的液體冷卻技術(shù)將無(wú)法應(yīng)對(duì)研究人員預(yù)期未來(lái)數(shù)據(jù)中心中的硅片每平方厘米需要散發(fā)的超過(guò)40瓦的熱量,”英偉達(dá)的文章解釋道。
英偉達(dá)的服務(wù)器冷卻概念與之前在Submer或LiquidStack等公司看到的罐式浸沒(méi)冷卻設(shè)置大相徑庭。它保留了大多數(shù)空氣冷卻和直接液體冷卻機(jī)箱中使用的標(biāo)準(zhǔn)機(jī)架式外形,其采用相變制冷劑——類似于冰箱和空調(diào)中使用的物質(zhì)。隨著主板溫度升高,液體會(huì)沸騰、冷凝,然后滴落回原處。然而,英偉達(dá)的概念也要求對(duì)CPU和GPU進(jìn)行傳統(tǒng)的直接液體冷卻。
從理論上講,這應(yīng)該能讓英偉達(dá)實(shí)現(xiàn)雙溫區(qū):一個(gè)用于高熱設(shè)計(jì)功耗(TDP)組件(如CPU和GPU),另一個(gè)用于較冷的組件(如內(nèi)存或網(wǎng)卡)。
英偉達(dá)對(duì)液體冷卻并不陌生。這家加速器巨頭已經(jīng)為其SXM GPU模塊提供了幾年的液體冷卻外形,然而直到2022年5月的臺(tái)北電腦展,它才開(kāi)始為其流行的A100 PCIe卡提供直接液體冷卻外形,并計(jì)劃從2023年開(kāi)始推出液體冷卻的H100。
英偉達(dá)計(jì)劃在2026年交付一個(gè)結(jié)合液體和浸沒(méi)式冷卻的測(cè)試系統(tǒng),并承諾會(huì)盡快提供實(shí)現(xiàn)該目標(biāo)的進(jìn)展更新。據(jù)介紹,在第一年,工程師們將專注于組件測(cè)試,然后在2025年進(jìn)行部分機(jī)架測(cè)試。為此,英偉達(dá)已邀請(qǐng)液體冷卻專家BOYD Corp協(xié)助設(shè)計(jì)冷板;兩相冷卻冠軍Durbin Group負(fù)責(zé)研制泵;Honeywell提供制冷劑;數(shù)據(jù)中心基礎(chǔ)設(shè)施提供商Vertiv負(fù)責(zé)散熱。
更有意思的是,英偉達(dá)并不是唯一一家致力于數(shù)據(jù)中心冷卻技術(shù)的公司,英特爾也在去年分享了其在開(kāi)發(fā)能夠從單個(gè)芯片中散發(fā)千瓦熱量的多種系統(tǒng)方面取得的進(jìn)展。
其中許多設(shè)計(jì)都聚焦于類似的概念,比如將整個(gè)系統(tǒng)浸入裝滿絕緣液體的容器中,還探索使用先進(jìn)制造技術(shù)將3D蒸汽室嵌入“珊瑚形散熱器”中,而向芯片熱點(diǎn)噴射冷卻水的微型噴嘴是另一種想法。
不過(guò),盡管該領(lǐng)域的研究仍在繼續(xù),但英特爾的財(cái)務(wù)困境導(dǎo)致了一些障礙,包括取消了在俄勒岡州耗資7億美元的液體和浸沒(méi)式冷卻“超級(jí)實(shí)驗(yàn)室”。
文章來(lái)源:半導(dǎo)體行業(yè)觀察
聯(lián)系人:袁經(jīng)理
手機(jī):051683539599
電話:051683539599
地址: 徐高新康寧路1號(hào)高科金匯大廈A座14樓