以銅為鑒,可正衣冠;以古為鑒,可知興替。在這個人工智能和體系結(jié)構(gòu)風(fēng)起云涌的時代,在信息洪流的狂轟濫炸下,唯有拉長時間尺度濾掉高頻的短期波動,才能看清人工智能與計算產(chǎn)業(yè)的興衰更替。
今天不聊短期的技術(shù)熱點(diǎn),主要聊聊稍稍長一些的時間線上的興替。
過去十年,是AlexNet引爆深度學(xué)習(xí)算法熱潮的十年,用幾塊GPU就可以完成16000個CPU核才能完成的事情,也是GPU與NVidia在計算產(chǎn)業(yè)崛起的十年。AlexNet引爆的深度學(xué)習(xí)并推動了計算產(chǎn)業(yè)對算力的軍備競賽。過去十年,大家從GFlops卷到TFlops卷到PFlops,甚至卷到EFlops,單位算力的成本也是逐年下降,AlexNet當(dāng)年用的GTX 580才512個cuda核心,到今天RTX 4090已經(jīng)到了16384個cuda核心,足足提升了32倍,算力更是提升了上百倍,但售價也僅僅從500美元增加到了1500美元。老黃甚至喊出了“The more you buy, the more you save”,算力成本的下降也推動著深度學(xué)習(xí)模型在計算量越來越大的方向上一路狂奔,探索著智能的邊界。
硬件、算法和鈔票三者相互影響,不斷塑造著智能的形態(tài)。市場可以接受的硬件成本受限于算法能力給大家塑造的預(yù)期,硬件成本又限制了給算法提供的最大算力規(guī)格和形態(tài),算力規(guī)格和形態(tài)則反過來篩選了算法模型的規(guī)模和形態(tài)。Google Brain曾經(jīng)提出過hardware lottery的說法。硬件通過自身形態(tài)在篩選算法的形態(tài),為更適應(yīng)硬件形態(tài)的算法提供超額的可擴(kuò)展性,從而提高這一類算法在能力上勝出的可能性;算法也在通過在市場上證明其未來潛力來引導(dǎo)著硬件的形態(tài),而硬件架構(gòu)層面的各種基本原理又進(jìn)一步與算法的引導(dǎo)相互制衡;市場則具有劇烈的波動性,當(dāng)算法能力發(fā)生里程碑式的質(zhì)變時,市場可以接受的硬件成本會急劇提升,進(jìn)一步強(qiáng)化這種算法和與之匹配的硬件形態(tài),形成對其他形態(tài)的進(jìn)一步擠壓,同時,軟硬件形態(tài)也可以在這個階段逐漸走向成熟,降低價格。波峰過后市場又會回到相對更加理性的成本范疇;而圍繞這一切的軟硬件和商業(yè)生態(tài)又會給整套軟硬件和算法的演進(jìn)賦予非常強(qiáng)的慣性,軟硬件生態(tài)的興衰更替存在巨大的路徑依賴,只存在新增的部分解決新的需求和不再重要的需求被逐漸淘汰,基本不存在直接替換,這背后也是大大小小的軟件生態(tài)位的成長和衰退。
上一個十年的起點(diǎn),表面上是AlexNet讓智能的形態(tài)跨上了一個新臺階,背后是老黃多年孕育的CUDA和GPGPU成功篩選出了以大規(guī)模并行計算為主的深度學(xué)習(xí)范式,而深度學(xué)習(xí)范式形成的16000核CPU和幾張游戲卡的鮮明對比又進(jìn)一步拉開了GPU和CPU在通用計算方面的巨大差異,讓市場看到了低成本算力帶來的智能形態(tài)的巨大可能性。但除了算力成本逐年下降這一主要推動力外,NVidia的成功還有老黃多方面選擇共同鑄就。
尊重生態(tài)的慣性,生態(tài)才能為你所用,GPU并不是直接取代了CPU,盡管NVidia早就確立了在深度學(xué)習(xí)市場的統(tǒng)治地位,但很長一段時間內(nèi)一直作為PCIe卡形態(tài)存在,在Intel的游戲規(guī)則下切入數(shù)據(jù)中心市場,直到把自己做成了Intel塑造的計算機(jī)形態(tài)下的主角,才借著用戶對于IO帶寬的巨大訴求,開始推廣自己的NVLink以及整機(jī)形態(tài)甚至CPU;軟件上CUDA采用C/C++擴(kuò)展形態(tài)切入早已成為infra層面事實標(biāo)準(zhǔn)的C/C++世界,骨子里與C/C++的設(shè)計哲學(xué)類似;雖然投入巨量資源做各個行業(yè)的上層軟件,但并不爭奪軟件生態(tài)位,只是為了促進(jìn)這些GPU之上的生態(tài)位變得足夠大,至于這些生態(tài)位被誰占據(jù)了,老黃其實并不在乎,更多地是利用生態(tài)的慣性塑造這些生態(tài)位對CUDA的路徑依賴。
是老黃沒有能力自己設(shè)計一套互聯(lián)協(xié)議嗎?是NVidia的軟件工程師寫不出一個深度學(xué)習(xí)框架嗎?無數(shù)AI芯片競爭者和效仿者在降低算力成本這一主干上卷出了無數(shù)的花活,但敗在了無數(shù)其他的選擇上。當(dāng)然這些選擇有主動的,也有被動的,面對一個龐然大物,面對一個近乎壟斷的生態(tài),有時候就是沒得選。想創(chuàng)造一個完美符合上述邏輯的選擇本身就是最難的一件事。而這種壯舉,老黃自己就給大家示范過不止一遍。
其實放到三十年前NVidia剛成立的時候,CPU的統(tǒng)治力是驚人的,畢竟這是自計算機(jī)誕生以來就存在的唯一形態(tài),一且軟件世界都是建立在CPU的體系之上的。雖然軟件世界和市場對計算機(jī)的需求越來越強(qiáng),存在著廣泛專用芯片的需求,但隨著摩爾定律的演進(jìn),CPU性能也越來越強(qiáng),晶體管也越發(fā)富余,這就導(dǎo)致很多專用設(shè)備承載的計算任務(wù)在變得穩(wěn)定和普遍之后,會很快集成進(jìn)CPU,與顯卡同時代的還有聲卡、視頻解碼、加解密的專用設(shè)備,最后都變成了CPU的幾條指令,而相應(yīng)的專用設(shè)備都被掃進(jìn)了歷史的垃圾堆。唯有顯卡活了下來,因為三維圖像領(lǐng)域天花板足夠高,老黃與游戲廠商相互成就,創(chuàng)造了比摩爾定律跑得更快的黃氏定律,卷死了等待圖像領(lǐng)域逐漸收斂的集成顯卡,顯卡不斷消耗越來越多功耗和晶體管創(chuàng)造出精美的游戲畫面,也阻擋了CPU吞噬顯卡的腳步。
其實這也是為什么在過去幾年里,我一直強(qiáng)調(diào)DSA路線不光要著眼于某一代DSA vs GPU的性能比較,更要去塑造一個比黃氏曲線更陡峭、能維持?jǐn)?shù)十年的性能提升曲線極其背后穩(wěn)定的方法論,否則,GPU就是新的黑洞。君不見,NVidia毫不猶豫地集成TensorCore、TMA,此情此景,恰如當(dāng)年CPU不斷吞噬各類專用任務(wù)加速卡。而老黃則是在創(chuàng)立NVidia的頭幾年就意識到這個問題,并且致力于去塑造黃氏曲線來扼殺了沿著摩爾定律行進(jìn)CPU的吞噬顯卡的企圖。當(dāng)然這只是第一步,讓顯卡作為獨(dú)立的形態(tài)存在,而AI芯片在過去十年的廝殺中,仍然遵循著和黃氏曲線類似的步伐,甚至還跟不上這個步伐,也因此很難獲得獨(dú)立形態(tài)的資格。
后面建立CUDA和可編程著色器,更是神來之筆,展示了尊重生態(tài)慣性下與CPU競爭的正確姿勢。整個計算機(jī)產(chǎn)業(yè)在Intel的帶領(lǐng)下,繪制了整個軟硬件生態(tài),這種生態(tài)的巨大慣性并非一個顛覆式創(chuàng)新的全新處理器架構(gòu)所能撼動的,數(shù)據(jù)流處理器與經(jīng)典的CPU架構(gòu)的競爭就是一個典型的例子,生態(tài)的慣性最終通過經(jīng)典CPU架構(gòu)引入亂序發(fā)射,徹底吞噬了數(shù)據(jù)流架構(gòu)的精華而收場。而NVidia在通用計算領(lǐng)域的競爭也是在Intel構(gòu)建的主從架構(gòu)下開始萌發(fā),始終把自己放在一個PCIe設(shè)備的角色上,并構(gòu)建CUDA技術(shù)棧用于孕育未來增量的軟件體系,而非試圖顛覆或替換當(dāng)時已有的軟件體系,然后等待一個“硬件彩票”,等來了深度學(xué)習(xí),從此讓這部分從屬設(shè)備和增量的軟件體系成長的足夠大,大到一臺服務(wù)器要配置8張顯卡,大到成為一個全新的甚至更主要的軟件生態(tài),這期間Intel也一直卡著PCIe標(biāo)準(zhǔn)的快速升級,老黃也是一直等著這一塊帶寬的需求以及自己的生態(tài)累積到一個閾值,才開始拋開Intel在自己的體系內(nèi)搞NVLink。
今天的計算機(jī)體系,其實仍然是Intel一手建立的體系,我們?nèi)匀恍枰狢PU作為中央處理器去運(yùn)行操作系統(tǒng),處理各種事務(wù),即使是NVidia DGX整機(jī),也同樣保留了這個形態(tài),只是NVidia自己作為從屬設(shè)備已經(jīng)占據(jù)了90%以上的硬件和軟件價值。今天這個時代和過去并無不同,只是CPU變成了GPU,而GPU變成了廣大AI芯片挑戰(zhàn)者,今天我們看到的NVidia體系有多么強(qiáng)大,當(dāng)年老黃看到的CPU的體系就有多么強(qiáng)大,只不過老黃找到了一條既尊重生態(tài)慣性,又有機(jī)會漸進(jìn)改造生態(tài)的一套完美的邏輯。
老黃一手建立的CUDA生態(tài)和GPGPU在過去十年與深度學(xué)習(xí)發(fā)生了愈演愈烈的反應(yīng),也在深刻得影響著深度學(xué)習(xí)的形態(tài),這種算法與硬件的螺旋反應(yīng)幾乎是在不斷強(qiáng)化AI的形態(tài)就是NVidia的形態(tài),可以說留給挑戰(zhàn)者的空間幾乎沒有,CUDA生態(tài)綁定了GPGPU算力,又綁定了深度學(xué)習(xí)框架的生態(tài),而GPGPU算力又不斷推動深度學(xué)習(xí)向著算力黑洞方向演進(jìn),本身GPGPU在算力方面也是一個相當(dāng)不錯的架構(gòu),還扮演著DSA黑洞的角色,可以說幾乎是沒有留下多少給挑戰(zhàn)者切入的機(jī)會。
不過也不是完全沒有。老黃在深度學(xué)習(xí)引爆之后,為了劃分計算和游戲兩個市場可是在刀法上費(fèi)勁了腦筋。畢竟臭打游戲的都摳摳搜搜,遍地等等黨,定價沒法太高;而深度學(xué)習(xí)都是數(shù)據(jù)中心企業(yè)用戶,大把大把的鈔票,定價低了太過良心;但無奈深度學(xué)習(xí)和打游戲?qū)λ懔Φ男枨蠖挤浅8?,很難做出區(qū)分度,游戲卡簡直就是深度學(xué)習(xí)良心卡,甚至發(fā)布過公告禁止數(shù)據(jù)中心買便宜又好用的游戲卡。后來老黃終于找到了合適的刀法,切在內(nèi)存帶寬和內(nèi)存容量上,從此游戲卡是高算力小容量小帶寬,計算卡是高算力大容量大帶寬,后面再給計算卡插上NVLink,徹底讓游戲卡和計算卡變成了兩種形態(tài)。
這精準(zhǔn)的刀法又產(chǎn)生了算法、硬件與鈔票的微妙化學(xué)反應(yīng)。深度學(xué)習(xí)開始從視覺領(lǐng)域,卷積這種只吃算力的形態(tài)上開始緩緩遷移,深度學(xué)習(xí)開始走向更適應(yīng)大容量大帶寬的形態(tài),NVLink更是推動著深度學(xué)習(xí)模型在大和更大的維度一騎絕塵,不斷探索著智能的邊界。老黃也終于可以在兼顧臭打游戲的同時大把大把從數(shù)據(jù)中心坑錢了,顯卡的價格也一路從幾千塊錢飆升到了幾十萬,老黃還在不斷重新定義什么叫一個GPU,把DGX賣到了上百萬的價格。
但這也給老黃自己埋下了一些隱患,畢竟CUDA生態(tài)更多綁定的是算力,通過巧妙地卡在硬件架構(gòu)和軟件編程形態(tài)的中間位置,使得競爭對手難以在算力和硬件形態(tài)貼近現(xiàn)有生態(tài)上取得一個平衡。而隨著計算卡形態(tài)對內(nèi)存和帶寬重要性的放大,算法的需求會愈發(fā)朝著和CUDA生態(tài)綁定沒有那么強(qiáng)的內(nèi)存和帶寬方向發(fā)展,事實上也確實如此。而這也一定程度上削弱了自己構(gòu)筑的護(hù)城河。
算法、硬件與鈔票的微妙化學(xué)反應(yīng),微妙就微妙在,其實沒有任何人能真正控制它的走向,生態(tài)也是類似。ChatGPT其實一定程度引爆了上面說的隱患,NVidia辛辛苦苦布局?jǐn)?shù)十年,終于伴隨著AI的崛起構(gòu)建了自己的護(hù)城河,但計算卡引爆的算法新形態(tài)卻極大改變了對硬件的需求。
一年前前,ChatGPT再次引爆了AI的熱潮,這場面,一如十年前AlexNet一樣,全世界范圍內(nèi)都在購置成千上萬的GPU來進(jìn)行大模型上的布局,大模型在老黃的精準(zhǔn)刀法下,搭配算法、硬件與鈔票的微妙化學(xué)反應(yīng),變成了現(xiàn)在這樣一副對內(nèi)存容量和帶寬有極致需求的模樣,甚至在很多情況下算力利用率是非常低的。此情此景,與當(dāng)年Google用上千臺服務(wù)器16000個CPU核驅(qū)動算法識別貓何其相似,屠龍少年終成惡龍,誰又能成為新十年的NVidia呢?
不知不覺鋪墊了這么多,終于回到標(biāo)題了,ChatGPT和AlexNet是一個量級的算法里程碑,AlexNet拉開了上一個十年對算力的軍備競賽,ChatGPT也是為未來十年芯片軍備競賽奠定了基調(diào)。正如我在前一陣提到的那樣,內(nèi)存和帶寬會成為全新的需求,這件事如果只是單單大模型的需求,確定性還沒那么高,但隨著NVidia、AMD和Intel今年在內(nèi)存和帶寬上的發(fā)力會變得確定性更高。硬件的對內(nèi)存和帶寬的升級改造會進(jìn)一步強(qiáng)化模型在內(nèi)存和帶寬上的擴(kuò)展,而ChatGPT又給這方面的擴(kuò)展對模型能力能達(dá)到的高度帶來的足夠確定性。算法、硬件與鈔票的微妙化學(xué)反應(yīng)會不斷強(qiáng)化這個邏輯,任何一方都沒法控制這個走向。
從內(nèi)存和帶寬的角度來看,NVidia的形態(tài)其實非常奢侈,這里面不僅有NVidia極高的利潤率帶來的,也有NVidia在這方面的堅持,因為NVidia肯定希望自己在數(shù)據(jù)中心中的價值占比不斷提高,而對大模型而言,硬件上最有價值的反而是三星海力士的內(nèi)存和NVLink。而這些都沒辦法像CUDA之于算力那樣構(gòu)建穩(wěn)固的護(hù)城河,唯有在內(nèi)存和帶寬的規(guī)格升級速度上塑造增長曲線,靠曲線的陡峭程度卷。這里面不僅是絕對規(guī)格的提升,也包含性價比的提升,也就是老黃所說的“The more you buy, the more you save”。而老黃目前的產(chǎn)品尚未呈現(xiàn)出這方面增長的潛力,目前更多是靠海力士擠的牙膏和NVLink在光模塊層面的突飛猛進(jìn)來迅速拉升。GH200已經(jīng)堆到了TB/s級別的網(wǎng)絡(luò)帶寬,但性價比方面很難說有實質(zhì)性提升。
在今天的大模型用DGX的情況下,成本已經(jīng)偏高的情況下,進(jìn)一步提高算法規(guī)模的動力其實是不足的,畢竟ChatGPT已經(jīng)證明了在目前的規(guī)模下已經(jīng)可以達(dá)到足夠的高度,通過一個數(shù)量級的鈔能力如果不能帶來算法能力的大幅度提升,邊際效益會越來越差。但這一輪芯片軍備競賽其實充滿了太多提升內(nèi)存和帶寬性價比的方式,我們今天不講短期的技術(shù)趨勢,更多還是看長線的興衰更替,NVidia超額的利潤也是潛在的提升性價比的巨大空間,內(nèi)存廠在過去幾十年里無數(shù)次把內(nèi)存價格打下去一個數(shù)量級,說起來NVidia自己的第一代產(chǎn)品也是致力于降低昂貴內(nèi)存的使用上,最后死在了內(nèi)存價格的暴跌上,不過今天其實仍然有很多人在這樣的路線上前赴后繼。
大模型的崛起和各方面的需求其實對于軟件生態(tài)也帶來的巨大機(jī)會,不過由于巨大的慣性,這種機(jī)會始終不會是替換的邏輯,如果不能尊重這種慣性,未來還是會不斷走向失敗。CUDA、PyTorch仍然會長期占據(jù)其所在的生態(tài)位,正如DGX中仍然保持著CPU的生態(tài)位,只不過huggingface等一系列與大模型相關(guān)的各種生態(tài)位逐漸出現(xiàn)和成長壯大,也會不斷削弱其他生態(tài)位的重要性。正如NVidia不斷削弱CPU在數(shù)據(jù)中心的重要性,直到某一天替換成ARM也不會對生態(tài)的慣性造成多大的震動,但這個過程中的路徑依賴仍然是我們需要尊重和正視的。
愿未來芯片、大模型和鈔票的螺旋繼續(xù)飛舞,讓大模型最終可以走進(jìn)千家萬戶,真正改善我們的生活。
文章來源:知乎作者mackler
聯(lián)系人:袁經(jīng)理
手機(jī):051683539599
電話:051683539599
地址: 徐高新康寧路1號高科金匯大廈A座14樓