行業(yè)新聞

乒乓球運動員，與他的芯片帝國

1972年，一個9歲的中國臺灣男孩，被家人送往美國。在肯德基的家鄉(xiāng)，肯塔基州的一家鄉(xiāng)村寄宿學(xué)校讀書。這是一所類似少管所的學(xué)校，據(jù)說這里每個孩子都有紋身，他身上也有，不過是在他的公司股票達(dá)到100美元時，紋了NVIDIA的logo，少年時期的回旋鏢刺青了左臂。

黃仁勛手臂上的紋身

雖然中文不好，但他一直發(fā)揮著華人優(yōu)勢。在體育方面是乒乓球，6年后，15歲的他獲得美國乒乓球公開賽雙打第三名。在事業(yè)方面則是計算機(jī)，20年后，他創(chuàng)立了這個世界上最偉大的半導(dǎo)體公司之一英偉達(dá)。50年后，他幾乎統(tǒng)治整個算力世界。他是英偉達(dá)公司創(chuàng)始人兼CEO黃仁勛。
互聯(lián)網(wǎng)宿命論的鼻祖書《異類》中提到，比爾·蓋茨和史蒂夫·喬布斯出生于1955年，這并非巧合。在他們的青年時期就碰到了計算機(jī)基礎(chǔ)能力大爆發(fā)的時代。1946年第一臺電子計算機(jī)發(fā)明，1968年英特爾成立，AMD1969年成立，這些是“基礎(chǔ)性的時代機(jī)緣”?？梢?，太早，會因為前置技術(shù)不成熟，無法支持更強(qiáng)大的產(chǎn)品能力，太晚，市場已經(jīng)被領(lǐng)先者占據(jù)先發(fā)優(yōu)勢?？梢姡觳旁诔錾鷷r，世界就已開始忙碌地為他做著準(zhǔn)備。
1960年到2000年的四十年之間，世界上最強(qiáng)大的芯片公司陸續(xù)成立。這些公司為后續(xù)整個互聯(lián)網(wǎng)、人工智能、乃至整個人類文明世界的繁榮奠定基礎(chǔ)，這一時期的技術(shù)爆發(fā)前無古人。

01游戲機(jī)男孩

1984年黃仁勛本科畢業(yè)，這一年第一臺Mac電腦發(fā)布，個人電腦時代開啟，相關(guān)領(lǐng)域就業(yè)蓬勃興起，他將1984年稱作“最適合畢業(yè)的年份”。正如2007年蘋果手機(jī)發(fā)布，以及iPhone4發(fā)布后的幾年，都是“最適合畢業(yè)的年份”。
黃仁勛先后于1983-1985年間和1985-1993年間在AMD（美國超威半導(dǎo)體公司）和巨積（LSI Logic Corporation美國電子公司），做芯片設(shè)計師。邊工邊讀花了8年時間，于1990年獲得斯坦福大學(xué)電子工程碩士學(xué)位。
1993年，30歲的黃仁勛，為兌現(xiàn)對夫人的承諾，也為避免被職場淘汰，成立了英偉達(dá)。相比之下，兩位比他大8歲的前輩顯得更加瘋狂——社區(qū)雙非大學(xué)生喬布斯20歲創(chuàng)辦蘋果，麻省波市大學(xué)肄業(yè)生比爾蓋茨19歲創(chuàng)辦微軟。
黃仁勛去年曾在臺大演講，核心內(nèi)容是回顧他創(chuàng)業(yè)歷程中的三個故事。這三個故事對應(yīng)英偉達(dá)乃至GPU市場的三個關(guān)鍵時期。分別可以總結(jié)為：游戲機(jī)男孩、計算平臺雄心、算力有所不為。
游戲機(jī)時期是黃仁勛和比爾·蓋茨的相愛相殺相助史。1995年，微軟推出了PC史上劃時代的Windows 95，并同時推出了以Direct3D為核心的DirectX標(biāo)準(zhǔn)。黃仁勛看準(zhǔn)這個機(jī)會，全面支持微軟的Direct X接口，推出了Riva128芯片，整機(jī)廠商開始集成英偉達(dá)。那時候顯卡還不是主角，戴爾和惠普這樣的組裝機(jī)才是行業(yè)熱門玩家。這是英偉達(dá)與微軟的蜜月期，英偉達(dá)的角色就是配合好微軟賣系統(tǒng)。
2000年，微軟開始進(jìn)軍游戲機(jī)。希望通過Xbox與索尼、任天堂一決雌雄。為了這個項目，微軟大手筆，僅單個項目訂單就支付英偉達(dá)5億美元，當(dāng)時英偉達(dá)一整年的銷售額才5億美元。
2001年，微軟大打價格戰(zhàn)，每賣出一個Xbox就要虧126美元。微軟開始向英偉達(dá)壓價，彼時“皮衣哥”黃仁勛雖然弱小，但不肯向甲方妥協(xié)，并與微軟對簿公堂。隨后微軟將訂單轉(zhuǎn)向英偉達(dá)的對手ATI，導(dǎo)致英偉達(dá)股價大跌90%。
皮衣哥雖然強(qiáng)勢，但并不是莽夫。2003年，英偉達(dá)同意與微軟再次合作Xbox。在一波三折的發(fā)展之中，算力平臺的故事還在繼續(xù)。

02硬件雄心

英偉達(dá)的硬件產(chǎn)品總體沿著兩個方向迭代，其一是產(chǎn)品線，其二是技術(shù)架構(gòu)。
但這兩條線并不完全劃分清晰，英偉達(dá)的產(chǎn)品線像迷宮，堪稱芯片領(lǐng)域的雅馬哈。英偉達(dá)常見的產(chǎn)品線，GeForce系列，消費級GPU產(chǎn)品線就是消費者日常買的顯卡；RTX/Quadro系列，即專業(yè)級GPU產(chǎn)品線；數(shù)據(jù)中心GPU，也即現(xiàn)在各家瘋搶的核心AI芯片；Tesla系列，高性能計算和機(jī)器學(xué)習(xí)任務(wù)，已停止使用該名稱；Tegra系列，移動處理器產(chǎn)品線，已經(jīng)放棄，這屬于算力有所不為的故事。
英偉達(dá)的架構(gòu)演進(jìn)相對清晰，這也側(cè)面說明早期的黃仁勛更偏向技術(shù)玩家，近10年則對商業(yè)世界的理解愈發(fā)老辣。

2024年3月20日，英偉達(dá)GTC發(fā)布了Blackwell架構(gòu)，數(shù)學(xué)家Blackwell在貝葉斯統(tǒng)計方面的開創(chuàng)性工作推動了人工智能領(lǐng)域的發(fā)展。
從這些架構(gòu)的命名習(xí)慣看，黃仁勛的偏好逐漸轉(zhuǎn)向計算機(jī)和人工智能人物。英偉達(dá)的架構(gòu)也愈發(fā)比產(chǎn)品線更出名，換句話說，黃仁勛干脆就是把架構(gòu)當(dāng)成產(chǎn)品線。
自O(shè)penAI發(fā)布ChatGPT以來，生成式人工智能技術(shù)一直是備受關(guān)注的熱門趨勢。這項技術(shù)需要強(qiáng)大的算力來生成文本、圖像、視頻等內(nèi)容。
在這個背景下，英偉達(dá)先后推出V100、A100和H100等多款用于AI訓(xùn)練的芯片。A100和H100一方面是限制對象的典型，另一方面也是ChatGPT訓(xùn)練能力的核心芯片，這也讓A100與H100在民間名聲大噪。
英偉達(dá)A100的官網(wǎng)價是1萬美元，H100是3.6萬美元。以英偉達(dá)的A100芯片的性能指標(biāo)作為限制標(biāo)準(zhǔn)。后來又修改為以綜合運算性能和性能密度為指標(biāo)。其實質(zhì)都是核心傳輸和計算能力。
當(dāng)前，算力焦慮成為新的焦慮類型，國內(nèi)從投資人到程序員都逢人必談A100和H100。也許從來沒有一種電子產(chǎn)品像英偉達(dá)的顯卡一樣“你天天聽說，但是又用不上”。在生成式AI突飛猛進(jìn)之下，英偉達(dá)的產(chǎn)業(yè)鏈地位也進(jìn)一步上升。

03軟件起飛

但英偉達(dá)可不只有硬件產(chǎn)品，英偉達(dá)官網(wǎng)上的軟件目錄比硬件還長。
黃仁勛高瞻遠(yuǎn)矚之處在于，他知道硬件公司不能只做硬件，要做生態(tài)，生態(tài)的另外一只手就是軟件，準(zhǔn)確地說是算力操作系統(tǒng)?？梢哉f英偉達(dá)CUDA(Compute Unified Device Architecture)是算力世界的“Linux+Windows”。
對比來看，Linux開發(fā)者社區(qū)強(qiáng)，商業(yè)社區(qū)弱，Windows商業(yè)社區(qū)強(qiáng)，開發(fā)者生態(tài)管控能力弱。而CUDA，有強(qiáng)大的社區(qū)開發(fā)者、有廣泛的商業(yè)應(yīng)用、還有云。
CUDA與英偉達(dá)GPU芯片的關(guān)系，更像是iOS與iPhone的關(guān)系。它們都提供了強(qiáng)大的開發(fā)者生態(tài)，對上層應(yīng)用性能提供強(qiáng)有力保障，也都相當(dāng)封閉，僅支持自家硬件。
雖然被詬病安裝和維護(hù)繁瑣，CUDA對開發(fā)者依然是友好的，特別是對于深度神經(jīng)網(wǎng)絡(luò)的資深玩家。對他們來說，最終的運算速度是痛點，其他麻煩都可以忽略。一位資深開發(fā)者告訴21世紀(jì)經(jīng)濟(jì)報道記者，實際上，目前幾乎全部的深度學(xué)習(xí)框架都對CUDA進(jìn)行了封裝支持，包括pytorch，TensorFlow等，初學(xué)者學(xué)習(xí)pytorch的第一句話都是torch.cuda.is_available()。這幾乎是深度學(xué)習(xí)領(lǐng)域的“Hello World”，甚至應(yīng)該說是“Hello Nvidia”。
CUDA的前身之一是Brook項目。最初是由斯坦福大學(xué)博士在Ian Buck 在2000前后創(chuàng)立，他們計劃開發(fā)一個新的編程系統(tǒng)，讓GPU可用于除了圖形計算外的其他領(lǐng)域。
這就是社區(qū)的力量，開發(fā)者社區(qū)有高水平的免費勞動力為你添磚加瓦，廢寢忘食，而且還能省去招聘選人的成本，并在未來成為公司的核心員工。Ian Buck后來成為英偉達(dá)CUDA的負(fù)責(zé)人——加速計算部門的總經(jīng)理，這個故事至今還被掛在英偉達(dá)的官網(wǎng)。
2000年，Ian Buck將32張GeForce顯卡并行，將GeForce顯卡改造成了一臺超級計算機(jī)。這一經(jīng)典操作收入了維基百科。底層邏輯很簡單，英偉達(dá)一直拋棄其他任務(wù)，讓芯片干活更純粹，不斷地堆疊并行計算，特別是并行乘法計算。
黃仁勛希望CUDA運行在每一張英偉達(dá)的顯卡上，讓大批天下寒士都可以使用GPU進(jìn)行加速計算。天才的思路總是相似的，納德拉對其扛鼎之作Windows10的KPI就是裝機(jī)量，讓更多的設(shè)備用上Windows10，而不是賺多少錢。這才使得Windows10在很多升級策略上采取了免費方案。

04搭上AI

任何領(lǐng)域的突破都需要機(jī)緣巧合。而你要做的就是做好準(zhǔn)備。2012年，當(dāng)時還在谷歌的吳恩達(dá)和Jeff Dean訓(xùn)練了一個在圖像中識別貓的神經(jīng)網(wǎng)絡(luò)。這一實驗性的項目，對人工智能圖像識別領(lǐng)域卻是劃時代意義的，人臉識別從此開始走入尋常生活。
上述工作使用了大約1.6萬個CPU，而AI大拿Sutskever和Krizhevsky卻僅用2塊英偉達(dá)GeForce。他們所在的Geoffrey Hinton的研究小組，很早就開始使用英偉達(dá)CUDA平臺訓(xùn)練神經(jīng)網(wǎng)絡(luò)。他們也是碰巧發(fā)現(xiàn)GPU竟然比CPU快這么多。
英偉達(dá)則是碰巧遇到人工智能的發(fā)展主要依賴算力。需求依然是第一位的，不然它也不得不滑入技術(shù)過剩的境地。
Sutskever和Krizhevsky都是大名鼎鼎的Geoffrey Hinton的博士。Geoffrey Hinton被譽(yù)為深度學(xué)習(xí)之父，他和另外兩位神經(jīng)網(wǎng)絡(luò)先驅(qū)Yann LeCun、Yoshua Bengio獲得了2018年的圖靈獎。而Sutskever是OpenAI的技術(shù)總監(jiān)。Krizhevsky則是斬獲ImageNet第一名的圖像識別神經(jīng)網(wǎng)絡(luò)AlexNet的第一作者。
任何產(chǎn)品的推廣最好方式都是KOL帶貨。Geoffrey Hinton的推廣和AlexNet的名聲大噪使得GPU和CUDA開始出圈。到底是CUDA帶火了英偉達(dá)的GPU，還是GPU帶火了CUDA。就像到底是iOS讓iPhone成功，還是iPhone讓iOS成功。他們是孿生配套，缺一不可。
英偉達(dá)開發(fā)者項目副總裁Greg Estes回憶道：“黃仁勛在周五晚上發(fā)出了一封電子郵件，說一切都將轉(zhuǎn)向深度學(xué)習(xí)，我們不再是一家圖形公司(no longer a graphics company)。到了周一早上，我們就成為了一家人工智能公司。確實，就這么快?！?/span>

05算力“新能源”

隨著人工智能日新月異，黃仁勛締造的算力帝國一路狂飆。而算力，也成為各家爭奪的戰(zhàn)略資源。
中國信通院算力指數(shù)發(fā)展白皮書2023顯示，2022年中國算力規(guī)模達(dá)到180 Exa Flops(Exa是10的18次方)，占全球總量的33%，其中基礎(chǔ)算力為26%，智能算力分別為28%，超級算力為18%。美國占全球總量的34%，其中基礎(chǔ)算力為27%，智能算力分別為45%，超級算力為48%。在存量算力上，中國和美國是唯二的世界強(qiáng)國。
近年來，中國也在加速算力網(wǎng)絡(luò)的建設(shè)，2023年發(fā)布的《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動計劃》提出，到2025年，計算力方面，算力規(guī)模超過300 EFLOPS，智能算力占比達(dá)到35%。
其中，粵港澳大灣區(qū)就是建設(shè)全國一體化算力網(wǎng)絡(luò)的重要樞紐，在2023年，中國算力網(wǎng)粵港澳大灣區(qū)調(diào)度中心正式上線，這是韶關(guān)市與鵬城實驗室共同建設(shè)的“中國算力網(wǎng)”項目全國首個區(qū)域級資源調(diào)度中心。
算力資源的競賽，已經(jīng)拉開帷幕。一位IT資深從業(yè)者對記者分析道，首先，算力在任何項目上都是重要但又極度短缺的。其次，計算設(shè)備有存量算力，且可以進(jìn)行分布式全球化的采集，比電力、石油更容易跨空間部署。同時，算力早已是一種比能源抽象，不易于普通人理解，重要性卻不亞于能源的資源，因為它可以解決科技瓶頸的問題。
理論、實驗、計算被稱為現(xiàn)代科學(xué)研究中的三大手段。其中計算是最晚加入的小輩，但現(xiàn)在卻起到核心驅(qū)動作用，很多理論可以用計算來驗證，很多實驗可以用算力來組織。
這就是為什么“我們需要的是飛行汽車，但時代卻給我一個140字的推特”，“人類需要AI去洗碗，掃地，做家務(wù)。他們卻在寫詩畫畫搞音樂”，這類嘲笑不值一駁的原因。
假如沒有社交網(wǎng)絡(luò)，就沒有那么多人在互聯(lián)網(wǎng)上發(fā)表觀點，就沒有這么多的在線語料數(shù)據(jù)。沒有語料數(shù)據(jù)，就沒有大語言模型的數(shù)據(jù)基礎(chǔ)，就沒有ChatGPT的核心，也就沒法和人類高智能的交互，遷移學(xué)習(xí)的思路也就不復(fù)存在，后面的洗碗掃地機(jī)器人也會大受影響。相反，自從有了大語言模型之后，很多家務(wù)機(jī)器人開始層出不窮。嘲笑并不都是壞事，這提供另一種角度，也為創(chuàng)造者提供動力。
目前人類文明發(fā)展的底座之一是人工智能。人工智能的發(fā)展底座是算力，算力的底座是電力，電力的底座是各類基礎(chǔ)能源，這是科技樹的邏輯鏈條也是現(xiàn)實掣肘。甚至有業(yè)內(nèi)人士指出，算力是一種被編譯的電力，或者從更大的角度來說，算力是一種被編譯的能源。
黃仁勛說，從現(xiàn)在的角度看，要支持未來的算力需求，也許需要燒掉14個行星，3個星系，4個太陽來提供能源。但這不必，計算框架在提升，芯片的功耗在降低。
從觀望者悲觀的角度看，人類歷史從來都是資源爭奪的“零和博弈”。從人類走出非洲大陸開始，爭奪地盤、食物、能源從未停止。
從探索者樂觀的角度看，從木頭中激發(fā)火，從石頭中發(fā)掘硅，人類一直在做大增量市場，每次資源短缺，新的技術(shù)總能及時涌現(xiàn)。
《流浪地球2》中，周喆直富有深意地說“有人，在幫我們”。

文章來源：21世紀(jì)經(jīng)濟(jì)報道

上一個：半導(dǎo)體世界三次乾坤大挪移下一個：UWB"上車"加速，國產(chǎn)芯片大有可為