行業(yè)新聞

芯片雙雄，決戰(zhàn)Chiplet

自遵循IBM的要求，將X86架構和產品授權AMD以來，英特爾和AMD就成為了處理器領域當之無愧的巨頭。尤其在PC時代，這兩者幾無競爭對手，他們也一直引領著芯片設計。

雖然錯過了手機時代，但現在的服務器和AI時代，這兩家半導體“老兵”有了廣大的發(fā)揮之地。為了滿足終端的需求，他們也在自己的芯片設計和制造上各出奇招。

繼該領域的先驅 AMD 之后，英特爾在日前的Intel Innovation活動上也宣布推出基于 Chiplet 的產品 Meteor Lake（圖 1）。據介紹，Meteor Lake 的結構結合了 5 種類型的tile：當中包括了4 種類型的tile（CPU/IO/圖形/SoC）以及位于所有這些tile之下的基本tile。從這顆芯片開始，我們正式見證了英特爾全面進入Chiplet時代。

來了來了.png

圖1

AMD和Intel，也再次在同一個戰(zhàn)場上相遇。

一、為什么需要Chiplet？

Chiplet 是小型模塊化芯片，組合起來形成完整的片上系統(tǒng) (SoC)。它們提高了性能、降低了功耗并提高了設計靈活性。概念已經存在了幾十年，早在2007年5月，DARPA也啟動異構異構系統(tǒng)的COSMOS項目Chiplet，其次是用于Chiplet模塊化計算機的 CHIPS 項目。但最近，Chiplet在解決傳統(tǒng)單片 IC 縮小尺寸的挑戰(zhàn)方面受到關注。這是當前芯片制造產業(yè)發(fā)展瓶頸與終端對芯片性能需求之間矛盾所產生的妥協(xié)結果。

重中之重.png

圖2

據Yole表示，摩爾定律背后的創(chuàng)新引擎使得不斷提高的設備集成度能夠繼續(xù)適應相同的物理尺寸。例如，如果光刻縮小可以使構建塊縮小 30%，那么就可以在不增加芯片尺寸的情況下增加 42% 的電路。這大致是幾十年來邏輯收縮的速度。

然而，雖然邏輯往往可以很好地擴展，但并非所有半導體器件都享有這一優(yōu)勢，例如可以包含模擬電路的 I/O，其擴展速度約為邏輯的一半，并且即使對于最領先的晶圓代工廠TSMC而言，SRAM 單元最近向 3nm 的過渡尺寸幾乎沒有，這就讓人不得不尋找新的出路。此外，完整的 SOC 不僅需要邏輯門，還需要許多不同類型的器件電路，以及維持市場競爭力的最低水平創(chuàng)新。有見及此，設計師已經開始選擇設計更大的整體die。然而，較大芯片的危險在于對良率的影響，因為隨著芯片變得越來越大，它包含足夠的關鍵缺陷而導致其功能失調的可能性就更高。

休息休息吧.png

圖3

而且，光刻縮小成本并不便宜。因為改變晶體管的形狀和尺寸只能帶來價格更高的設備和更長的處理時間。因此，采用 7nm 工藝加工的晶圓成本高于采用 14nm 工藝加工的晶圓成本，5nm 工藝的成本高于 7nm 工藝，依此類推……當我們在成本模型中檢查這一趨勢時，我們看到一個明顯的趨勢：隨著晶圓價格的上漲，小芯片方法的經濟性比單片方法更具吸引力。

啛啛喳喳.png

圖4

據Yole所說，每個新芯片設計都需要設計和工程資源，并且由于新節(jié)點的復雜性不斷增加，每個新工藝節(jié)點的新設計的典型成本也隨之增加。這進一步激勵人們創(chuàng)建可重復使用的設計。小芯片設計理念使這成為可能，因為只需改變小芯片的數量和組合即可實現新的產品配置，而不是啟動新的單片設計。例如，通過將單個小芯片集成到 1、2、3 和 4 芯片配置中，可以從單個流片創(chuàng)建 4 種不同的處理器品種。如果完全通過整體方法完成，則需要 4 次單獨的流片。

正因為如此，異構小芯片集成市場正在快速增長。據估計，小芯片的市場價值預計到 2025 年將達到 57 億美元，到 2031 年將達到 472 億美元。電子設計中對高性能計算、數據分析、模塊化和定制的需求不斷增長正在推動這一增長。

圖5

總結而言，我們認為chiplet 具備以下四個優(yōu)點：

1、通過將功能塊劃分為小芯片，我們可以防止芯片尺寸增加。這可以提高良率并簡化設計/驗證。

2、可以為每個小芯片選擇最佳工藝。邏輯部分可以采用尖端工藝制造，大容量SRAM可以使用7nm左右的工藝制造，I/O和外圍電路可以使用12nm或28nm左右的工藝制造，從而減少了設計和制造成本。制造成本。如果采用28nm左右的工藝，甚至可以嵌入閃存。

3、輕松制造衍生類型，例如相同邏輯但不同外圍電路，或相同外圍電路但不同邏輯。

4、讓來自不同制造商的小芯片可以混合使用，而不僅僅是局限在單個制造商內。

然而，在英特爾和AMD最新發(fā)布的信息和產品看來，他們似乎對Chiplet有不一樣的思考。

二、英特爾的選擇

從名為“Ponte Vecchio”的芯片我們可以看到，英特爾充分利用了該小芯片的優(yōu)勢。

而如圖所示，Ponte Vecchio的整體tile面積比“Sapphire Rapids ”要小一點（Sapphire Rapids是400平方毫米x 4，也就是1,600平方毫米。Ponte Vecchi總共不到1,300平方毫米），但是有實際上是16個tile。它由一個計算tile、8個Rambo緩存tile、8個HBM2e I/Ftile和2個Xe-Linktile組成（還有很多HBM的基礎tile和控制器，并且有8個HBM。但是，讓我們將其從計數中排除）。

巴巴爸爸.png

圖5：左起Sapphire Rapids XCC/Sapphire Rapids HBM/Ponte Vecchio

基礎tile相當大，不過只是簡單的連接了走線，集成了HBM控制器等，而且工藝是Intel 7。計算塊的尺寸小于 100 平方毫米，因為采用 TSMC N5。Rambo Cache 仍然是使用Intel 7，但是到了HBM2e SerDes 則用了TSMC N7。通過分離功能塊，我們能夠提高驗證和良率，并且現在可以對每個塊使用最佳工藝。

由于它同時使用EMIB和Foveros封裝連接技術，因此它滿足上面談到的Chiplet優(yōu)勢中的1和2，盡管它偏離了UCIe指定的chiplet。除了完整的英特爾數據中心 GPU Max 1550 之外，該產品線還包括半尺寸的數據中心 GPU Max 1100，可滿足 3和4所說的優(yōu)勢，但考慮到目前這還不是必要條件，Ponte Vecchio可以說是“正確利用chiplet思想的產品”。

問題在于 Xeon Max，或者更確切地說 Sapphire Rapids（圖片5中排列在最左

誠然，物理上它是一個由四個tile組成的chiplet，但每個tile具有包括CPU核心、內存控制器、PCIe/CXL、UPI和加速器在內的所有功能，并且tile尺寸為400平方毫米。另外，因為我們按照這種形狀排列了四塊tile，所以我們必須準備兩種鏡面對稱的tile，所以這不符合上文談到的1到3優(yōu)勢。

今年（2023年）3月舉行的DCAI投資者網絡研討會上展示了后繼產品Emerald Rapids的樣品（圖6），但這次不需要準備兩種類型的tile，但tile的尺寸增加到幾乎是光罩限制（芯片尺寸限制），并且優(yōu)點1、2和3仍然完全被忽略。

男男女女.png

圖6：封裝與Granite Rapids相同，因此tile尺寸約為25.2 x 30.9毫米，使其達到778.7平方毫米的巨大尺寸。

雖然這個Xeon Scalable物理上是一個chiplet，但它的設計原理與上面寫的“chiplet的有點”不同。不過，他們看起來很自信。這主要有兩點原因。

原因一：該小芯片具有內置內存控制器。這意味著出現的內存通道將根據小芯片的數量而變化。事實上，如果你看一下照片 2 右下角的圖表，則可以發(fā)現有：

3 個小芯片：12 通道 DDR5
2 個小芯片：8 通道 DDR5
1個chiplet：如果保持原樣，它將成為4通道DDR5，因此請準備另一個8通道的chiplet。

這就是它的意思。此外，如果有 4 個或更多小芯片，DDR 將是 16 通道或更多，從而無法保持與平臺的兼容性。

原因二：Tile尺寸很大。根據Hot Chips披露的信息，Granite Rapids配備了4MB/核心的L3。這意味著每個核心的面積大小比 1.875MB/核心 Sapphire Rapids 大得多。

核心數量本身尚未正式公布，但根據目前流傳的信息，似乎最多為 132 個核心，這意味著每塊 44 個核心。包括DDR5內存控制器在內，共有46個塊。

我認為 Granite Rapids 一代計算 Chiplet 的結構，據此估計，是這樣的（圖 1）。有48個12x4塊，其中44個是CPU，2個是內存控制器（其余兩個未知，但它們實際上可能是CPU的冗余塊）。

密密麻麻.png

圖7：Granite Rapids生成計算chiplet

用橙色繪制的水平網格在 Chiplet 內完成，但紅色垂直網格通過 EMIB 連接多個 Chiplet。因此，對于一個chiplet，垂直方向有6個網格，水平方向有4個網格，但對于2個chiplet，垂直方向有6個網格，水平方向有8個網格，而對于3個chiplet，則有6個網格。垂直方向12個網格，水平方向12個網格，它就成為一本書。

到目前為止一切順利。這是小芯片的一種形式，但問題是，這個計算塊有多大？

以 Sapphire Rapids 為例，一塊 400 平方毫米的tile包含 20 個等效塊。換句話說，每個塊的大小約為 4 毫米 x 5 毫米，即 20 平方毫米。實際上，每個塊的尺寸較小，約為 13.2 平方毫米，因為 PHY 和其他組件放置在該塊周圍。

現在，如果我們忘記 PHY 并假設該塊的大小不變，則 48 個塊的大小將為 633.6 平方毫米。

現實中，由于工藝從Intel 7改為Intel 3，我們可以預期面積會更?。↖ntel公告稱Intel 4中HP Library的面積將是Intel 7的0.49倍）。但是， L3緩存從1.875MB顯著增加到4MB，工藝小型化對于這個L3緩存來說效果不是很大（因為布線層的間距比晶體管的尺寸影響更大。說實話，沒有Intel 7 和 Intel 4 之間存在很大差異，Intel 3 可能也是如此），所以這并不是什么大問題，但遠非差異的一半。那么，如果能夠將633.6平方毫米壓縮到600平方毫米左右，豈不是一個好主意？

考慮到將包含用于 EMIB 的 PHY 和用于 DDR5 的 PHY，預計雖然形狀會橫向較長，但面積約為 700 平方毫米，與 Emerald Rapids 相差不大。簡而言之，它太大了，不能稱為chiplet

為什么Intel要選擇良率似乎越來越差的解決方案呢?筆者認為，這主要是因為英特爾覺得Sapphire Rapids（包括下一個Granite Rapids，甚至之后的Diamond Rapids）之后的解決方案變成——“如果可能的話，我想制作一個巨大的整體die，但這在物理上是不可能的（標線限制），所以我認為它意思是“把它分開然后再重新組合起來”。這正是內部網格擴展后的樣子。換句話說，他們可能希望將所有內容保留在一個芯片上，而不盡可能地劃分功能。

這樣做性能當然更好。而且，英特爾的巨型芯片方法可以大大降低 CPU 之間的通信延遲，并且對內存控制器的訪問速度更快。作為權衡，預計驗證工作將變得更加復雜，并且由于芯片尺寸更大，良率將下降。

但是，AMD在Chiplet上，卻有了另一種思路。

三、AMD的思考

首先，我們看一下AMD在Chiplet上的演進，這首次在Ryzen 處理器上實現。

據了解，第一代 Ryzen 架構相對簡單，采用SoC 設計，從內核到 I/O 和控制器的所有內容都位于同一芯片上。引入了 CCX 概念，其中 CPU 核心被分為四核單元，并使用無限高速緩存進行組合。兩個四核 CCX 形成一個芯片。

凄凄切切.png

圖8：AMD Ryzen 1000 Zen 1 CCD

值得注意的是，盡管推出了 CCX，但消費類 Ryzen 芯片仍然是單芯片設計。此外，雖然 L3 緩存在 CCX 中的所有核心之間共享，但每個核心都有自己的slice。訪問另一個 CCX 的末級緩存 (LLC) 相對較慢，如果是在另一個 CCX 上，則速度更慢。這導致游戲等對延遲敏感的應用程序性能不佳。

吾問無為謂無.png

圖9

到了Zen+ 時代，情況基本上保持不變（節(jié)點縮?。?Zen 2 是一個重大升級。這是第一個基于小芯片的消費類 CPU 設計，具有兩個計算芯片或CCD和一個 I/O 芯片。AMD 在 Ryzen 9 部件上添加了第二個 CCD，其核心數量在消費者領域前所未見。

16MB L3 緩存對于 CCX 上的所有核心來說更容易訪問（讀?。焊欤?，從而大大提高了游戲性能。I/O 芯片被分離，Infinity Fabric 被升級。此時，AMD 在游戲方面稍慢一些，但提供了比競爭對手英特爾酷睿芯片更出色的內容創(chuàng)建性能。

鵝鵝鵝鵝鵝.png

圖10

Zen 3進一步完善了chiplet設計，取消了CCX并將八個核心和32MB緩存合并到一個統(tǒng)一的CCD中。這大大減少了緩存延遲并簡化了內存子系統(tǒng)。AMD 銳龍?zhí)幚砥魇状翁峁┝吮戎饕偁帉κ钟⑻貭柛玫挠螒蛐阅?。Zen 4 除了縮小 CCD 設計外，沒有對 CCD 設計做出顯著改變。

熱熱熱熱熱.png

圖11

來到Epyc系列處理上。資料顯示，在第一代 AMD EPYC 處理器中，英特爾基于四個復制的小芯片。每個處理器都有 8 個“Zen”CPU 內核、2 個 DDR4 內存通道和 32 個 PCIe 通道，以滿足性能目標。AMD 必須為四個小芯片之間的 Infinity Fabric 互連提供一些額外的空間。

據相關預估，在 14 納米工藝中，每個小芯片的芯片面積為 213 平方毫米，總芯片面積為 4213 平方毫米 = 852 平方毫米。與假設的單片 32 核芯片相比，這意味著大約 10% 的芯片面積開銷?；谑褂贸墒旃に嚰夹g的歷史缺陷密度數據進行的 AMD 內部良率建模，估計四小芯片設計的最終成本僅為單片方法的約 0.59，盡管總硅消耗量多出約 10%。除了降低成本之外，他們還能夠在產品中重復使用相同的方法，包括使用它們構建 16 核部件，將 DDR4 通道加倍并提供 128 個 PCIe 通道。

但這一切都不是免費的。當小芯片通過 Infinity Fabric 進行通信時，會產生延遲，并且同一小芯片上的 DDR4 內存通道數量不匹配，因此必須謹慎處理某些內存請求。因此到了第二代AMD EPYC處理器（ROME）上，AMD采用了雙芯粒的方法。

據了解，AMD的第二代EPYC的第一個芯粒稱為I/O die(IOD)，是在一個成熟和經濟的12nm工藝中實現的，包含8個DDR4內存通道，128個PCIe gen4 I/O通道以及其他I/O（如USB和SATA, SoC數據結構，和其他系統(tǒng)級功能）。第二個小芯片則是復合核心die(CCD)，在7nm節(jié)點上實現。在實際產品中，AMD將一個IOD與多達8個ccd組裝在一起。每個CCD提供8個Zen 2 CPU內核，因此這種排列方式可以在一個插槽中提供64個內核。

吞吞吐吐拖拖.png

圖12

在第三代的Epyc處理器（Milan）上，AMD提供多達64個核心和128個線程，采用AMD最新的Zen 3核心。該處理器設計有八個小芯片，每個小芯片有八個核心，與Roma類似，但這次小芯片中的所有八個核心都是連接的，從而實現了有效的雙 L3 緩存設計，以實現較低的整體緩存延遲結構。所有處理器都將配備 128 個 PCIe 4.0 通道、8 個內存通道，大多數型號都支持雙處理器連接，并且提供通道內存優(yōu)化的新選項。所有 Milan 處理器都應通過固件更新與 Rome 系列平臺直接兼容。

到了第四代Epyc處理器，AMD在其Chiplet架構上采用多達 12 個 5 納米復雜核心芯片 (CCD) 的小芯片設計，其中I/O 芯片采用 6nm 工藝技術，而其周圍的 CCD 則采用 5nm 工藝。每個芯片具有 32MB 的 L3 緩存和 1 MB 的 L2 緩存。因為AMD 的 Epyc 設計是完全集成的小芯片，也稱為片上系統(tǒng)。這意味著它們將所有核心組件（例如內存和 SATA 控制器）集成到處理器中，主板上不再需要強大的芯片組，從而降低了成本并提高了效率。

AMD的產品技術架構師Sam Naffziger在一篇論文中還表示，AMD是第一批商業(yè)化引入硅中介層技術的公司之一，這讓其在產品設計上擁有了更多優(yōu)勢。早前在接受IEEE采訪的時候他更是直言““我們架構的目標之一是讓它對軟件完全透明，因為軟件很難改變。例如，我們的第二代 EPYC CPU 由被計算芯片包圍的集中式 I/O小芯片組成。當我們采用集中式 I/O 芯片時，它減少了內存延遲，消除了第一代的軟件挑戰(zhàn)?！?/p>

在內存控制器上，和上文提到的Intel做法不一樣，AMD將內存控制器移到了IOD，而CCD只有CPU核心和L3緩存，所以有4/8/12多種CCD，不過兩款產品都可以使用12 通道 DDR5。

一月又一月暈.png

圖13

在EPYC系列中，AMD也一直使用Infinity Fabric來連接CCD和內存控制器，這不但提高了靈活性，還降低了成本。但是，由于使用Infinity Fabric而帶來了延遲增加的性能損失，AMD也不能幸免。即便如此，AMD還是通過使用大容量三級緩存等努力將影響降至最低，這似乎并不是英特爾的選擇。

正如Sam Naffziger所說，AMD正在尋找擴展邏輯的方法，但 SRAM 更具挑戰(zhàn)性，而模擬的東西絕對無法擴展。所以AMD已經采取了將模擬與中央 I/O 小芯片分離的步驟。借助3D V-Cache（一種與計算芯片 3D 集成的高密度緩存小芯片），AMD分離出了 SRAM。展望未來，公司可能會看到有更多類似的操作。

最后，我們重申一下，這兩家公司的Chiplet戰(zhàn)略都是基于當前所見的產品所做的分析，并不代表他們的最終策略。但從這些分析中，我們無疑能給Chiplet的設計帶來更多的思考。

參考鏈接：

1. https://www.yolegroup.com/strategy-insights/chiplets-why-now/

2. https://pc.watch.impress.co.jp/docs/column/tidbit/1531382.html

3. https://ieeexplore.ieee.org/document/9499852

上一個：最強手機芯片，花落誰家下一個：存儲芯片，拐點將至