AMD首席架構(gòu)師分享MI350芯片設(shè)計(jì)細(xì)節(jié)

來(lái)源：Chips and Cheese 發(fā)布時(shí)間：2025-06-30 163

電子芯片電子芯片設(shè)計(jì)應(yīng)用及案例

AMD Instinct GPU的首席架構(gòu)師分享了MI350芯片細(xì)節(jié)。

在近日的AMD Advancing AI 2025 活動(dòng)上，MI350 系列發(fā)布。記者George采訪了AMD Instinct GPU的首席架構(gòu)師Alan Smith。以下是兩者之間有關(guān)MI350 系列的對(duì)話（弱相關(guān)內(nèi)容已經(jīng)刪減）：

George: MI350仍然基于GFX9 架構(gòu)——給觀眾朋友們解釋一下，GFX9也被稱(chēng)為Vega架構(gòu)或者是其衍生架構(gòu)。為什么MI350仍然采用GFX9，而客戶(hù)端產(chǎn)品如RDNA 3和4分別采用的是GFX11和12？

Alan:這是個(gè)很好的問(wèn)題。如您所知，基于前幾代Instinct GPU（從 MI100 開(kāi)始甚至更早，如您提到的Vega 世代）的CDNA 架構(gòu)，都是 GCN（Graphics Core Next）架構(gòu)。

經(jīng)過(guò)數(shù)代演進(jìn)，CDNA 已經(jīng)針對(duì)高性能計(jì)算（HPC）和 AI 的分布式計(jì)算算法類(lèi)型進(jìn)行了高度優(yōu)化。因此，我們認(rèn)為以這個(gè)基礎(chǔ)來(lái)開(kāi)發(fā) MI350，能夠提供我們實(shí)現(xiàn) MI350 系列性能目標(biāo)所需的正確組件。

George:在 GCN 架構(gòu)中，L1緩存和LDS（本地?cái)?shù)據(jù)存儲(chǔ)）是分開(kāi)的。為什么MI350仍然保留這種設(shè)計(jì)？為什么沒(méi)有將它們合并？

Alan:是的，正如您所說(shuō)，這確實(shí)是GCN架構(gòu)的一個(gè)遺留特性。它在某種程度上是計(jì)算單元（CU）構(gòu)建方式的基礎(chǔ)。因此，我們認(rèn)為在這一代產(chǎn)品中，進(jìn)行如此大規(guī)模的微架構(gòu)變更并非合適的時(shí)機(jī)。我們采取的做法是增加LDS的容量。

在之前的MI300系列中，LDS 容量是64 KB，我們?cè)贛I350系列中將其容量提升到了160 KB。此外，我們還增加了LDS的帶寬。我們將LDS到寄存器文件的帶寬提升了一倍，以滿(mǎn)足 MI350 系列中張量核心（Tensor Core）的運(yùn)算速率需求。

George:說(shuō)到張量核心，你們現(xiàn)在為MI350x引入了用于FP8、FP6 和 FP4數(shù)據(jù)類(lèi)型的微縮放格式（microscaling formats）。有趣的是，MI350 的一個(gè)主要差異化特點(diǎn)是FP6的速率與FP4 相同。能談?wù)勥@是如何實(shí)現(xiàn)的以及背后的原因嗎？

Alan:在MI350的這個(gè)時(shí)間節(jié)點(diǎn)，考慮到它將進(jìn)入的市場(chǎng)以及AI的當(dāng)前發(fā)展?fàn)顟B(tài)，我們認(rèn)為 FP6 是一種有潛力不僅用于推理（inferencing），還可能用于訓(xùn)練（training）的格式。因此，我們希望能夠確保 MI350 的 FP6 能力相對(duì)于……其他廠商可能已經(jīng)實(shí)現(xiàn)或?qū)⒁獙?shí)現(xiàn)的方案而言，處于業(yè)界領(lǐng)先水平。

您知道，硬件設(shè)計(jì)周期很長(zhǎng)，我們?cè)趲啄昵熬驮谒伎歼@個(gè)問(wèn)題，并希望確保MI350在FP6性能上具有領(lǐng)先優(yōu)勢(shì)。所以我們決定將FP6數(shù)據(jù)路徑的吞吐量（throughput）設(shè)計(jì)成與FP4數(shù)據(jù)路徑相同。

當(dāng)然，為了實(shí)現(xiàn)這一點(diǎn)，我們不得不增加一些額外的硬件。顯然，F(xiàn)P6 比 FP4 多了幾位（bit），所以叫 FP6。但我們能夠在矩陣引擎（matrix engine）的面積限制范圍內(nèi)，以非常高的能效和面積效率實(shí)現(xiàn)這一目標(biāo)。

George:說(shuō)到數(shù)據(jù)類(lèi)型，我注意到 TF32 不在你們的硬件加速操作（ops）列表上。為什么在 MI350 中去除了這個(gè)特性？或者說(shuō)，為什么它不是 MI350 的主要考慮因素？

Alan: 我們是特意去除了它。我們認(rèn)為在這個(gè)時(shí)間點(diǎn)，BF16（brain float 16）將會(huì)是一個(gè)可被大多數(shù)模型利用以取代 TF32 的格式。并且，我們?cè)贐F16上能提供的吞吐量遠(yuǎn)高于TF32。因此，我們認(rèn)為對(duì)于這個(gè)實(shí)現(xiàn)（MI350）來(lái)說(shuō)，這是一個(gè)正確的權(quán)衡取舍。

George:如果我需要使用TF32，速度會(huì)是多少？會(huì)降到 FP32 的速度嗎？

Alan:您有選擇。我們提供了一些仿真方案。具體的吞吐量細(xì)節(jié)我一下子記不全，但我們確實(shí)提供了基于軟件的仿真方案，可以用BF16來(lái)仿真TF32?；蛘?，您也可以直接將數(shù)據(jù)轉(zhuǎn)換為FP32格式，以FP32的速率來(lái)使用它。

George:新的計(jì)算芯片現(xiàn)在采用的是N3P制程工藝，但物理上每個(gè)芯片上的CU數(shù)量卻從40 個(gè)減少到了36 個(gè)，并且每個(gè)著色器引擎（shader engine）有4個(gè)被熔斷（fused off）了？為什么現(xiàn)在是32個(gè)活躍 CU？為什么要做這個(gè)縮減？

Alan:在MI300上，我們同時(shí)為MI300X（AI）和 MI300A（HPC）進(jìn)行了協(xié)同設(shè)計(jì)。在MI300A 中，我們只有6個(gè)XCD。因此，當(dāng)我們只有6個(gè)加速器小芯片（accelerator chiplets）時(shí)，我們希望確保有足夠的計(jì)算單元來(lái)驅(qū)動(dòng)傳統(tǒng)模擬（FP64）所需的高性能計(jì)算水平，以達(dá)到我們?yōu)槟繕?biāo)市場(chǎng)（領(lǐng)先級(jí)超級(jí)計(jì)算機(jī)）設(shè)定的性能目標(biāo)。

我們確實(shí)做到了這一點(diǎn)，并與勞倫斯利弗莫爾國(guó)家實(shí)驗(yàn)室（Lawrence Livermore）一起憑借 El Capitan 超級(jí)計(jì)算機(jī)交付了當(dāng)時(shí)世界上最快的超級(jí)計(jì)算機(jī)。

但我們希望每個(gè) XCD 擁有更多的計(jì)算單元，以便在MI300A中總共達(dá)到224個(gè)CU。而在 MI350上，它是專(zhuān)門(mén)設(shè)計(jì)為純加速器（accelerator only）、一個(gè)獨(dú)立加速器（discrete accelerator），我們?cè)谶@方面擁有更大的靈活性。

因此我們決定，讓每個(gè)芯片上的活躍計(jì)算單元數(shù)量是2的冪次方——物理上有36個(gè)，如您所說(shuō)，但我們啟用了32個(gè)。其中4個(gè)（每個(gè)著色器引擎一個(gè)）用于冗余單元屏蔽（harvesting），我們?cè)谂_(tái)積電 N3（領(lǐng)先技術(shù)）的大規(guī)模生產(chǎn)中通過(guò)熔斷這些單元來(lái)保證良率（yield）。這樣我們最終啟用的就是32個(gè)。

這是一個(gè)很好的2的冪次方數(shù)字。如果您擁有2的冪次方數(shù)量的計(jì)算單元，張量（tensor）的切分（tiling）會(huì)更容易。您處理的大多數(shù)或許多張量都是基于2的冪次方的矩陣。因此，它允許您輕松地將它們切分到計(jì)算單元中，并減少可能出現(xiàn)的總拖尾效應(yīng)（tail effect）。

因?yàn)槿绻鷵碛械挠?jì)算單元數(shù)量不是2的冪次方，那么張量的某部分可能無(wú)法很好地直接映射，您可能需要在最后僅使用部分計(jì)算單元來(lái)完成一些工作。所以我們發(fā)現(xiàn)，通過(guò)使用2的冪次方數(shù)量，可以進(jìn)行一些優(yōu)化。

George:新的計(jì)算芯片（XCD）采用了N3P，而 I/O 芯片（IOD）卻仍在使用 N6；為什么堅(jiān)持用N6？

Alan:在我們的chiplet技術(shù)中，首先，我們有選擇權(quán)，采用chiplet設(shè)計(jì)提供了靈活性，可以在合適的情況下選擇不同的工藝技術(shù)。

我們I/O芯片中的組件往往無(wú)法很好地隨先進(jìn)工藝技術(shù)擴(kuò)展（scale）。例如 HBM PHY（物理層接口）、高速串行解串器（SERDES）、我們帶有無(wú)限緩存（Infinity Cache）的緩存（caches）、SRAM 等，這些東西的縮放性不佳。

因此，在一個(gè)大尺寸芯片上堅(jiān)持使用具有成熟良率的較舊工藝技術(shù)，使我們能夠?yàn)榭蛻?hù)提供有競(jìng)爭(zhēng)力的產(chǎn)品成本和總擁有成本（TCO）價(jià)值主張。

然后，我們能夠在計(jì)算單元上利用最先進(jìn)的工藝技術(shù)（如 N3P），在功耗和面積縮放（power- and area-scaling）方面獲得顯著收益，從而實(shí)現(xiàn)計(jì)算單元。

George:說(shuō)到緩存，除了 LDS 之外，令我感興趣的是緩存層級(jí)（cache hierarchy）似乎沒(méi)有變化。這是為什么？

Alan:如果您還記得我剛才說(shuō)的，MI300是為了在HPC中提供最高性能而構(gòu)建的。為了實(shí)現(xiàn)這一點(diǎn)，我們需要為雙精度浮點(diǎn)（FP64）運(yùn)算向計(jì)算單元提供顯著的全局帶寬（global bandwidth）。

因此，我們已經(jīng)設(shè)計(jì)了無(wú)限架構(gòu)（Infinity Fabric）以及 XCC（加速計(jì)算核心，Accelerated Compute Core）內(nèi)部的互聯(lián)架構(gòu)（fabric），以提供足夠的帶寬來(lái)滿(mǎn)足 MI300 中極高要求的雙精度矩陣運(yùn)算及其所有相關(guān)緩存層級(jí)的需求。

最終，我們能夠利用MI300中已經(jīng)構(gòu)建好的互聯(lián)能力，而無(wú)需對(duì)這些部分進(jìn)行任何修改。

George:在MI350上，你們現(xiàn)在從四個(gè)基礎(chǔ)芯片（base dies）減少到了兩個(gè)基礎(chǔ)芯片（IOD）。這在頂部芯片（計(jì)算芯片/XCD）的布局上實(shí)現(xiàn)了什么？

Alan:我們這樣做是為了增加來(lái)自全局HBM的帶寬。MI300是為HBM3設(shè)計(jì)的，而MI350是專(zhuān)門(mén)為HBM3E設(shè)計(jì)的。因此我們希望將速率從5.2或5.6 Gbps 提升到完整的8 Gbps。

但同時(shí)，我們希望以盡可能低的功耗來(lái)實(shí)現(xiàn)這一點(diǎn)。因?yàn)橐宰畹偷拿勘忍啬芎模╡nergy per bit）將數(shù)據(jù)從HBM 傳輸?shù)接?jì)算核心，意味著在固定的 GPU 功耗水平下能將更多的功率用于實(shí)際計(jì)算。

因此，對(duì)于那些帶寬受限（bandwidth-bound）且包含計(jì)算元素的內(nèi)核（kernel），通過(guò)減少數(shù)據(jù)傳輸所消耗的功率，我們可以將更多功率投入到計(jì)算中，從而為這些內(nèi)核提供更高的性能。

我們將那兩個(gè)（I/O）芯片合并為一個(gè)的設(shè)計(jì)，能夠加寬芯片內(nèi)部的互連總線（buses）；這樣每個(gè)時(shí)鐘周期能傳輸更多字節(jié)（bytes），因此我們可以在更低的頻率和更低的電壓下運(yùn)行它們，這帶來(lái)了電壓平方（V-squared）的功耗縮放收益（用于傳輸這些比特所需的功耗）。這就是原因。

George:說(shuō)到功耗，MI350x是1000瓦，而MI355x是1400瓦。在考慮這40%的功耗提升時(shí)，除了冷卻系統(tǒng)本身，還需要考慮哪些不同的散熱因素？特別是如何確保各個(gè)小芯片保持在耐受范圍內(nèi)？

Alan:當(dāng)我們進(jìn)行這些芯片的總功率和散熱架構(gòu)設(shè)計(jì)時(shí)，我們會(huì)考慮從主板一直到子板，在這個(gè)案例中就是 UBB（通用基板）和 OAM模塊，然后向上穿過(guò) CoWoS（基板上晶圓上芯片，Chip on Wafer on Substrate）堆疊、位于中間層的 I/O 芯片，再到位于它們之上的計(jì)算芯片。

我們需要審視整個(gè)堆疊的總熱密度、堆疊內(nèi)部的熱傳導(dǎo)能力或熱阻，以及為了在其頂部構(gòu)建散熱系統(tǒng)所需的導(dǎo)熱界面材料。

因此，我們?yōu)?MI350 系列提供了兩種不同級(jí)別的散熱解決方案。一種是風(fēng)冷，如您所提及。另一種是直接接觸式液冷。在液冷的情況下，冷板（cold plate）會(huì)直接附著在芯片頂部的導(dǎo)熱界面材料上。

我們對(duì)整個(gè)堆疊進(jìn)行熱建模，并直接與所有技術(shù)合作伙伴協(xié)作，確保我們?cè)O(shè)計(jì)在芯片中的功率密度能夠被整個(gè)熱堆疊所處理。

資訊來(lái)源：

https://chipsandcheese.com/p/amds-freshly-baked-mi350-an-interview

*聲明：本文系原作者創(chuàng)作。文章內(nèi)容系其個(gè)人觀點(diǎn)，我方轉(zhuǎn)載僅為分享與討論，不代表我方贊成或認(rèn)同，如有異議，請(qǐng)聯(lián)系后臺(tái)。

關(guān)注微信公眾號(hào) - 榮格電子芯片

聚焦電子芯片制造領(lǐng)域的技術(shù)資訊、企業(yè)動(dòng)態(tài)以及前沿創(chuàng)新，涵蓋半導(dǎo)體、集成電路、貼片封裝等多個(gè)行業(yè)領(lǐng)域的解決方案。

推薦新聞

我爱Av01,中文字幕亚洲无线码,最近中文字幕mv免费视频,最近2018中文字幕免费看在线,两男添一女60分钟玩法介绍

AMD首席架構(gòu)師分享MI350芯片設(shè)計(jì)細(xì)節(jié)