我爱Av01,中文字幕亚洲无线码,最近中文字幕mv免费视频,最近2018中文字幕免费看在线,两男添一女60分钟玩法介绍

供需大廳

登錄/注冊(cè)

公眾號(hào)

更多資訊,關(guān)注微信公眾號(hào)

小秘書(shū)

更多資訊,關(guān)注榮格小秘書(shū)

郵箱

您可以聯(lián)系我們 info@ringiertrade.com

電話

您可以撥打熱線

+86-21 6289-5533 x 269

建議或意見(jiàn)

+86-20 2885 5256

頂部

榮格工業(yè)資源APP

了解工業(yè)圈,從榮格工業(yè)資源APP開(kāi)始。

打開(kāi)
榮格工業(yè)-圣德科

AMD首席架構(gòu)師分享MI350芯片設(shè)計(jì)細(xì)節(jié)

來(lái)源:Chips and Cheese 發(fā)布時(shí)間:2025-06-30 163
電子芯片 電子芯片設(shè)計(jì)應(yīng)用及案例
AMD Instinct GPU的首席架構(gòu)師分享了MI350芯片細(xì)節(jié)。

在近日的AMD Advancing AI 2025 活動(dòng)上,MI350 系列發(fā)布。記者George采訪了AMD Instinct GPU的首席架構(gòu)師Alan Smith。以下是兩者之間有關(guān)MI350 系列的對(duì)話(弱相關(guān)內(nèi)容已經(jīng)刪減):

 

 

maxresdefault.jpg

 

George: MI350仍然基于GFX9 架構(gòu)——給觀眾朋友們解釋一下,GFX9也被稱(chēng)為Vega架構(gòu)或者是其衍生架構(gòu)。為什么MI350仍然采用GFX9,而客戶(hù)端產(chǎn)品如RDNA 3和4分別采用的是GFX11和12?

 

Alan:這是個(gè)很好的問(wèn)題。如您所知,基于前幾代Instinct GPU(從 MI100 開(kāi)始甚至更早,如您提到的Vega 世代)的CDNA 架構(gòu),都是 GCN(Graphics Core Next)架構(gòu)。

 

經(jīng)過(guò)數(shù)代演進(jìn),CDNA 已經(jīng)針對(duì)高性能計(jì)算(HPC)和 AI 的分布式計(jì)算算法類(lèi)型進(jìn)行了高度優(yōu)化。因此,我們認(rèn)為以這個(gè)基礎(chǔ)來(lái)開(kāi)發(fā) MI350,能夠提供我們實(shí)現(xiàn) MI350 系列性能目標(biāo)所需的正確組件。

 

George:在 GCN 架構(gòu)中,L1緩存和LDS(本地?cái)?shù)據(jù)存儲(chǔ))是分開(kāi)的。為什么MI350仍然保留這種設(shè)計(jì)?為什么沒(méi)有將它們合并?

 

Alan:是的,正如您所說(shuō),這確實(shí)是GCN架構(gòu)的一個(gè)遺留特性。它在某種程度上是計(jì)算單元(CU)構(gòu)建方式的基礎(chǔ)。因此,我們認(rèn)為在這一代產(chǎn)品中,進(jìn)行如此大規(guī)模的微架構(gòu)變更并非合適的時(shí)機(jī)。我們采取的做法是增加LDS的容量。

 

在之前的MI300系列中,LDS 容量是64 KB,我們?cè)贛I350系列中將其容量提升到了160 KB。此外,我們還增加了LDS的帶寬。我們將LDS到寄存器文件的帶寬提升了一倍,以滿(mǎn)足 MI350 系列中張量核心(Tensor Core)的運(yùn)算速率需求。

 

George:說(shuō)到張量核心,你們現(xiàn)在為MI350x引入了用于FP8、FP6 和 FP4數(shù)據(jù)類(lèi)型的微縮放格式(microscaling formats)。有趣的是,MI350 的一個(gè)主要差異化特點(diǎn)是FP6的速率與FP4 相同。能談?wù)勥@是如何實(shí)現(xiàn)的以及背后的原因嗎?

 

Alan:在MI350的這個(gè)時(shí)間節(jié)點(diǎn),考慮到它將進(jìn)入的市場(chǎng)以及AI的當(dāng)前發(fā)展?fàn)顟B(tài),我們認(rèn)為 FP6 是一種有潛力不僅用于推理(inferencing),還可能用于訓(xùn)練(training)的格式。因此,我們希望能夠確保 MI350 的 FP6 能力相對(duì)于……其他廠商可能已經(jīng)實(shí)現(xiàn)或?qū)⒁獙?shí)現(xiàn)的方案而言,處于業(yè)界領(lǐng)先水平。

 

您知道,硬件設(shè)計(jì)周期很長(zhǎng),我們?cè)趲啄昵熬驮谒伎歼@個(gè)問(wèn)題,并希望確保MI350在FP6性能上具有領(lǐng)先優(yōu)勢(shì)。所以我們決定將FP6數(shù)據(jù)路徑的吞吐量(throughput)設(shè)計(jì)成與FP4數(shù)據(jù)路徑相同。

 

當(dāng)然,為了實(shí)現(xiàn)這一點(diǎn),我們不得不增加一些額外的硬件。顯然,F(xiàn)P6 比 FP4 多了幾位(bit),所以叫 FP6。但我們能夠在矩陣引擎(matrix engine)的面積限制范圍內(nèi),以非常高的能效和面積效率實(shí)現(xiàn)這一目標(biāo)。

 

George:說(shuō)到數(shù)據(jù)類(lèi)型,我注意到 TF32 不在你們的硬件加速操作(ops)列表上。為什么在 MI350 中去除了這個(gè)特性?或者說(shuō),為什么它不是 MI350 的主要考慮因素?

 

Alan: 我們是特意去除了它。我們認(rèn)為在這個(gè)時(shí)間點(diǎn),BF16(brain float 16)將會(huì)是一個(gè)可被大多數(shù)模型利用以取代 TF32 的格式。并且,我們?cè)贐F16上能提供的吞吐量遠(yuǎn)高于TF32。因此,我們認(rèn)為對(duì)于這個(gè)實(shí)現(xiàn)(MI350)來(lái)說(shuō),這是一個(gè)正確的權(quán)衡取舍。

 

George:如果我需要使用TF32,速度會(huì)是多少?會(huì)降到 FP32 的速度嗎?

 

Alan:您有選擇。我們提供了一些仿真方案。具體的吞吐量細(xì)節(jié)我一下子記不全,但我們確實(shí)提供了基于軟件的仿真方案,可以用BF16來(lái)仿真TF32?;蛘?,您也可以直接將數(shù)據(jù)轉(zhuǎn)換為FP32格式,以FP32的速率來(lái)使用它。

 

George:新的計(jì)算芯片現(xiàn)在采用的是N3P制程工藝,但物理上每個(gè)芯片上的CU數(shù)量卻從40 個(gè)減少到了36 個(gè),并且每個(gè)著色器引擎(shader engine)有4個(gè)被熔斷(fused off)了?為什么現(xiàn)在是32個(gè)活躍 CU?為什么要做這個(gè)縮減?

 

Alan:在MI300上,我們同時(shí)為MI300X(AI)和 MI300A(HPC)進(jìn)行了協(xié)同設(shè)計(jì)。在MI300A 中,我們只有6個(gè)XCD。因此,當(dāng)我們只有6個(gè)加速器小芯片(accelerator chiplets)時(shí),我們希望確保有足夠的計(jì)算單元來(lái)驅(qū)動(dòng)傳統(tǒng)模擬(FP64)所需的高性能計(jì)算水平,以達(dá)到我們?yōu)槟繕?biāo)市場(chǎng)(領(lǐng)先級(jí)超級(jí)計(jì)算機(jī))設(shè)定的性能目標(biāo)。

 

我們確實(shí)做到了這一點(diǎn),并與勞倫斯利弗莫爾國(guó)家實(shí)驗(yàn)室(Lawrence Livermore)一起憑借 El Capitan 超級(jí)計(jì)算機(jī)交付了當(dāng)時(shí)世界上最快的超級(jí)計(jì)算機(jī)。

 

但我們希望每個(gè) XCD 擁有更多的計(jì)算單元,以便在MI300A中總共達(dá)到224個(gè)CU。而在 MI350上,它是專(zhuān)門(mén)設(shè)計(jì)為純加速器(accelerator only)、一個(gè)獨(dú)立加速器(discrete accelerator),我們?cè)谶@方面擁有更大的靈活性。

 

因此我們決定,讓每個(gè)芯片上的活躍計(jì)算單元數(shù)量是2的冪次方——物理上有36個(gè),如您所說(shuō),但我們啟用了32個(gè)。其中4個(gè)(每個(gè)著色器引擎一個(gè))用于冗余單元屏蔽(harvesting),我們?cè)谂_(tái)積電 N3(領(lǐng)先技術(shù))的大規(guī)模生產(chǎn)中通過(guò)熔斷這些單元來(lái)保證良率(yield)。這樣我們最終啟用的就是32個(gè)。

 

這是一個(gè)很好的2的冪次方數(shù)字。如果您擁有2的冪次方數(shù)量的計(jì)算單元,張量(tensor)的切分(tiling)會(huì)更容易。您處理的大多數(shù)或許多張量都是基于2的冪次方的矩陣。因此,它允許您輕松地將它們切分到計(jì)算單元中,并減少可能出現(xiàn)的總拖尾效應(yīng)(tail effect)。

 

因?yàn)槿绻鷵碛械挠?jì)算單元數(shù)量不是2的冪次方,那么張量的某部分可能無(wú)法很好地直接映射,您可能需要在最后僅使用部分計(jì)算單元來(lái)完成一些工作。所以我們發(fā)現(xiàn),通過(guò)使用2的冪次方數(shù)量,可以進(jìn)行一些優(yōu)化。

 

George:新的計(jì)算芯片(XCD)采用了N3P,而 I/O 芯片(IOD)卻仍在使用 N6;為什么堅(jiān)持用N6?

 

Alan:在我們的chiplet技術(shù)中,首先,我們有選擇權(quán),采用chiplet設(shè)計(jì)提供了靈活性,可以在合適的情況下選擇不同的工藝技術(shù)。

 

我們I/O芯片中的組件往往無(wú)法很好地隨先進(jìn)工藝技術(shù)擴(kuò)展(scale)。例如 HBM PHY(物理層接口)、高速串行解串器(SERDES)、我們帶有無(wú)限緩存(Infinity Cache)的緩存(caches)、SRAM 等,這些東西的縮放性不佳。

 

因此,在一個(gè)大尺寸芯片上堅(jiān)持使用具有成熟良率的較舊工藝技術(shù),使我們能夠?yàn)榭蛻?hù)提供有競(jìng)爭(zhēng)力的產(chǎn)品成本和總擁有成本(TCO)價(jià)值主張。

 

然后,我們能夠在計(jì)算單元上利用最先進(jìn)的工藝技術(shù)(如 N3P),在功耗和面積縮放(power- and area-scaling)方面獲得顯著收益,從而實(shí)現(xiàn)計(jì)算單元。

 

George:說(shuō)到緩存,除了 LDS 之外,令我感興趣的是緩存層級(jí)(cache hierarchy)似乎沒(méi)有變化。這是為什么?

 

Alan:如果您還記得我剛才說(shuō)的,MI300是為了在HPC中提供最高性能而構(gòu)建的。為了實(shí)現(xiàn)這一點(diǎn),我們需要為雙精度浮點(diǎn)(FP64)運(yùn)算向計(jì)算單元提供顯著的全局帶寬(global bandwidth)。

 

因此,我們已經(jīng)設(shè)計(jì)了無(wú)限架構(gòu)(Infinity Fabric)以及 XCC(加速計(jì)算核心,Accelerated Compute Core)內(nèi)部的互聯(lián)架構(gòu)(fabric),以提供足夠的帶寬來(lái)滿(mǎn)足 MI300 中極高要求的雙精度矩陣運(yùn)算及其所有相關(guān)緩存層級(jí)的需求。

 

最終,我們能夠利用MI300中已經(jīng)構(gòu)建好的互聯(lián)能力,而無(wú)需對(duì)這些部分進(jìn)行任何修改。

 

George:在MI350上,你們現(xiàn)在從四個(gè)基礎(chǔ)芯片(base dies)減少到了兩個(gè)基礎(chǔ)芯片(IOD)。這在頂部芯片(計(jì)算芯片/XCD)的布局上實(shí)現(xiàn)了什么?

 

Alan:我們這樣做是為了增加來(lái)自全局HBM的帶寬。MI300是為HBM3設(shè)計(jì)的,而MI350是專(zhuān)門(mén)為HBM3E設(shè)計(jì)的。因此我們希望將速率從5.2或5.6 Gbps 提升到完整的8 Gbps。

 

但同時(shí),我們希望以盡可能低的功耗來(lái)實(shí)現(xiàn)這一點(diǎn)。因?yàn)橐宰畹偷拿勘忍啬芎模╡nergy per bit)將數(shù)據(jù)從HBM 傳輸?shù)接?jì)算核心,意味著在固定的 GPU 功耗水平下能將更多的功率用于實(shí)際計(jì)算。

 

因此,對(duì)于那些帶寬受限(bandwidth-bound)且包含計(jì)算元素的內(nèi)核(kernel),通過(guò)減少數(shù)據(jù)傳輸所消耗的功率,我們可以將更多功率投入到計(jì)算中,從而為這些內(nèi)核提供更高的性能。

 

我們將那兩個(gè)(I/O)芯片合并為一個(gè)的設(shè)計(jì),能夠加寬芯片內(nèi)部的互連總線(buses);這樣每個(gè)時(shí)鐘周期能傳輸更多字節(jié)(bytes),因此我們可以在更低的頻率和更低的電壓下運(yùn)行它們,這帶來(lái)了電壓平方(V-squared)的功耗縮放收益(用于傳輸這些比特所需的功耗)。這就是原因。

 

George:說(shuō)到功耗,MI350x是1000瓦,而MI355x是1400瓦。在考慮這40%的功耗提升時(shí),除了冷卻系統(tǒng)本身,還需要考慮哪些不同的散熱因素?特別是如何確保各個(gè)小芯片保持在耐受范圍內(nèi)?

 

Alan:當(dāng)我們進(jìn)行這些芯片的總功率和散熱架構(gòu)設(shè)計(jì)時(shí),我們會(huì)考慮從主板一直到子板,在這個(gè)案例中就是 UBB(通用基板)和 OAM模塊,然后向上穿過(guò) CoWoS(基板上晶圓上芯片,Chip on Wafer on Substrate)堆疊、位于中間層的 I/O 芯片,再到位于它們之上的計(jì)算芯片。

 

我們需要審視整個(gè)堆疊的總熱密度、堆疊內(nèi)部的熱傳導(dǎo)能力或熱阻,以及為了在其頂部構(gòu)建散熱系統(tǒng)所需的導(dǎo)熱界面材料。

 

因此,我們?yōu)?MI350 系列提供了兩種不同級(jí)別的散熱解決方案。一種是風(fēng)冷,如您所提及。另一種是直接接觸式液冷。在液冷的情況下,冷板(cold plate)會(huì)直接附著在芯片頂部的導(dǎo)熱界面材料上。

 

我們對(duì)整個(gè)堆疊進(jìn)行熱建模,并直接與所有技術(shù)合作伙伴協(xié)作,確保我們?cè)O(shè)計(jì)在芯片中的功率密度能夠被整個(gè)熱堆疊所處理。

 

資訊來(lái)源:

https://chipsandcheese.com/p/amds-freshly-baked-mi350-an-interview


*聲明:本文系原作者創(chuàng)作。文章內(nèi)容系其個(gè)人觀點(diǎn),我方轉(zhuǎn)載僅為分享與討論,不代表我方贊成或認(rèn)同,如有異議,請(qǐng)聯(lián)系后臺(tái)。

關(guān)注微信公眾號(hào) - 榮格電子芯片
聚焦電子芯片制造領(lǐng)域的技術(shù)資訊、企業(yè)動(dòng)態(tài)以及前沿創(chuàng)新,涵蓋半導(dǎo)體、集成電路、貼片封裝等多個(gè)行業(yè)領(lǐng)域的解決方案。
推薦新聞