?高性能處理器研究表明,延續(xù)摩爾定律的新方向即將到來。每一代處理器都需要比上一代性能更好,這也意味著需要將更多的邏輯電路集成到硅片上。但是現(xiàn)階段在芯片制造領(lǐng)域存在兩個問題:一是我們縮小晶體管及其構(gòu)成邏輯和內(nèi)存塊的能力正在放緩;另一個是芯片已經(jīng)達到了尺寸極限。
摩爾定律。圖源:wikipedia
光刻工具只能刻印大約850平方毫米的區(qū)域,大約是頂級Nvidia GPU的大小。
近幾年,片上系統(tǒng)開發(fā)人員開始將較大的芯片設(shè)計分解成較小的芯片,并在同一個封裝內(nèi)將它們連接在一起。在CPU中,連接技術(shù)多為2.5D封裝,其中小芯片彼此并排放置,并使用短而密集的互連連接。由于大多數(shù)制造商已就2.5D「小芯片-小芯片」通信標(biāo)準(zhǔn)達成一致,這種集成的勢頭會不斷發(fā)展。
但是,由于數(shù)據(jù)存儲需求增加,要想將大量數(shù)據(jù)存儲在同一個芯片上,就需要更短、更密集的連接,而這只能通過將一個芯片疊加在另一個芯片上來實現(xiàn)。將兩個芯片進行連接意味著芯片之間每平方毫米要進行數(shù)千次連接。
這需要大量的創(chuàng)新才能實現(xiàn),工程師必須弄清楚如何防止堆棧中一個芯片由于過熱毀掉另一個芯片,防止偶爾出現(xiàn)的壞小芯片導(dǎo)致整個系統(tǒng)崩潰等。
近日,IEEE Spectrum、負(fù)責(zé)半導(dǎo)體報道的高級編輯Samuel K. Moore撰文介紹3D芯片技術(shù)顛覆計算的3種方式,主要介紹了AMD、Graphcore和英特爾行業(yè)領(lǐng)先優(yōu)勢。
AMD Zen 3
長期以來,個人電腦可以選擇增加內(nèi)存來提高超大應(yīng)用程序和數(shù)據(jù)量大的工作速度。得益于 3D 芯片堆疊,AMD 的下一代 CPU 小芯片將提供這種選擇。
Zen 2 和 Zen 3 處理器內(nèi)核都使用相同的臺積電制造工藝,因此具有相同尺寸的晶體管、互連等。AMD 在架構(gòu)上做了很多改變,即便沒有額外的緩存內(nèi)存,Zen 3 的平均性能也提高了 19%。
值得一提的是 Zen 3 架構(gòu)亮點之一是硅通孔 (TSV) 垂直堆疊芯片,這是一種將多個芯片相互連接的方式。TSV 是在 Zen 3 最高級別緩存中構(gòu)建的,即稱為 L3 的 SRAM 塊,它位于計算小芯片的中間,并在所有 8 個核心上共享。
在處理繁重數(shù)據(jù)的處理器中,Zen 3 晶圓背面被減薄,直到 TSV 暴露出來,然后,一個 64 兆的 SRAM 小芯片被連接到那些暴露的 TSV 上,該過程使用的是混合鍵合——一種類似于銅冷焊的過程。其結(jié)果是一組密集的連接可以緊密到 9 微米。最后,為了結(jié)構(gòu)穩(wěn)定和熱傳導(dǎo),在 Zen 3 CPU die(Die 或者 CPU Die 指的是處理器在生產(chǎn)過程中,從晶圓上切割下來的一個個小方塊)的剩余部分附著空白硅小芯片。
AMD 3D V-Cache 技術(shù)將一個 64 兆字節(jié)的 SRAM 緩存(紅色)和 2 個空白結(jié)構(gòu)小芯片堆疊到 Zen 3 計算小芯片上。
「通過將空白硅小芯片設(shè)置在 CPU die 旁邊來增加額外的內(nèi)存是不可取的,因為數(shù)據(jù)要花費太長的時間才能到達處理器核心。盡管 L3 緩存大小增加了三倍,但 3D V-Cache 僅增加了四個時鐘周期的延遲——這只能通過 3D 堆疊來實現(xiàn),」AMD 高級設(shè)計工程師 John Wuu 表示。
更大的緩存在高端游戲中占有一席之地,使用具有 3D V-Cache 的臺式機 Ryzen CPU 可將 1080p 的游戲速度平均提高 15%。Wuu 指出,與縮小邏輯能力相比,業(yè)界縮小 SRAM 的能力正在放緩。因此,我們可以預(yù)測 SRAM 擴展將繼續(xù)使用更成熟的制造工藝,而計算小芯片則被推向摩爾定律的前沿。
Graphcore Bow AI 處理器
即使堆棧中的芯片沒有晶體管,3D 集成也能加快計算速度??偛课挥谟?AI 計算機公司 Graphcore 僅通過在其 AI 處理器上安裝電力傳輸(power-delivery)芯片,就實現(xiàn)了系統(tǒng)性能的大幅提升。
添加電力傳輸硅意味著名為 Bow 的組合芯片可以運行得更快(1.85 GHz VS 1.35 GHz),并且電壓低于其前一代。這意味著與上一代相比,計算機訓(xùn)練神經(jīng)網(wǎng)絡(luò)的速度提高了 40%,能耗降低了 16%。最重要的是,用戶無需更改其軟件即可獲得這種改進。
電源管理 die 由電容器和硅通孔堆疊而成,后者為處理器芯片提供電力和數(shù)據(jù),真正與眾不同的是電容器。與 DRAM 中的位存儲組件一樣,這些電容器是在硅中又深又窄的溝槽中形成的。由于這些電荷儲存器非??拷幚砥鞯木w管,功率傳輸變得平滑,從而使處理器內(nèi)核能夠在較低電壓下更快地運行。
如果沒有電力傳輸芯片,處理器必須將其工作電壓提高到高于其標(biāo)稱水平才能在 1.85 GHz 下工作,這樣會消耗更多的功率。使用電源芯片,它也可以達到既定的時鐘頻率并消耗更少的功率。
Graphcore Bow AI 加速器使用 3D 芯片堆疊將性能提升 40%。
Bow 的制造工藝是獨一無二的。大多數(shù) 3D 堆疊是通過將一個小芯片粘合到另一個小芯片上來完成的,其中一個仍然在晶圓上,稱為晶圓上芯片 [參見上面 AMD 的 Zen 3]。相反,Bow 使用了臺積電的「晶圓 - 晶圓」,其中一種類型的整個晶圓與另一種類型的整個晶圓鍵合,然后切割成芯片。
Graphcore 首席技術(shù)官 Simon Knowles 表示,這是市場上第一款使用該技術(shù)的芯片,它使兩個裸片之間的連接密度高于使用晶圓芯片工藝所能達到的密度。
BOW-2000
盡管電力傳輸小芯片沒有晶體管,但不久的將來可能會出現(xiàn)。Knowles 說,僅將這項技術(shù)用于電力傳輸只是第一步,在不久的將來,它會走得更遠(yuǎn)。
了解更多請參考:https://spectrum.ieee.org/graphcore-ai-processor
英特爾 Ponte Vecchio 超級計算機芯片
Aurora 超級計算機旨在成為美國首批突破 exaflop 障礙的高性能計算機 (HPC) 之一——每秒 10 億次高精度浮點計算。為了讓 Aurora 達到這些性能,Ponte Vecchio 將 47 塊硅片上超過 1000 億個晶體管封裝到一個處理器中。英特爾同時使用 2.5D 和 3D 技術(shù),將 3,100 平方毫米的硅片(幾乎等于四個 Nvidia A100 GPU)壓縮到 2,330 平方毫米的空間中。
英特爾Ponte Vecchio處理器將47個小芯片集成到一個處理器中。
每個Ponte Vecchio實際上是兩組鏡像芯片,使用英特爾的2.5D集成技術(shù)Co-EMIB連接在一起,Co-EMIB在兩個3D小芯片堆棧之間形成高密度互連的橋梁?!笜颉贡旧硎乔度敕庋b有機基板中的一小塊硅,硅上互連線的密度可以是有機基板上的兩倍。Co-EMIB die 還將高帶寬內(nèi)存和 I/O 小芯片連接到 base tile(最大的小芯片,其他芯片都堆疊在其上)。
base tile 使用英特爾的 3D 堆疊技術(shù),稱為 Foveros,在其上堆疊計算和緩存小芯片。該技術(shù)在兩個芯片之間建立了密集的 die-to-die 垂直連接陣列,這些連接是 36 微米。信號和電源通過硅通孔進入這個堆棧,較寬的垂直互連直接穿過硅的大部分。
Foveros
八個計算tile、四個緩存tile和八個用于給處理器散熱的空白tile都連接到base tile上。base tile本身提供緩存內(nèi)存和允許計算tile訪問內(nèi)存的網(wǎng)絡(luò)。
英特爾研究員Gomes表示:這一切都不容易,Ponte Vecchio 在良率管理、時鐘電路、熱調(diào)節(jié)和功率傳輸方面都進行了創(chuàng)新。例如,英特爾工程師選擇為處理器提供高于正常電壓(1.8 伏)的電壓,以便電流足夠低以簡化封裝。base tile 中的電路將電壓降低到接近 0.7 V 以用于計算 tile,并且每個計算 tile 必須在 base tile 中有自己的電源域。關(guān)鍵是新型高效電感器,稱為同軸磁性集成電感器。因為這些都內(nèi)置在封裝基板中,所以在向計算 tile 提供電壓之前,電路實際上在 base tile 和封裝之間來回移動。
Gomes 表示,從 2008 年的第一臺 petaflop 超級計算機到今年的 exaflops 用了 14 年,先進的封裝技術(shù)如 3D 堆疊,將有利于提高計算能力。?