原標題:英特爾GPU,到底行不行? 來源:格隆匯
作者:Isaiah Mayersen?
來源: 半導體行業觀察
英特爾正在為游戲玩家、專業人士和服務器開發獨立GPU,它們都計劃在今年或2021年發布。英特爾的顯卡要么會成為萎靡市場期待已久的救星,要么就是表現不佳,遭遇慘敗。就我個人而言,無論出現哪種結果,我都很高興:我們要么會得到不錯的GPU,要么會得到不錯的笑料。
2017年11月8日:Raja Koduri辭去了AMD GPU部門的工作,加入英特爾,成為英特爾負責核心和視覺計算的高級副總裁。他的第一個行動是從AMD的隊伍中雇傭了6個老伙伴。
2018年6月12日:時任首席執行官的Brain Krzanich向英特爾的投資者透露,他們多年來一直在設計Arctic Sound獨立GPU架構,他們計劃在2020年發布它。
2019年1月8日:客戶端計算高級副總裁Gregory Bryant在CES上確認,英特爾的第一輪GPU將到達10nm節點。
2019年5月1日:高級首席工程師兼渲染和可視化團隊負責人Jim Jeffers宣布Xe在FMX19上的光線追蹤能力。
2019年11月17日:Raja Koduri透露Xe將有三種風格,高性能、低功耗和高性能計算。他說,后一類的第一個GPU將是Ponte Vecchio,將于2021年在7 nm節點上推出。
2019年1月9日:Discrete Graphics One Software Development Vehicle(DG1 SDV)的第一張圖片發布,顯示了一張RGB-infused小型卡片,幫助開發人員針對Xe架構優化他們的軟件。
即將到來的是……
2020年3月17日:高級開發者關系工程師Antoine Cohade將在GDC上“詳細介紹硬件架構”和Xe的“性能影響”。
官方的敘述講述了英特爾努力構建神秘的GPU的故事,這些GPU注入了許多令人向往的功能:更先進的節點、光線追蹤、新的封裝技術。但你我都知道,GPU的關鍵不在于噱頭,而在于馬力和資金。這就是本文的主題。
架構
好的架構始于一磚一瓦,GPU也不例外,除了英特爾。AMD和英偉達的內核每時鐘執行1次操作,而英特爾的執行單元(EU)執行8次操作。盡管存在技術上的不準確,但是為了便于比較,我們把一個EU描述為相當于8個內核。
除了英特爾需要一次用8塊磚建造之外,他們的建造技術非常簡單。他們可以把幾塊磚扔在一起做成一堵墻。有了幾面墻,就有了一個房間,把幾個房間放在一起,就可以建一座公寓了。
跳過中間步驟,Xe最大的獨立單元(公寓)被稱為一個slice,每個slice包含512或768個內核,分別用于高性能和低功耗slice。你只需要一間公寓,所以低功耗顯卡只用一個slice。但是,如果你不想在那里定居,那么英特爾將制造由許多slice組成的摩天大樓式的發燒級GPU。
一個單slice LP GPU和一個4-slice HP GPU,每個藍色的方塊代表一個執行單元。圖片基于英特爾的架構和Supercomputing 2019演示文稿,以及EEC歸檔和已編輯的驅動程序。 可能不完全準確。
這就是關于Xe架構所需要了解的全部內容,但是如果你想要了解一些技術術語和數字指標,那么就不要跳過下面的內容。
在Gen11中,英特爾的集成GPU有一個slice ,它由8個sub-slice組成,而每個sub-slice又有8個執行單元。他們對Gen12(Xe的第一代產品)進行了一些微調,包括計算單元(CU)以及渲染后端的更改。
9月份,意外上傳到GitHub的代碼泄露了DG1、Ponte Vecchio和一個DG2變體的配置。這次泄密是可靠的,因為事實證明它對Ponte Vecchio將有2個slice的反直覺預測是正確的。它預測DG1的每個slice將有6個sub-slice,因此96個EU也或多或少地被給出相同數字的EEC 文件所證實。
泄露的信息顯示,在英特爾所有的Gen12型號中,每個sub-slice有16個EU,特別是在Ponte Vecchio中,每個slice有4個sub-slice。Koduri后來透露Ponte Vecchio有兩個slice和16個CU。
這些信息足以說明Ponte Vecchio可能的工作方式是:8個EU組合成一個CU(64個內核),它們配對成一個sub-slice(128個內核/16個EU),其中4個組成一個slice(512個內核/64個EU)。有兩個slice意味著Ponte Vecchio有128個EU,1024個內核。請注意,兩個slice的結構可能僅適用于原型。
Ponte Vecchio的基本slice配置預計也將用于高性能和低功耗型號。
DG2:高性能
代號為Discrete Graphics Two(DG2)的高性能微架構涵蓋了中端和發燒友級的GPU市場。這些顯卡將具有光線跟蹤和RGB閃光功能,但最令人興奮的是,英特爾有可能挑戰英偉達對600美元以上高端產品的壟斷。
“Xe HP……將很容易成為印度設計的最大的芯片,并且是世界上最大的芯片。”
——Raja Koduri
去年7月,英特爾意外發布了一個驅動程序,其中包含3個DG2代號:iDG2HP128,iDG2HP256和iDG2HP512。我們可以合理地假設,末尾的3個數字表示顯卡的EU數量,那么它們將分別擁有1024、2048和4096個內核,即2、4、8個slice。
然而,不久之后,我們就看到了開發1536核的3-slice GPU的確鑿證據。考慮到英特爾開發第4款規格與現有型號如此相似的顯卡很不合邏輯,我們可以安全地假設這是禁用了1個slice的iDG2HP256。這印證了人們的普遍懷疑,即英特爾正在采用3種基本型號,并禁用一個或多個slice,以將第4、第5、第6,甚至第7種型號添加到它們的產品線中。
*DG1有6個sub-slice,DG2有4個sub-slice,因此每個slice的內核數量不同。
DG2未來不僅僅是游戲GPU。它們無法處理像Ponte Vecchio這樣的科學工作負載,但如果它們發布后物有所值,它們肯定可以作為視頻編輯或三維建模硬件的專業驅動重新銷售,比如英偉達的Quadro顯卡。
DG1:低功耗
低功耗段被定義為5W~50W。集成GPU為5W~20W,獨立GPU為20W~50W。
英特爾已經向我們介紹了LP家族的第一位成員。DG1 SDV系列在CES 2020上進行了重點展示,運行帶RGB等功能的《命運2》和《星際戰甲》。但它只是偽裝成一張游戲顯卡。DG1 SDV是一個專為開發人員設計的版本,旨在幫助將軟件和驅動程序過渡到Xe平臺。
然而,這并不意味著你最終無法買到類似的東西,英特爾已經展示了它可以在筆記本電腦上運行。
據報道,集成形式的LP GPU有64~768個內核,而獨立的LP GPU僅有全部768個內核。這相當于AMD最好的集成硬件和英偉達最低端的獨立GPU的內核數量。但Xe LP可能會在時鐘速度方面勝過它們。
一份泄露的Rocket Lake手機處理器在Geekbench上的測試結果顯示,該處理器集成了768個核心的LP GPU,運行速度為1.5 GHz,測試結果為2.3 TFLOPs。這與GTX 1650的性能相當。即使在最壞的情況下,1.5 GHz使用完整的20W TDP,而英特爾在發布之前甚至不能將速度提高1 MHz,這令人印象深刻。
想象一下這個處理器有多高效。GTX 1650的TFLOPS略低,具有75W的TDP:LP GPU幾乎是GTX 1650的4倍。推到50W的LP GPU將會提高時鐘速度,并可能達到與GTX 1660相同的性能等級。
但好東西還不止這些。對Linux內核的更新表明,英特爾正在計劃一種同時運行集成顯卡和獨立顯卡的方式,并且有可能聯合運行。如果能夠成功實現,則可以將iGPU的全部功能與獨立GPU的功能相結合,從而創建一款節省空間和成本效益的1536核的組合GPU。這是從同樣的芯片中榨取更多性能的絕佳方法。
Ponte Vecchio:數據計算
當我在介紹中說只有GPU的原始馬力才重要時,我有些標題黨了。這不是數據中心GPU的情況,特別是Ponte Vecchio。Ponte Vecchio講的都是能最大限度提高效率的技巧和技術。
有趣的事實:Koduri 以佛羅倫薩的一座橋的名字命名Ponte Vecchio,是因為他喜歡那里的冰淇淋。
Ponte Vecchio是專門為Aurora超級計算機設計的,這應該會讓你了解它將針對哪種類型的工作負載進行優化。
如果這沒有給你提示,那我就說出來:雙精度。這基本上是每個數據中心GPU的第一件事,Koduri在發布會上花了很多時間討論它。
然而不幸的是,他唯一給出的數字是Ponte Vecchio的每EU理論上的FP64性能,這個數字大約是Gen11的40倍。
讓我們簡單算一算,每1024內核顯卡在FP64上大約有20 TFLOP。不過,不要把這當成福音,因為在計算中沒有足夠的重要數字來產生有意義的結果。
僅次于高精度工作負載的自然是超低精度工作負載。Ponte Vecchio支持INT8、BF16以及人工智能神經網絡處理中常用的FP8和FP16。每個EU都配備了矩陣引擎(如英偉達張量內核),它比標準EU的矩陣處理速度快32倍。
然而,這些都不是特別新奇的。Ponte Vecchio的真正優勢在于它的內存子系統,它可以讓GPU以新的方式處理問題。
為此,Ponte Vecchio利用了英特爾的關鍵新互連技術Foveros和EMIB(嵌入式多芯片互連橋)。Foveros使用硅通孔在有源插入器裸片上堆疊多個芯片,提供了類似于片內的速度,又提供了片外的連接性。相比之下,EMIB是兩個芯片之間的“啞巴”連接,它使用無源裸片,但以較低的成本提供高帶寬。
EMIB和Foveros
基于英特爾架構圖的圖表、2018年架構日和Supercomputing 2019演示文稿,以及來自WikiChip的信息。它沒有準確地描述真實的實現。
EMIB用于將GPU的計算硬件直接連接到HBM,從而獲得Ponte Vecchio驚人的內存帶寬。Foveros用于將sub-slice上的兩個CU連接到英特爾新的超級緩存RAMBO Cache的一個chiplet上。多虧了Foveros,RAMBO對其容量或占用空間沒有任何限制,并且在從HBM或其他sub-slice發送/接收數據時可以繞過CU。
擁有巨大的緩存顯然是非常昂貴的(我指的是巨大,英特爾的圖表顯示蘭博chiplet與CU的大小相同),但它開啟了一些絕妙的選擇。例如,在神經網絡處理中,RAMBO可以存儲比其他GPU緩存大一個數量級的矩陣。其他GPU會隨著矩陣變大和精度水平的提高而降低性能,但Ponte Vecchio能夠保持峰值性能。
Ponte Vecchio
藍色方塊是執行單元,綠色代表RAMBO和HBM。此圖基于英特爾架構圖和Supercomputing 2019演示文稿。可能不完全準確。
RAMBO緩存還支持Xe Memory Fabric,Xe Memory Fabric是由連接和技術組成的網絡,可匯集服務器節點中每個GPU和CPU的資源。每個GPU的RAMBO緩存都被合并到一個存儲體中,對任何東西都是可用的,最慢的連接是通過PCIe 5.0以63 Gb/s速度相連的CPU連接。
在最近的年度收益投資者會議上,英特爾證實,Ponte Vecchio將在2021年第4季度開始出貨。目前尚不清楚這是全面出貨,還是先期單獨用于Aurora超級計算機的出貨。
軟件
硬件雖好,但是沒有足夠的軟件支持,硬件就完全沒用了。而且門檻相當高:即使1%的游戲沒有得到適當的支持,也會流失數百萬的游戲玩家。好消息是英特爾似乎正在盡最大努力。
英特爾正在為現代高性能應用重新設計其最低級別的軟件——指令集架構(ISA)。“ Gen12計劃包括自最初的i965以來對英特爾EU ISA進行的最深入的改造之一。幾乎每個指令字段、硬件操作碼和寄存器類型的編碼都需要更新。”
在驅動程序層面,英特爾還有很長的路要走,但他們正在取得進展。他們的集成GPU驅動程序沒有競爭對手更新頻繁,我們比較一下最近10次更新之間的平均時間:英特爾為26天,英偉達為14天,AMD為12天。但是它們的穩定性和支持在2019年確實有了很大的提高,并且有275個新驅動程序針對英特爾架構進行了優化。
另一方面,英特爾面向消費者的軟件則是一流的。例如,他們最近發布的Graphics Command Center比英偉達的GeForce Experience提供了更多的控制,而且更容易使用。就像GeForce Experience一樣,它可以針對特定的硬件配置優化游戲,但它也解釋了每種設置的作用以及它將對性能產生多大影響。驅動程序控制簡單明了。
Command Center在提供高級顯示控制方面也是獨一無二的。它提供輕松的多顯示器設置、刷新率和旋轉同步,以及用于調整顏色樣式的全面選項。盡管我運行的是英偉達硬件,但我還是使用它來控制系統。
此外,英特爾還支持可變刷新率,因此Xe產品將支持FreeSync和G-Sync顯示器。
發布
雖然英特爾對他們將在3月份的GDC上宣布的內容有點含糊其辭,但我們很有可能會看到一份全面的披露。如果是這樣的話,我們可以期待新產品在接下來的幾個月里發布。最有可能的是在6月。
去年10月,Koduri在推特上發了一張他的新車牌圖片,給出了一個不太明顯的暗示。它的名字是“Think Xe”,日期是2020年6月。他拒絕對這個日期的意義進行評論,這表明它可能有意義。
如果這不是一輛車,而是英特爾的暗示呢?——Richart
以這種方式泄露日期的一個好處是,它告訴業界應該期待什么,同時又不會引起太多的興奮,以至于如果GPU在7月份問世,粉絲們會很生氣。所以可以認為這是一個模糊的目標;英特爾的目標可能是在6月份發布(正好趕上Computex),但這可能需要更長的時間,具體取決于事情的進展。
英特爾暗示了一些很酷的東西,我們仍然對圖形領域的第三大玩家抱有希望。但在時機成熟之前,我們只能持謹慎樂觀的態度。