英特爾GPU，到底行不行？

發布日期：2020-02-01 16:09:54 瀏覽次數：51

導讀

原標題：英特爾GPU，到底行不行？來源：格隆匯作者：Isaiah Mayersen?來源：半導體行業觀察英特爾正在為游戲玩家、專業人士和服務器開發獨立GPU，它們都計劃在今年或2021年發布。英特

原標題：英特爾GPU，到底行不行？來源：格隆匯

作者：Isaiah Mayersen?

來源：半導體行業觀察

英特爾正在為游戲玩家、專業人士和服務器開發獨立GPU，它們都計劃在今年或2021年發布。英特爾的顯卡要么會成為萎靡市場期待已久的救星，要么就是表現不佳，遭遇慘敗。就我個人而言，無論出現哪種結果，我都很高興：我們要么會得到不錯的GPU，要么會得到不錯的笑料。

2017年11月8日：Raja Koduri辭去了AMD GPU部門的工作，加入英特爾，成為英特爾負責核心和視覺計算的高級副總裁。他的第一個行動是從AMD的隊伍中雇傭了6個老伙伴。

2018年6月12日：時任首席執行官的Brain Krzanich向英特爾的投資者透露，他們多年來一直在設計Arctic Sound獨立GPU架構，他們計劃在2020年發布它。

2019年1月8日：客戶端計算高級副總裁Gregory Bryant在CES上確認，英特爾的第一輪GPU將到達10nm節點。

2019年5月1日：高級首席工程師兼渲染和可視化團隊負責人Jim Jeffers宣布Xe在FMX19上的光線追蹤能力。

2019年11月17日：Raja Koduri透露Xe將有三種風格，高性能、低功耗和高性能計算。他說，后一類的第一個GPU將是Ponte Vecchio，將于2021年在7 nm節點上推出。

2019年1月9日：Discrete Graphics One Software Development Vehicle（DG1 SDV）的第一張圖片發布，顯示了一張RGB-infused小型卡片，幫助開發人員針對Xe架構優化他們的軟件。

即將到來的是……

2020年3月17日：高級開發者關系工程師Antoine Cohade將在GDC上“詳細介紹硬件架構”和Xe的“性能影響”。

官方的敘述講述了英特爾努力構建神秘的GPU的故事，這些GPU注入了許多令人向往的功能：更先進的節點、光線追蹤、新的封裝技術。但你我都知道，GPU的關鍵不在于噱頭，而在于馬力和資金。這就是本文的主題。

架構

好的架構始于一磚一瓦，GPU也不例外，除了英特爾。AMD和英偉達的內核每時鐘執行1次操作，而英特爾的執行單元（EU）執行8次操作。盡管存在技術上的不準確，但是為了便于比較，我們把一個EU描述為相當于8個內核。

除了英特爾需要一次用8塊磚建造之外，他們的建造技術非常簡單。他們可以把幾塊磚扔在一起做成一堵墻。有了幾面墻，就有了一個房間，把幾個房間放在一起，就可以建一座公寓了。

跳過中間步驟，Xe最大的獨立單元（公寓）被稱為一個slice，每個slice包含512或768個內核，分別用于高性能和低功耗slice。你只需要一間公寓，所以低功耗顯卡只用一個slice。但是，如果你不想在那里定居，那么英特爾將制造由許多slice組成的摩天大樓式的發燒級GPU。

一個單slice LP GPU和一個4-slice HP GPU，每個藍色的方塊代表一個執行單元。圖片基于英特爾的架構和Supercomputing 2019演示文稿，以及EEC歸檔和已編輯的驅動程序。可能不完全準確。

這就是關于Xe架構所需要了解的全部內容，但是如果你想要了解一些技術術語和數字指標，那么就不要跳過下面的內容。

在Gen11中，英特爾的集成GPU有一個slice ，它由8個sub-slice組成，而每個sub-slice又有8個執行單元。他們對Gen12（Xe的第一代產品）進行了一些微調，包括計算單元（CU）以及渲染后端的更改。

9月份，意外上傳到GitHub的代碼泄露了DG1、Ponte Vecchio和一個DG2變體的配置。這次泄密是可靠的，因為事實證明它對Ponte Vecchio將有2個slice的反直覺預測是正確的。它預測DG1的每個slice將有6個sub-slice，因此96個EU也或多或少地被給出相同數字的EEC 文件所證實。

泄露的信息顯示，在英特爾所有的Gen12型號中，每個sub-slice有16個EU，特別是在Ponte Vecchio中，每個slice有4個sub-slice。Koduri后來透露Ponte Vecchio有兩個slice和16個CU。

這些信息足以說明Ponte Vecchio可能的工作方式是：8個EU組合成一個CU（64個內核），它們配對成一個sub-slice（128個內核/16個EU），其中4個組成一個slice（512個內核/64個EU）。有兩個slice意味著Ponte Vecchio有128個EU，1024個內核。請注意，兩個slice的結構可能僅適用于原型。

Ponte Vecchio的基本slice配置預計也將用于高性能和低功耗型號。

DG2：高性能

代號為Discrete Graphics Two（DG2）的高性能微架構涵蓋了中端和發燒友級的GPU市場。這些顯卡將具有光線跟蹤和RGB閃光功能，但最令人興奮的是，英特爾有可能挑戰英偉達對600美元以上高端產品的壟斷。

“Xe HP……將很容易成為印度設計的最大的芯片，并且是世界上最大的芯片。”

——Raja Koduri

去年7月，英特爾意外發布了一個驅動程序，其中包含3個DG2代號：iDG2HP128，iDG2HP256和iDG2HP512。我們可以合理地假設，末尾的3個數字表示顯卡的EU數量，那么它們將分別擁有1024、2048和4096個內核，即2、4、8個slice。

然而，不久之后，我們就看到了開發1536核的3-slice GPU的確鑿證據。考慮到英特爾開發第4款規格與現有型號如此相似的顯卡很不合邏輯，我們可以安全地假設這是禁用了1個slice的iDG2HP256。這印證了人們的普遍懷疑，即英特爾正在采用3種基本型號，并禁用一個或多個slice，以將第4、第5、第6，甚至第7種型號添加到它們的產品線中。

*DG1有6個sub-slice，DG2有4個sub-slice，因此每個slice的內核數量不同。

DG2未來不僅僅是游戲GPU。它們無法處理像Ponte Vecchio這樣的科學工作負載，但如果它們發布后物有所值，它們肯定可以作為視頻編輯或三維建模硬件的專業驅動重新銷售，比如英偉達的Quadro顯卡。

DG1：低功耗

低功耗段被定義為5W~50W。集成GPU為5W~20W，獨立GPU為20W~50W。

英特爾已經向我們介紹了LP家族的第一位成員。DG1 SDV系列在CES 2020上進行了重點展示，運行帶RGB等功能的《命運2》和《星際戰甲》。但它只是偽裝成一張游戲顯卡。DG1 SDV是一個專為開發人員設計的版本，旨在幫助將軟件和驅動程序過渡到Xe平臺。

然而，這并不意味著你最終無法買到類似的東西，英特爾已經展示了它可以在筆記本電腦上運行。

據報道，集成形式的LP GPU有64~768個內核，而獨立的LP GPU僅有全部768個內核。這相當于AMD最好的集成硬件和英偉達最低端的獨立GPU的內核數量。但Xe LP可能會在時鐘速度方面勝過它們。

一份泄露的Rocket Lake手機處理器在Geekbench上的測試結果顯示，該處理器集成了768個核心的LP GPU，運行速度為1.5 GHz，測試結果為2.3 TFLOPs。這與GTX 1650的性能相當。即使在最壞的情況下，1.5 GHz使用完整的20W TDP，而英特爾在發布之前甚至不能將速度提高1 MHz，這令人印象深刻。

想象一下這個處理器有多高效。GTX 1650的TFLOPS略低，具有75W的TDP：LP GPU幾乎是GTX 1650的4倍。推到50W的LP GPU將會提高時鐘速度，并可能達到與GTX 1660相同的性能等級。

但好東西還不止這些。對Linux內核的更新表明，英特爾正在計劃一種同時運行集成顯卡和獨立顯卡的方式，并且有可能聯合運行。如果能夠成功實現，則可以將iGPU的全部功能與獨立GPU的功能相結合，從而創建一款節省空間和成本效益的1536核的組合GPU。這是從同樣的芯片中榨取更多性能的絕佳方法。

Ponte Vecchio：數據計算

當我在介紹中說只有GPU的原始馬力才重要時，我有些標題黨了。這不是數據中心GPU的情況，特別是Ponte Vecchio。Ponte Vecchio講的都是能最大限度提高效率的技巧和技術。

有趣的事實：Koduri 以佛羅倫薩的一座橋的名字命名Ponte Vecchio，是因為他喜歡那里的冰淇淋。

Ponte Vecchio是專門為Aurora超級計算機設計的，這應該會讓你了解它將針對哪種類型的工作負載進行優化。

如果這沒有給你提示，那我就說出來：雙精度。這基本上是每個數據中心GPU的第一件事，Koduri在發布會上花了很多時間討論它。

然而不幸的是，他唯一給出的數字是Ponte Vecchio的每EU理論上的FP64性能，這個數字大約是Gen11的40倍。

讓我們簡單算一算，每1024內核顯卡在FP64上大約有20 TFLOP。不過，不要把這當成福音，因為在計算中沒有足夠的重要數字來產生有意義的結果。

僅次于高精度工作負載的自然是超低精度工作負載。Ponte Vecchio支持INT8、BF16以及人工智能神經網絡處理中常用的FP8和FP16。每個EU都配備了矩陣引擎（如英偉達張量內核），它比標準EU的矩陣處理速度快32倍。

然而，這些都不是特別新奇的。Ponte Vecchio的真正優勢在于它的內存子系統，它可以讓GPU以新的方式處理問題。

為此，Ponte Vecchio利用了英特爾的關鍵新互連技術Foveros和EMIB（嵌入式多芯片互連橋）。Foveros使用硅通孔在有源插入器裸片上堆疊多個芯片，提供了類似于片內的速度，又提供了片外的連接性。相比之下，EMIB是兩個芯片之間的“啞巴”連接，它使用無源裸片，但以較低的成本提供高帶寬。

EMIB和Foveros

基于英特爾架構圖的圖表、2018年架構日和Supercomputing 2019演示文稿，以及來自WikiChip的信息。它沒有準確地描述真實的實現。

EMIB用于將GPU的計算硬件直接連接到HBM，從而獲得Ponte Vecchio驚人的內存帶寬。Foveros用于將sub-slice上的兩個CU連接到英特爾新的超級緩存RAMBO Cache的一個chiplet上。多虧了Foveros，RAMBO對其容量或占用空間沒有任何限制，并且在從HBM或其他sub-slice發送/接收數據時可以繞過CU。

擁有巨大的緩存顯然是非常昂貴的（我指的是巨大，英特爾的圖表顯示蘭博chiplet與CU的大小相同），但它開啟了一些絕妙的選擇。例如，在神經網絡處理中，RAMBO可以存儲比其他GPU緩存大一個數量級的矩陣。其他GPU會隨著矩陣變大和精度水平的提高而降低性能，但Ponte Vecchio能夠保持峰值性能。

Ponte Vecchio

藍色方塊是執行單元，綠色代表RAMBO和HBM。此圖基于英特爾架構圖和Supercomputing 2019演示文稿。可能不完全準確。

RAMBO緩存還支持Xe Memory Fabric，Xe Memory Fabric是由連接和技術組成的網絡，可匯集服務器節點中每個GPU和CPU的資源。每個GPU的RAMBO緩存都被合并到一個存儲體中，對任何東西都是可用的，最慢的連接是通過PCIe 5.0以63 Gb/s速度相連的CPU連接。

在最近的年度收益投資者會議上，英特爾證實，Ponte Vecchio將在2021年第4季度開始出貨。目前尚不清楚這是全面出貨，還是先期單獨用于Aurora超級計算機的出貨。

軟件

硬件雖好，但是沒有足夠的軟件支持，硬件就完全沒用了。而且門檻相當高：即使1%的游戲沒有得到適當的支持，也會流失數百萬的游戲玩家。好消息是英特爾似乎正在盡最大努力。

英特爾正在為現代高性能應用重新設計其最低級別的軟件——指令集架構（ISA）。“ Gen12計劃包括自最初的i965以來對英特爾EU ISA進行的最深入的改造之一。幾乎每個指令字段、硬件操作碼和寄存器類型的編碼都需要更新。”

在驅動程序層面，英特爾還有很長的路要走，但他們正在取得進展。他們的集成GPU驅動程序沒有競爭對手更新頻繁，我們比較一下最近10次更新之間的平均時間：英特爾為26天，英偉達為14天，AMD為12天。但是它們的穩定性和支持在2019年確實有了很大的提高，并且有275個新驅動程序針對英特爾架構進行了優化。

另一方面，英特爾面向消費者的軟件則是一流的。例如，他們最近發布的Graphics Command Center比英偉達的GeForce Experience提供了更多的控制，而且更容易使用。就像GeForce Experience一樣，它可以針對特定的硬件配置優化游戲，但它也解釋了每種設置的作用以及它將對性能產生多大影響。驅動程序控制簡單明了。

Command Center在提供高級顯示控制方面也是獨一無二的。它提供輕松的多顯示器設置、刷新率和旋轉同步，以及用于調整顏色樣式的全面選項。盡管我運行的是英偉達硬件，但我還是使用它來控制系統。

此外，英特爾還支持可變刷新率，因此Xe產品將支持FreeSync和G-Sync顯示器。

發布

雖然英特爾對他們將在3月份的GDC上宣布的內容有點含糊其辭，但我們很有可能會看到一份全面的披露。如果是這樣的話，我們可以期待新產品在接下來的幾個月里發布。最有可能的是在6月。

去年10月，Koduri在推特上發了一張他的新車牌圖片，給出了一個不太明顯的暗示。它的名字是“Think Xe”，日期是2020年6月。他拒絕對這個日期的意義進行評論，這表明它可能有意義。

如果這不是一輛車，而是英特爾的暗示呢？——Richart

以這種方式泄露日期的一個好處是，它告訴業界應該期待什么，同時又不會引起太多的興奮，以至于如果GPU在7月份問世，粉絲們會很生氣。所以可以認為這是一個模糊的目標；英特爾的目標可能是在6月份發布（正好趕上Computex），但這可能需要更長的時間，具體取決于事情的進展。

英特爾暗示了一些很酷的東西，我們仍然對圖形領域的第三大玩家抱有希望。但在時機成熟之前，我們只能持謹慎樂觀的態度。

(文/小編)

• 姓能暴漲_曝英特爾第14代Raptor_Lak	• AMD介紹R7_7840U_CPU姓能超英特爾
• 華擎發布N100系列主板_自帶英特爾N100處	• 英特爾酷睿i5_13400F兩個版本測試對比_
• 千元甜品？英特爾13代酷睿i5_13400姓能	• 新一代千元檔高姓價神U_英特爾i5_13400
• 酷睿i7_12800HX姓能實測_英特爾次很好	• 英特爾至強W_3400內容創作姓能測試_進步很
• 姓能炸裂_英特爾酷睿i9_13900HK移動C	• 單核5.5GHz_英特爾13代酷睿旗艦曝光_姓

VIP

推廣服務

英特爾GPU，到底行不行？