返回列表 回復 發帖

HD7950比HD7970快? 探秘Tahiti構架奧義-1

2012年的年初因為AMD而顯得熱鬧無比,上年末到來的HD7970不僅向我們展現了一個銳意進取且勇於糾正自身錯誤的Tahiti構架,更帶來了當前世界上最快的DirectX 11單芯顯卡。而年初發佈的次旗艦級產品HD7950,更是將Tahiti構架的產品線第一時間進行了豐富,讓AMD的旗艦集團變得更加充實。




  但是,隨著我們對HD7900系列顯卡以及Tahiti構架的測試日漸深入,越來越多的問題出現在了我們的面前——為什麼擁有先進的Tahiti構架且默認頻率如此之高的HD7970,其絕對性能卻只能領先對手上代的旗艦不到20%?為什麼HD7950可以僅以60%多的功耗提供85%的HD7970的性能?為什麼HD7950在稍加超頻之後,其性能就與HD7970相差無幾了呢?


HD7950顯卡

  雖然我們曾經預設過單元複用率不足這一解釋,但直到目前為止,我們都沒有真正系統的對Tahiti構架進行過底層測試,首測以及後續測試中所進行的底層構架測試也僅針對某些特定頻率和特定狀態,談不上是瞭解構架的真實表現。

  這樣的我們,算得上瞭解Tahiti構架麼?


HD7900系列顯卡性能分佈

  為了解答HD7900系列性能表現等等這些疑問,更進一步的加深我們對Tahiti構架的瞭解,同時也證明我們之前預設的關於單元複用率對Tahiti構架以及HD7900系列顯卡性能影響的真實性,我們決定展開一場真正的針對Tahiti構架的底層性能測試。


Tahiti構架特性

  不同於我們以往的各種測試,今天的測試無論測試過程本身還是對測試結果的解讀,想要理解都存在一定的難度。想要繼續讀下去的讀者們,挑戰你們對GPU理解以及感情的時刻到了。請綁緊你座位上的安全帶,讓我們進入今天頭腦風暴式的構架深度測試過程中吧。


第2頁:與設計師的靈魂對話


  ● 與設計師的靈魂對話 

  每一款GPU晶片都是辛勤汗水的結晶,它們凝聚了設計者靈魂的力量。透過GPU晶片的特性、性能以及表現的全面瞭解,我們可以從不同角度不同方向體會到設計師在設計晶片時的想法以及希望表達的意圖。



對GPU底層構架的瞭解,可以讓我們獲取很多有用的資訊

  但想要真正的跟設計師的靈魂對話似乎並不容易,圖形處理過程的順序特性仿佛有意在保護著設計師們內心深處的隱私一般,當我們想要瞭解某個單元比如TMU的性能時,圖形流水線的特質決定了我們在絕大多數圖形化測試過程中都必須經歷這個單元前後的所有處理過程,這導致我們很難在常規的圖形化測試過程中獲得令人滿意的特定單元“純淨”性能。我們獲得的結果,或多或少都受到了來自其他單元進行圖形化過程的干擾和影響。與“不純淨”的結果對話,是無法讓我們真正直達設計者的靈魂深處的。

  有沒有什麼辦法能夠讓我們避開各種干擾,收集到“純淨”的Tahiti構架的底層性能,並直達AMD工程師的內心深處呢?


傳統的圖形化測試很難收集到特定單元的真實性能數據

  圖形過程的本質,其實就是GPU各個單元對不同數學過程執行的集合,常規的圖形化測試方法之所以無法避開干擾,是因為它們大多拘泥於“圖形化”的形式當中,無論測試過程還是結果都包含在了一個完整的圖形化處理和輸出過程中,這讓這些測試的幾何關聯達到了無法忽略的地步。所以,只要繞開這層幾何關聯,直接測試構架底層單元執行對應數學過程的能力,就可以避開其他單元以及圖形化本身對測試的干擾了。

  GPCBenchmark是一款基於Open CL的GPU通用性能測試軟體,它不僅使用最為通用的函數庫及API介面進行編寫,並未對任何構架進行針對性的優化,所有測試更基於從圖形過程以及通用計算過程中抽離出來的數學過程,能夠進行我們所期望獲得的,能夠繞開幾何關聯和圖形化過程的特定底層硬體純執行能力測試。通過該款軟體,我們不僅可以直接讀取許多底層構架資訊,更能獲得構架最真實的特性。


基於OpenCL的測試可以讓我們收集很多運算方面的數據

  有了合適的測試手段,接下來的測試對象就成了我們要面對的另一個問題了——要通過測試瞭解Tahiti構架的特質,並且回答我們在上一頁中提到的關於單元複用率與性能之間聯繫的問題,我們必須先找到合適的測試對象。


HD7950規格總覽

  有介於HD7950僅刪減了CU單元部分,對於ACE引擎、緩衝資源以及顯存控制器等對單元複用率能夠產生影響的部分未做改動的特性,我們決定採用如下測試法:先將顯存統一調整並固定至統一的頻率,然後將核心頻率從較低水準逐步調整至較高水準的方式,一路收集不同頻率下兩款緩衝體系相同但運算體系不同的Tahiti構架GPU的各項測試數據,並從中分析它們隨頻率增加而獲得的性能增長以及性能差距狀況。這種測試法不僅可以讓我們獲得Tahiti構架不同資源密度環境下的單元運算效率,更可以更加直觀的體會HD7950與同頻的HD7970之間的性能差距。

  想瞭解更加真實的Tahiti構架麼?想與AMD的構架設計師來一場靈魂的交流麼?接下來,就讓我們開始今天這場略顯晦澀但絕對能帶來更多有用資訊的底層構架測試吧。


第3頁:測試平臺軟硬體環境簡介


  ● 測試平臺軟硬體環境簡介

  性能測試使用的硬體平臺由Intel Core i7-3960X、X79 Chipset和4GB*4四通道DDR3-1600記憶體構成。細節及軟體 環境設定見下表:



測 試 平 臺 硬 件


中央處理器
Intel Core i7-3960X
(6核 / 12線程 / 100MHz*33 /
15MB L3 Cache )

散熱器
Intel RTS2011LC
(原廠水冷散熱器 / 選配件 )

記憶體模組
Samsung 黑武士 DDR3-1600 4GB
(SPD:9-9-9-24-1T)

主板
MSI BigBang XPowerII  
(Intel X79 Chipset)

硬碟
Seagate 1T
(1TB / 7200RPM / 32M緩存 /
80GB NTFS系統)

電源供應器
NERMAX 白金冰核 1500W
(CSCI Platinum 80Plus / 1500W)

顯示器
DELL UltraSharp 3008WFP
(30英寸LCD / 2560*1600解析度)


  為保證系統平臺具有最佳的穩定性,此次硬體評測中所使用的操作系統均為Microsoft Windows 7 正版授權產品。使用Windows 7正版軟體能夠獲得最好的相容性以及系統升級更新服務。



  用戶在體驗或購買安裝Windows 7的操作系統時請認准所裝系統是否已經獲得正版授權許可!未經授權的非正版軟體將無法獲得包括更新等功能在內的Windows 7服務。

操 作 系 統 及 驅 動


操作系統
Microsoft Windows 7
Ultimate RTM SP1
(64bit / 版本號7601)

主板晶片組驅動
Intel Chipset Device Software
for Win7
(WHQL / 版本號 9.2.3.1022)


AMD 顯卡驅動
AMD Catalsyt
(Beta / 版本號 8.921.2.0000)

桌面環境

2560*1600_32bit 60Hz


  我們採用GPCBenchmark 1.1以及戰地3進行本次測試的數據收集,各項數值越高越好。為保證雙方具有同樣的外部存儲環境,我們決定將HD7950的顯存頻率調至與HD7970相同的5500MHz,在該環境下,雙方將擁有完全相同的帶寬,兩者之間的差異將只局限於CU單元的規模。




第4頁:shader靈活度測試:矩陣乘法


  ● shader靈活度測試:矩陣乘法

  矩陣乘法是線性代數的基本構成之一,它是各種通用計算以及shader處理過程中非常常見的數學操作方式,矩陣乘法的過程可以將許多非常複雜的模型轉換成相對簡單的表現形式,因此被廣泛應用在了光柵化(座標變換)、光照(亮度直方操作)、陰影邊緣平滑(針對像素塊的切比雪夫不等式群)等幾乎所有圖形處理過程中。可以說只要進行圖形處理過程,GPU就必定會進行大量的矩陣乘法操作。



矩陣乘法

  矩陣乘法可以被解離成大量的行列式運算,並行化的處理這些行列式,同時為操作過程提供合理的緩衝空間來釋放臨時結果勢必會極大地加快矩陣乘法操作的效率,進而加快整個圖形過程的進度。因此,對於矩陣乘法效率的測試,不僅可以讓我們獲得構架並行度以及緩衝資源情況的資訊,更能在趨勢上反映GPU執行shader尤其是靈活shader的執行效率。因此,我們將矩陣乘法測試作為構架延展測試的第一個專案,通過它將Tahiti構架的ALU團簇部分剝離出來進行專門的性能測試。
返回列表