外貿領航
首頁外貿學堂 > geforcertx309024G「英偉達4090」

geforcertx309024G「英偉達4090」

來源:互聯網 2024-07-26 11:04:06

前言

  距離2022秋季GTC大會發(fā)布最新一代GeForce RTX 40系列桌面顯卡后不到一個月的時間,NVIDIA正式解禁了GeForce RTX 4090 Founder EditIOn旗艦顯卡的性能,至于明天10月12號將會是各大AIC廠商的性能解禁時間。

  在講述NVIDIA GeForce RTX 4090 Founder Edition顯卡性能表現之前,我們再詳細的來講述此次GeForce RTX 40系列到底為我們帶來何種提升?

  GeForce RTX 4090【建議零售價¥12999元起】

  GeForce RTX 4080 16GB【建議零售價分別為¥9499元起】

  GeForce RTX 4080 12GB【建議零售價為¥7199元起】

  本次NVIDIA將限量推出GeForce RTX 4090 FE版,于北京時間10月12日晚9點在京東首發(fā)上市,旨在為鐘愛FE版設計的發(fā)燒級玩家?guī)頍o與倫比的體驗。屆時玩家可以選購來自NVIDIA FE版和來自頂級顯卡供應商的RTX 4090 GPU標頻版和超頻版。【點擊購買】

技術講解:架構優(yōu)勢

  Turing、Ampere上兩代架構核心均以人物來命名,前者是計算機科學之父——艾倫·麥席森·圖靈;后者則是“電學中的牛頓”——安德烈·瑪麗·安培,電流的國際單位安培就是以其姓氏命名。那Ada Lovelace定非凡人,度娘一下果然,這是 人稱“數字女王”的阿達·洛芙萊斯,編寫了歷史上首款電腦程序,是被世界公認的第一位計算機程序員,果真是一代比一代還要更牛。PS:她的父親是《唐璜》的作者,詩人拜倫喔。

  從Turing架構開始,NVIDIA首次在顯卡中加入了加速光線追蹤的RT Core單元,以及面向AI推理的Tensor Core單元,這革命性的創(chuàng)新使實時光線追蹤成為可能。而Ampere架構則是全面的架構改進,在加入新一代的二代RT Core和三代Tensor Core基礎上,還有著更先進的SM單元設計,這樣顯卡工作效率那是翻倍的提升。而來到Ada Lovelace架構,同時是以效率提升為大前提,自然是引入了最新的第三代 RT Cores與第四代 Tensor Cores單元,同時加入眾多新穎的黑科技,從執(zhí)行效率來說Ada Lovelace架構是上代Ampere架構的2倍以上,甚至光線追蹤能力更是達到了恐怖的4倍性能。

  在講述核心架構前,我們先了解幾個關鍵詞:GeForce RTX 4090、Ada Lovelace、TSMC 4N、608mm2、760億個晶體管、2倍性能功耗比。

  大家?guī)е鴰讉€關鍵字來看上面的【顯卡規(guī)格參數對比】表格,就可以更容易讀懂上述表格了。最新一代的桌面顯卡GeForce RTX 40系列均采用全新的Ada Lovelace架構核心, GeForce RTX 4090的核心是 AD102,目前Ada Lovelace架構核心中最為強大的,具有760億個晶體管、16384個CUDA核心和24 GB高速美光GDDR6X顯存。

  而GeForce RTX 4080 16GB核心代號為AD103-300,擁有9728個CUDA核心和16 GB高速美光GDDR6X顯存,顯存位寬也縮減到了256Bit;GeForce RTX 4080 12GB規(guī)格要低一些,核心代號為AD104-400,擁有7680個CUDA核心和12GB 美光 GDDR6X顯存,顯存位寬僅為192Bit。這里由于NDA原因這里我們不再多說GeForce RTX 4080 系列相關的信息。

  得益于NVIDIA與臺積電深度合作的TSMC 4N制程工藝,GeForce RTX 4090核心面積僅是608mm2(上代RTX 3090 Ti 628mm2),在更小的核心面積下卻能塞下多達760億個晶體管,比上一代的Ampere架構多出了約70%晶體管數量。

  值得注意的是,制程工藝的提升不單能擁有更多的晶體管,其核心頻率更是能跑得很高,GeForce RTX 4090 Boost頻率就已經達到了2520MHz,這樣在核心頻率與高規(guī)格的雙向保證下實現了比上代顯卡高達2倍的性能功耗比。

  從GTC2022秋季大會中,其實我們就已經發(fā)現了,目前GeForce RTX 4090顯卡中配備的AD102-300核心其實并非完整的AD102核心。完整的AD102核心應該包括了12 個GPC (圖形處理集群)、72 個TPC (紋理處理集群)、144 個SM (流式多處理器) 和?個帶有 12 個 32Bit顯存控制器的 384 Bit顯存位寬。

  再來看上面的GeForce RTX 4090架構圖,和完整版本的AD102核心對比起來就很容易看出差別。首先,GeForce RTX 4090核心代號為AD102-300,其擁有9個完整規(guī)格的GPC (圖形處理集群,每個內建6個TPC),與2個非完整的GPC (圖形處理集群,每個內建5個TPC),共組成了64個TPC ,那么SM單元自然就是128個了。至于顯存位寬方向那是相當的完整——384Bit。

  如果你還是不太懂,這里筆者就逐一為了Ada Lovelace架構顯卡的構成。

  剛才我們已經說到,一個完整的Ada Lovelace架構AD102核心內部擁有12個GPC,而每個完整的GPC中包含了一個專用的Raster Engine(光柵化引擎),兩組ROPs共16個ROP(光柵化處理單元),以及6個TPC與12個SM單元。

ADA技術講解

全新的SM流式多處理器

  Ada Lovelace架構中最大的亮點之一:全新的SM流式多處理器,每個SM包含了128個CUDA核心、1個第三代的RT Cores,4個第四代 Tensor Cores(張量核心)、4個Texture Units(紋理單元)、256 KB Register File(寄存器堆),以及128 KB L1 數據緩存/共享內存子系統(tǒng),于是這一個全新的SM單元有著超過上一代2倍之的性能表現。

  過去的Turing架構INT32 計算單元與FP32數量是一致的,而兩者相加才組成了64個CUDA核心。但是Ampere架構開始,左側的計算單元實現了FP32 INT32的計算單元并發(fā)執(zhí)行,也就是說CUDA核心數量翻倍到了128個。

  再來看看Ada Lovelace架構的SM,FP32/INT32的計算單元組合,同樣實現了每個SM內含128個CUDA的設計,看似提升不大,但是當你了解到GeForce RTX 4090擁有128個SM,16384個CUDA核心,那你也就應該明白達82.6 TFLOPS的著色器能力是如何實現的了,比上一代的RTX 3090 Ti顯卡的40 TFLOPS,還真是提升了兩倍有多。

  另外緩存方面Ada Lovelace架構也進行了大規(guī)格的提升,首先每個SM單元中單獨配上了128 KB的緩存,這樣RTX 4090顯卡中就實現了163MB L1/共享內存。其次核心的二級緩存進行進行了重新的設計,并且完整AD102核心是96MB二級緩存,而RTX 4090顯卡擁有72MB二級緩存,也可能是因此Ada Lovelace架構核心對顯存位寬的依賴性并不高。

  詳細的其實等11月的RTX 4080首發(fā)就知道是否真如此。

技術講解:第三代 RT Cores與第四代 Tensor Cores

  以為剛才的CUDA數量與超大L2緩存就已經很猛了,實現上Ada Lovelace架構最大的提升還是在第三代 RT Cores與第四代 Tensor Cores身上。

  第三代 RT Cores

  RT Cores用于光線追蹤加速,第三代 RT Cores 的有效光線追蹤計算能力達到 191 TFLOPS,是上一代產品 2.8 倍。

  在Ampere架構中,第二代RT Cores支持邊界交叉測試(Box Intersection testing)和三角形交叉測試(Triangle Intersection testing),用于加速BVH遍歷和執(zhí)行射線三角交叉測試計算,雖然光線追蹤處理能力已經比初代的Turing架構核心更高效,但是隨著環(huán)境和物體的幾何復雜性持續(xù)增加,傳統(tǒng)的處理方式很難再以更高效率、正確反應出的現實世界中的光線,尤其是光的運動準確性。

  所以在第三代 RT Cores增加了兩個重要硬件單元:Opacity Micromap Engine與Displaced Micro-Meshes Engine引擎。Opacity Micromap Engine,主要是用于alpha通道的加速,可以將 alpha 測試幾何體的光線追蹤速度提高2倍。

  在傳統(tǒng)光柵渲染中,開發(fā)人員使用一些 Alpha 通道的素材來實現更高效的畫面渲染,例如 Alpha 通道的葉子或火焰等復雜形狀的物體。但在光線追蹤時代,這傳統(tǒng)的做法會為光線追蹤帶為不少無效的計算,例如運動性的光線多次通過一塊葉子,光線每擊中一次葉子,都會調用一次著色器來確定如何處理相交,這時就會做成嚴重的執(zhí)行成本與時間等待成本。

  而Opacity Micromap Engine用于直接解析具有非不透明度光線交集的不透明度狀態(tài)

  三角形。根據Alpha 通道的不透明,透明與未知等三個不同的塊狀態(tài)進行處理:透明則直接忽略繼續(xù)找下一個,不透明塊則記錄并告之命中,而未知的則交給著色器來確定如何處理,這樣GPU很大部分都不需要進行著色器的調試處理,能夠實現更為高效的性能。

  Displaced Micro-Meshes Engine

  如果說Opacity Micromap Engine加速的是面處理,那么Displaced Micro-Meshes Engine就是幾何曲面細節(jié)的加速器。如上圖所示,在Ada Lovelace架構中,通過1個基底三角形 位移地圖,就可以創(chuàng)建出一個高度詳細的幾何網格,所需要資源占用比二代RT Cores更低,效率也更高。

  通過NVIDIA給出的創(chuàng)建14:1珊瑚蟹例子來說事,這里我們需要需要1.7萬個微網格、160萬個微三角形,在Ada Lovelace架構中BVH創(chuàng)建速度可加快7.6倍,存儲空間縮小8.1倍。Displaced Micro-Meshes Engine起到了關鍵性的作用,其將一個幾何物體根據不同細節(jié)分成密度不一的微網絡處理,紅色密度超高,細節(jié)處理越為復雜 。相應的低密度微網絡區(qū)域則可以釋放更多的資源與存儲空間,這樣Displaced Micro-Meshes Engine就可以幫助BVH加速過程,減少構建時間和存儲成本。

  同時Ada Lovelace架構SM中新增了著色器執(zhí)行重排序(Shader Execution Reordering,SER),這是由于光線追蹤不再只有強光或者陰影渲染處理,未來將會更多的是在光線的運動性,這樣光線就會變得越來越復雜,想要第三代 RT Cores與第四代 Tensor Cores有著更高的執(zhí)行效率,那就得為他們來安排一位管家。而著色器執(zhí)行重排序(SER)就是為了能夠即時重新安排著色器負載來提高執(zhí)行效率,為光線追蹤提供2倍的加速,也能更好地利用 GPU 資源。不過目前仍未有實例,想實現這個功能,還得游戲與開發(fā)工具的支持才行。

  第四代 Tensor Cores

  Tensor Cores是專門為執(zhí)行張量/矩陣運算而設計的專用執(zhí)行單元,這些運算是深度學習中使用的核心計算功能。第四代 Tensor Cores 新增 FP8 引擎,具有高達 1.32 petaflops 的張量處理性能,超過上一代 的 5 倍。

DLSS3技術與NVENC

技術講解:DLSS3

  或者說第四代 Tensor Cores太硬核你不會知道是啥?提升意義在哪?但是Tensor Cores最經典的應用DLSS你肯定會知道,這一次Ada Lovelace架構支持NVIDIA最新的DLSS3技術。

  之前我們也聊過DLSS技術,其設計之初是為了彌補光線追蹤技術后的性能損失,具體的表現為開啟光線追蹤技術后游戲幀數大幅度的下降,甚至很難保證游戲流暢的運行。于是DLSS使用低分辨率內容作為輸入并運用AI技術輸出高分辨率幀,從而提升光線追蹤的性能。

  在DLSS3中包含了三項技術:DLSS 幀生成、DLSS 超分辨率(也稱為 DLSS 2)和 NVIDIA Reflex。你可以理解為DLSS3是在DLSS2的基礎上,新增了DLSS 幀生成技術;而后兩技術中,DLSS 超分辨率只需要GeForce RTX顯卡都能使用上,NVIDIA Reflex則是GeForce 900 系列以后的顯卡都用使用上。

  想實現DLSS 幀生成可不簡單,這需要配合上Ada Lovelace架構的GeForce RTX 40系列顯卡才行。DLSS 幀生成技術原理是:利用 AI 技術生成更多幀,以此提升性能。DLSS 會借助 GeForce RTX 40 系列 GPU 所搭載的全新光流加速器分析連續(xù)幀和運動數據,進而創(chuàng)建其他高質量幀,同時不會影響圖像質量和響應速度。

  從Ampere架構開始,NVIDIA顯卡就已經支持了光流加速器,而Ada Lovelace架構的光流加速器升級到了第二代,其提供了高達300 TeraOPS (TOPS) ,比安培架構的初代光流加速器(Optical Flow Acceleration,OFA)快 2 倍以上。為了實現DLSS幀生成,OFA扮演了重要的角色,其配合上新的運行?量分析算法在DLSS3技術框架內實現精確和高性能的幀生成能力。

  另外,由于DLSS 幀生成是在GPU上作為后處理執(zhí)行的,那么即使在游戲受到CPU性能限制的時候,我們同樣能夠從中獲得更好的游戲性能提升。尤其是那種物理計算密集型的游戲或大型場景游戲,DLSS2均可以讓GeForce RTX 40系列顯卡以高達兩倍于CPU可計算的性能來渲染游戲。

  最后由于DLSS 3是建立在DLSS 2基礎之上的,游戲開發(fā)者可以在已支持DLSS 2或NVIDIA Streamline的現有游戲中快速集成該功能,所以DLSS 3已在游戲生態(tài)得到廣泛應用,目前已有超過35款游戲和應用即將支持該技術。

  閱讀小亮點:NVIDIA Reflex

  NVIDIA Reflex也是DLSS3其中的一環(huán),它可以使GPU和CPU同步,確保最佳響應速度和低系統(tǒng)延遲。

  想要實現端對端的最低延遲,你需要確保游戲、顯示器以及鼠標三者都同時支持并開啟了Reflex 技術。

  當GeForce RTX 40 系列顯卡和 NVIDIA Reflex搭配上后,直接達到1440p分辨率360 FPS的體驗,這著實是性能有點強勁了。

  在GTC2022大會時已經透露將會還有4 款 1440p 分辨率的新型 G-SYNC 電競顯示器將要發(fā)布,包括采用mini-LED技術的AOC AG274QGM – AGON PRO Mini LED、MSI MEG 271Q Mini LED 和 ViewSonic XG272G-2K Mini LED三款顯示器刷新率均為300Hz,而最猛的是ASUS ROG Swift 360 Hz PG27AQN ,刷新率直接來到了360Hz。

  但唯一一個問題就在于,部分顯示器廠商認為此類產品受眾人群較少,會降低此類顯示器的產能,甚至產品就已經被內部PASS掉,所以1440p360Hz是很美好,但現實也是相當的骨感。

技術講解:雙 NVIDIA 編碼器(NVENC)

  GeForce RTX 40 系列顯卡還有一個全新的升級,那就是雙編碼器NVENC。第八代的NVENC雙編碼器不僅支持H.264與H.265,還支持開放式視頻編碼格式 AV1。

  而由于AV1是一種免版稅的視頻編碼格式,上游軟件廠商與下游戲的配套端都在大力推廣此編碼格式,我們也會看到越來越多的硬件與軟件支持AV1格式,包括剪映專業(yè)版、DaVinci Resolve、以及 Adobe Premiere Pro 較為流行的 Voukoder 插件均支持,且均可通過編碼預設使用雙編碼器,這樣我們等待視頻導出的時間縮短將近一半。

  不單是視頻制作軟件,AV1格式也將會是主播、游戲直播UP主們的新寵兒,在保證畫面最高質量的情況下,AV1 編碼器可將效率提高 40%,同時顯卡的占用也更低。包括OBS Studio一一代軟件中也會增加AV1格式的支持。另外我們還能通過 GeForce Experience 和 OBS Studio 錄制高達 8K60 的內容,這樣我們做游戲錄制也會變得更為輕松。

  包括我們之后測試時使用的游戲內錄視頻都是支持AV1格式,同時雙編碼器NVENC在資源占用和適配上做得越來越好。

RTX 4090 FE公版&拆解

NVIDIA GeForce RTX 4090 FE顯卡介紹,外觀講解

  NVIDIA GeForce RTX 4090 Founders Edition外包裝還真是大得很,設計元素也是相當的精簡,“NVIDIA GeForce RTX 4090”。

  整個外包裝采用了相當環(huán)保的瓦楞紙,還真別說,這包裝比上代的抗壓能力高多了,有種相當堅固而用的感覺,可能是NV知道這個實在有點沉了,弄個好點的包裝來保護一下顯卡。

  NVIDIA GeForce RTX 4090 Founders Edition外觀設計與上一代的RTX 30系列FE版旗艦顯卡基本是一樣的,只不過NVIDIA GeForce RTX 4090 Founders Edition個頭兩圈,RTX 3080 Ti在其面前還真是一個小弟的樣子。

  下面是一把正轉的12cmm設計,四周被散熱鰭片所包圍

  散熱鰭片的做工還是相當的工整

  顯卡正面的尾部同樣是配上的大面積的散熱鰭片

  接口方面,NVIDIA GeForce RTX 4090 Founders Edition仍是保持在主流水平上:3*DP1.4a 1*HDMI2.1接口。我們所期待的DP 2.0是沒有的了,另外NV PDF里表明,DP 2.0的顯示產品短時間內不可能上市。那這是否意味著NVIDIA GeForce RTX 50會采用新接口呢?當然一向在接口規(guī)格上較為激進的友商,估計會搶先推出帶DP 2.0接口的顯卡。

  Founders Edition顯卡的細節(jié)做工的確要比一般的產品質感來得更好,而信仰不單是因為NVIDIA這個品牌效應,更多的是其產品,FE信仰一直就在發(fā)燒友玩家心中。

  Founders Edition顯卡的產品信息,SN碼全都是在擋板上,而由于是全球發(fā)售的產品,所以帶上許多地區(qū)的產品認證與環(huán)保認證。

  而一正一反的設計可以加強機箱內散熱風道的形成,而根據NVIDIA給出來的數據顯示,這一套散熱系統(tǒng)比上一代顯卡提供了最大氣流多20%,而在同噪音的條件下,氣流多15%,這字面上的散熱效能還真是相當可以。

  大家也不用擔心看到Founders Edition顯卡區(qū)別不出來是什么產品,除了從產品的體積大小區(qū)分,我們還能在產品的裝飾條上看到刻有產品型號:“RTX 4090”,而實際上我們在尾部的IO接口處也可以看到產品型號。

  尾部的側面片,NVIDIA做了一個磁吸的蓋,里面有兩個可固定顯卡的安裝螺絲孔,但是產品附件中其實并沒有安裝支架,那安裝支架我們就得自行購買了。

  來到NVIDIA GeForce RTX 40時代,所有的顯卡包括FE與AIC廠商,都采用上了最新的12VHPWR這一接口,筆者建議大家購買和使用由電源廠商提供的原生線材。

  若不想更換電源,也沒買到原生模組線的網友們也不用擔心,NVIDIA為FE與AIC的產品都配上了一個4*8Pin TO 12VHPWR轉換線供大家使用。

NVIDIA GeForce RTX 4090 Founders Edition顯卡拆解

  和上代FE公版顯卡的拆解方式一樣,背部的金屬裝飾條,直接下手抬起,即可以慢慢的把金屬裝飾條拆下。

  需要注意的是靠IO接口處的金屬板是利用金屬卡扣來固定的,拆出來的時候需要小心注意一下。

  把兩層金屬背板拆下來后,就可以看到NVIDIA GeForce RTX 4090 Founders Edition PCB背面。

  核心背部是大量的MLCC(多層陶瓷芯片電容),而部分AIC廠商采用的是四個POSCAP(導電聚合物鉭電容)來代替。

  把背部四個固定的背部螺絲拆掉就可以把PCB拆下來,當然由于導熱墊比較粘且油,所以有一定機率直接粘到PCB上面。

  從上代RTX 30系列顯卡開始,FE公版PCB就采用了異形PCB,只不過這次NVIDIA GeForce RTX 4090 Founders Edition PCB變得更大更高了些,背部可以看到PCB板型號:180-1G136-DAAA-D02。

  NVIDIA GeForce RTX 4090核心編號為GA102-300-A1,而由于是媒體送測的FE版本,所以核心上也有SAMPLE字樣。同時這核心是22年25周期A1版本的核心,也就是6月中出來的核心,周期還真的早。

  核心四周是12顆美光GDDR6X顯存,顆粒編號為D8BZC,其規(guī)格為:512Mb*32Bit、單顆2Gb容量、頻率為21Gbps,而且還帶上ECC功能;12顆就可以組成24GB 384-bit的顯存規(guī)格。這顆粒首次出現就是NVIDIA上代桌面級旗艦產品GeForce RTX 3090 Ti顯卡。

  供電部分被放置在PCB頭尾兩端,一共是23供電設計,其中20相為核心,3相為顯存供電。

  細心的網友們定會發(fā)現,PCB供電空焊的位置也是較多的,那么我們很確認的是未來肯定會有更高規(guī)格的GA10x核心出現。

  供電部分的DrMOS均來自芯源系統(tǒng)(MPS) 的MP86957,此芯片也常用在高端顯卡上,是一個集成了上下管和驅動的Intelli-Phase高效能解決方案,而單顆MP86957可提供高達70A的連續(xù)電流。

  供電控制方面采用的是同為芯源系統(tǒng)(MPS) 的單顆MP2891來負責,供電控制思路和上述的圖相當,只是目前我們仍未能找到MP2891芯片更多相關的資料。有興趣的網友可以到MPS官方查閱相關的資料【點擊查看】

  而旁邊的us5650q芯片就是顯存供電的控制芯片

  高品質的12VHPWER插座

  顯卡配備了一個超強大的散熱系統(tǒng),不單是因為前后風扇都是12cm的設計,更多的是此散熱模組規(guī)模是真的大,底部是一個表面鍍鎳處理的真空腔均熱板,配上6條8mm粗大的熱管與超大兩種散熱鰭片。而無論是熱管還是散熱鰭片均進行了黑化鍍層處理,可以防止長時間使用后表面氧化的問題。

  基本上每一個部件都有對應的編號,也體現了NVIDIA對FE公版有著更嚴格的品控要求。

  顯存與VRM位置均配上導熱墊進行輔助散熱,尤其是顯存位置更是在均熱板基礎上再焊了一層開槽的散熱片,加強對顯存位置的散熱 。

  就算是背部的金屬背板做工也是相當細致的,并非常規(guī)的壓鑄處理,而是CNC處理,可明顯看到CNC刀頭的痕跡。

測試平臺介紹

測評平臺介紹:

  由于我們這次測試的對象NVIDIA GeForce RTX 4090 Founder Edition顯卡定位為旗艦級顯卡,針對人群為深度游戲玩家、視頻創(chuàng)作者,以及專業(yè)向內容創(chuàng)作者等用戶。為避免平臺中其它硬件帶來的性能瓶頸,這里我們挑選的硬件均了目前旗艦級的產品。

  三大配件中,我們優(yōu)先選用了INTEL目前旗艦級i9-12900K處理器,此款處理器采用了16核24線的設計,而且睿頻至高可達 5.20 GHz,完全滿足游戲玩家與內容創(chuàng)作者的需求。而主板方面我們挑選了一塊高規(guī)格的微星MEG Z690 ACE戰(zhàn)神主板,可以滿足多個高速GEN4 NVMe M.2固態(tài)硬盤的同時還有著豐富的擴展性能。

  至于內存方向,一般我們測試中也僅使用32GB顯存的,但是鑒于我們這次測試的復雜性與8K視頻的需求,于是我們直接來了個大全套。4條Kingston FURY Beast DDR5 RGB內存條,并在BIOS中讀取了XMP I檔(DDR5-6000 C40),同時通過了RunmemtestPro5.0穩(wěn)定性測試,這樣平臺內存就運行在DDR5-6000 C40大容量高頻的條件下。

  存儲系統(tǒng) 方面也不用擔心,三星 980 PRO With Heatsink 2TB固態(tài)硬盤作為系統(tǒng)盤,而金士頓 KC3000 4TB作為游戲與軟件盤的組合,配合上主板的散熱馬甲可以保證硬盤持續(xù)高速讀寫。在做測試前,我們重新對系統(tǒng)盤進行的最新版本的系統(tǒng)安裝WINDOWS 11 21H2,本打算用22H2但這版本對NV顯卡有一定的負優(yōu)化效果,那么退而求穩(wěn)定。

  顯示器方面,使用上了我們的鎮(zhèn)室神器——愛攻&保時捷聯名 PD32M 電競顯示器 4K144,由于MINI-LED技術的引入,此款顯示器可以看到更高亮度的HDR效果,并且此款顯示器的色彩表現相當不錯,還帶上144Hz高刷。不過此款顯示器只能支持4K UHD分辨率,我們測試中使用的8K視頻是利用NVIDIA DSR技術來擴展而來的,性能上與原生8K分辨率的顯示器有一定的差距。

  電源方面,我們這里使用了鑫谷剛推出的昆侖KL-1250G ATX3.0電源,其符合最新的ATX3.0規(guī)范,并支持PCIe5.0原生接口,標配一根12VHPWR 16Pin原生線材,可以直接為GeForce RTX 4090顯卡提供600W供電。

  12VHPWR接口解說:

  目前NVIDIA都為基于Ada Lovelace架構的桌面級顯卡GeForce RTX 40系列均配備了12VHPWR接口,所以用戶在使用前得注意一下電源在額定功率足夠的情況下,電源是否支持12VHPWR接口。

  而這一次GeForce RTX 4090顯卡上市,NVIDIA為大家準備了一個4*8Pin轉12VHPWR 16-pin接口的轉換線,無論是FE還是AIC廠商的顯卡中都會標配這個線,方便大家使用。但是這種轉換接雖然通過了NVIDIA認證,卻有著最多30次連接/斷開的使用壽命限制,也就是只有15次的更換次數,著實有點少了。

  這鍋不怪廠商,不怪NV,只因要滿足450W以上的供電需求,對接口接線端子要求可不低,使用次數過多高,接口松跨、端子電阻會變大,這樣就比較容易引起接口熱熔問題。

  當然若你使用的電源本來就是比較高功率的,那么我們建議你聯系一下經銷商或者是電源廠商,購買一條雙8Pin轉12VHPWR模組線,這樣我們也能夠更安全的使用單供電600W的供電需求。

  當然最理想的狀態(tài)肯定是與我們測試平臺一樣,直接使用上支持PCIe5.0原生接口的電源,這樣電源可以根據顯卡的供電需求使用600W大功率的供電輸出。

  *想了解更多關于顯卡供電接口的,點擊查看://diy.pconline.com.cn/1495/14955385.html

  測試前系統(tǒng)設置

  另外在測試前,NVIDIA的技術指導文檔中已經說到,想要開啟DLSS3功能,需要幾個步驟:

  將硬件加速的 GPU 調度設置為開啟

  以全屏模式運行游戲以獲得最佳性能和最低延遲。

  請確保在 NVIDIA 控制面板中將顯示器設置為最大刷新率。

  建議使用 G-SYNC Ultimate 顯示器進行最佳體驗評估。

  在主板的 SBIOS 中開啟 Resizable BAR。

理論性能與內容創(chuàng)作測試

理論性能測試:

  性能方面,我們先來看看代表性的3DMARK理論性能測試,包括DX11項目(Fire Strike系列)與DX12項目(Time Spy系列),甚至是光線追蹤項目Port Royal都有著同樣的表現,GeForce RTX 4090很強,基本就是大幅度領先上一代的產品。尤其是當分辨率越高,或者是對光線追蹤能力越依賴的項目中,均是翻倍的性能表現。

  同樣的在著色器功能、采樣器反饋功能,以及DLSS2功能項目中同樣有著超大幅度的性能提升,值得注意的是這僅是DLSS2的表現,之后我們也會對DLSS3項目進行詳細的測試。

  *PS:Fire Strike與Time Spy系列項目中全都是GPU得分,并非項目總分

  同款顯存顆粒,同款384Bit顯存位寬,以及同款1018GB/s顯存帶寬,兩款顯卡的顯存顆粒讀寫方面能力是一致的,但是GeForce RTX 4090的顯存復制能力明顯高2.6倍,這或者就是Ada Lovelace架構核心L2緩存給我們帶來的最大好處之一。

  同樣的Ada Lovelace架構的GeForce RTX 4090由于有著更強勁的核心規(guī)格,所以你可看到在算力方面,完全就是2倍性能于上一代的RTX 3090 Ti產品。

視頻內容生產力測試

  視頻生產力方面,我們同樣先來看PCMARK10理論性能測試,GeForce RTX 4090在此項目中提升的并不算太多,約13%領先于RTX 3090 Ti。但從子項目中你會發(fā)現,常用基本功能與生產力這兩項基本靠的是整個平臺的性能,而來到游戲小項上的提升會猛一些,約32%左右。

  而UL Procyon理論性能測試中,辦公性能兩款顯卡基本就是沒差,甚至是照片編輯方面其實兩者可說是同檔次的性能,就是視頻編輯導出上,GeForce RTX 4090會高些許。

  而PugetBench測試中,反應出了同樣的性能表現。這真是GeForce RTX 4090多媒體的能力?筆者對此是有點懷疑是ADOBE軟件版本的問題,UL Procyon與PugetBench中調用的同款的Adobe套件。但是達芬奇我們使用的是較新的支持AV1編碼的DaVinci Resolve 18.0.2,這樣性能提升才會更明顯一些。之后筆者會再詳細地進一步對這幾款軟件進行更詳細的補充測試。

NVIDIA NVENC雙編碼器專項測試:

  NVIDIA NVENC雙編碼器專項測試中,筆者這里只挑選了ACCELERATED AV1 AND H.265 PERFORMANCE、AI ACCELERATED MAGIC MASK,Large GPU Memory占用,以及ON1 Resize項目來進行測試。

  先來總結一下,第八代的NVENC雙編碼器的確為RTX 4090帶來更好的性能表現,同樣是H.265視頻輸出,比上代顯卡快多了;同時若你是輸出8K30視頻,那RTX 4090只需要46秒就能完成了,RTX 3090 Ti卻要170秒,這后期小哥的摸魚時間也大大的縮短了。

  ACCELERATED AV1 AND H.265 PERFORMANCE

  而由于NVENC雙編碼器支持AV1格式,那么我們同樣做了H.265與AV1同規(guī)格視頻輸出時間的對比,同樣是GeForce RTX 4090顯卡,在4K30高質量視頻兩者輸出時間是一致的,但是來到更高分辨率的8K30高質量視頻輸出,H.265格式的輸出時間會短幾秒,但是容量方面AV1格式的視頻明顯要少一些,至于兩者不同編碼的視頻播放資源占用也是相當的。

  AI ACCELERATED MAGIC MASK-RTX 4090

  在Magic Mask測試中,可看到Ada Lovelace架構的GeForce RTX 4090有著更快的渲染時間,17秒就已經完成了整個AI ACCELERATED MAGIC MASK的測試,而反觀上代旗艦GeForce RTX 3090 Ti則需要37秒來完成這測試,都說后期小哥除了摸魚時間都是金貴的,那么GeForce RTX 4090的確是會為后期團隊更為更高的效率。

  Large GPU Memory MB_8K R3D RED CAMERA clip,play the clip in the viewer

  這個測試薦其實我們在RTX 3090 Ti首發(fā)當時就做過測試,工程量、特效以及濾鏡效果并不復雜的情況下,即使是實時播放8K視頻顯存占用量也不算很高。但當我們刻意地加強特效與濾鏡效果,那么顯存占用方面那就輕松上去了,同樣是8K R3D RED CAMERA錄制的視頻,同設備RTX 4090的顯存占用會低一些,約17GB,而RTX 3090 Ti 顯存占用卻達到了21.5GB。

  ON1 Resize

  同樣的,在ON1 Resize軟件中我們把原來超高分辨率的圖片再次放大到200%,同樣的操作,GeForce RTX 4090處理速度就是要比RTX 3090 Ti要快得多。

專業(yè)內容創(chuàng)作測試

  Blender這一款免費的三維全功能軟件還真是越來越受歡迎了,其能使用實現建模、實時渲染、三維動畫、材質繪制、后期合成、綠屏摳像、攝影機跟蹤、物理特效模擬等。而這里我們直接使用了最新的Blender Bcnchmark v3.3.0軟件進行測試,內含三個monster、junkshop,以及classroom測試項目,RTX 4090的性能表現還真是讓的喜歡,2倍于上代旗艦的性能。

  OctaneBench是目前較為流行的GPU渲染基準測試工具,可看到RTX 4090同樣憑借著其高規(guī)格的核心,帶來了更強勁的GPU渲染性能,這一代的架構提升還真的強得不是一點點。

  SPECviewperf 2020 v3.0是專業(yè)級、符合工業(yè)標準的OpenGL圖形顯示卡效能測試分析軟件,RTX 4090的性能同樣是比較強的勢頭。總的來說吧,專業(yè)內容方向,RTX 4090比上代有著70%的性能提升,12999的定價單純拿來做專業(yè)向內容,那是真值得。

游戲性能測試

游戲性能測試

  當然作為一款游戲顯卡,RTX 4090相信也會有著不錯的性能。1080p分辨率下,常規(guī)的游戲提升其實并不算多,但是當游戲帶上DLSS后,性能提升還是很不錯的,整體會是約28%的提升。

  至于2K與4K游戲方面,當分辨率越高,RTX 4090的性能才真的發(fā)揮出來,尤其是4K分辨率下,性能提升最為明顯,而且大部分的3A游戲,基本能跑上100FPS以上,配上PD32M這種4K144顯示器玩游戲是真爽。

  當然若你把顯示器分辨率拉到8K,并且開啟DLSS超級性能檔后,基本3A游戲都有60FPS左右的游戲度,反觀RTX 3090 Ti的確是有點乏力,這也是很好的說明了RTX 4090顯卡才是真正能玩爽8K游戲的旗艦游戲顯卡。

DLSS3性能測試

DLSS3性能測試

  作為RTX 40系列顯卡最大的亮點——DLSS3,我們自然會加入到這次首發(fā)評測中。不過這里我們先來看看將會有那幾款游戲支持最新的DLSS3技術。

  ● 《超級人類》(SUPER PEOPLE):搶先體驗版將于10月12日13:00發(fā)布,支持DLSS 3

  ● 《生死輪回》(Loopmancer)將于10月12日發(fā)布更新版,支持DLSS 3

  ● 《逆水寒》“拂云庭“(Justice ‘Fuyun Court’): 全新圖形展示將于10月13日發(fā)布,支持DLSS 3

  ● 《微軟模擬飛行》(Microsoft Flight Simulator):將于10月17日為Xbox Insider計劃成員推出測試版,支持DLSS 3

  ● 《瘟疫傳說:安魂曲》(A Plague Tale: Requiem):將于10月18日發(fā)布,支持DLSS 3

  3DMARK DLSS3功能

  這一次NVIDIA為我們單獨給出了3DMARK最新的測試版本,里面包含了支持DLSS3技術的DLS功能測試工具。剛好結合我們之前測試的DLSS2成績,如上圖,2K分辨率的性能表現DLSS2與DLSS3基本是一樣的,就沒差;而4K分辨率開始,那開啟DLSS3之后的幀數提升就相當明顯了,更不用說8K分辨率下的DLSS3超高性能檔下會實現了DLSS2 2倍性能的提升。

  Cyberpunk 2077

  同樣在Cyberpunk 2077游戲中,我們可以先使用上了支持DLSS3功能的游戲,同樣是使用其內置的BENCHMARK進行測試,但是由于DLSS3開啟后,內置幀數計算器會出現較大的誤差,于是這里我們使用上了NVIDIA自家的FrameView工具來記錄幀數,不但能記錄上平均幀數,還能記錄1%FPS幀數與平均PCL延遲。

  可以先來看看Cyberpunk 2077游戲在4K分辨率超級光追設定的情況下,平均幀數僅是43 FPS。這就是我們測試的一個基準,當開始DLSS2功能后,平均幀數能達到77 FPS,已經可以相當游戲的運行游戲;但這里仍不滿足,開啟DLSS3后,游戲流暢度達到了146 FPS,這提升還真是相當的大。同樣的情況也發(fā)生在2K分辨率檔的對比測試中,只能說這一次DLSS3是真的強得有點過份了。

  F1 22

  同樣的F1 22游戲中,4K分辨率下僅TAA設置的游戲流暢度僅為75,這說明了RTX 4090不開啟DLSS功能的游戲性能也很強。但是當開始DLSS3后,無論是質量檔還是性能檔,其游戲流暢度都高于120 FPS,對于一款賽車游戲來說,這流暢度是真再爽不過了。

  逆水寒

  我們在測試版本的逆水寒游戲中錄制了視頻給大家觀賞一下,逆水寒游戲中開啟DLSS3之后與DLSS關閉后畫質表現會是如何,明顯的當DLSS關閉后游戲幀數超低,像是數幀數一樣,而DLSS3開啟后整個游戲明顯變得更為流暢,而且整個畫面的表現也更好,有興趣的網友可以直接使用上面的插件對視頻放大對比一下畫質表現。

  Unreal Engine 5 Lyra

Unreal-Engine-5-Lyra-DLSS3-OFF

Unreal-Engine-5-Lyra-DLSS3-ON

  而最后我們還測試了利用Unreal Engine 5引擎打造的Lyra DEMO,此DEMO除了能夠支持最新的DLSS3技術外,還帶上了NVIDIA Reflex。筆者這里上傳了兩個圖片給大家看看Lyra DEMO里的DLSS3開啟與關閉的畫質對比,游戲流暢度自然是DLSS3開啟后提升較為明顯的,達到192 FPS,而PCL延遲也進一步降低到了50ms的水平。

  目前,DLSS 3已經得到了許多全球領先的游戲開發(fā)者支持, 超過35款游戲和應用宣布即將支持該技術,包括:

  ● 《瘟疫傳說:安魂曲》(A Plague Tale: Requiem)

  ● 《原子之心》(Atomic Heart)

  ● 《黑神話: 悟空》(Black Myth: Wukong)

  ● 《光明記憶: 無限》(Bright Memory: Infinite)

  ● 《切爾諾貝利人》(Chernobylite)

  ● 《戰(zhàn)意》(Conqueror's Blade)

  ● 《賽博朋克2077》 (Cyberpunk 2077)

  ● 《達喀爾拉力賽》(Dakar Desert Rally)

  ● 《火星孤征》(Deliver Us Mars)

  ● 《毀滅全人類2: 重新探測》(Destroy All Humans! 2 - Reprobed)

  ● 《消逝的光芒2: 人與仁之戰(zhàn)》(Dying Light 2: Stay Human)

  ● F1? 22

  ● 《暗影火炬城》(F.I.S.T.: Forged In Shadow Torch)

  ● 寒霜引擎

  ● 《殺手3》(HITMAN 3)

  ● 《霍格沃茨:遺產》(Hogwarts Legacy)

  ● 《翼星求生》(ICARUS)

  ● 《侏羅紀世界:進化2》(Jurassic World Evolution 2)

  ● 《逆水寒》(Justice)

  ● 《生死輪回》(Loopmancer)

  ● 《星際海盜》(Marauders)

  ● 《漫威蜘蛛俠: 重制版》(Marvel’s Spider-Man Remastered)

  ● 《微軟模擬飛行》(Microsoft Flight Simulator)

  ● 《午夜獵魂》(Midnight Ghost Hunt)

  ● 《騎馬與砍殺2: 霸主》(Mount & Blade II: Bannerlord)

  ● 《永劫無間》(Naraka: Bladepoint)

  ● NVIDIA Omniverse?

  ● NVIDIA Racer RTX

  ● 《破滅》(PERISH)

  ● 《傳送門》RTX版(Portal with RTX)

  ● Ripout

  ● 《潛行者2:切爾諾貝利之心》(S.T.A.L.K.E.R. 2:Heart of Chernobyl)

  ● 《煉獄神罰》(Scathe)

  ● 《超級人類》(SUPER PEOPLE)

  ● 《仙劍奇?zhèn)b傳七》(Sword and Fairy 7)

  ● 《重生邊緣》SYNCED

  ● 《指環(huán)王: 咕嚕》(The Lord of the Rings: Gollum)

  ● 《巫師3:狂獵》(The Witcher 3: Wild Hunt)

  ● 《王權與自由》(THRONE AND LIBERTY)

  ● 《幻塔》(Tower of Fantasy)

  ● Unity

  ● 虛幻引擎 4 & 5

  ● 《戰(zhàn)錘40K: 暗潮》(Warhammer 40,000: Darktide)

超頻、功耗&總結

超頻測試

  超頻方面,NVIDIA GeForce RTX 4090 Founder Edition顯卡的默認BIOS最高TDP是達到600W的,但是即使這樣,顯卡仍是存在功耗墻的,約是520W左右,往后我們就很難再提升頻率了。超頻測試我們使用的是MSI Afterburner超頻軟件,若你不太懂如何起步,其實可以利用AI OC技術,這基本每個顯卡廠商配套的軟件都帶上的功能,這樣就能實現更簡單的自動超頻。

  先為顯卡熱一下身,把溫度限制、風扇轉速、以及電壓全都拉到最高,先跑一次看看能跑多少分數。這里NVIDIA GeForce RTX 4090 Founder Edition顯卡在TIME SPY顯卡分數能達到37042,40秒的核心頻率為2805MHz,性能是有一定的小幅度提升。

  再點核心與顯存頻率,40秒的核心頻率為2850MHz

  再拉慢慢的拉高一點,測試過程中其實試了很多個頻率,但這里只給出一個參考頻率大家看,40秒的核心頻率為3000MHz,,分數再進一步的提升,此時你會發(fā)現其核心的功耗已經達到了503W。

  最后頻率穩(wěn)定在了3060MHz,再高就真拉不上了,直接黑給你看。不過性能還是提升不錯的,顯卡分數達到了38422,默認頻率下得分就是36586,分數提升了5%,最高功耗已經來到了518W。

功耗與散熱

  功耗與溫度測試,同樣利用Furmark對顯卡進行深度烤機測試,兩塊顯卡最大功耗表現也是在450W以內,但CPD功耗明顯是RTX 4090要高一些。同時你可以看到,RTX 4090在PCIe功率需求是較低的,基本都是來自12VHPWR顯卡供電接口,所以說升級RTX 40顯卡,真心建議購買原生模組線或更換一個支持PCIE5供電接口的電源。

  至于溫度方面,這一次的NVIDIA GeForce RTX 4090 Founder Edition顯卡散熱是真的可以,GPU滿載溫度穩(wěn)定后最高也就是72.3度,顯存溫度也僅是80度左右 。這溫度表現還真的比AIC非公的散熱也要強些,這都是得益于前后兩把12cm的軸流風扇,低溫轉速低噪音低,高溫轉速適中噪音也不大。

總結:

  在GTC2022大會后,網友們對RTX 40系列顯卡的評價還真的褒貶不一,旗艦級的NVIDIA GeForce RTX 4090賣1299元,這個價格只能說真香!

  從我們的評測數據來說,無論是游戲性、視頻創(chuàng)作性能,甚至是專業(yè)內容創(chuàng)作性能,GeForce RTX 4090都有著大幅度的提升,可以說是硬生生的把桌面級的旗艦顯卡水平拉到了新高。同時其功耗與溫度表現還相當的理想,真能做到了同功耗下比上代旗艦達到2倍能耗比的提升。

  別外Ada Lovelace架構的GeForce RTX 40系列顯卡均支持NVIDIA第8代的NVENC雙編碼器,針對AV1做了特別的加強優(yōu)化與支持,雖然評測里我們只做的視頻的輸出測試,但是NVENC雙編碼器還能夠實在 8K60直播流,這對于直播行業(yè)的用戶來說,真的是省時省力省資源。

  最后肯定是DLSS3技術,牛逼,DLSS幀生成技術完全擺脫了CPU做成的游戲性能瓶頸,利用幀生成技術實現更高的游戲流暢度。這在我們的實測中都得到很好的驗證。當然DLSS3技術仍需要不斷的開發(fā)與完善,相信也會會越來越多的游戲與應用都帶上這樣頂級的技術,屆時就是我們玩家享受的時候了。

  至于被貶的RTX 4080系列顯卡,相信11月解禁的時候我們才知道是真香還是真坑了。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如有侵權行為,請第一時間聯系我們修改或刪除,多謝。

CopyRight ? 外貿領航 2023 All Rights Reserved.