光线追踪,无疑是GPU历史上的一大变革,而引导这一变革的,正是NVIDIA,Ada上已经发展到了第三代,有效光追算力达到191TFlops(每秒191万亿次运算),是上一代产品的2.8倍。
Ampere架构的第二代RT核心里,BVH加速的包围盒碰撞引擎(上图中左侧方框),执行光线-三角形碰撞(求交)检测加速的是三角形碰撞引擎(上图中右侧三角形部分)。
三、光流处理器(FOA)和DLSS 3:4倍性能就是这么来的
DLSS 3部分是NVIDIA着墨最多、宣传最到位的,毕竟带来的性能提升最直观、最明显,我们也多絮叨絮叨。
DLSS技术的初衷很简单,就是弥补光追带来的性能损失,毕竟这东西太耗资源了,二十多的帧率下,再好看的画面也是白费。
DLSS技术前两代的原理是超分辨率,也就是低分辨率渲染、AI增强、高分辨率输出,性能可以轻松提升2倍之多,光追游戏也能流畅玩儿。
AMD FSR、Intel XeSS也都是同样的原理,可以说NVIDIA一直走在友商之前。
DLSS 3几乎是推倒重来,尤其是基于强大的光流加速器(OFA),可以通过AI生成帧画面,插入常规渲染帧之间。
优化到位的游戏性能可提升多达4倍,普通游戏也有2倍,相当恐怖的。
同步开启Reflex技术,可以将响应速度提升最多2倍,电竞类游戏延迟低于10ms。
另外,由于DLSS 3生成帧在GPU上是作为后处理执行的,因此即使游戏受到CPU性能限制,前期渲染能力跟不上,也不会遇到瓶颈,依然能从中获得显著的性能提升,尤其是物理计算密集型游戏或大型场景游戏。
当然,DLSS 3不是单一技术,而是软硬件结合的一整套方案,包括硬件端的光流加速器(算力305Tops)、第四代Tensor张量核心(1.4PFlops算力)、NVIDIA超级计算机平台(AI算力1EFlops),包括软件端的AI帧生成(提升帧率)、AI超分辨率(提升帧率)、NVIDIA Reflex(提高响应降低延迟),是共同协作的成果。
需要注意的是,DLSS 3并不会取代DLSS 2.x,而是将其作为一个子集(超分辨率部分),可以一起工作,联合提升性能。
具体来说,DLSS 2.x是生成单个像素点来提升画质,DLSS 3的革命性之处则在于,它直接生成全新的完整帧画面,插入渲染帧画面之间,可以说就是“插帧”。
再详细一点,它使用光流加速器分析两帧连续的游戏图像,计算帧到帧之间物体、元素的运动矢量数据,综合游戏中的一对超级分辨率帧,以及引擎和光流运动矢量,并将其输入至卷积神经网络,就能计算生成出新的一帧,这在实时游戏渲染中是首次实现。
其实没有光流加速器,传统游戏引擎一样可以通过运动矢量进行建模,实现帧生成,但最大问题在于面对粒子、反射、阴影、光照等元素时,容易出现渲染不精确、视觉异常,尤其是在光追下。
将运动矢量与光流处理结合起来,就可以得到精确的运动模拟,正确处理阴影等画面效果。
结合帧生成、超分辨率缩放技术,DLSS 3可以在传统渲染器渲染的画面之外,“凭空”再造出7份画面,也就是它能让你看到的7/8的画面像素,都是额外生成的!
这就是AI的力量,或许正是未来的趋势。
刚才说了性能大幅提升,那么这种AI帧生成,会不会画面上的错位、模糊等问题?上边是NVIDIA举的两个例子。
黄仁勋也曾表示,DLSS 3生成的像素比GroundTruth(真实值)还要好看,也比过去计算的像素更好看,因为DLSS 3生成的像素不是凭空捏造,而是客观的,其训练学习的基础是16K分辨率的超清图像,所以得出的像素非常美丽,近乎原生,也能添加更好看的色彩。
至于实际效果如何,后续看评测吧。
硬件支持方面,DLSS 3帧生成必须RTX 40系列才能支持(RTX 30/20系列理论上也行但性能很弱),DLSS 2超分辨率则在RTX 40/30/20系列上都可以,另外Reflex支持GTX 900系列以来的所有型号。
显然,想要最佳体验,还得最新的RTX 40系列。
游戏支持适配方面,NVIDIA也提供了极大的便利。DLSS 3/2的大部分引擎数据是相通的,前者只是多了一个Reflex Maker,另外整个框架体系也是一体的。
DLSS 3首发就已经/即将支持36款游戏、3款游戏引擎、2款应用,其中包括《黑神话:悟空》、《逆水寒》、《永劫无间》、《仙剑奇侠传7》等国产游戏,引擎分别是寒霜、Unity、虚幻4/5。
四、AV1编码:8K60视频完美了
视频编解码一直是GPU的重要工作,可以大大减轻CPU负担,提升编解码速度。
GeForce RTX 40系列GPU升级到了第八代NVENC编码器,首次加入对AV1格式的支持,12GB或更大显存型号还是双编码器的豪华配置,可以处理单条8K/60视频,或者四条4K/60视频。
AV1格式正在桌面端、移动端得到快速普及,Intel Arc A系列显卡此前就已经在桌面端首发支持AV1编解码,但现在还谈不上影响力。
GeForce RTX 40系列GPU则带来了完整的AV1生态方案,编码API支持NVIDIA、Chrome、FFmepg、Windows,App编辑器支持DaVinci Resolve、Discord、OBS、voukoder、剪影,视频平台支持Discord、YouTube(B站/爱奇艺们加油),播放器支持Chrome、Discord、VideoLAN、Windows。
NVIDIA宣称,AV1的编码效率相比流行的H.264高出多达40%,同样画质下码率更低,同样码率下画质更好。
双编码器的产品上,NVIDIA会让二者分别负责画面的上下部分,各自处理完毕后再综合,编码效率可以提升2倍甚至更多。
同时,GeForce RTX 40系列GPU还首发了第五代NVDEC解码器,支持MPEG-2、VC-1、H.264、H.265、VP8、VP9、AV1格式的解码硬件加速,完整支持8K/60视频解码。
【首发产品规格与性能:价格大有玄机】
接下来,我们看看RTX 40系列的首发阵容,包括初步的规格参数、公版设计、官方性能、价格定位。
RTX 40系列首发三款型号分别是RTX 4090、RTX 4080 16GB、RTX 4080 12GB,分别基于AD102、AD103、AD104 GPU核心。
没记错的话,这是NVIDIA历史上第一次首发就有不同显存版本的型号,当然不一样的不只是显存。
RTX 4090自然是旗舰,但未来肯定还会有RTX 3090 Ti级别的真卡皇,因为它并没有使用满血的AD102核心。
对比上边两张内核布局图就可以发现,RTX 4090不但去掉了一组完整的GPC单元(内含6组TPC或者说12组SM),还将另外两组GPC单元各去掉了1组TPC单元或者说2组SM,也就是总共砍掉了8组TPC或者说16组SM。
总的来说,RTX 4090隐藏了多达11%的核心单元,只开启了16384个CUDA核心、512个张量核心、128个光追核心、512个纹理单元、176个ROP单元,即便如此也比RTX 3090多了足足一半还多。
核心频率2230-2520MHz,这一代大大提升(RTX 3090只有1395-1695MHz),而且实际运行中完全可以达到更高,2.8GHz左右都没问题。
显存还是384-bit 24GB GDDR6X,等效频率提高到21GHz,带宽达到1TB/s。
整卡功耗为450W,达到了RTX 3090 Ti的档次,相比于RTX 3090增加了整整100W。
RTX 4080 16GB基于AD103核心,459亿个晶体管,378.6平方毫米面积,集成度也超过1.2亿个/平方毫米。
9728个CUDA核心,对比RTX 3080 12GB/10GB只增加了10%左右,核心频率提升到2210-2510MHz。
16GB GDDR6X显存更是创纪录的23GHz,只是因为位宽从384/320-bit缩水到256-bit,带宽仅为736GB/s,略低于RTX 3080 10GB。
整卡功耗320W,和RTX 3080 10GB持平,比RTX 3080 12GB还低了30W。
最后是RTX 4080 10GB,也是最具争议的,据说原本计划叫做RTX 4070 Ti,临时拉高了档次,而过低的位宽让很多玩家认为它其实应该是xx60级别。
它基于AD104核心,358亿个晶体管,比上代旗舰GA102核心还要多,294.5平方毫米的面积却小了一半还多,集成密度同样超过1.2亿个/平方毫米!
7680个CUDA核心,对比RTX 3070 Ti多了25%,但是不如RTX 3080 12GB,核心频率为2310-2610MHz,这也是N卡迄今为止最高的频率。
最关键的是,位宽缩减到了只有192-bit,这在x80系列历史上还是第一次,甚至是x70系列都没有,搭配21GHz的12GB GDDR6X显存,带宽只有区区504GB/s,只比RTX 3070、RTX 3060 Ti高一点点。
另外,整卡功耗285W,和RTX 3070 Ti 290W差不多。
以RTX 4090为例欣赏一下公版设计,整体造型和前两代一致,正反双风扇,但更加厚重,3.5插槽体积,一体化设计更加坚固,同时风扇也增大了,风量因此增加20%。
值得一提的是,针对此前显存容易过热的问题,NVIDIA这次特别加强了显存散热,不但本身功耗更低,而且改进了风流、温度感应。
非公版应该会有更多强化,不用担心显存过热导致花屏之类的问题了。
PCB依然是尾部V形开口的独特造型,整体紧凑得不像话,没有一丝一毫的空间浪费,居然塞进去了23相供电电路,其中核心20、显存3。
NVIDIA强调,RTX 4090的供电做了优化,不会再有剧烈的电压、电流波动,尤其是高负载下的供电曲线很稳。
另外,它延续了RTX 3090 Ti上首发的PCIe 5.0 16针供电接口,理论最高供电能力600W。
建议最好搭配原生支持新标准的ATX 3.0电源,以及新的16针电源线,因为虽然厂商普遍会附赠三8针转16针的电源线,但插拔次数有限制,三四十次之后就有大概率会烧融。
性能方面,10月12日我们会给大家带来GeForce RTX 4090的首发评测,这里看看官方宣传。
传统游戏,RTX 4080 12GB都可以持平或者超越RTX 3090 Ti,RTX 4090更是可以带来少则50%、多则成倍的提升。
Portal RTX、Racer RTX、赛博朋克2077 Overdrive模式等针对RTX 40系列设计和优化的场景中,性能更是可以上天,这里也就是所谓4倍性能提升的来源。
网游就更不在话下了,2K分辨率下帧率可以轻松跑出300-600FPS,延迟普遍不超过10ms,配合高刷电竞显示器可以杀个痛快。
价格和发布时间大家都很熟悉了:
RTX 4090 10月12日,12999元起,取代RTX 3090 Ti、RTX 3090。
RTX 4080 16GB 11月,9499元起,取代RTX 3080 Ti。
RTX 4080 12GB 11月,7199元起,取代RTX 3080 12GB。
争议最大的就是RTX 4080 12GB的低规格(192-bit)、高价格,但是从产品布局来看,NVIDIA的用意也很明显,就是RTX 40系列先占领高端市场,RTX 30系列继续在主流市场打拼,二者相辅相成,RTX 3080 10GB及之下型号短期内不会退市。
不出意外的话,只有RTX 30系列的库存清理完毕后,RTX 40系列的价格才会慢慢降下来。
面对创新范围如此之光、力度如此之深的GeForce RTX 40系列GPU系列,你能忍住诱惑吗?
【本文结束】如需转载请务必注明出处:快科技
声明:如若本站内容侵犯了原著者的合法权益,请提供凭证,可联系我们进行处理,详见<免责声明>