AMD RDNA3架构深入揭秘:一大分七小、AI/光追飞跃!
一、RDNA3三大核心模块解析
作为各家新处理器、新显卡平台中最后一个登场的,AMD RDNA3架构的RX 7000系列显卡终于来了!
新品正式解禁上市前,AMD也向快科技分享了诸多细节,包括芯片设计、架构布局、技术特性等,一起先睹为快!
AMD高级副总裁、大中华区总裁潘晓明先生(Spencer Pan)表示,AMD一直致力于将优异的Radeon显卡带给发烧友和游戏市场,用不断精进的图形能力令用户收获极致体验,用一款又一款的优秀产品引领行业进入一个全新高性能时代。
对于全新的RX 7000系列显卡,潘晓明一样充满了期待与憧憬,并强调,AMD将一如既往的为广大玩家和行业带来优秀的产品,满足时代的需求。
AMD Radeon技术事业部工程研发高级副总裁王启尚表示,AMD的愿景是为全世界数十亿的游戏玩家能够提供更卓越的游戏体验,包括锐龙处理器、Radeon显卡、云游戏服务,以及PS5、Xbox Series X/S、Valve Steam Deck新一代的游戏机,还有最新的特斯拉电动汽车,把游戏体验带进汽车市场。
OK,接下来进入RDNA3的奇妙世界。
众所周知,如今的高端GPU越发复杂、庞大,晶体管数量动辄几百亿,尽管有更先进工艺的加持,但在性能提升的同时,功耗也急剧飙升,不得设计夸张的散热方案,甚至离不开水冷,导致能效比(每瓦性能)非常差。
AMD RDNA则从诞生开始就是一个极其高能效的GPU架构。初代就比此前的Vega架构在能效提升了多达50%,RDNA2又提升了54%,如今的RDNA3居然再次提升了54%,又一次超越了原定的设计目标!
三代RDNA架构发展下来,能效累计提升幅度已经超过350%,在整个GPU历史上都堪称一个奇迹。
RDNA3架构最大的创新之一,就是将AMD锐龙、EPYC上大获成功的chiplet小芯片设计,第一次引入到了GPU之上。
AMD将一颗完整的大芯片按照功能模块划分成不同的小芯片,各自使用最合适的制造工艺,再通过带宽高达5.3TB/s的高性能扇出型封装互连,组合成一个有机的整体。
RDNA3家族的顶级核心Navi 31,一共包括一个GCD、六个MCD。
其中,GCD也就是Graphics Compute Die,包括计算单元、显示单元、媒体单元等,采用先进、昂贵的5nm制造工艺,面积约306平方毫米。
MCD也就是Memory Cache Die,包括显存、Infinity Cache无限缓存,采用成熟的6nm制造工艺,单个面积约37.5平方毫米。
Navi 31核心总面积约531平方毫米,共有577亿个晶体管,集成密度约1.1亿个晶体管/平方毫米。
相比之下,RX 6900系列所用的Navi 21核心为单芯片设计,台积电7nm,268亿晶体管,面积519平方毫米,集成密度约5160万晶体管/平方毫米。
换言之,Navi 31在总面积几乎不变的情况下,晶体管数量翻番,密度也翻了一倍。
作为对比,NVIDIA RTX 4090 AD102核心仍是单芯片,台积电4N工艺(本质也是5nm),608平方毫米,763亿晶体管,集成密度1.26亿个/平方毫米。
MCD部分比较简单,每颗内部集成一个64-bit GDDR6显存控制器、16MB Infinity Cache无限缓存,后者频率为2.3GHz。
六颗组成384-bit、96MB的规格,合计带宽最高达5.3TB/s,比RDNA2架构提升了足足2.7倍。
其中单纯由384-bit 20GHz GDDR6显存提供的带宽最高为960GB/s,剩下的超过80%都来自Infinity Cache。
那么,为什么还是不使用更高频率的GDDR6X显存?
王启尚指出,RDNA 3架构旨在提高能效,而GDDR6X显存需要更高的供电以维持更高的带宽。AMD Infinity Cache这样的创新技术搭配GDDR6,就可以在更低的功耗下,实现更高的显存带宽性能。
GCD部分主要可以分为三大块儿,分别是统一计算单元、显示引擎、双媒体引擎,都是全新设计的。
接下来,我们逐一看下这三大件。
CU计算单元,仍然是RDNA3的基本组成模块,但这次焕然一新,而且有了新名字,叫做“统一计算单元”。
何谓统一?就是图形渲染、光线追踪、人工智能可以共享所有的计算资源,提供更高的单位功耗性能、单位面积性能。
计算单元内部又可以分为几个不同功能模块,首先是VGPR(通用寄存器),负责资源的共享与调度分配,其容量比RDNA2上增加了50%,从而提升了所有功能的性能。
顺带一提,计算单元部分的集成度非常高,单位面积晶体管比上代增加了足足165%。
流失处理器模块,RDNA3架构迈进了一大步,采用Dual Issue也就是双路发射设计,能够向Wave32 SMID单元同时派发两路不同的指令。
这个指令可以是整数,可以是浮点,可以是AI,看需要而定。
这就让指令分发效率直接提升了一倍,可以更好地利用计算单元中的所有功能,达成更高的性能、能效,而且混合指令的利用也更加灵活、高效。
RDNA3还极大地强化了AI,每个计算单元内有两个AI加速器,并加入新的AI指令,提升AI吞吐量,综合性能提升超过2.7倍,可以轻松满足当下乃至未来AI加速场景的需求。
光线追踪也进化为新一代,可实时跟踪的光线数量增加了多达1.5倍,还有新的光追专用指令集、新的光线盒排序与遍历算法。
最终,RDNA3每个计算单元的光追性能提升了多达50%,虽然不能说超越对手,但至少大大缩小了差距。
RDNA3架构还设计了新的“时钟频率解耦”(Decoupled Clocks)机制,也就是让着色器、前端的工作频率彼此独立,都跑在最合适的频率上。
其中,前端频率为2.5GHz,比上代提高了15%,可以更高效地处理工作负载;着色器频率为2.3GHz,能效更高,可以节省最多25%的功耗。
这一设计也为整体能效再进一步做了很大的贡献。
总的来说,凭借一系列改进,RDNA3的计算性能提升了足足2.7倍,浮点计算能力达到61TFlops(每秒61万亿次计算)。
多媒体一直是AMD GPU的强项,各种新技术、新标准总是会优先尝试。
RDNA3集成了新的Radiance显示引擎,不但支持HDMI 2.1a,还行业第一家率先支持最新的DisplayPort 2.1视频输出标准,包括UHBR 13.5,而现在距离新标准正式发布还不到一个月!
DP 1.2可提供最高54Gbps的显示链接带宽,这足以支持8K165Hz、4K480Hz、2K900Hz的超高清高刷显示输出,还能以每通道12-bit色深,渲染出惊人的680亿种颜色。
支持如此超高分辨率、超高刷新率,一方面可以显示更丰富、更高质量的视频内容,另一方面也可以更适应超高帧率游戏。
RX 7900系列本就是面向未来4K游戏的,而在当下主流的2K分辨率,很多游戏都可以跑出超高帧率,比如《守望先锋2》超过600FPS,《无畏契约》超过800FPS,使用DP2.1可以让游戏帧率、显示器刷新率更加匹配,游戏体验更加丝滑。
戴尔、三星、华硕、LG、宏碁等都在开发DP 2.1接口的显示器,预计将从2013年初开始陆续上市。
最后是新的双媒体引擎,频率提升多达80%,首次加入了对AV1格式的支持,可以做到8K60的编码、解码。
目前,各家GPU方案都已经完整支持AV1,再加上移动SoC的跟进,硬件平台已经完全到位。
另外,RDNA3还支持AVC、HEVC(H.265)格式的同步编解码,效率更高,并引入了AI增强视频编码,包括串流预分析、串流预滤波等。
值得一提的是,RDNA3架构还支持全新的SmartAccess Video协同编解码技术,可在锐龙处理器、Radeon显卡之间智能划分解码和编码工作负载,4K分辨率下的多串流编码中,可提供最高30%的性能提升。
汇总一下RDNA3 Navi 31 GPU的主要亮点:
1、首次小芯片设计,频率提升15%,能效提升54%。
2、峰值带宽提升2.7倍,浮点性能高达61TFlops。
3、统一计算单元,每时钟周期双指令发射,升级光追单元,加入AI单元。
4、全新显示、媒体引擎,完整支持DP 2.1输出、AV1编解码。
游戏特性方面,重点说一下AMD FSR。
截止10月底,AMD FSR超分辨率技术已经覆盖216款游戏,其中85款已为最新的FSR 2.x。
下一个“小”版本是FSR 2.2,重点进一步改善画质,比如减少快速移动物体的重影,同样基于时域放大算法,不需要依靠AI或者专用的AI硬件,《极限竞速:地平线5》首发支持。
下一个“大”版本是FSR 3,支持全新的AMD Fluid Motion Frame补帧技术,预计可带来比FRS 2最多2倍的帧率提升,2023年推出,正面对标NVIDIA DLSS 3。