真正的国产显卡之光!摩尔线程国产GPU、AI与元宇宙多项进展深入解读
一、摩尔线程简史:光速创业 全线出击
如今,我们已经有了较为成熟的自主CPU处理器、NAND闪存、DRAM内存、OS操作系统,而作为计算平台中非常关键的一环,GPU显卡,却一直存在严重的缺失,主要是它不但在硬件设计上难度极大,生态培育更是难上加难,非一朝一夕之功。
国内做GPU的企业其实并不少,但很多都是仅限特定行业领域,或者面向高性能计算,真正敢于全面布局,敢于进军消费者市场的,就不能不提到摩尔线程(MooreThread)。
5月31日,摩尔线向快科技发出2023年夏季发布会的邀请,原本以为这次的核心就是新一代游戏与服务器显卡,结果发现我们的格局实在是太小了,摩尔线程的布局远不止于此。
从娱乐与创作到AI与云计算,从国产化数字办公到元宇宙,摩尔线程一口气带来了全新游戏显卡与整机、DX11驱动、物理引擎、云桌面方案与一体机、开发工具、代码移植工具、AI内容创作、元宇宙与数字人等等诸多方面的突破性进展,掀开了国产化GPU及生态全新的一页。
摩尔线程这个名字相信大家都不陌生了,这里再简单介绍一下它的历史。
摩尔线程成立于2020年10月,到今天也才不过两岁半多点,但成绩斐然。
摩尔线程的创始人是原NVIDIA全球副总裁、中国区总经理张建中先生,他于2005年加入NVIDIA,带领团队开拓了NVIDIA GPU在中国完整的生态体系,推动中国成为NVIDIA全球最重要的市场,没有之一。
摩尔线程的核心创建团队基本都来自NVIDIA,拥有完整的高端芯片人才团队,全面覆盖GPU芯片IP研发、系统软硬件设计、生态建设和市场营销等。
2022年,摩尔线程就推出了GPU统一系统架构MUSA,发布并量产“苏堤”和“春晓”两颗全功能GPU芯片,这也是国内采用现代GPU架构,唯一内置图形渲染、视频编解码、AI计算加速、物理仿真、科学计算四大引擎的全功能高端GPU芯片。
产品方面,摩尔线程也迅速完成了全线布局,速度之快、范围之广如同开挂一般。
硬件方面包括面向数字办公的桌面显卡MTT S10/S30/S50、第一款国产游戏显卡MTT S80、针对数据中心的全功能MTT S2000/S3000。
软件方面则有首个元宇宙计算平台MTVERSE、自研GPU物理引擎AlphaCore、数字人解决方案DIGITALME、AIGC内容生成平台摩笔马良,等等。
MTT S30整机
MTT S3000服务器八卡并行
生态方面,摩尔线程已与200多家伙伴达成战略合作,尤其是在整机、板卡的国产化数字办公方面,实现了高质量交付。
PES完美体验系统联盟合作伙伴数量也在不断增长,覆盖国内外主流CPU厂商、操作系统厂商、OEM厂商、软件服务厂商、云服务厂商、系统软件开发商。
二、MTT S70、DX11和整机:软硬兼施 真正可玩
这次发布会,相信大家最关心的就是新发布的第二款游戏显卡MTT S70,不过在介绍它之前,我们先简要回顾一下第一个勇敢杀入游戏市场的MTT S80。
MTT S80基于代号“春堤”的GPU芯片,集成200亿个晶体管,配备4096个MUSA架构核心、128个Tensor张量核心,并内置MUSA智能多媒体引擎2.0(H.264/H.265/AV1编解码器)、MUSA安全引擎1.0、MUSA多位虚拟化引擎(SR-IOV)。
核心频率1.8GHz,FP32浮点算力达到14.4TFOPS(每秒14.4万亿次),INT8整数算力达到57.6TOPS(每秒57.6万亿次)。
它搭配了256-bit位宽的16GB GDDR6大容量显存,等效频率14GHz,带宽达448GB/s。
系统接口首发也是迄今唯一采用PCIe 5.0 x16,显示输出支持DP 1.2a、HDMI 2.1、8K30,也是国内首款支持Windows环境、DirectX图形接口的显卡产品。
MTT S70可以视为MTT S80的小弟,整体造型基本不变,还是精致、硬朗的三风扇散热器,规格上则做了一些精简。
核心数量减少到3584个,核心频率降至1.6GHz,FP32浮点算力来到11.2TFLOPS,系统接口改为PCIe 4.0 x16,支持四路8K30超高清显示输出。
但比较奇特的是显存,容量设置为前无古人的7GB,位宽对应224-bit,等效频率还是14GHz,带宽则是392GB/s。
摩尔线程副总裁、产品事业部总经理董龙飞表示,摩尔线程做高端卡的一个理念就是真材实料,S80就提供了16GB大容量显存,非常适合高分辨率游戏、AI等场景,但成本也就高了,因此又做了更有性价比的S70 7GB。
目前,MTT S70 7GB已经上市,售价为2499元。
相比硬件方面的迭代,驱动、游戏等软件方面的进步更令人欣喜。
MTT S80发布近半年的时间里,Windows驱动已完成了5次升级,完善支持的游戏数量超过60款(当然更多游戏可以玩只是未经完全适配),在网吧里最流行的50款游戏已经适配了20多款。
游戏性能自发布以来已经平均提升大约50%,尤其是《英雄联盟》、《穿越火线》、《DOTA2》等主流网游的表现更上一层,《NBA2K Online2》的性能甚至已经达到了早期的大约2.5倍。
同时,50多款主板、30多款显示器都得到了很好的支持。
在此基础上,摩尔线程对于DX11的支持,更令我们兴奋。
不同于Intel显卡优先适配DX12,然后向下推进DX11、DX 9的做法,服务中国市场与中国玩家的摩尔线程,选择了从用户基础最为广泛的DX9入手,满足更多玩家的迫切需求。
目前,摩尔线程显卡虽然还不能确保所有DX9游戏都跑的很好,原因也是多方面的,包括游戏开发非标准化、游戏优化面向其他厂商显卡、国外游戏与国内硬件匹配不足等等,但是已经完成了100%支持DX9。
眼下,摩尔线程已经开始向DX11全面冲刺,成为第一家真正支持DX11游戏的中国GPU公司。
按照规划,摩尔线程将于6月下旬发布DX11社区版驱动,首批支持《原神》和《DOTA2》等3A游戏。
同时,摩尔线程在“摩卡玩家”社区启动“Alpha行动”,召集更多玩家对DX11社区版驱动的使用和反馈,加速驱动的迭代速度。
据摩尔线程MTT S80、S70显卡产品经理马鉴透露,DX11驱动目前的进度在80%左右,摩尔线程会加快步骤进行开放正式版的下载。
对于光线追踪、类DLSS超分技术,摩尔线程也已经在布局之中。
考虑到MTT S系列游戏显卡毕竟是新鲜事物,软硬件兼容性还在起步阶段,为了方便用户更稳定地使用它们、尽可能发挥最大潜力,摩尔线程这次还特意发布了整机产品“智娱魔方”。
智娱魔方在高颜值的外观之内,可以选配MTT S80/S70两款显卡,同时预装精选的游戏中心,确保开机就能玩。
同时,它还内置了PES系统管理中心,方便实时监控系统状态;链接云端应用,可以随时体验最新进展。
摩尔线程还将为用户开放Ubuntu驱动下载,支持AI计算领域的学习与应用开发。
在发布会现场,我们也上手体验了基于MTT S70显卡的智娱魔方整机。
精致小巧的整体设计让人感觉眼前一亮,首批适配的DX11游戏都相当丝滑,画质、帧率都完全可以满足主流玩家的需求,同时在开发、计算方面也可圈可点。
三、摩笔马良:AI至上 更懂中文
AI,无疑是当下最为火爆的话题,而要想实现良好的AI应用,从硬件算力到创作平台都不可或缺。
摩尔线程从一开始就将AIGC视为核心发展方向,现正式推出软硬件一体化的AIGC内容创作平台“摩笔马良”,为用户提供零成本的AI创作平台。
摩笔马良运用了行业前沿的多模态预训练大模型/生成扩散模型。
首先,多模态预训练模型通过海量图文数据进行对比学习训练,掌握到图片与文本之间的关联,并构建图像与文本编码器。
在生成过程中,编码器会将输入文本先进行隐式编码,结合图片、语义、图像掩模等其他的条件输入,由生成模型及解码器最终生成图像。
它支持中英双语文字描述,可以一次性生成多张图片;
支持图片生图,通过边缘检测、骨骼检测、深度检测等使得图片更加精准;
支持多种模型、多种风格、多位艺术家,包括通用、人像、2.5D、二次元等;
支持敏感内容过滤,提供更安全的创作环境;
支持诸多个性化功能,如简笔画生成、相似生成、局部替换、边缘扩展、高清超分等等,可以将作品以画廊的方式发布、分享。
尤为值得一提的是,摩笔马良对中文、中国文化有着更准确、更深入的理解,便于进行中文运笔意境创作。
摩笔马良AIGC平台已经上线内测,提供多种接入方式,可以通过Web和小程序登录,也可以通过丰富的API供用户远程调用。
对于需要完整解决方案的用户,摩尔线程也提供了私有化部署能力,包括GPU集群、异构算力调度平台、API接口,以及类似于摩笔马良的样板应用。
事实上,AIGC只是摩尔线程元宇宙战略中的一部分,摩尔线程将围绕人、场景和内容提供元计算算力。虽然说元宇宙概念的热度没有以往那么高,但在摩尔线程看来,元宇宙并没有褪去,而是需要更优秀的计算平台、更合理的应用场景来推动,是一项长期工程。
为此,摩尔线程升级了MTVERSE元宇宙平台,现已支持支持云端实时渲染。
MTVERSE是一个提供可扩展性能、实时渲染与模拟、AI驱动的多元化算力支持的元宇宙平台。
领先的第三方IDC服务商世纪互联,已经在云端率先部署摩尔线程千卡级别的GPU算力集群,并将MTVERSE平台与虚幻引擎、云渲染流化技术结合,为51WORLD旗下的51Meet元宇宙高精度开放平台提供计算加速。
这是首个实现国产化闭环的元宇宙应用,在多人并发下,用户可以享受低延迟、高保真、沉浸式的元宇宙体验。
此外,咪咕元宇宙、智汇云舟视频孪生、瞰景三维重构等元宇宙应用也都在陆续更新中。
此外,摩尔线程还升级了DIGITALME数字人解决方案,可用于直播、社交、影视动画、办公、娱乐等场景。
DIGITALME方案包括“女娲”数字人生成器、“画皮”表情驱动引擎、“随影”动作驱动引擎、“随答”对话系统四大部分。
其中,“随答”升级了两大主体能力,一是通过语音与人自然交互,实现“能听能说”,二是基于大语言模型的智能问答,实现“会思考且言之有物”。
发布会中,摩尔线程展示了两个数字人产品方案——2D播报数字人和3D交互数字人。
有趣的是,本次发布会的线上部分,就是由数字人版的张建中主持的,很多人表示直到看完发布会都没发现其中端倪。
四、云桌面与数字办公:全新升级 降本增效
今年年初,摩尔线程推出了基于多功能服务器GPU MT S2000的云桌面产品与解决方案,包括vPC云桌面虚拟化GPU产品MT vGPU 1.0、MT GPU直通、MT GPU加速协议编码等。
摩尔线程还在中国信通院的领导下,联合移动云、中国电信研究院,共同发布了《新型GPU云桌面发展白皮书》,明确定义了云桌面场景的体验标准。
基于这一标准,在视频播放、网页浏览、Office办公、教育教学软件四个主要场景中,基于摩尔线程MTT S2000的单台服务器,能够同时支持超过40路的高清用户并发。
相比于传统CPU云桌面方案,其性能可提升近5倍,整体TCO成本降低60%以上。
本次发布会上,云桌面产品MT vGPU升级到了全新的2.1版本,主要变化有四点:
一是新增支持MTT S3000显卡,单卡并发的虚拟机数量达到28个,性能提升多达40%;
二是新增支持GPU超分技术、SR-IOV虚拟化,其中前者可让虚拟机数量翻倍,后者能提供更好的QoS、隔离性和安全性;
三是整体画质从1080p升级到4K;
四是通过驱动更新,增加支持Windows Server服务器系统,完全支持H.264、H.265、AV1视频编解码,支持更多浏览器和更多视频播放器。
与此同时,摩尔线程还推出了MCCX VDI云桌面一体机,是包括服务器、瘦终端、软件在内的端到端完整交付方案。
它主要面向教育和办公领域,还有专门的教改特别版、办公体验增强版。
其中,教改特别版可以有效加速19款教改类软件,比如Tello Edu、Code Craft等等。
办公体验增强版则针对60余款办公类软件进行了定制优化,比如Office和WPS办公软件、Adobe Reader PDF阅读器、视频会议、WinRAR解压缩软件等等。
目前,摩尔线程的云桌面方案已经与天翼云电脑、移动云电脑等10余家客户的产品完成适配,并与深信服、新华三信息、华云、酷栈科技、庭宇科技完成了产品导入,将在各行各业落地。
同时,摩尔线程的国产化数字办公解决方案也已全面升级。
摩尔线程已率先支持OpenGL 4.0、Vulkan 1.3的完整功能,并且100%通过了接口兼容性测试,还支持Tessellation曲面细分等图形特性,提供更精细的几何纹理效果。
国产生态繁荣发展的同时,无论是CPU处理器还是OS操作系统,都有各种各样的方案,彼此组合起来有上百种之多,适配的难度和复杂度非常高。
为此,摩尔线程支持了DKMS动态内核模块,从而方便快速适配各种CPU+OS的版本组合,开发效率可提升数十倍。
目前,摩尔线程的办公解决方案已经成功适了麒麟、openKylin、统信、深度、凝思、中科方德、普华等国产操作系统,并率先与统信UOS、麒麟OS完成全面兼容性认证,成为国内首家通过统信UHQL质量认证的GPU企业。
此外,摩尔线程GPU已经加速了近百款国产应用,包括办公类、视频会议类、影音类、浏览器类、视频剪辑类、设计类、GIS类等。
五、开发工具:零成本移植 搞定CUDA
开发GPU和显卡非常难,软件开发与生态推广更是难上加难,尤其是全球GPU行业已经几乎被NVIDIA及其CUDA所垄断,AMD、Intel都难以撼动其地位,更别说在这方面几乎是一片空白的国产厂商了。
2022年,摩尔线程推出了元计算统一系统架构“MUSA”,颇有点直接对标CUDA的意味,它包括统一的编程模型、软件运行库、驱动程序框架、指令集架构、芯片架构,可以说从硬件底层到软件开发,提供了一套完整的解决方案。
围绕MUSA架构,摩尔线程这次宣布了一系列重要技术更新。
一是软件工具包MUSA Toolkit 1.0。
它包含MUSA驱动(通用计算/图形渲染/多媒体/多卡互联)、运行时库、C++标准库、编译器、AI加速库、模板库、算法库、通用计算库、数学库、通信库、多媒体库等等,极为丰富。
可以说,这个软件工具包为开发者提供了一站式的全套深度服务,可以根据需要从不同角度调用摩尔线程GPU的硬件能力,从而充分释放其计算能力、图形能力。
二是代码移植工具MUSIFY。
它可以快速将现有的CUDA程序迁移至MUSA平台,零成本完成CUDA代码自动移植。
自动移植完成后,开发者在短时间内即可完成热点分析、针对性优化,大大缩短迁移优化的周期,省时、省力、省事、省心。
在以往,这类移植需要投入数百人天的开发成本,而如今有了MUSIFY,只需短短的几人天或者十几人天。
在当下GPU生态开发几乎都围绕CUDA进行、专门为其优化的大环境下,能够做到快速简单移植,并确保性能发挥,无疑是最为合理的一条破局之路。
三是开源的MT PyTorch AI框架。
基于摩尔线程MUSA,开发者可以复用PyTorch开源社区的大量模型算子,降低开发成本,并支持种模型的推理,覆盖CV、NLP、TTS语音、AIGC、数字人等多个领域,能够运行ChatGLM、Stable Diffusion、LLaMA等典型的大模型分布式多卡推理。
利用数据并行、模型并行、ZERO等分布式训练技术,MT PyTorch可完成简单基础模型以及典型Transformer结构的NLP语言模型的训练。
四是实时流体仿真工具Catalyst FX的全新版本。
它基于摩尔线程自研多平台物理引擎AlphaCore,可以在Houdini中不改变原有工作流的前提下直接进行流体效果制作,相比原生PyroFX性能提升5-10倍。
AlphaCore已经对DX11 Compute Shader计算版本进行深度优化,在流体力学仿真方面, MTT S80运行Catalyst FX的性能已经达到市场主流显卡的2倍以上。
此外,相比传统的Houdini Vellume的制作流程,摩尔线程GPU加速的柔性体仿真工具VeraFiber,能够将解算效率提升至3-5倍。
目前,Catalyst FX和VeraFiber已经完成了Houdini插件接口的开发,Houdini插件的Beta测试版本将于6月6日开放下载。
应用合作方面,Catalyst FX Houdini版插件已与国内著名电影后期特效制作公司MOREVFX完成交付对接,VeraFiber被网易游戏投资的CG动画制作团队DOVFX 数海文化成功运用于游戏CG片头中复杂角色的布料和毛发仿真。
不熄动画、融创动画、追光动画、平塔工作室等,也都是摩尔线程AlphaCore的生态合作伙伴。
为了汇聚开发者力量、扩大生态,摩尔线程还启动了MUSA社区开发者计划。
摩尔线程将为合作伙伴和开发者提供全套的MUSA开发工具、编程指南、系列教程、开源框架及模型库等资源。
摩尔线程将与第三方社区合作,推动新算法模型、计算系统和平台的开发。
六、结语:国产之光 未来可期
摩尔线程诞生之初,其实很多人并不太看好,毕竟在当前的大环境和行业态势下,在NVIDIA这样的国际巨头几乎垄断的情况下,重新开发一款国产自主的GPU,还要做好驱动程序、软硬件兼容性,建立起一整套生态系统,让各种计算、图形性能充分释放,并广泛地商用落地,几乎是不可想象的事情。
可以说,某种程度上,做GPU显卡,要比做CPU处理器难得多。
但是,短短两年多的时间,摩尔线程的表现,值得让更多人了解他们——
构建统一系统架构,打造现代GPU架构,图形渲染、加速计算、显示与编解码、AI等全覆盖;
硬件产品覆盖桌面、工作站、服务器、云端等多场景,迅速商用落地,尤其是极其有勇气地将游戏显卡拿到大众用户面前,接受真实的考验与反馈;
驱动开发快速迭代,游戏、硬件兼容性稳步拓展,性能持续提升,释放潜力;
开发工具与软件产品不断丰富,为开发者和用户提供全套的解决方案;
生态建设持续扩大,合作伙伴遍及各行各业……
作为GPU行业的新生力量,摩尔线程快速崛起,构建了丰富的产品线,将触角延伸到图形、计算、AI等各个层面、各种场景,同时在开发、生态方面不遗余力地推荐,格局之大更令人惊叹,破局之快令人惊诧。
其实,在当前的大环境下,摩尔线程无疑选择了最难的一条路,几乎从零开始构建全套的方案与生态,注定无比吃力,而一旦取得真正突破,这是真正能自主掌握未来命运的。
步子太大,会不会……?对此,摩尔线程有着清醒、长远的认识,从创业之初就有了明确的的定位和方向。
摩尔线程副总裁、产品事业部总经理董龙飞就直言,作为一家芯片公司,摩尔线程要做的不只是推出几张卡,而是在充分认识到图形计算与AI融合的大趋势下,从芯片底层架构开始构建,并利用软件层面的加速去把底层架构的功能和潜力充分释放出来,从而形成一个大的产业。
作为一颗新星,摩尔线程还有很多不足,还有太多地方需要补课,但通过两年多来的实战表现,相信大家对它都有了相当的认知和相当的信心,对于其未来也有了更多的期许。