AMD 的 AI 黄金时代，少不了 EPYC 这张王牌

2023-12-14 来源：网络阅读：1658

12 月 7 日,AMD 在美国加州圣何塞举行的 Advancing AI 大会上,正式推出了旗舰 AI GPU 加速器 Instinct MI300X、世界上第一个数据中心 APU Instinct MI300A、还有升级 XDNA AI NPU 的 Ryzen 8040 系列 APU。

款款王炸新品的发布引燃了整个半导体行业,推动 AMD 的股价在发布会后直接上涨 10% 左右。特别是 Instinct MI300X 与 MI300A 两大杀器攻向了 AI 算力市场巨头英伟达的战略腹地,让英伟达在 AI 芯片市场一家独大的地位受到了可能是有史以来最大的挑战。

AI 运算只适合 GPU?看看 AMD EPYC,CPU 照样 Hold 住

我们知道,AI 是全球科技发展的下一个大时代,也是变革千行百业的新动力,尤其是今年以来,chatGPT 的火热出圈更是让生成式 AI 掀起了全球人工智能新浪潮。

而在 AI 颠覆人类生产力的背后,算力就是如同石油一般金贵的燃料和动力来源。

AI 运算是一个需要大量重复运算的领域,这与 GPU 天然适合大规模并发计算的特性十分契合。因此,作为 GPU 巨头的英伟达在 AI 时代一跃成为执牛耳者。但在任何领域,“一家独大”都不是健康的产业形态,英伟达热门加速卡的“一卡难求”以及高昂的价格和成本,让很多科技公司苦不堪言,因此很多企业开始选择自研 AI 加速芯片,或者将目光投向替代者。

而 AMD 无疑就是最受期待的挑战者,事实上,从最重要的产品算力性能上看,AMD 也的确没让人失望。

比如这次发布的 AI GPU 加速器 MI300X,它的显存容量是英伟达明星加速卡 H100 的 2.4 倍,内存带宽是其 1.6 倍,FP8 / FP16 TFLOPS 精度是 H100 的 1.3 倍,在 1v1 比较中,训练中型内核 FlashAttention 2 模型速度都比 H100 快 10%,大型内核比 H100 快 20%,而训练中型内核 70B 参数的 Llama 2 模型比 H100 块 20%,大型内核则比 H100 快 10%。还有 8v8 Server 比较中,Llama 2 70B 模型速度比 H100 快 40%,Bloom 176B 则快了 60%……

Instinct GPU AI 加速系列今天能够如此惊艳,也是 AMD 多年发展迭代取得的成果。

而除了 Instinct GPU ,AMD EPYC“霄龙”处理器,同样也是 AMD 面向企业级市场发展多年的王牌。

说到这,不得不谈到很多人存在的一个误区,就像前面说的,GPU 很适合进行 AI 加速运算,这没错,但不代表进行人工智能运算只需要 GPU 就够了。CPU,同样重要。

GPU 服务于 AI 加速运算需要在数据中心,而数据中心的“心脏”,其实还是 CPU。相比 GPU,CPU 具有通用计算、独立运行以及更丰富的软件生态等优势,简单来说,数据中心可以没有 GPU,但不能没有 CPU,AI 运算也是如此。

况且,CPU 本身也可以具有强大的 AI 能力,AMD 的 EPYC 就是很好的例子。比如在这次发布会的演示区中,AMD 就使用去年 11 月发布的 EPYC 9654 处理器运行 Llama 2 大语言模型,不仅可以快速流畅完成各种 AI 运算处理,对比竞品英特尔 Xeon Platinum 8480 处理器,运行速度也有 36% 的提升。

这充分说明,在一些场景下,只依靠 CPU,也可以很好地完成生成式 AI 大模型的运算处理,而且相比如今高昂的 GPU 部署成本,通过 CPU 提供高算力,可以成为很多缺少 GPU 资源的企业更加经济可行的解决方案。

在这一点上,AMD 绝对是佼佼者。比如,根据今年 11 月最新的第 62 届全球超级计算机排行榜 Top500,AMD 平台已经为其中的 140 台超级计算机提供支持,同比增长达 39%。其中,美国橡树岭国家实验室的 Frontier 超级计算机凭借 1.194 exaflops 的性能再次位列榜首,而它就是由 AMD EPYC 7A53 64 核处理器和 Instinct MI250X GPU 加速器驱动的。

Frontier 不仅性能第一,能效也超强,在 1.194 exaflops 的顶级性能的同时,耗电量仅为 22703KW,比排名第二的阿贡国家实验室 Aurora 系统少了约 2000KW。

此外,根据最新的 Green500 榜单,AMD 还为全球最节能的 10 台超级计算机中的 8 台提供了支持。

如今,AMD EPYC 处理器已经成为世界上许多最具创新性、最节能和最快速的超级计算机首选解决方案,即便是在面对当下爆发式增长的 AI 加速运算需求,同样能表现出出色的效率和规模。这不禁又让人想起 2017 年 EPYC“平地一声雷”般初登场之时……

EPYC 势如破竹的背后,AMD 抓住了这三点

2017 年 AMD EPYC 处理器推出之时,数据中心市场呈现出英特尔 x86 至强处理器一家独大的态势,服务器厂商们几乎没有别的选择,只能跟着至强的脚步走,对服务器的架构设计这些没有太多关注的余地,同时也只能听凭英特尔要价。

而就在英特尔在钞票堆上躺着挣钱的时候,2017 年 AMD 突然以 EPYC 7001 系列杀回服务器市场,赢得了行业的一片叫好。

AMD EPYC 处理器出道就惊艳,最高规格可以达到 32 核心 64 线程,非常暴力,虽然价格和至强差不多,但性能比当时至强高出了 30% 多,给对手带来了很大的压力。当时采用双路 AMD EPYC 7601 处理器的惠普 HPE ProLiant DL385 服务器直接打破了 SPEC 2017 以及 SPEC 2006 的跑分世界纪录,可见 EPYC 处理器问世之后给行业带来的新气象。

纵观 AMD EPYC 处理器这些年的高能发展,IT之家觉得有三个重点:

第一是疯狂“堆料”带来超强算力,最好的配置,最创新的技术都不吝使用,由此每一代都能实现最高计算密度、最强性能,同时还能保持最高的能效。

第二是 AMD 做了足够细致的产品划分,面对不同的市场和场景需求都有针对性的产品。

卓越的性价比。

这三点应该是 AMD 能够一路逆袭的秘诀。相信大家通过下面的介绍就可以感受到。

比如 2019 年,AMD 发布了代号“ROME”的第二代 EPYC 7002 系列处理器,不仅行业率先在服务器芯片上使用了 7nm 工艺,Zen 架构也升级到第二代,由于 7nm 核心更小,AMD 在 7002 系列 CPU 塞入了相比上代 EPYC 多达两倍的核心,同时保持更高的时钟速度,最高 64 核心 128 线程,超过 128 条 PCIe 4.0 通道,只有 225W TDP,加速频率可达 3.4GHz,其中最强的 EPYC 7742 性能相对于英特尔至强当时的 8280L 提升高达 97%。

AMD 对先进技术和创新的追求还不止于此,再比如他们在 2021 年末推出的 EPYC Milan-X 7073 系列处理器中,有一个重要的创新技术,就是首发使用了 3D V-Cache 技术。

3D V-Cache 简单来说就是把 SRAM 芯粒直接堆叠在 CPU 上面,然后通过硅通孔技术进行数据传输,这就相当于内存和 CPU“贴脸输出”了,传输速度可想而知,并且在带宽和内存容量方面都有极大的提升,比如这一代旗舰款处理器 EPYC 7773X 的缓存就达到了恐怖的 768MB。

然后就是 2022 年 11 月,AMD 最新的第四代 EPYC 处理器、代号“Genoa”的 9004 系列正式发布。

这里要插一嘴的是,从 2017 年 AMD EPYC 横空出世到“Genoa”发布的这段时间,AMD 一直在迅速吞噬英特尔的市场份额,根据研究公司 IDC 当时的数据,AMD 基于 x86 架构的云服务芯片市场份额从 2016 年的 0 直接增长到 2021 年的约 29%。

再看 EPYC 9004 系列处理器,采用了领先的 5nm 工艺,Zen 4 架构,最高可以达到 96 核 192 线程、4.4GHz 加速频率,还有单路最大 6TB DDR5 内存和 128 条 PCIe Gen 5 总线,三级缓存最大达到 384MB,Chiplet 芯粒技术、支持 CXL1.1+ 内存扩展,在安全方面扩展了 AMD Infinity Guard,而且加密密钥数量足足增加了 2 倍……

所有这些极具创新的看点都被 EPYC 9004 系列收罗其中,再看英特尔推迟到今年 1 月发布的第四代至强可扩展处理器,这是英特尔首个基于 Chiplet 设计的至强处理器,而这项具有未来前景的技术,AMD 在第一代 EPYC 处理器中就已经在布局了。

其他参数方面,第四代至强最多 60 核、Intel 7 工艺(原 10nm),单路最大 4TB DDR5 内存、80 条 PCIe 5.0 通道,还有 112.5MB 三级缓存和 4.2GHz 至高频率等,基本上是全面被 EPYC 9004 系列压制。

但同时,其价格却比 AMD 高出不少,56 核心的至强铂金 9480(12980 美元)比 96 核心的 EPYC 9654(11805 美元)要贵不少,而 48 核心的 EPYC 9454(5225 美元)相比同为 48 核心的至强 9468(9900 美元)便宜了近一半。

在强强对话下,AMD 第四代 EPYC 旗舰产品 9654 对比竞品旗舰至强铂金 8490H,在云服务应用性能基准测试(2P SPECrate@2017_int_base)中,领先 8490H 1.8 倍,同时企业计算性能也要领先 1.7-1.9 倍,能效则领先 1.8 倍,性价比也是多达 2.58 倍。

而在今年 1 月 20 日的 PassMark 跑分榜中,EPYC 9654 第一次登顶榜首,写稿时小编查询了最新的榜单,EPYC 9654 仍然位列企业级处理器的第一,而且这份榜单中,AMD 呈现出屠榜之势。

“Genoa”9004 系列发布后,也得到了各大科技企业的响应,比如亚马逊云 AWS 就推出了基于“Genoa”的 M7A 通用计算实例,性能比前一代提升了 50%,此外华硕、腾讯云、联想等众多大厂也纷纷推出了搭载第四代 EPYC 处理器的服务器解决方案。

第四代 EPYC 也充分体现了 AMD 对产品线细致划分以满足不同场景业务需求的战略,比如在今年 6 月,AMD 又同时推出了 Genoa-X 系列和面向云原生市场的 EPYC 97X4 系列(Bergamo)处理器。

其中 EPYC Genoa-X 用于代替之前的 Milan-X 系列,这一次在 3D V-Cache 技术的加持下,AMD 为每个 CCD 堆叠了 64MB 3D 缓存,再加上每个 CCD 内部原有的 32MB 缓存,9004 系列处理器最多拥有 12 个 CCD,也就是说它的 L3 缓存最多可以达到吓人的 1152MB,实现了单颗 CPU 芯片首次缓存容量突破 1GB!

同时 EPYC Genoa-X 的基准频率相比之前的 9004 系列产品有所提高,加上更大的缓存容量,最高功耗也来到了 400W。不过这么做带来的性能增益也相当明显,国内媒体 MC 评测室此前对 Genoa-X 的旗舰产品 EPYC 9684X 进行了测试,其在 SPECrate 2017、UnixBench Dhrystone 2 和 Whetstone 等一众基准测试中,对比 EPYC 9654、EPYC 9554 等前代产品都获得了领先。

图自:MC 评测室

代号 Bergamo 的 EPYC 97X4 系列则主要面向云原生场景。云计算厂商比较关注核心数量、数据带宽等,需要高效、敏捷、可扩展能力强的计算环境,于是 EPYC 97X4 系列采用精简的 Zen 4c 核心架构,相比 Zen 4 架构的处理器降低了缓存容量,每核心从原来的 4MB 降低到 2MB,但是核心数来到了 128 个,这个核心密度属于业界最高了。除此之外,Zen 4c 在架构设计、工艺、指令集、IPC 性能等方面和 Zen 4 架构都完全一致,各项顶尖特性都得到了保留。

根据当时外媒 Hardwaretimes 的报道,系列旗舰 EPYC 9754 处理器在 V-Ray 5 跑分 2S 配置下,得分达到 221018 分,是竞品至强 Platinum 8490H 处理器的 2.4 倍。

同时在云计算方面性能的对比中,EPYC 9754 相较至强 Platinum 8490H、8480 + 领先幅度最高可以达到 2.65 倍,最低也有 1.49 倍。

前面我们说到的 MC 评测室也对 EPYC 9754 做过纵向测试,双路系统的 EPYC 9754 在 SPECrate 2017、NAMD、OpenSSL、UnixBench Dhrystone 2 和 Whetstone、Sysbench CPU 等多项测试中相较自家 EPYC 9754、EPYC 9554 等产品均有显著的提升,最高提升幅度甚至可以达到 23.5%。

图自:MC 评测室

这还不够,今年 9 月,AMD 又推出了面向零售、制造和电信等智能边缘应用和云服务等场景的 AMD EPYC 8004 系列处理器(Siena),进一步完善了第四代 EPYC 家族。

8004 系列处理器同样采用 Zen 4c 核心,带来更快内存和 I / O 功能的全新 SP6 插槽,最高 64 核心 128 线程,6 通道 DDR5 内存最大可支持 1.152TB,还能提供 96 条 PCIe 4 通道,如此高性能的同时默认 TDP 只有 200W,如此出色的性能和能效表现,可以很好地满足在空间和功耗有限的情况下各类边缘基础设施的需求。

在视频编码工作负载中,EPYC 8534P 可提供领先的总帧数 / 小时 / 系统瓦特。在 IoT 边缘网关工作负载中,采用 8 核 EPYC 8024P 的服务器在每 8kW 机架的总吞吐量图性能中表现卓越。

AMD EPYC 8004 系列处理器发布后,众多 OEM 厂商也同一时间发布了多款充分利用了 EPYC 8004 系列处理器优势的独特系统和解决方案,比如戴尔科技的 Dell PowerEdge C6615 服务器、爱立信的 Cloud RAN 计算加速解决方案、微软 Azure 云服务、爱立信的 Cloud RAN 计算加速解决方案等等。

说了这么多,相信大家也能感受到,AMD EPYC 之所以从诞生之后便能在企业级市场势如破竹,正因为他们牢牢抓住了三大关键点,也就是高核心、高主频、高缓存带来的超高性能、还有很多企业和云服务商都很在意的卓越性价比、以及不断像细分市场延伸,为不同负载场景提供最优化解决方案的策略。

多年的持续迭代和创新,让 AMD EPYC 在市场上的基础越来越牢固,并逐渐构筑了更完善的软硬件生态,他们在操作系统、安全、基础设施、AI、数据库、高性能计算等更多领域都建立了广泛的合作,并且持续兑现着市场和客户的承诺。

结语

在这次 Advancing AI 大会上,AMD CEO 苏姿丰表示,未来四年,人工智能芯片的总市场规模可能会攀升至 4000 亿美元,而一年前,AMD 对此的预估是 1500 亿美元,翻了不止两倍。

生成式 AI 的浪潮,相信就是 AMD 更加看好 AI 未来发展的关键因素,因为它第一次让普通消费者切实感受到 AI 变革世界的能量。

我们相信,在接下来生成式 AI 引领的算力需求大爆炸的时代,CPU 的重要性一定不会减弱,反而会越来越强,在更多需要 AI 参与的场景中发挥价值。

而 AMD 对此已经做好了准备,EPYC CPU 和 Instinct 加速器,已然成为他们的两张王牌。纵观整个半导体市场,几乎还没有像 AMD 这样在 CPU、GPU 乃至 FPGA 和各种自适应 SoC 领域都开花的全能选手,特别是 EPYC CPU,经历连续四代的进化,展现出了业界最高的计算密度、出色的性能和效率,它拥有高核心、巨大的缓存、高频率以及丰富的技术特性,更是更有极高的性价比,已经逐渐成为数据中心客户的首选。这些,都将助力 AMD 在 AI 时代释放出更大的能量。

或许未来,AMD YES!不再仅仅是流传在数码发烧友和消费者之间的梗,而是来自整个千行百业对 AMD 以 AI 和算力赋能的认可。

AMD 的 AI 黄金时代，少不了 EPYC 这张王牌

延伸 · 阅读