AMD正式发布ROCm 7开发平台:AI训练、推理性能暴涨至高3.8倍

内容摘要快科技6月13日美国圣何塞现场报道 AMD今天正式发布了新一代AI加速卡Instinct MI350系列,硬件能力再次取得飞跃,进一步强化了面对NVIDIA的竞争力。但是我们知道,硬件性能和技术要想完全释放潜力,尤其是在AI加速系统中,强大

快科技6月13日美国圣何塞现场报道

AMD今天正式发布了新一代AI加速卡Instinct MI350系列,硬件能力再次取得飞跃,进一步强化了面对NVIDIA的竞争力。

但是我们知道,硬件性能和技术要想完全释放潜力,尤其是在AI加速系统中,强大的软件开发平台是必不可少的。NVIDIA能在AI行业有如今的地位,最大的功臣和护城河就是CUDA。

AMD正式发布ROCm 7开发平台:AI训练、推理性能暴涨至高3.8倍

AMD也有自己的一套ROCm开发平台,一直和NVIDIA CUDA都存在一定的差距,好在最近的进步幅度也是非常喜人的,包括对众多AI大模型、框架的即时支持,全方位的开源。

现在,我们又迎来了全新的ROCm 7版本,在最新模型与算法支持、高级AI特性、新硬件支持、集群管理、企业级特性等各方面,都再次有了长足的进步。

AMD正式发布ROCm 7开发平台:AI训练、推理性能暴涨至高3.8倍

AMD正式发布ROCm 7开发平台:AI训练、推理性能暴涨至高3.8倍

训练方面,ROCm 7支持一系列新特性,包括多个AMD开源模型、增强的AI框架、增强的内核与算法、新的数据类型(BF16/FP8)等等。

官方声称对比ROCm 6,实测在Llama 2/3.1、千问1.5等多个模型中,性能提升普遍达到了3倍乃至更高。

AMD正式发布ROCm 7开发平台:AI训练、推理性能暴涨至高3.8倍

AMD正式发布ROCm 7开发平台:AI训练、推理性能暴涨至高3.8倍

推理方面,新的变化同样不少,包括增强框架、Serving优化、内核与算法改进、高级数据类型(FP8/FP6/FP4/混合)等。

性能提升同样喜人,Llama 3.1、千问2、DeepSeek R1等模型实测平均达3.5倍,最高更是可达3.8倍。

AMD正式发布ROCm 7开发平台:AI训练、推理性能暴涨至高3.8倍

有了ROCm 7的加持,MI355X面对NVIDIA B200也是丝毫不弱,比如DeepSeek R1 FP8吞吐量可以领先达30%。

当然这只是一个例子,AMD并未更多地对比自家新品和友商竞品。

AMD正式发布ROCm 7开发平台:AI训练、推理性能暴涨至高3.8倍

除了数据中心、企业端,ROCm 7在消费端也有全面改进,新增原生支持Red Hat EPEL、Ubuntu、OpenSUSE等更多的Linux系统发行版,其中前两者下半年实现。

Windows平台上,也新增支持PyTorch、ONNX-EP两大框架,分别在三季度和7月份开放预览。

AMD正式发布ROCm 7开发平台:AI训练、推理性能暴涨至高3.8倍

AMD还顺带介绍了下全线的消费级AI解决方案,比如移动端的锐龙AI 300系列最高可以本地端侧运行240亿参数大模型,锐龙AI Max 300系列更是能跑到700亿参数,而新一代线程撕裂者处理器、Radeon AI显卡组合最高可以搞定1280亿参数。

AMD正式发布ROCm 7开发平台:AI训练、推理性能暴涨至高3.8倍

 
举报 收藏 打赏
今日推荐
浙ICP备19001410号-1

免责声明

本网站(以下简称“本站”)提供的内容来源于互联网收集或转载,仅供用户参考,不代表本站立场。本站不对内容的准确性、真实性或合法性承担责任。我们致力于保护知识产权,尊重所有合法权益,但由于互联网内容的开放性,本站无法核实所有资料,请用户自行判断其可靠性。

如您认为本站内容侵犯您的合法权益,请通过电子邮件与我们联系:675867094@qq.com。请提供相关证明材料,以便核实处理。收到投诉后,我们将尽快审查并在必要时采取适当措施(包括但不限于删除侵权内容)。本站内容均为互联网整理汇编,观点仅供参考,本站不承担任何责任。请谨慎决策,如发现涉嫌侵权或违法内容,请及时联系我们,核实后本站将立即处理。感谢您的理解与配合。

合作联系方式

如有合作或其他相关事宜,欢迎通过以下方式与我们联系: