华为即将发布 AI 推理领域突破性成果,有望降低对 HBM 内存依赖

2025 年 8 月 10 日消息,据国内媒体报道,华为将于 8 月 12 日在 2025 金融 AI 推理应用落地与发展论坛上,发布 AI 推理领域的突破性技术成果。据透露,这项成果或能降低中国 AI 推理对 HBM(高带宽内存)技术的依赖,提升国内 AI 大模型推理性能,完善中国 AI 推理生态的关键部分。

HBM(High Bandwidth Memory,高带宽内存)是一种基于 3D 堆叠技术的先进 DRAM 解决方案,多层 DRAM 芯片垂直集成,显著提升数据传输效率。具有超高带宽与低延迟、高容量密度、高能效比等优势。

AI 推理需频繁调用海量模型参数(如千亿级权重)和实时输入数据。HBM 的高带宽和大容量允许 GPU 直接访问完整模型,可避免传统 DDR 内存因带宽不足导致的算力闲置。对于千亿参数以上的大模型,HBM 可显著提升响应速度。当下,HBM 已成为高端 AI 芯片的标配,训练侧渗透率接近 100%,推理侧随模型复杂化加速普及。

然而,HBM 产能紧张,加上美国出口限制,倒逼国内厂商探索 Chiplet 封装、低参数模型优化等替代方案。在此背景下,华为即将发布的 AI 推理领域突破性技术成果备受期待。若能成功降低对 HBM 的依赖,不仅有助于缓解国内 AI 产业在内存供应方面的压力,还将进一步推动中国 AI 大模型推理性能的提升,完善国内 AI 推理生态,为 AI 产业的自主可控发展注入新动力。

华为在 AI 推理领域并非首次取得突破。2025 年 3 月,北京大学联合华为发布了 DeepSeek 全栈开源推理方案,该方案基于北大自研 SCOW 算力平台系统和鹤思调度系统,整合了 DeepSeek、openEuler、MindSpore 与 vLLM / RAY 等社区开源组件,实现了华为昇腾上的 DeepSeek 高效推理。在性能方面,华为昇腾已实现多项突破。例如 CloudMatrix 384 超节点部署 DeepSeek V3 / R1 时,在 50ms 时延约束下单卡 Decode 吞吐突破 1920 Tokens /s;Atlas 800I A2 推理服务器在 100ms 时延约束下单卡吞吐达到 808 Tokens /s。科大讯飞与华为的合作也取得了显著成果,双方率先实现了国产算力上 MoE 模型的大规模跨节点专家并行集群推理,使推理吞吐提升 3.2 倍,端到端时延降低 50%。

此次华为即将发布的成果,若能如预期降低对 HBM 的依赖,将对国内 AI 产业产生深远影响。一方面,将提升国内 AI 产业的自主性和安全性,减少对国外关键技术的依赖;另一方面,有望推动国内 AI 大模型在金融、医疗、交通等更多领域的应用落地,加速产业智能化升级。 8 月 6 日,华为宣布,CANN 全面开源开放,Mind 系列应用使能套件及工具链全面开源,支持用户自主的深度挖潜和自定义开发。CANN 是华为昇腾 AI 编程语言,可对标 CUDA 之于英伟达,ROCm 之于 AMD,是高效调用昇腾的关键。Mind 套件包括已经适配好的 200 + 常用模型,如 Deepseek 等。这一系列开源举措,加上即将发布的 AI 推理突破性成果,显示出华为在推动 AI 产业生态建设上的决心,有望吸引更多开发者和企业参与到国产 AI 生态的构建中来,共同推动中国 AI 产业的发展。让我们共同期待 8 月 12 日华为在该论坛上的精彩发布,见证 AI 推理领域的新突破。

为您推荐