华为的三个黑科技,要颠覆AI计算?

华为的三个黑科技,要颠覆AI计算?

没有人不在期待大模型能够成为下一个电动车,作为代表中国的新兴产业,在世界范围内掀起狂澜。

然而主流的MoE架构大模型,却苦于其结构上的“先天不足”:巨大的硬件成本与多重拖累效率的环节,使得中国企业在这场芯片堆砌与效率挖掘的苦径上难以提速。

作为智能基础设施提供商,华为在这场战役中另辟蹊径,利用其在数学算法和工程领域的深厚积累,为DeepSeek显著提升了效率及用户体验。

山就在那里,但中国企业找到了不一样的登顶之路。

近期,联合网将打造《华为技术披露集》系列内容,全面揭秘超大规模MoE模型推理部署技术,通过一连串的技术报告,首次全面披露技术细节。

希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的开放协作生态环境,让昇腾生态在中国茁壮成长。

《华为技术披露集》系列 VOL.5 :昇腾亲和

算子是 AI 大模型执行计算的 “原子级工具”,如同乐高积木中的基础模块,负责从加减乘除到特征提取的一切核心操作。

它们不仅是模型的效率引擎,更是硬件性能的放大器 —— 通过标准化设计、硬件深度适配与复用机制,让芯片处理海量数据时如虎添翼。而昇腾此次开源的三大技术,正是算子优化的 “终极形态”。

AMLA × 融合算子 × SMTurbo

让大模型推理速度与能效双重革命

基于昇腾算力,华为团队本次发布了三项重要的硬件亲和算子技术研究:

AMLA:用“数学魔法”重构浮点运算,让昇腾芯片的算力利用率突破 70%。

融合算子优化:像指挥交响乐团一样调度硬件资源,让计算与通信 “无缝协奏”。

SMTurbo:打造内存访问的 “高速公路”,跨 384 卡延迟低至亚微秒级。

技术全景:

三大黑科技如何颠覆 AI 计算?

AMLA:以加代乘的“魔法”让芯片算力利用率飙升

“数字炼金术”:对二进制表示重解析,将复杂乘法转换为加法运算,充分利用存内算力,算力利用率飙升至 71%。

华为的三个黑科技,要颠覆AI计算?

针对Decode阶段的MLA计算,华为团队提出了AMLA(Ascend MLA)算子,通过数学等价变化和硬件亲和的深度优化,释放昇腾芯片澎湃算力。

具体而言,通过对浮点数二进制编码的重解析,把复杂的乘法运算变成简单的加法操作,AMLA实现了基于存内计算的变量更新,充分利用算力的同时减少数据搬运;结合一系列基于昇腾硬件的计算流程及流水优化手段,进一步提升算子的整体性能。

当前AMLA算法的Attention 算子充分发挥昇腾硬件的计算能力,平均算力利用率达到55%,最高可达71%,优于FlashMLA公开的结果。

华为的三个黑科技,要颠覆AI计算?

融合算子优化:硬件资源的 “交响乐指挥家”

将多个算子合而为一,让计算、通信、存储 “三重协奏”。

基于昇腾平台部署 DeepSeek V3/R1 大模型的实践经验,华为团队提炼出三大昇腾算子融合设计原理:硬件单元间并行度优化、冗余数据搬运消除、数学等价重构计算流。

首先,利用昇腾芯片的多硬件单元并行的能力,将跨硬件单元串行算子融合为复合算子,通过指令级流水编排实现计算耗时相互掩盖。

其次,对串行向量算子实施融合处理,构建全局内存与计算单元缓存的直通数据通道,使中间结果全程驻留高速缓存。

最后,华为团队运用数学等价关系解耦算子间数据依赖,重构计算顺序实现并行加速。该技术体系在模型推理中实现了大幅性能提升。

华为的三个黑科技,要颠覆AI计算?

SMTurbo:384 卡内存共享的 “超低延迟高速公路”

昇腾原生 Load/Store 语义让跨卡访存延迟进入亚微秒时代。

华为CloudMatrix 384支持384卡规模原生Load/Store语义。因其低延迟、上下文切换代价小、可细粒度流水等优势,受到业界广泛关注。基于共享内存的集合通信满足了小数据量、大范围集合通信场景需求,成为稀疏模型推理的关键能力。

面向原生Load/Store内存语义通信提供软硬件加速能力,ShmemTurbo Concurrent Push & Pull (SMTurbo-CPP) 将Load/Store在读和写两个方向上并行,发挥了昇腾芯片读写分离的微架构优势。

针对数据保序场景下的同步开销问题,引入了批处理与中转机制,降低了控制逻辑的开销。在跨机访存通信场景下,方案可以提升CloudMatrix 384中昇腾芯片每线程的访存吞吐20%以上。

华为的三个黑科技,要颠覆AI计算?

如上,在提到的三个算子层面优化技术的未来发展上:

针对AMLA,将研究仅KVCache 量化和全量化场景的MLA 算子优化,进一步扩展算子应用场景。

针对融合算子优化,将进一步探索融合算子在更多模型架构上的应用,推动大语言模型在昇腾硬件上的高效推理与广泛应用。

针对Load/Store的优化技术,将结合业务设计精巧的流水实现,平衡读写平面的负载分担,将CPP 思想引入Deepseek dispatch 与combine 场景,在大BatchSize下取得实际收益。

本内容为作者独立观点,不代表联合网立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com

平台声明:该文观点仅代表作者本人,联合网系信息发布平台。发布者:联合网,转转请注明出处:https://www.anesthesia.org.cn/14501.html

(0)
联合网的头像联合网
上一篇 2025年5月24日 下午6:53
下一篇 2025年5月24日 下午6:58

相关推荐

  • 作秀式公关值得借鉴吗?

    本文来自微信公众号:王智远,作者:王智远,题图来源:AI生成 前两天,刚写完京东、美团的文章,一个朋友突然发来一条信息,把我逗乐了。他说: 他在演,你知道他在演,他也知道自己在演,但他还是在演。问题是他演得如此逼真,最后,大家居然都不反感他在演。 我听完忍不住笑了,回他一句:你给我发这些干啥? 他接着说:既然大家都知道刘强东送外卖、拍照、请外卖小哥吃饭是一种…

    2025年4月26日
    4600
  • 百纳千成第三大股东拟减持,去年亏损大幅扩大

    5月19日,百纳千成(SZ 300291)发布公告称,持有北京百纳千成影视股份有限公司股份约4720万股(占公司总股本的比例为5.01%)的股东刘德宏,计划在本公告披露之日起十五个交易日后的三个月内(即:2025年6月11日至2025年9月10日),以集中竞价及大宗交易的方式合计减持公司股份不超过约942万股(占公司总股本的比例为1%)。 减持原因为股东刘德…

    2025年5月20日
    700
  • 对印巴局势、穆迪下调美国信用评级,外交部回应

    5月19日,外交部发言人宣布:应中共中央政治局委员、外交部长王毅邀请,巴基斯坦副总理兼外长达尔将于5月19日至21日访华。 外交部发言人毛宁主持例行记者会。总台央视记者提问:中巴双方已发布巴基斯坦副总理兼外长达尔访华的消息。中方如何评价当前中巴关系?对此访有何期待? 毛宁表示,中国和巴基斯坦是全天候战略合作伙伴,两国高层交往和各领域合作密切。中方愿同巴方以此…

    2025年5月19日
    2300
  • 李斌洗牌,乐道找蔚来

    本文来自微信公众号:豹变,作者:陈法善,编辑:刘杨,题图来自:AI生成 “下午1点一直到晚上9点,从没开过这么久的会。” 自蔚来、乐道在部分城市试点“合并”以来,一些员工被新任领导拉着开长会。 临近五一假期,原本是“打工人”最期盼的轻松时刻,但天津、大连、杭州、温州的蔚来、乐道员工却没有那么轻松。他们被告知,将作为试点城市,对两个品牌的渠道、架构进行整合。 …

    2025年5月10日
    1600
  • 国务院:免去王建军证监会副主席职务

    5月21日,据人社部网站消息:国务院任免国家工作人员,免去王建军的中国证券监督管理委员会副主席职务。 此前,4月30日,中央纪委国家监委网站消息显示,中国证券监督管理委员会党委委员、副主席王建军涉嫌严重违纪违法,正接受中央纪委国家监委纪律审查和监察调查。 综合自:人力资源社会保障部网站、中央纪委国家监委网站 责编:陈丽湘 校对 :李凌锋

    2025年5月21日
    800

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信