腾讯混元提出 Stem 稀疏注意力算法,首字延迟降低 3.6 倍

浏览26次 点赞0次 收藏0次
感谢网友 江山已旧Domado 的线索投递!

6 月 5 日消息,混元今日宣布提出 Stem 稀疏注意力算法,已被机器学习顶会 ICML-26 收录。

官方表示,Stem 稀疏注意力算法从“因果信息流”重新审视块级稀疏,用 Token 位置衰减(TPD)和输出感知度量(OAM)两大创新,仅用 25% 算力就逼近稠密注意力的精度。配套的 HPC 算子库则将这份理论加速比真正转化为端到端的实测性能。

▲ Stem 在 Hy3 preview(W8A8-FP8)上更贴近生产环境的真实落地数据

根据 Stem 算法 × HPC 算子的全栈加速方案,算法层面,Stem 通过 Token 位置衰减(TPD)和输出感知度量(OAM)实现 25% 预算下的近无损精度;算子层面,HPC 开源的 Stem+BSA 算子将稀疏收益转化为真实硬件加速,128K 上下文下首字延迟降低 3.6 倍

▲ 模型精度

附相关链接如下:

声明:本文转载自IT 之家,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里查看更多信息!本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它往往能得到较好的回响。
评论
游客
游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。
最新资讯