AI 中文社/资讯/详情

MiniMax 稀宇科技发布万亿参数 MoE 模型 abab 6.5，核心能力接近 GPT-4

2024-04-17 发布 · 浏览696次 · 点赞0次 · 收藏0次

4 月 17 日消息，国内 AI 初创企业 MiniMax 稀宇科技今日正式推出 MoE 混合专家模型架构的 abab 6.5 系列模型，核心能力开始接近 GPT-4、 Claude-3、 Gemini-1.5。

abab 6.5 系列包含两个模型：

abab 6.5：包含万亿参数，支持 200k tokens 的上下文长度；
abab 6.5s：与 abab 6.5 使用了同样的训练技术和数据，但是更高效，支持 200k tokens 的上下文长度，可以 1 秒内处理近 3 万字的文本。

自一月发布国内首个基于 MoE 架构的 abab 6 模型后，MiniMax 通过改进模型架构，重构数据 pipeline，训练算法及并行训练策略优化等，在加速 Scaling Laws 过程上取得阶段性成果。

附 abab 6.5 系列模型测试结果如下：

abab 6.5 系列模型测试结果

官方在 200k token 内进行了业界常用的“大海捞针”测试，即在很长的文本中放入一个和该文本无关的句子（针），然后通过自然语言提问模型，看模型是否准确将这个针回答出来。在 891 次测试中，abab 6.5 均能正确回答。

海螺 AI 页面

▲ 海螺 AI 页面

abab 6.5 与 abab 6.5s 模型将滚动更新至 MiniMax 旗下产品，包括海螺 AI 与 MiniMax 开放平台。

MoE MiniMax 测试 AI 大语言模型 GPT 稀宇科技 Claude GPT-4

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里。

浏览(696) 点赞(0) 收藏(0)

0条评论

珍惜第一个评论，它能得到比较好的回应。

游客

登录后再评论