苹果 CoreAI 端侧 AI 架构测试：M4 Mac 上 Qwen3 0.6B 解码速度是 MLX 的 2.47 倍

2026-06-11 发布浏览213次点赞0次收藏0次

6 月 11 日消息，科技媒体 Wccftech 昨日（6 月 10 日）发布博文，报道称在 2026 年全球开发者大会（WWDC）上，苹果推出 CoreAI 引擎，接替 2017 年推出的 CoreML 框架，主打端侧大模型推理。

援引博文介绍，CoreML 框架已服役 9 年，主要面向图像分类等小型静态任务；而最新接棒的 CoreAI 主要面向端侧本地推理和边缘 AI 场景，重点优化设备端大语言模型推理，重点支持更灵活的模型格式和更大的模型内存占用。

而 MLX 是苹果生态中的一个机器学习框架，更偏向研究、训练和微调任务，常被开发者拿来测试和部署本地大模型。

从首批基准来看，苹果 CoreAI 呈现“小模型强、大模型接近持平”特征。在 M4 Mac 上运行 Qwen3 0.6B 模型后，CoreAI 解码速度约为 MLX 的 2.47 倍。在 iPhone 17 Pro 上，这一优势约为 1.6 倍。

解码速度指大语言模型生成文本时，每秒能输出多少个 token，常写作 tok／s。这个指标越高，模型回复通常越快，用户等待时间越短。

苹果 CoreAI 端侧 AI 架构测试：M4 Mac 上 Qwen3 0.6B 解码速度是 MLX 的 2.47 倍

在模型规模提升至 80 亿参数（Qwen3 8B，M4 Max）后，CoreAI 比 MLX 快 5%，两者解码性能几乎持平，意味着 CoreAI 的性能优势随模型规模增大而收窄。

在持续负载方面，测试显示，iPhone 17 Pro 的 GPU 在长时间运行后会较快触发温控降频，这会削弱 GPU 路线的持续吞吐。CoreML 配合苹果神经引擎（ANE，Apple Neural Engine）的组合在性能保持率方面实现反超。

A table compares decode throughput and peak memory for '4-bit, n=3' models showing 'LiteRT-LM' leading in both categories with 55.4 tok/s and 641 MB.

横向对比其他厂商方案，针对特定模型深度优化的引擎依然更容易胜出。比如，谷歌的 LiteRT-LM 运行 Gemma 时，在 iPhone 17 Pro 上达到每秒 55.4 tokens，并且 RAM 占用仅 641 MB；作为对照，苹果 MLX 的内存占用为 2900 MB，是前者的 4.5 倍。

A table compares the average package power, energy per 512-token run, and joules per token for different runtimes, showing 'apple-fm' with the lowest energy per token at 0.11 J/token.

CoreAI 测试 C 大模型性能 models mod 苹果 AI 写作开发者大会谷歌 iPhone 框架 Qwen

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

苹果 CoreAI 端侧 AI 架构测试：M4 Mac 上 Qwen3 0.6B 解码速度是 MLX 的 2.47 倍

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。