3TB 主内存 + 8TB CXL 内存：Penguin 推出 KV Cache 服务器

2026-03-17 发布浏览110次点赞0次收藏0次

3 月 17 日消息，Penguin Solutions 当地时间本月 16 日宣布推出业界首款采用 CXL 技术的量产型 KV Cache 服务器。其综合了 3TB 的 DDR5 系统主内存和 8 个 1TB 的 CXL 内存 AIC 模块，可为 AI 推理负载提供合计 11TB 的海量内存空间。

注意到，Penguin 表示 AI 推理通常而言 30% 依赖于算力而 70% 依赖于内存，这是此类工作负载与模型训练 / 调优最大的不同。同时，延迟表现也很大程度上影响了推理场景的用户使用体验。

Penguin Solutions 此次推出的 MemoryAI KV Cache 服务器可为 AI 推理系统带来更低的延迟、更短的首 Token 响应时间、更高的吞吐量、更高的 XPU 集群利用效率，持续满足严苛的服务水平一致性要求，尤其适合实时金融分析、海量数据集 RAG、监管合规性分析等需求大窗口和低延迟的企业级任务。

英伟达 GTC 2026 大会专题

CXL 内存 GTC2026 算力服务器 AI 英伟达 KV Cache 体验 Penguin

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

3TB 主内存 + 8TB CXL 内存：Penguin 推出 KV Cache 服务器

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。