AI 中文社/资讯/详情

Meta Token-Shuffle 登场：自回归模型突破瓶颈，可 AI 生成 2048×2048 分辨率图像

2025-04-26 发布 · 浏览265次 · 点赞0次 · 收藏0次

4 月 26 日消息，科技媒体 marktechpost 昨日（4 月 25 日）发布博文，报道称 Meta AI 创新推出 Token-Shuffle，目标解决自回归（Autoregressive，AR）模型在生成高分辨率图像方面的扩展难题。

注：自回归模型是一种用于时间序列分析的统计方法，主要用于预测数据序列中的未来值。该模型的核心思想是当前的值与过去的值之间存在线性关系，因此可以用变量自身的历史数据来预测当前或未来的值。

在语言生成方面，自回归模型大放异彩，近年来也被广泛探索用于图像合成，然而在面对高分辨率图像时，AR 模型遭遇瓶颈。

不同于文本生成仅需少量 token，图像合成中高分辨率图片往往需要数千个 token，计算成本随之暴增。这让许多基于 AR 的多模态模型只能处理低中分辨率图像，限制了其在精细图像生成中的应用。

尽管扩散模型（Diffusion Models）在高分辨率上表现强劲，但其复杂的采样过程和较慢的推理速度也存在局限。

Token-Shuffle 的核心机制与优势

Meta AI 推出的 Token-Shuffle 方法直击 token 效率问题。它通过识别多模态大语言模型（MLLMs）中视觉词汇的维度冗余，提出了一种创新策略：在 Transformer 处理前，将空间上相邻的视觉 token 沿通道维度合并，推理后再恢复原始空间结构。

这种 token 融合机制大幅降低了计算成本，在保持视觉质量的同时，让自回归模型能够高效处理最高 2048×2048 分辨率的图像。Token-Shuffle 无需改动 Transformer 架构，也无需额外预训练编码器，操作简单且兼容性强。

Meta Token-Shuffle 登场：自回归模型突破瓶颈，可 AI 生成 2048×2048 分辨率图像

具体而言，Token-Shuffle 包含 token-shuffle 和 token-unshuffle 两个步骤。输入准备阶段，空间相邻 token 通过 MLP（多层感知机）压缩为单个 token，减少 token 数量。

以窗口大小 s 为例，token 数量可减少 s² 分之一，显著降低 Transformer 的计算量（FLOPs）。此外，该方法还引入了针对自回归生成的 classifier-free guidance（CFG）调度器，动态调整引导强度，优化文本-图像对齐效果。

实验成果与未来潜力

Token-Shuffle 在 GenAI-Bench 和 GenEval 两大基准测试中展现了强大实力。在 GenAI-Bench 上，基于 2.7B 参数的 LLaMA 模型，Token-Shuffle 在“困难”提示下取得 VQAScore 0.77，超越其他 AR 模型如 LlamaGen（+0.18）和扩散模型 LDM（+0.15）。

Meta Token-Shuffle 登场：自回归模型突破瓶颈，可 AI 生成 2048×2048 分辨率图像

在 GenEval 中，其综合得分为 0.62，为 AR 模型树立了新标杆。用户评估也显示，尽管在逻辑一致性上略逊于扩散模型，但 Token-Shuffle 在文本对齐、图像质量上优于 LlamaGen 和 Lumina-mGPT。

附上参考地址

Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里。

浏览(265) 点赞(0) 收藏(0)

0条评论

珍惜第一个评论，它能得到比较好的回应。

游客

登录后再评论

鸟过留鸣，人过留评。
和谐社区，和谐点评。

Meta Token-Shuffle 登场：自回归模型突破瓶颈，可 AI 生成 2048×2048 分辨率图像

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

Meta Token-Shuffle 登场：自回归模型突破瓶颈，可 AI 生成 2048×2048 分辨率图像

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。