任意图像+视频=无限创意！港科大BiCo：AI视频进入组合时代，随意换角

2026-01-06 发布浏览217次点赞0次收藏0次

【导读】BiCo是一种创新的AI视觉内容生成方法，能灵活组合图像和视频中的视觉概念，实现可控编辑。它通过分层绑定器、多样化与吸收机制、时间解耦策略等技术创新，解决了现有方法在概念提取和组合上的问题，让AI真正理解并融合视觉元素。BiCo在概念一致性、提示忠实度等方面表现优异，可应用于视频制作、艺术创作等领域，为创作者带来强大助力。

在AI视觉内容生成领域，如何将多种视觉概念无缝融合，一直是研究的热点。

现有的主流方法主要存在两大问题：

概念提取不准确：现有方法使用LoRA适配器或可学习嵌入来提取概念，但面对遮挡、时间变化等复杂场景时，难以准确分解概念，对于非物体概念（如风格、光照变化）的提取能力有限。

组合方式太局限：现有方法主要局限于「用视频中的动作来驱动图片中的主体」，无法灵活组合图像和视频中的各种属性（如视觉风格、光照变化等），虽然图像域已有灵活组合的探索，但任意图像+视频的通用组合和可控的概念组合编辑仍是未解难题。

近日，来自香港科技大学、香港中文大学等机构的研究人员提出了一种名为BiCo（Bind & Compose）的创新方法，能够灵活组合任意数量的图像和视频，实现可控的对应元素概念组合编辑，创造出全新的创意内容，在概念一致性、提示忠实度和运动质量等方面均优于现有方法。

项目主页：https://refkxh.github.io/BiCo_Webpage/

论文链接：https://arxiv.org/abs/2512.09824

还记得《无间道》中那个经典的屋顶对峙场景吗？

梁朝伟和刘德华站在屋顶，背后是香港的城市天际线——这个场景已经成为影史经典。

现在，想象一下：如果把这个经典场景中的角色换成哈士奇和杜宾犬，会是什么效果？

使用BiCo方法可以轻松实现：

输入：两张狗狗的照片（哈士奇、杜宾犬）+ 《无间道》屋顶场景视频

输出：生成一段视频——哈士奇站在屋顶，杜宾犬出现在身后，背景是熟悉的城市天际线

这不是简单的「换脸」，而是AI真正理解了场景中的空间关系、人物位置、背景环境等复杂概念，并将来自不同来源的视觉元素完美融合。

这还只是BiCo能力的冰山一角，实际上，它可以做的远不止这些。

想象一下这样的场景，你有一张秋田犬的照片，还有一段人类在客厅玩游戏的视频。现在，你想让AI帮你生成一段视频：「一只穿着红色格子衬衫、戴着黑色耳机的秋田犬，兴奋地举起爪子，手持游戏手柄，沉浸在游戏中。」

或者，你有两张图片（我的世界风格的风景、火山爆发）和一段蝴蝶在花上扇动翅膀的视频，想让AI将它们组合成一个创意视频。

这些看似「不可能」的创意组合，现在都可以通过BiCo轻松实现。

BiCo的三大创新

让AI真正「理解」视觉概念

BiCo方法的核心思想是：将视觉概念与文本提示词绑定，然后灵活组合来自不同来源的绑定token。

具体来说，BiCo包含三大技术创新：

分层绑定器结构（Hierarchical Binder Structure）

问题：如何准确分解复杂的视觉概念？

在Diffusion Transformer（DiT）的交叉注意力机制中，设计分层绑定器结构；

将视觉概念编码到对应的文本token中；

实现隐式分解，无需显式的掩码输入。

效果：当组合来自多个来源的概念时，目标提示中的概念token会通过对应的绑定器传递，从而整合视觉特征，实现基于文本条件的概念组合。

多样化与吸收机制（Diversify-and-Absorb Mechanism, DAM）

问题：如何提高concept-token绑定的准确性？

多样化：在训练时对单样本提示进行多样化处理，同时保留关键概念

吸收：引入额外的吸收令牌，在训练过程中消除与概念无关的细节影响

效果：通过这一机制，BiCo能够更精确地绑定概念，避免无关信息的干扰。

时间解耦策略（Temporal Disentanglement Strategy, TDS）

问题：如何增强图像和视频概念之间的兼容性？

将视频概念的训练过程解耦为两个阶段：

第一阶段：在单个帧上训练绑定器，不涉及时间概念（与图像概念训练设置一致）

第二阶段：在视频上训练绑定器，采用双分支绑定器结构进行时间建模，同时继承第一阶段的知识

效果：通过分阶段训练，BiCo能够更好地处理图像和视频概念的组合，提升兼容性。

BiCo模型整体架构

BiCo分层绑定器结构结构；BiCo多样化与吸收机制

实验结果

全面超越现有方法

在实验评估中，BiCo在多个维度上均优于现有方法：

定量结果

概念一致性显著提升，提示忠实度明显改善，运动质量更加自然流畅。

定性结果

案例1：动作迁移（图像+视频）

输入：一张小猴子的图片 + 一段松鼠在阳光下吃东西的视频

输出：生成一只小猴子在阳光下吃东西的视频，完美结合了猴子的外观和松鼠的动作

可控编辑：精确指定使用猴子的外观概念和松鼠的动作概念进行组合

案例2：创意风格迁移（图像+视频）

输入：一张线条艺术风格的大象图片 + 一段大象行走的视频

输出：生成线条艺术风格的大象行走视频，成功融合了艺术风格和运动

可控编辑：精确控制风格概念和运动概念的组合方式

生成线稿风格大象视频，BiCo与之前方法的对比结果

案例3：多概念组合（多图像+视频）

输入：三张图片（快乐的秋田犬、时尚服装套装、蓝白条纹帽子）+ 一段女子坐在木制长椅上读书的视频

输出：生成秋田犬穿着服装套装和帽子，坐在木制长椅上读书的视频，完美融合了来自三个图像源的不同概念元素（主体、服装、配饰）和视频场景（动作和场景）

可控编辑：灵活组合来自多个图像源的不同概念元素（主体外观、服装、配饰）和视频概念（动作、场景），实现复杂的多概念编辑

案例4：多视频组合

输入：两段视频（弹吉他的男子、穿绿色西装举小号的男子）

输出：生成弹吉他的男子与举小号的男子同时出现的视频，将两个视频中的不同人物和动作进行组合

可控编辑：用户可以精确指定要从每个视频中提取和组合的概念元素（人物外观、动作、场景等）

与可灵O1对比：BiCo在概念组合上的显著优势

为了更直观地展示BiCo的优势，我们将其与业界领先的视频生成模型可灵O1进行了比较。

将《我的世界》风格、火山爆发与蝴蝶振翅三个概念，融合成一段创意视频。

输入的视频与图片概念

BiCo的生成结果

可灵O1的生成结果

概念一致性：BiCo更精准

BiCo：能够保持生成结果中蝴蝶栖息在花朵上的姿势状态一致，花朵始终存在，蝴蝶与花朵的关系保持稳定

可灵O1：花朵直接消失了，蝴蝶变成了在空中飞行的状态，完全偏离了输入视频中的概念

概念泄漏控制：BiCo更严格

BiCo：火山喷发状态与输入图片完全相同，精确保持了输入图像中的喷发特征，没有引入额外的无关元素

可灵O1：存在概念泄漏，火山喷发状态与输入图片不一致，出现了输入中不存在的元素

风格一致性：BiCo更忠实

BiCo：像素艺术风格的流体效果（流动的岩浆）表现完美，成功将像素艺术风格应用到动态的岩浆流动中，保持了整体风格的统一

可灵O1：岩浆没有变成像素艺术风格，风格迁移失败，导致生成的视频中风格不一致

通过这个对比案例，我们可以清晰地看到BiCo在以下三个关键维度上的显著优势：

1. 可控性更强：BiCo能够精确控制要组合的概念元素，实现保持概念高度一致性的组合，用户可以精确指定要保留和组合的视觉特征

2. 概念一致性更高：BiCo能够准确保持输入概念的状态和关系，避免概念丢失或改变（如蝴蝶与花朵的关系、火山喷发状态）

3. 提示词忠实度更好：BiCo能够忠实执行用户的组合意图，在复杂多概念组合场景中，仍然能够准确地将不同来源的概念按照提示词要求进行组合（如像素艺术风格的完整应用）

应用场景

为创作者打开新世界

BiCo支持任意数量的图像和视频输入，实现可控的概念组合编辑，应用场景非常广泛：

视频内容创作

电影制作：将任意多个场景的元素进行可控组合，创造新的视觉效果

广告创意：快速组合多个创意素材，生成个性化广告视频

短视频：为内容创作者提供强大的多素材组合工具，实现精确的概念编辑

艺术创作

风格迁移：将多个艺术风格与真实场景进行可控组合

概念设计：快速组合多个概念元素，可视化创意想法

动画制作：灵活组合多个动画元素，简化动画制作流程

技术优势

为什么BiCo更强大？

灵活性

支持任意数量的图像和视频进行组合（图像+图像、图像+视频、视频+视频、多图像+多视频等）

可以组合物体、风格、动作、光照等各种视觉概念

实现可控的对应元素概念组合编辑，用户可以精确指定要组合的概念元素

准确性

通过分层绑定器和DAM机制，实现更精确的概念提取

避免概念泄漏和无关信息干扰

兼容性

通过TDS策略，增强图像和视频概念之间的兼容性

更自然的组合效果

易用性

单样本学习：只需一张图片或一段视频即可进行概念绑定

无需掩码：不需要手动标注，降低使用门槛

灵活组合：支持任意数量的输入源，实现多概念的可控组合

结语

AI视觉创意的未来已来

BiCo方法的提出，标志着AI视觉内容生成领域的一个重要突破。它不仅解决了现有方法在概念提取和组合方面的局限，更为视觉内容创作提供了新的工具和思路。

随着技术的不断发展和完善，我们有理由相信，AI将在视觉创意领域发挥越来越重要的作用，为创作者打开无限可能。

参考资料：

https://refkxh.github.io/BiCo_Webpage/

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定极速推送！

AI 4

声明：本文转载自新智元，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

。

任意图像+视频=无限创意！港科大BiCo：AI视频进入组合时代，随意换角

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。