任意图像+视频=无限创意!港科大BiCo:AI视频进入组合时代,随意换角

2026-01-06 发布 · 浏览44次 · 点赞0次 · 收藏0次

【导读】BiCo是一种创新的AI视觉内容生成方法,能灵活组合图像和视频中的视觉概念,实现可控编辑。它通过分层绑定器、多样化与吸收机制、时间解耦策略等技术创新,解决了现有方法在概念提取和组合上的问题,让AI真正理解并融合视觉元素。BiCo在概念一致性、提示忠实度等方面表现优异,可应用于视频制作、艺术创作等领域,为创作者带来强大助力。

在AI视觉内容生成领域,如何将多种视觉概念无缝融合,一直是研究的热点。

现有的主流方法主要存在两大问题:

概念提取不准确:现有方法使用LoRA适配器或可学习嵌入来提取概念,但面对遮挡、时间变化等复杂场景时,难以准确分解概念,对于非物体概念(如风格、光照变化)的提取能力有限。

组合方式太局限:现有方法主要局限于「用视频中的动作来驱动图片中的主体」,无法灵活组合图像和视频中的各种属性(如视觉风格、光照变化等),虽然图像域已有灵活组合的探索,但任意图像+视频的通用组合可控的概念组合编辑仍是未解难题。

近日,来自香港科技大学、香港中文大学等机构的研究人员提出了一种名为BiCo(Bind & Compose)的创新方法,能够灵活组合任意数量的图像和视频,实现可控的对应元素概念组合编辑,创造出全新的创意内容,在概念一致性、提示忠实度和运动质量等方面均优于现有方法。


项目主页:https://refkxh.github.io/BiCo_Webpage/

论文链接:https://arxiv.org/abs/2512.09824

还记得《无间道》中那个经典的屋顶对峙场景吗?

梁朝伟和刘德华站在屋顶,背后是香港的城市天际线——这个场景已经成为影史经典。

现在,想象一下:如果把这个经典场景中的角色换成哈士奇和杜宾犬,会是什么效果?

使用BiCo方法可以轻松实现:

输入:两张狗狗的照片(哈士奇杜宾犬)+ 《无间道》屋顶场景视频

输出:生成一段视频——哈士奇站在屋顶,杜宾犬出现在身后,背景是熟悉的城市天际线

这不是简单的「换脸」,而是AI真正理解了场景中的空间关系、人物位置、背景环境等复杂概念,并将来自不同来源的视觉元素完美融合。


这还只是BiCo能力的冰山一角,实际上,它可以做的远不止这些。

想象一下这样的场景,你有一张秋田犬的照片,还有一段人类在客厅玩游戏的视频。现在,你想让AI帮你生成一段视频:「一只穿着红色格子衬衫、戴着黑色耳机的秋田犬,兴奋地举起爪子,手持游戏手柄,沉浸在游戏中。」


或者,你有两张图片(我的世界风格的风景火山爆发)和一段蝴蝶在花上扇动翅膀的视频,想让AI将它们组合成一个创意视频。


这些看似「不可能」的创意组合,现在都可以通过BiCo轻松实现。

BiCo的三大创新

让AI真正「理解」视觉概念

BiCo方法的核心思想是:将视觉概念与文本提示词绑定,然后灵活组合来自不同来源的绑定token

具体来说,BiCo包含三大技术创新:

分层绑定器结构(Hierarchical Binder Structure)

问题如何准确分解复杂的视觉概念?

在Diffusion Transformer(DiT)的交叉注意力机制中,设计分层绑定器结构;

将视觉概念编码到对应的文本token中;

实现隐式分解,无需显式的掩码输入。

效果当组合来自多个来源的概念时,目标提示中的概念token会通过对应的绑定器传递,从而整合视觉特征,实现基于文本条件的概念组合。

多样化与吸收机制(Diversify-and-Absorb Mechanism, DAM)

问题如何提高concept-token绑定的准确性?

多样化:在训练时对单样本提示进行多样化处理,同时保留关键概念

吸收:引入额外的吸收令牌,在训练过程中消除与概念无关的细节影响

效果通过这一机制,BiCo能够更精确地绑定概念,避免无关信息的干扰。

时间解耦策略(Temporal Disentanglement Strategy, TDS)

问题:如何增强图像和视频概念之间的兼容性?

将视频概念的训练过程解耦为两个阶段

第一阶段:在单个帧上训练绑定器,不涉及时间概念(与图像概念训练设置一致)

第二阶段:在视频上训练绑定器,采用双分支绑定器结构进行时间建模,同时继承第一阶段的知识

效果通过分阶段训练,BiCo能够更好地处理图像和视频概念的组合,提升兼容性。


BiCo模型整体架构


BiCo分层绑定器结构结构;BiCo多样化与吸收机制

实验结果

全面超越现有方法

在实验评估中,BiCo在多个维度上均优于现有方法:

定量结果

概念一致性显著提升,提示忠实度明显改善,运动质量更加自然流畅。


定性结果

案例1:动作迁移(图像+视频)

输入:一张小猴子的图片 + 一段松鼠在阳光下吃东西的视频

输出:生成一只小猴子在阳光下吃东西的视频,完美结合了猴子的外观和松鼠的动作


可控编辑精确指定使用猴子的外观概念和松鼠的动作概念进行组合

案例2:创意风格迁移(图像+视频)

输入:一张线条艺术风格的大象图片 + 一段大象行走的视频

输出:生成线条艺术风格的大象行走视频,成功融合了艺术风格和运动

可控编辑精确控制风格概念和运动概念的组合方式


生成线稿风格大象视频,BiCo与之前方法的对比结果

案例3:多概念组合(多图像+视频)

输入:三张图片(快乐的秋田犬时尚服装套装蓝白条纹帽子)+ 一段女子坐在木制长椅上读书的视频

输出:生成秋田犬穿着服装套装和帽子,坐在木制长椅上读书的视频,完美融合了来自三个图像源的不同概念元素(主体、服装、配饰)和视频场景(动作和场景)

可控编辑灵活组合来自多个图像源的不同概念元素(主体外观、服装、配饰)和视频概念(动作、场景),实现复杂的多概念编辑


案例4:多视频组合

输入:两段视频(弹吉他的男子穿绿色西装举小号的男子

输出:生成弹吉他的男子与举小号的男子同时出现的视频,将两个视频中的不同人物和动作进行组合

可控编辑用户可以精确指定要从每个视频中提取和组合的概念元素(人物外观、动作、场景等)


与可灵O1对比:BiCo在概念组合上的显著优势

为了更直观地展示BiCo的优势,我们将其与业界领先的视频生成模型可灵O1进行了比较。

将《我的世界》风格、火山爆发与蝴蝶振翅三个概念,融合成一段创意视频


输入的视频与图片概念

BiCo的生成结果

可灵O1的生成结果

概念一致性:BiCo更精准

BiCo:能够保持生成结果中蝴蝶栖息在花朵上的姿势状态一致,花朵始终存在,蝴蝶与花朵的关系保持稳定

可灵O1花朵直接消失了,蝴蝶变成了在空中飞行的状态,完全偏离了输入视频中的概念

概念泄漏控制:BiCo更严格

BiCo火山喷发状态与输入图片完全相同,精确保持了输入图像中的喷发特征,没有引入额外的无关元素

可灵O1:存在概念泄漏,火山喷发状态与输入图片不一致,出现了输入中不存在的元素

风格一致性:BiCo更忠实

BiCo像素艺术风格的流体效果(流动的岩浆)表现完美,成功将像素艺术风格应用到动态的岩浆流动中,保持了整体风格的统一

可灵O1岩浆没有变成像素艺术风格,风格迁移失败,导致生成的视频中风格不一致

通过这个对比案例,我们可以清晰地看到BiCo在以下三个关键维度上的显著优势:

1. 可控性更强BiCo能够精确控制要组合的概念元素,实现保持概念高度一致性的组合,用户可以精确指定要保留和组合的视觉特征

2. 概念一致性更高BiCo能够准确保持输入概念的状态和关系,避免概念丢失或改变(如蝴蝶与花朵的关系、火山喷发状态)

3. 提示词忠实度更好BiCo能够忠实执行用户的组合意图,在复杂多概念组合场景中,仍然能够准确地将不同来源的概念按照提示词要求进行组合(如像素艺术风格的完整应用)

应用场景

为创作者打开新世界

BiCo支持任意数量的图像和视频输入,实现可控的概念组合编辑,应用场景非常广泛:

视频内容创作

电影制作:将任意多个场景的元素进行可控组合,创造新的视觉效果

广告创意:快速组合多个创意素材,生成个性化广告视频

短视频:为内容创作者提供强大的多素材组合工具,实现精确的概念编辑

艺术创作

风格迁移:将多个艺术风格与真实场景进行可控组合

概念设计:快速组合多个概念元素,可视化创意想法

动画制作:灵活组合多个动画元素,简化动画制作流程

技术优势

为什么BiCo更强大?

灵活性

支持任意数量的图像和视频进行组合(图像+图像、图像+视频、视频+视频、多图像+多视频等)

可以组合物体、风格、动作、光照等各种视觉概念

实现可控的对应元素概念组合编辑,用户可以精确指定要组合的概念元素

准确性

通过分层绑定器和DAM机制,实现更精确的概念提取

避免概念泄漏和无关信息干扰

兼容性

通过TDS策略,增强图像和视频概念之间的兼容性

更自然的组合效果

易用性

单样本学习:只需一张图片或一段视频即可进行概念绑定

无需掩码:不需要手动标注,降低使用门槛

灵活组合:支持任意数量的输入源,实现多概念的可控组合

结语

AI视觉创意的未来已来

BiCo方法的提出,标志着AI视觉内容生成领域的一个重要突破。它不仅解决了现有方法在概念提取和组合方面的局限,更为视觉内容创作提供了新的工具和思路。

随着技术的不断发展和完善,我们有理由相信,AI将在视觉创意领域发挥越来越重要的作用,为创作者打开无限可能。

参考资料:

https://refkxh.github.io/BiCo_Webpage/

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定极速推送!

任意图像+视频=无限创意!港科大BiCo:AI视频进入组合时代,随意换角 - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。