我们介绍的 DeepFloyd IF 是一种新颖、先进的开源文本到图像模型,具有高度的逼真性和语言理解能力。DeepFloyd IF 是一个模块,由一个冻结文本编码器和三个级联像素扩散模块组成:一个基本模型,根据文本提示生成 64×64 px 的图像;两个超分辨率模型,分别用于生成分辨率不断提高的图像:256×256 px 和 1024×1024 px。该模型的所有阶段都使用基于 T5 变换器的冻结文本编码器来提取文本嵌入,然后将其输入到具有交叉注意力和注意力池增强功能的 UNet 架构中。结果是一个高效的模型,其性能超过了目前最先进的模型,在 COCO 数据集上获得了 6.66 分的零镜头 FID 分数。我们的工作强调了大型 UNet 架构在级联扩散模型第一阶段的潜力,并描绘了文本到图像合成的美好前景。

类似的工具
其他人也看的工具

数美·智能文本检测
多种海外语言检测和风险标签识别

6Pen Art
支持多种模型和中文描述,不保留版权,不保留数据。

Synthesys
Synthesys是一家领先的AI虚拟媒体平台,用户只需点击几下鼠标就可以制作专业的AI画外音和AI视频。它为用户提供了一个大型的专业声音库,74种humatar, 38种女性和36种男性声音,66种语言和254种风格。它还具有基于云的应用程序、完全定制和高分辨率输出。Synthesys非常适合创建解释器视频,电子学习,社交媒体,产品描述等。

微软爱写作
微软开发的一款在线写作平台

ChartAI
ChartAI致力于解决数据可视化...

AI算法工程师-必备基础与机器学习
706课时帮助学生打下坚实的基础,为进一步学习人工智能和深度学习做好准备。