我们介绍的 DeepFloyd IF 是一种新颖、先进的开源文本到图像模型,具有高度的逼真性和语言理解能力。DeepFloyd IF 是一个模块,由一个冻结文本编码器和三个级联像素扩散模块组成:一个基本模型,根据文本提示生成 64×64 px 的图像;两个超分辨率模型,分别用于生成分辨率不断提高的图像:256×256 px 和 1024×1024 px。该模型的所有阶段都使用基于 T5 变换器的冻结文本编码器来提取文本嵌入,然后将其输入到具有交叉注意力和注意力池增强功能的 UNet 架构中。结果是一个高效的模型,其性能超过了目前最先进的模型,在 COCO 数据集上获得了 6.66 分的零镜头 FID 分数。我们的工作强调了大型 UNet 架构在级联扩散模型第一阶段的潜力,并描绘了文本到图像合成的美好前景。
类似的工具
其他人也看的工具
Petalica paint
Petalica paint用AI为你的画自动上色!
营销秘书爱迪生
爱迪生AIGC,24小时在线,不会累,还始终保持耐心的私人助手
VidIq
VidIQ是一款SaaS产品,旨在帮...
Optimo
AI驱动的营销程序,可以简化和加速营销过程。
SaaS AI tools
SaaS AI Tools是您的新AI工具和每日AI新闻的来源,帮助您的创造力提升到一个新的水平。