我们介绍的 DeepFloyd IF 是一种新颖、先进的开源文本到图像模型,具有高度的逼真性和语言理解能力。DeepFloyd IF 是一个模块,由一个冻结文本编码器和三个级联像素扩散模块组成:一个基本模型,根据文本提示生成 64×64 px 的图像;两个超分辨率模型,分别用于生成分辨率不断提高的图像:256×256 px 和 1024×1024 px。该模型的所有阶段都使用基于 T5 变换器的冻结文本编码器来提取文本嵌入,然后将其输入到具有交叉注意力和注意力池增强功能的 UNet 架构中。结果是一个高效的模型,其性能超过了目前最先进的模型,在 COCO 数据集上获得了 6.66 分的零镜头 FID 分数。我们的工作强调了大型 UNet 架构在级联扩散模型第一阶段的潜力,并描绘了文本到图像合成的美好前景。

类似的工具
其他人也看的工具

BuboGPT
文本、图像和音频等多模式输入,具有将其对视觉对象的响应作为基础的独特能力。

Ai-Art(专享优惠码)
Midjourney国内镜像版

Looka
使用 Looka 的人工智能平台设计徽标并打造您喜爱的品牌。

wisecut
Wisecut是一款在线自动视频编辑软件,它使用人工智能和语音识别来快速轻松地编辑视频。它会自动将长视频剪辑成更短、更有影响力的内容,并配有音乐、字幕和面部识别功能。它还使用人工智能和面部识别来自动“打卡”和“打卡”,生成转录的故事板进行编辑,并自动添加背景音乐和音频闪避以提高参与度。

Tome
Tome AI是一个利用人工智能来...

Finchat
准确地提供了上市公司的验证数据。