我们介绍的 DeepFloyd IF 是一种新颖、先进的开源文本到图像模型,具有高度的逼真性和语言理解能力。DeepFloyd IF 是一个模块,由一个冻结文本编码器和三个级联像素扩散模块组成:一个基本模型,根据文本提示生成 64×64 px 的图像;两个超分辨率模型,分别用于生成分辨率不断提高的图像:256×256 px 和 1024×1024 px。该模型的所有阶段都使用基于 T5 变换器的冻结文本编码器来提取文本嵌入,然后将其输入到具有交叉注意力和注意力池增强功能的 UNet 架构中。结果是一个高效的模型,其性能超过了目前最先进的模型,在 COCO 数据集上获得了 6.66 分的零镜头 FID 分数。我们的工作强调了大型 UNet 架构在级联扩散模型第一阶段的潜力,并描绘了文本到图像合成的美好前景。
类似的工具
其他人也看的工具
ppword
支持自建知识库,送5天免费体验,体验期间不限量对话。
HelpLook
免费快速搭建帮助中心/知识库/博客,支持基于文档的GPT智能搜索回答
Freeflo
一款收录了大量 AI 图片素材的免费在线素材库
REIMAGINE XL
从 stable diffusion创建多个变化
TME Studio腾讯音乐
分析TME全曲库歌词以及散文、诗歌等多种语料素材,依据智能推荐算法帮你找到合适的押韵词语,打开灵感空间
Audo AI
Audo AI为创作者和开发人员提供噪声消除产品,包括Audo Studio、Audo API和用于Linux的Magic Mic。这些产品利用音频处理和人工智能的最新进展,自动去除背景噪音,增强音频录制,在任何环境下为用户提供清晰易懂的语音。