我们介绍的 DeepFloyd IF 是一种新颖、先进的开源文本到图像模型,具有高度的逼真性和语言理解能力。DeepFloyd IF 是一个模块,由一个冻结文本编码器和三个级联像素扩散模块组成:一个基本模型,根据文本提示生成 64×64 px 的图像;两个超分辨率模型,分别用于生成分辨率不断提高的图像:256×256 px 和 1024×1024 px。该模型的所有阶段都使用基于 T5 变换器的冻结文本编码器来提取文本嵌入,然后将其输入到具有交叉注意力和注意力池增强功能的 UNet 架构中。结果是一个高效的模型,其性能超过了目前最先进的模型,在 COCO 数据集上获得了 6.66 分的零镜头 FID 分数。我们的工作强调了大型 UNet 架构在级联扩散模型第一阶段的潜力,并描绘了文本到图像合成的美好前景。
类似的工具
其他人也看的工具
火山写作
自动生成相应的输出结果,以提供各类写作服务
通义万相
AI绘画创作大模型,生成符合语义描述的不同风格的图像
百度·文心一格
非常好用的AIGC绘画生成工具
StyleDrop
捕获用户提供的样式的细微差别和细节
Video Diffusion Models
标准图像架构的自然扩展
Smoking Robot AI
里面的工具是一个目录的人工智能(AI)工具,评论和新闻。用户可以按类别浏览AI工具,提交自己的工具,并获得2023年十大令人费解的AI工具。
AI 中文社
