我们介绍的 DeepFloyd IF 是一种新颖、先进的开源文本到图像模型,具有高度的逼真性和语言理解能力。DeepFloyd IF 是一个模块,由一个冻结文本编码器和三个级联像素扩散模块组成:一个基本模型,根据文本提示生成 64×64 px 的图像;两个超分辨率模型,分别用于生成分辨率不断提高的图像:256×256 px 和 1024×1024 px。该模型的所有阶段都使用基于 T5 变换器的冻结文本编码器来提取文本嵌入,然后将其输入到具有交叉注意力和注意力池增强功能的 UNet 架构中。结果是一个高效的模型,其性能超过了目前最先进的模型,在 COCO 数据集上获得了 6.66 分的零镜头 FID 分数。我们的工作强调了大型 UNet 架构在级联扩散模型第一阶段的潜力,并描绘了文本到图像合成的美好前景。
类似的工具
其他人也看的工具
Keras
KerasPython版本的TensorFlow...
Q.AI视频生成工具
支持一分钟生成专业级短视频,多种生成方式,AI视频脚本,在线云编辑,画面自由替换,热门配音媲美真人音色,更多强大功能尽在Q.AI
抖音Dreamina – 免费
抖音剪映旗下的一款AI绘画工具,能够根据用户提供的文本内容生成由AI制作的创意图片
BAAI北京智源人工智能研究院
北京智源人工智能研究院(简称:智源研究院 Beijing Academy of Artificial Intelligence,BAAI)是人工智能领域的新型研发机构。2018年11月14日,在科技部和北京市支持下,联合北京人工智能领域优势单位共建。
Hypotenuse AI
提供几个关键词,我们会利用我们世界一流的人工智能和丰富的知识,立即把它们变成完整的文章和营销内容。
AI模特商店
提供高质量的虚拟模特服务
AI 中文社
