我们介绍的 DeepFloyd IF 是一种新颖、先进的开源文本到图像模型,具有高度的逼真性和语言理解能力。DeepFloyd IF 是一个模块,由一个冻结文本编码器和三个级联像素扩散模块组成:一个基本模型,根据文本提示生成 64×64 px 的图像;两个超分辨率模型,分别用于生成分辨率不断提高的图像:256×256 px 和 1024×1024 px。该模型的所有阶段都使用基于 T5 变换器的冻结文本编码器来提取文本嵌入,然后将其输入到具有交叉注意力和注意力池增强功能的 UNet 架构中。结果是一个高效的模型,其性能超过了目前最先进的模型,在 COCO 数据集上获得了 6.66 分的零镜头 FID 分数。我们的工作强调了大型 UNet 架构在级联扩散模型第一阶段的潜力,并描绘了文本到图像合成的美好前景。

类似的工具
其他人也看的工具

Nvidia·GET3D
我们通过两个潜在代码生成 3D SDF 和纹理场。我们利用 DMTet 从 SDF 中提取 3D 表面网格,并查询表面点处的纹理场以获取颜色。我们使用在 2D 图像上定义的对抗损失进行训练。

365PSD
Free PSD & Graphics, Illustrations

ProfilePicture.AI
Postcraft的免费PFP Maker是一个在线工具,允许用户为他们的社交媒体账户创建自定义头像。它允许用户上传照片,然后该工具将自动删除背景,并生成数百张独特的头像照片。

AI辅助Excel课
GPT与Word VBA应用实战21个教程

纽约大学
纽约大学(New York University),简称纽大(NYU),是由时任美国财政部长艾伯特·加勒廷成立于1831年,私立大学。有45000余名学生。纽约大学同时在伦敦、马德里、悉尼、柏林、巴黎等地共设立11个全球学术中心。 美国大学协会成员 ,2023U.S. News美国最佳大学排名第25,2022福布斯美国大学排行榜第60名。

Wisio
Wisio是一个人工智能的科学写...