我们提出了Imagen,一个文本到图像的扩散模型,具有前所未有的写实主义程度和深度的语言理解。Imagen建立在理解文本的大型变压器语言模型的基础上,并依赖于在高保真图像生成中扩散模型的强度。我们的关键发现是,在纯文本语料库上进行预训练的通用大型语言模型(例如T5)在编码用于图像合成的文本方面惊人地有效:在Imagen中增加语言模型的大小比增加图像扩散模型的大小更能提高样本保真度和图像-文本对齐。Imagen在没有经过COCO训练的情况下,在COCO数据集上获得了7.27的最新FID分数,并且人类评分者发现Imagen样本在图像-文本对齐方面与COCO数据本身不相上下。为了更深入地评估文本到图像模型,我们引入了DrawBench,这是一个全面且具有挑战性的文本到图像模型基准测试。使用DrawBench,我们将Imagen与最近的方法进行了比较,包括VQ-GAN+CLIP、潜在扩散模型和DALL-E 2,并发现人类评分者在并排比较中更喜欢Imagen,无论是在样本质量还是图像-文本对齐方面。
类似的工具
免费AI 中文社
AI 中文社区 - 一个学习交流 AI 人工智能技术的中文社区
Janitor AI 角色扮演聊天
角色扮演聊天机器人Janitor AI,Janitor AI 被证明是各行业用户的多功能且不可或缺的平台。
CapCut剪映专业版
ai剪辑软件,让创作更简单
Midjourney提示词(咒语)生成器
Midjourney提示词(咒语)是一个免费在线生成器,可以快速生成midjourney关键词、咒语的实用工具平台,内置2000+宝典,实时翻译,利用Midjo
易搜猫
易搜猫_自媒体_伪原创_原创检测_海量素材_写作技巧
Dify
简单易用的开源 LLMOps 平台,定义你的 AI 原生应用
他人最近看的工具
360鸿图
支持CG、写实、动漫、剪纸等不同风格的图片生成
造梦日记
将文字快速生成高质量图片的应用
artbreeder
从形状和图像中制作一个简单的拼贴画,用提示进行描述,并观看Artbreeder将其带入生活。
知作
面向影视创作者的次世代创作方式
北京理工大学计算机学院
计算机学院始建于1958年,是全国最早设立计算机专业的高校之一。2018年4月,计算机学院、软件学院、网络科学与技术研究院合并成立新的计算机学院。学院累计为国家培养各类人才15000余名。计算机科学学科ESI排名进入全球前1%,学科排名进入全国前10%。
Meta AI
推动世界人工智能发展的工具
AI 中文社
