我们提出了Imagen,一个文本到图像的扩散模型,具有前所未有的写实主义程度和深度的语言理解。Imagen建立在理解文本的大型变压器语言模型的基础上,并依赖于在高保真图像生成中扩散模型的强度。我们的关键发现是,在纯文本语料库上进行预训练的通用大型语言模型(例如T5)在编码用于图像合成的文本方面惊人地有效:在Imagen中增加语言模型的大小比增加图像扩散模型的大小更能提高样本保真度和图像-文本对齐。Imagen在没有经过COCO训练的情况下,在COCO数据集上获得了7.27的最新FID分数,并且人类评分者发现Imagen样本在图像-文本对齐方面与COCO数据本身不相上下。为了更深入地评估文本到图像模型,我们引入了DrawBench,这是一个全面且具有挑战性的文本到图像模型基准测试。使用DrawBench,我们将Imagen与最近的方法进行了比较,包括VQ-GAN+CLIP、潜在扩散模型和DALL-E 2,并发现人类评分者在并排比较中更喜欢Imagen,无论是在样本质量还是图像-文本对齐方面。
类似的工具
千库AI·无限画
AI应用场景全面覆盖,未来将创造无限可能
DragGAN(GitHub)
全部开源,支持Windows, macOS, Linux
美图设计室-AI绘画
AI智能工具 为设计助力
秒画-SenseMirage
打造AI画图“模型超市”,心想画成
他人最近看的工具
MOSS(复旦大模型)
复旦大模型MOSS,正式开源了
Word-As-Image for Semantic Typography
我们的文字作为图像插图在不同的字体和不同的文本概念。使用我们的方法,语义调整的字母完全自动创建,然后可以用于进一步的创造性设计,正如我们在这里所演示的那样。
Diagram(magician)
生成的创造力,使用生成式设计工具更具创造性。
闪剪_AI智能剪辑_数字人营销
零基础、零门槛,轻松生成IP视频~限时领取会员大礼包
Reachout.ai
Reachout.ai是一个人工智能驱动的视频开发平台,专为忙碌的企业家和销售团队打造,他们希望突破收件箱的噪音,大规模生成个性化视频,并获得更高的电子邮件回复率和更多与理想客户的会议。
Meta AI
推动世界人工智能发展的工具
AI 中文社
