我们提出了Imagen,一个文本到图像的扩散模型,具有前所未有的写实主义程度和深度的语言理解。Imagen建立在理解文本的大型变压器语言模型的基础上,并依赖于在高保真图像生成中扩散模型的强度。我们的关键发现是,在纯文本语料库上进行预训练的通用大型语言模型(例如T5)在编码用于图像合成的文本方面惊人地有效:在Imagen中增加语言模型的大小比增加图像扩散模型的大小更能提高样本保真度和图像-文本对齐。Imagen在没有经过COCO训练的情况下,在COCO数据集上获得了7.27的最新FID分数,并且人类评分者发现Imagen样本在图像-文本对齐方面与COCO数据本身不相上下。为了更深入地评估文本到图像模型,我们引入了DrawBench,这是一个全面且具有挑战性的文本到图像模型基准测试。使用DrawBench,我们将Imagen与最近的方法进行了比较,包括VQ-GAN+CLIP、潜在扩散模型和DALL-E 2,并发现人类评分者在并排比较中更喜欢Imagen,无论是在样本质量还是图像-文本对齐方面。
![Imagen【推荐试用】](https://media.aizws.net/media/images/aitool/icon/20240102100524_2154.png)
类似的工具
![千库AI·无限画 logo](https://media.aizws.net/media/images/aitool/icon/20240102100516_9836.png)
千库AI·无限画
AI应用场景全面覆盖,未来将创造无限可能
![DragGAN(GitHub) logo](https://media.aizws.net/media/images/aitool/icon/20240102100514_8456.png)
DragGAN(GitHub)
全部开源,支持Windows, macOS, Linux
![美图设计室-AI绘画 logo](https://media.aizws.net/media/images/aitool/icon/20240102100511_3310.png)
美图设计室-AI绘画
AI智能工具 为设计助力
![秒画-SenseMirage logo](https://media.aizws.net/media/images/aitool/icon/20240102100501_6533.png)
秒画-SenseMirage
打造AI画图“模型超市”,心想画成
其他人也看的工具
![量子位 logo](https://media.aizws.net/media/images/aitool/icon/20240102101049_4489.png)
量子位
量子位追踪人工智能亲爱趋势
![中国网络社会组织联合会 logo](https://media.aizws.net/media/images/aitool/icon/20240102100959_7520.png)
中国网络社会组织联合会
中国网络社会组织联合会简称中网联,英文名称为China Federation of Internet Societies(缩写:CFIS)
![万兴喵影 logo](https://media.aizws.net/media/images/aitool/icon/20240102100734_9288.png)
万兴喵影
专业创作 更胜一筹,万兴喵影2023 重磅来袭 !
![VCG视觉中国AI LAB logo](https://media.aizws.net/media/images/aitool/icon/20240102100626_52.png)
VCG视觉中国AI LAB
累积获取海量数据,进一步促进智能服务的提升。
![menten.AI logo](https://media.aizws.net/media/images/aitool/icon/20240102101241_3922.png)
menten.AI
Menten 平台能够设计出具有理想体外和体内特性的 nM 范围内的强效药物样肽大环化合物,并为难以药物靶标提供一种新的化学模式。
![Legalese Decoder logo](https://media.aizws.net/media/images/aitool/icon/20240102100949_4905.png)
Legalese Decoder
结合 AI 人工智能自然语言处理 NLP 和机器学习 ML 技术来分析法律文件的结构和内容并识别关键术语和概念。