我们介绍的 DeepFloyd IF 是一种新颖、先进的开源文本到图像模型,具有高度的逼真性和语言理解能力。DeepFloyd IF 是一个模块,由一个冻结文本编码器和三个级联像素扩散模块组成:一个基本模型,根据文本提示生成 64×64 px 的图像;两个超分辨率模型,分别用于生成分辨率不断提高的图像:256×256 px 和 1024×1024 px。该模型的所有阶段都使用基于 T5 变换器的冻结文本编码器来提取文本嵌入,然后将其输入到具有交叉注意力和注意力池增强功能的 UNet 架构中。结果是一个高效的模型,其性能超过了目前最先进的模型,在 COCO 数据集上获得了 6.66 分的零镜头 FID 分数。我们的工作强调了大型 UNet 架构在级联扩散模型第一阶段的潜力,并描绘了文本到图像合成的美好前景。
类似的工具
其他人也看的工具
Wonder Studio高阶应用
Wonder Studio是一款AI工具,可以自动制作动画、灯光,并将CG角色组合成真人场景。它采用单摄像机拍摄的镜头并检测演员的表演,将其转换为具有自动动画、灯光和构图的CG角色。它还允许使用多个角色,并有一个免费角色的艺术家社区。
HitPaw
视频转换器、屏幕录像机、视频增强器、视频编辑器等等。想象力没有边界,HitPaw 也是如此。
AI简历
AI简历-海量简历模板,15分钟快速制作简历,助力获得令人心动的offer
清华大学人工智能研究院
清华大学人工智能研究院依托清华大学优势学科,以未来人工智能的原创性基础理论为发力点,力求在探究智能本质的基础上,产生人工能基础理论和关健技术上的颠覆性创新成果
百度AI市场
百度AI市场,基于百度大脑领先的技术基础,集合众多优秀企业和开发者,打通AI产业上下游。为AI服务商提供展示和交易平台,为需求方提供多维度的软件能力、硬件产品、解决方案、数据服务等,是企业采购AI服务,实现一站式AI赋能业务的首选平台。
AI Dungeon
Unchained现在是LIVE 无广告...
AI 中文社
