我们介绍的 DeepFloyd IF 是一种新颖、先进的开源文本到图像模型,具有高度的逼真性和语言理解能力。DeepFloyd IF 是一个模块,由一个冻结文本编码器和三个级联像素扩散模块组成:一个基本模型,根据文本提示生成 64×64 px 的图像;两个超分辨率模型,分别用于生成分辨率不断提高的图像:256×256 px 和 1024×1024 px。该模型的所有阶段都使用基于 T5 变换器的冻结文本编码器来提取文本嵌入,然后将其输入到具有交叉注意力和注意力池增强功能的 UNet 架构中。结果是一个高效的模型,其性能超过了目前最先进的模型,在 COCO 数据集上获得了 6.66 分的零镜头 FID 分数。我们的工作强调了大型 UNet 架构在级联扩散模型第一阶段的潜力,并描绘了文本到图像合成的美好前景。
类似的工具
免费AI 中文社
AI 中文社区 - 一个学习交流 AI 人工智能技术的中文社区
Janitor AI 角色扮演聊天
角色扮演聊天机器人Janitor AI,Janitor AI 被证明是各行业用户的多功能且不可或缺的平台。
CapCut剪映专业版
ai剪辑软件,让创作更简单
易搜猫
易搜猫_自媒体_伪原创_原创检测_海量素材_写作技巧
TTS Online
提供200多种声音选择,并支持多款热门游戏角色语音生成
【图查查】图片版权查询神器
图片版权一键查询、版权图片搜索、相似版权图片推荐、免费版权图供给等服务
他人最近看的工具
One More AI
人工智能生成的股票图像,找...
Voicepods
Voicepods是一个在线文本转语音平台,允许用户在30秒内将任何书面文本转换为音频文件。它提供了16种多种语言的国际声音和一个表达性内容编辑器来定制声音的输出。
Synthesizer V
Synthesizer V是一款革命性的音乐制作工具,它使用基于深度神经网络的合成引擎来生成令人难以置信的逼真的歌声。它具有可定制的AI音高生成,无限音轨,无核心限制,VST3/AU插件支持,ASIO支持(Windows), Jack支持(Linux),跨语言合成,AI重取,孤立的抽吸输出,发声模式,音调偏移参数,Microtonal调整,MIDI键盘支持,节拍器和Lua/Javascript脚本。这似乎是一个突破性的工具。
Zoho Show
兼容PowerPoint在线协作,并让团队始终保持同步
飞书妙记
飞书妙记智能会议纪要和语音...
Adept.ai
Adept 是一个 ML 研究和产品实验室,通过使人类和计算机能够创造性地协同工作来构建通用智能。
AI 中文社
