我们都知道,Mistral 团队向来「人狠话不多」。昨天下午,他们又又又丢出了一个不带任何注解的磁力链接。解析一下这个链接,可以看到大小共 23.64 GB,其中包含 4 个文件,其中最大的文件是一个封装的多模态大模型。动作快的非官方 Mistral 社区已经将该模型上传到了 Hugging Face。- 磁力链接:magnet:?xt=urn:btih:7278e625de2b1da598b23954c13933047126238a&dn=pixtral-12b-240910
- Hugging Face 地址:https://huggingface.co/mistral-community/pixtral-12b-240910
这一发布引来如潮好评,有人将其与近日经常出现在话题热榜中的 Reflection 模型做了对比,更是尽显 Mistral 团队踏实做事的风格:该模型的名字为 pixtral-12b-240910,从名字也能看出,该模型的参数量为 12B。其中 params.jsom 列出了该模型的相关参数:可以看到,该模型有一个视觉编码器,其支持 1024×1024 大小的图像,有 24 个隐藏层,支持高级图像处理。该模型的层数为 40、隐藏维度大小为 14,336,注意力头有 32 个。此外,Pixtral 12B 的词汇库有 131,072 个不同的 token,可以说相当庞大,因此能实现非常细腻的语言理解和生成。从这些参数和配置也能看出,Pixtral 12B 至少有能力处理文本和图像数据,实现多模态处理。Pixtral 12B 的发布广受好评,这是因为人们一直在期待开放模型社区也能获得好用易用的多模态模型。Mistral 这条磁力链接将我们向这个方向推进了一步。不过由于该模型才刚发布,其效果究竟如何还尚未可知,但好在我们也不是完全没有线索。就在昨天,Mistral 低调地举办了一场峰会 Mistral AI Summit,演讲者包括 Mistral CEO Arthur Mensch 以及英伟达 CEO 黄仁勋等。几位参与者在社交网络上分享了一些现场照片,让我们可以一窥 Pixtral 模型的性能。在这张幻灯片中,我们可以看到 Pixtral 12B 支持任意大小的图像和 128k 的上下文窗口。另外,该模型也能处理同时包含文本和图像的大型文档。具体性能指标上,Pixtral 12B 的表现虽不及 GPT-4o 和 Claude-3.5 Sonnet,但在各基准上全面胜过了 Claude-3 Haiku 和 Gemini-1.5 8B。而在几个开放多模态模型中,Pixtral 在大多数基准上都表现最佳,仅在 DocVQA 上略低于 Qwen2 7B。Mistral 展示了 Pixtral 的一些具体应用案例。通过 OCR 将包含数学公式的科学文章图片转录成 Markdown 格式?毫无压力!提取图片信息和描述图像内容?这已经算是多模态模型的基本能力,那就更无问题了。不仅如此,Pixtral 还能理解更加复杂的图像,并从中提取出关键信息和见解:Pixtral 也具备非常出色的解释和推理能力。具体指标上,Pixtral 12B 在 MMMU 和 MathVista 上的多模态知识和推理性能均领先其它参与对比的模型(主要是开放模型,并没有 GPT-4o 和 Claude-3.5 Sonnet)。多模态问答性能也表现卓越,处于领先位置。多模态指令遵从以及文本理解能力都表现不错,在某些指标上仅略逊于 Claude-2 Haiku。比如它能根据 DNA 图像分析出该图像是在解释 DNA 的结构(相信这个能力很适合用于学习新知识):也能基于手绘的潦草网页设计草稿推理生成 HTML 代码:拍一拍考试卷让其解答数学选择题,也轻轻松松就能完成:至于 Pixtral 是否支持视频,Mistral 在问答环节分享说他们还未测试过视频帧,但已经尝试过 PFF(点特征融合),并且他们表示 Pixtral「128k 的上下文应该能处理视频」。此外,Pixtral 也能泛化用于卫星图像。至于如何使用 Pixtral 12B,如果你的硬件性能足够,当然可以自己部署;但 Mistral 的开发者关系负责人 Sophia Yang 也表示,未来会通过 Mistral 的 Le Chat 和 La Platforme 提供该模型。根据网友们分享的消息,在 Mistral AI Summit 上,该公司分享了他们的愿景。他们认为,要让 AI 有用,最关键的其实是系统问题。但对不懂相关技术的普通用户来说,这个系统显得非常复杂。Mistral 想做的就是简化用户的使用流程,降低用户的使用成本。他们想把复杂的技术部分都整合进 La Platforme,让用户只需进行简单的配置就能享受 AI 带来的便利和效率。此外,为了让 AI 有能力解决复杂问题,将用户交互用于 AI 模型的持续训练是很有必要的。同时还需要持续地将新软件整合进 AI 的工具箱,提升其能力。目前,Mistral 的模型矩阵中已经包含了用于通用任务和科研任务的多种免费模型。另外,该公司还为编程任务开发了 Codestral 模型,支持 80 多种编程语言并且性能优秀。不过需要指出,虽然 Mistral 允许研究者基于研究和测试目的免费使用 Codestral,但若想将其投入商业应用,则需要向其购买商用权限 —— 这也算是该公司为数不多的盈利项目之一。今年 6 月份,Mistral 以 60 亿美元的估值获得了 6.4 亿美元投资,之后不久便发布了该公司的旗舰模型 Mistral Large 2。Mistral Large 2 的参数量为 123B,支持多语言和函数调用,具备强大的推理和代码能力,整体性能虽不及当前最佳的 GPT-4o 和 Claude-3.5 Sonnet,但却超过了 405B 参数的 Llama 3.1。同样,Mistral Large 2 也免费开放给非商业用途。Mistral 团队绝对算是 AI 模型开发领域的一股清流。在 AI 领域普遍关注营销宣传的如今,Mistral 的 Twitter 虽有 10 万关注者却并未关注任何一个人,其仅有的 10 条推文也几乎都是在发布新模型,其 CEO Arthur Mensch 的个人账户也毫不活跃。Mistral AI 成立于 2023 年 5 月,是一家法国人工智能初创公司,也是为数不多来自欧洲的大模型开源领域的明星团队。一个有趣的小知识是因为该公司来自法国,所以 Le Chat 的意思其实就是「猫」,这也是其 Logo 之所以像一只猫的原因。参考链接:
https://x.com/MistralAI/status/1833758285167722836
https://x.com/swyx/status/1833926630861070359