全球最强AI程序员:GPT-4o加持,需求到跑通只需84秒
2024-08-14 发布
·
浏览308次
·
点赞0次
·
收藏0次
今年 3 月,人工智能软件工程师 Devin 引爆了 AI 社区,该产品由 OpenAI 的 GPT-4 基础大型语言模型(LLM)提供支持,可以在收到自然语言文本指令后自主编写和编辑代码。但在生成式 AI 领域,快速发展是主旋律,现在技术又迭代了。本周,一家 Y Combinator 支持,名为 Cosine 的创业公司宣布推出自己的全新自主 AI 工程师 Genie。该公司表示,Genie 的表现轻松超越了 Devin,在第三方基准测试 SWE-Bench 上的得分为 30%,而 Devin 的得分仅为 13.8%。新工具甚至超过了亚马逊的 Q 和 Factory 的 Code Droid 的 19%,现在是全球性能最好的 AI 程序员。 Genie 在 SWE-Bench 基准上的表现,以及与其他 AI 代码模型的比较。「这个模型远不止是一个基准跑分而已:它是以像人类 SWE(软件工程师)一样思考和行动为目标从头开始训练的,」Cosine 的联合创始人兼首席执行官 Alistair Pullen 表示。作为一种先进的 AI 软件工程模型,Genie 可以按照人类工程师的指示自主处理各种编码任务,包括 bug 修复、功能构建、代码重构、代码测试等。Genie 可以完全自主运行,也可以与用户协作完成任务。它支持多种编程语言,在技术报告中显示,其中包括 JavaScript、Python、TypeScript、TSX、Java、C#、C++、C、Rust、Scala、Kotlin、Swift、Golang、PHP、Ruby。Cosine 声称 Genie 可以模拟人类工程师的认知过程。「让它观察人类工程师是如何工作的,并模仿这个过程。」Alistair Pullen 表示。一直以来,安全问题是大家比较关心的,Genie 生成的代码存储在用户的 GitHub 仓库中,因而 Cosine 不会保留代码副本,从而避免了随之而来的安全风险。此外,Cosine 的软件平台已经集成了 Slack 和系统通知,它就像一位 AI 同事,提醒用户状态或标记 issues。Alistair Pullen 演示了如何使用 Genie 来解决实际问题。目标是 GitHub 上的一个 issue,我们只需要直接往里丢链接,AI 会自动分析问题,自动开始思考解决这个问题需要用到哪些文件,一直到满足要求为止。然后,Genie 会开始尝试将问题分解成很多解决步骤,随后生成代码。接着就是跑代码了,如果生成的代码有问题,它就自动寻找出问题的地方进行分析、修改,然后再尝试运行。最后输出结果:两个文件、17 次测试,仅用时 84 秒。 与许多依赖基础模型并辅以少量工具的 AI 模型不同,Genie 是通过专有流程开发的。就模型而言,Genie 基于(目前)非通用的 GPT-4o 变体构建而成,OpenAI 允许 Cosine 将其作为实验访问计划的一部分进行训练。通过技术报告我们得知,当研究者开始构建 Genie 之初,他们只能在 16-32k 范围内微调相对较短的上下文窗口模型。为了解决这一问题,团队人员对这些模型进行了大量的早期探索,并在超过 1 亿个 token 的大量数据集上对它们进行训练,虽然发现架构具有一定优势,但还是面临模型在特定时间内可以处理的信息量的限制。在尝试了各种压缩 / 分块方法后,团队认为唯一的解决方案是使用更大的上下文模型,尽管当时没有可供使用的模型。幸运的是,不久之后,能够确保训练长上下文的 OpenAI 模型出现了。Cosine 在其博客文章中表示,他们花了将近一年的时间来整理数据集,在最近的训练运行中,Genie 接受了数十亿个 token 数据的训练,选择的数据包含了用户目前最关心的编程语言。以下是训练 Genie 的过程中不同编程语言数据所占的比例:在价格方面,据 Pullen 透漏, Genie 最初定价将分为两个层级:- 入门级选项,定价大约在 20 美元左右。这个层级会有一些功能和使用限制,适合个人和小型团队使用;
- 企业级选项,提供扩展功能,使用几乎不受限制,好比拥有了一个精通代码的 AI 同事。但这个层级的定价将更高。
Genie 的推出对软件开发团队具有深远的影响,特别是那些希望提高生产力并减少花在日常任务上的时间的团队。凭借其自主处理复杂编程挑战的能力,Genie 可能会改变工程资源的分配方式,使团队能够专注于更具战略性的计划。 Pullen 表示,对于他来说,工程资源不再成为限制是一个巨大的推动力,特别是在创办公司以来。他认为,一个能够快速进入未知代码库并解决未见过的问题的 AI 同事,其价值显而易见,并且对世界有着巨大的影响。 未来,该公司打算扩大其模型组合,包括用于简单任务的小模型和能够处理更复杂挑战的大模型。此外,Cosine 还计划将其工作拓展到开源社区。 现在 Genie 已向部分用户推出,但更广泛的访问权限还未完全开放。申请地址:https://cosine.sh/register提出 Genie 的创业公司 Cosine 由 Pullen、Sam Stenner 和 Yang Li 于 2022 年创立,其使命是通过应用人类推理的方式来解决复杂问题,从而突破 AI 的界限。显然,他们的努力是从软件工程开始。其中,Yang Li 是一名华人,他硕士毕业于牛津大学,在 2021 年曾入选过福布斯 30 Under 30 欧洲区名单。Cosine 已经从 Uphonest 和 SOMA Capital 筹集了 250 万美元的种子资金,Lakestar、Focal 等公司也参与其中。团队规模虽小,但 Cosine 已经在 AI 领域取得了重大进展,而 Genie 只是一个开始。「我们坚信能够为任何工作和行业构建起人类级别的推理能力,」Pullen 在公告文章中表示。「软件工程只是最直观的起点,我们很快将会展示出我们正在研究的其他一切。」https://venturebeat.com/ai/4-considerations-to-help-organizations-implement-an-ai-code-of-conducts/https://cosine.sh/blog/genie-technical-reporthttps://cosine.sh/blog/state-of-the-art
全球最强AI程序员:GPT-4o加持,需求到跑通只需84秒 - AI 资讯 - 资讯 - AI 中文社区
声明:本文转载自机器之心,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。