• 欢迎使用千万蜘蛛池,网站外链优化,蜘蛛池引蜘蛛快速提高网站收录,收藏快捷键 CTRL + D

华人开源最强「AI 程序员」炸场! 让 GPT-4 弥补缺陷?实测行不行!


随着云计算和大数据时代的到来,人工智能技术的不断发展,AI程序员的应运而生。目前,通过将大型语言模型(LLMs)转化为软件工程代理(SWE-agent)来修复真实GitHub仓库的错误和问题,成为了软件工程界关注的一大热点。 SWE-agent 是由普林斯顿大学开发的一种开源AI程序员,它通过有效的算法实现自主修复Bug,其在软件工程基准测试中的表现不逊于Devin,其中最快只需93秒即可修完Bug。此外,在解决GitHub仓库问题上,SWE-agent的性能还超过了Devin。 在编写代码时,假如遇到Bug,程序员则需要手动去修复它。 而SWE-agent 能够在找出错误后自动进行修复,从而大大提高了生产效率。这使程序员们可以更加关注于创新和设计问题,而不必花费时间在“找茬”上。 在这篇文章中,我们将详细介绍SWE-agent的工作原理和性能,以及与其他“AI程序员”相比的优势。

SWE-agent的工作原理和性能

什么是SWE-Agent?

SWE-agent是一种自主修复Bug的AI程序员,他们使用了一个巨大的语言模型帮助缩短修复时数据的生成和理解过程。可以通过以下图示了解SWE-Agent的工作原理:

SWE-Agent

SWE-agent的特点是将GPT-4这样的大型语言模型(LLMs)转化为软件工程代理。在软件工程基准测试中,SWE-agent的性能甚至超过了Devin。SWE-agent的一个核心特性是其开源计算机接口,该接口支持代码的编辑和执行。SWE-agent通过一个专门的终端与代码进行交互和执行任务,从而使代理能够编写和执行测试,优化代码质量和效率。

与其他AI程序员相比,SWE-agent的优势在哪里?

SWE-agent的性能甚至可以超过了目前许多竞争对手。 它有一个开源的计算机接口,可以将代理与代码库之间的交互变得更加无缝,并且可以精心调整命令行工具的设计以提高代理的性能。 准确率与Devin相当,但性能甚至更高。这表明,开源模型有能力追赶,甚至超越闭源模型的性能。 SWE-agent在软件工程基准测试中的成绩不俗,完整的SWE-bench基准测试结果显示,它修复了12.29%的问题,而Devin则修复了13.84%的问题。但是,SWE-agent有一个明显的优势——开源。只需保持当前规模,SWE-agent通过一个特殊化的终端,就能够与代码库进行无缝交互,也确保其在解决GitHub仓库问题上的性能追赶了Devin。SWE-Agent的高精度显示了其处理复杂软件工程任务的能力。 在正确使用代理计算机接口的情况下,SWE-agent成功将大型语言模型(LLMs)转化为软件工程代理。通过开放接口与代码库之间的连接,代理能够很好地理解和执行任务,从而最大程度地提高了性能。

SWE-agent的性能优化策略

SWE-agent的性能优化策略可以用一张图概括:

SWE-Agent优化策略

SWE-agent在开发过程中有一个鲜明的特点:限制AI系统访问的信息量可以提升其性能。性能就是SWE-agent如此重要的因素之一,因此发现能优化Agent性能的方法是一个关键问题。该团队发现,将GPT-4连接到一个普通的bash终端并不能获得最佳效果。因此,专门设计了一个对语言模型友好的代理计算机接口,以提高代理的理解能力和性能。这种新设计促进了代理与代码库之间的有效沟通,确保了解决软件工程问题的准确性和效率。

结论与推荐

本文介绍了一种新型AI程序员SWE-Agent,它通过将GPT-4转化为软件工程代理,自主修复Bug,实现了与Devin相当的精度,但待修复的时间却最快只需93秒。SWE-Agent的核心特性是它的开源计算机接口,该接口支持代码的编辑和执行,从而使代理可以编写和执行测试,优化代码质量和效率。 SWE-Agent的开源代码库可以在GitHub上轻松找到并使用。它允许各种用户在现有代码库上建立修复模型,从而帮助程序员们减少分散精力找茬的情况,而更集中于实际创新及设计工作。此外,SWE-Agent的高精度和性能,也为软件工程界带来了更好的工具和方法。 最后,我们希望读者能够关注和参与人工智能技术的发展,积极实践和研究,为推动AI技术的进步做出贡献。感谢您的观看,如有任何疑问,欢迎在下面的评论区和我们进行交流,点赞和分享,以支持我们为您提供更好的服务。www.domain.com

本文链接:https://www.24zzc.com/news/171235457365772.html

蜘蛛工具

  • WEB标准颜色卡
  • 域名筛选工具
  • 中文转拼音工具