Agentless: Demystifying LLM-based Software Engineering Agents

要約

大規模言語モデル (LLM) の最近の進歩により、コード合成、プログラム修復、テスト生成などのソフトウェア開発タスクの自動化が大幅に進歩しました。
最近では、研究者や業界関係者が、エンドツーエンドのソフトウェア開発タスクを実行するためのさまざまな自律型 LLM エージェントを開発しました。
これらのエージェントは、ツールを使用し、コマンドを実行し、環境からのフィードバックを観察し、将来のアクションを計画する機能を備えています。
しかし、これらのエージェント ベースのアプローチの複雑さは、現在の LLM の機能の制限と相まって、次の疑問を引き起こします。本当に複雑な自律ソフトウェア エージェントを使用する必要があるのでしょうか?
この質問に答えるために、私たちはエージェントレス、つまりソフトウェア開発の問題を自動的に解決するエージェントレスのアプローチを構築しました。
エージェントベースのアプローチの冗長で複雑なセットアップと比較して、エージェントレスは、LLM に将来のアクションを決定させたり、複雑なツールを使用させたりすることなく、ローカリゼーション、修復、パッチ検証の単純な 3 段階のプロセスを採用します。
人気の SWE-bench Lite ベンチマークの結果は、驚くべきことに、単純なエージェントレスが、既存のすべてのオープンソース ソフトウェア エージェントと比較して、最高のパフォーマンス (32.00%、96 回の正しい修正) と低コスト (0.70 ドル) の両方を達成できることを示しています。
さらに、SWE-bench Lite の問題を手動で分類したところ、正確なグラウンド トゥルース パッチ、または不十分または誤解を招く問題の説明に関する問題が見つかりました。
そこで、より厳密な評価・比較を行うために、このような問題点を排除してSWE-bench Lite-Sを構築します。
私たちの研究は、自律型ソフトウェア開発におけるシンプルで解釈可能な技術の現在見落とされている可能性を浮き彫りにしています。
私たちは、エージェントレスが自律型ソフトウェア エージェントのベースライン、出発点、地平線をリセットするのに役立ち、この重要な方向に沿った将来の作業にインスピレーションを与えることを願っています。

要約(オリジナル)

Recent advancements in large language models (LLMs) have significantly advanced the automation of software development tasks, including code synthesis, program repair, and test generation. More recently, researchers and industry practitioners have developed various autonomous LLM agents to perform end-to-end software development tasks. These agents are equipped with the ability to use tools, run commands, observe feedback from the environment, and plan for future actions. However, the complexity of these agent-based approaches, together with the limited abilities of current LLMs, raises the following question: Do we really have to employ complex autonomous software agents? To attempt to answer this question, we build Agentless — an agentless approach to automatically solve software development problems. Compared to the verbose and complex setup of agent-based approaches, Agentless employs a simplistic three-phase process of localization, repair, and patch validation, without letting the LLM decide future actions or operate with complex tools. Our results on the popular SWE-bench Lite benchmark show that surprisingly the simplistic Agentless is able to achieve both the highest performance (32.00%, 96 correct fixes) and low cost ($0.70) compared with all existing open-source software agents! Furthermore, we manually classified the problems in SWE-bench Lite and found problems with exact ground truth patch or insufficient/misleading issue descriptions. As such, we construct SWE-bench Lite-S by excluding such problematic issues to perform more rigorous evaluation and comparison. Our work highlights the current overlooked potential of a simple, interpretable technique in autonomous software development. We hope Agentless will help reset the baseline, starting point, and horizon for autonomous software agents, and inspire future work along this crucial direction.

arxiv情報

著者 Chunqiu Steven Xia,Yinlin Deng,Soren Dunn,Lingming Zhang
発行日 2024-10-29 17:29:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE パーマリンク