要約
基本的なコーディングツールを装備したLLMコーディングエージェントが自律的に編集し、それによりベンチマークタスクでのパフォーマンスを向上させることができることを実証します。
SWEベンチのランダムサブセットでパフォーマンスの向上が17%から53%で検証されており、LiveCodebenchでのパフォーマンスの追加利益と、合成的に生成されたエージェントベンチマークがあります。
私たちの作業は、エージェントシステムの自動化されたオープンエンドの設計の進歩を表しており、ツールの使用やその他のエージェントタスクに関するトレイン後のLLMSを求めている人に参照エージェントフレームワークを提供します。
要約(オリジナル)
We demonstrate that an LLM coding agent, equipped with basic coding tools, can autonomously edit itself, and thereby improve its performance on benchmark tasks. We find performance gains from 17% to 53% on a random subset of SWE Bench Verified, with additional performance gains on LiveCodeBench, as well as synthetically generated agent benchmarks. Our work represents an advancement in the automated and open-ended design of agentic systems, and provides a reference agent framework for those seeking to post-train LLMs on tool use and other agentic tasks.
arxiv情報
著者 | Maxime Robeyns,Martin Szummer,Laurence Aitchison |
発行日 | 2025-04-21 16:58:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google