A Self-Improving Coding Agent

要約

基本的なコーディングツールを装備したLLMコーディングエージェントが自律的に編集し、それによりベンチマークタスクでのパフォーマンスを向上させることができることを実証します。
SWEベンチのランダムサブセットでパフォーマンスの向上が17%から53%で検証されており、LiveCodebenchでのパフォーマンスの追加利益と、合成的に生成されたエージェントベンチマークがあります。
私たちの作業は、エージェントシステムの自動化されたオープンエンドの設計の進歩を表しており、ツールの使用やその他のエージェントタスクに関するトレイン後のLLMSを求めている人に参照エージェントフレームワークを提供します。

要約(オリジナル)

We demonstrate that an LLM coding agent, equipped with basic coding tools, can autonomously edit itself, and thereby improve its performance on benchmark tasks. We find performance gains from 17% to 53% on a random subset of SWE Bench Verified, with additional performance gains on LiveCodeBench, as well as synthetically generated agent benchmarks. Our work represents an advancement in the automated and open-ended design of agentic systems, and provides a reference agent framework for those seeking to post-train LLMs on tool use and other agentic tasks.

arxiv情報

著者 Maxime Robeyns,Martin Szummer,Laurence Aitchison
発行日 2025-04-21 16:58:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク