要約
以降、SWEエージェントであるAuto-Recresusision LLMベースのソフトウェアエンジニアリング(SWE)エージェントは、GitHub発行解決を含む実際のコーディングの課題について大きな進歩を遂げました(SWE-Benchの60%以上)。
SWEエージェントは、推論、環境の相互作用、自己反省の組み合わせを使用して、問題を解決して「軌跡」を生成します。
SWEエージェントの軌跡の分析は、LLMシーケンスの長さ(場合によっては128Kを超えることもある)だけでなく、LLMとエージェントが管理する環境との間の比較的長期にわたる相互作用を伴うためだけでなく、困難です。
エージェントエラーの場合、その範囲を解読し、見つけ、理解するのは難しい場合があります。
同様に、複数の実行または実験にわたって改善または回帰を追跡することは困難です。
これらのSWEエージェントが最先端に到達することには多くの研究が行われていますが、エージェントの出力を分析および視覚化するのに役立つツールの作成には、はるかに少ない焦点が置かれています。
Seaview:Software Engineering Agent Visual Interface for Enhanced Workflowと呼ばれる新しいツールを提案します。これは、Swe-Agentの研究者が実験を視覚化および検査するのを支援するビジョンを備えています。
Seaviewの新しいメカニズムは、さまざまなハイパーパラメーターまたはLLMと実験的実行を比較し、LLMまたは環境関連の問題を迅速に理解するのに役立ちます。
ユーザー調査に基づいて、経験豊富な研究者は、Seaviewが提供する情報を収集するために10〜30分を費やしますが、経験がほとんどない研究者は実験を診断するために30分から1時間を費やすことができます。
要約(オリジナル)
Auto-regressive LLM-based software engineering (SWE) agents, henceforth SWE agents, have made tremendous progress (>60% on SWE-Bench Verified) on real-world coding challenges including GitHub issue resolution. SWE agents use a combination of reasoning, environment interaction and self-reflection to resolve issues thereby generating ‘trajectories’. Analysis of SWE agent trajectories is difficult, not only as they exceed LLM sequence length (sometimes, greater than 128k) but also because it involves a relatively prolonged interaction between an LLM and the environment managed by the agent. In case of an agent error, it can be hard to decipher, locate and understand its scope. Similarly, it can be hard to track improvements or regression over multiple runs or experiments. While a lot of research has gone into making these SWE agents reach state-of-the-art, much less focus has been put into creating tools to help analyze and visualize agent output. We propose a novel tool called SeaView: Software Engineering Agent Visual Interface for Enhanced Workflow, with a vision to assist SWE-agent researchers to visualize and inspect their experiments. SeaView’s novel mechanisms help compare experimental runs with varying hyper-parameters or LLMs, and quickly get an understanding of LLM or environment related problems. Based on our user study, experienced researchers spend between 10 and 30 minutes to gather the information provided by SeaView, while researchers with little experience can spend between 30 minutes to 1 hour to diagnose their experiment.
arxiv情報
著者 | Timothy Bula,Saurabh Pujar,Luca Buratti,Mihaela Bornea,Avirup Sil |
発行日 | 2025-04-11 17:03:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google