Coding Agents with Multimodal Browsing are Generalist Problem Solvers

要約

現代の人間の労働は、専門化によって特徴づけられる。私たちは何年も訓練し、さまざまなタスクで優れたパフォーマンスを発揮できるよう、特定のツールを開発する。さらに、AIエージェントは、ソフトウェアエンジニアリング、ウェブナビゲーション、ワークフローの自動化などのドメインに特化してきた。しかし、その結果、エージェントは一つのことには長けているが、意図した範囲を超えて一般化することができない。その理由の1つは、エージェント開発者が高度に専門化されたツールセットを提供したり、特定のユースケースやベンチマークに最適化されたアーキテクチャを決定したりすることである。この研究では、多様なタスクのセットで高いパフォーマンスを達成するために使用できる一般的なツールの最小セットは何か、という問いを立てます。私たちの答えは、OpenHands-Versaです。OpenHands-Versaは、コードの編集と実行、ウェブ検索、マルチモーダルなウェブブラウジングとファイルアクセスなど、一般的なツールを適度に使って構築されたジェネラリストエージェントです。重要なことは、OpenHands-Versaは、3つの多様で困難なベンチマークにおいて、主要な専門エージェントよりも優れた、あるいは競争力のあるパフォーマンスを示したことです:SWE-Bench Multimodal、GAIA、The Agent Companyの3つのベンチマークにおいて、OpenHands-Versaはそれぞれ9.1ポイント、1.3ポイント、9.1ポイントの絶対的な成功率の向上で、過去に発表された最も優れた結果を上回りました。さらに、既存の最先端マルチエージェントシステムが、ターゲットドメインを超えていかに汎化できないかを示す。これらの結果は、多様なタスクを解決するジェネラリストエージェントの開発の実現可能性を示し、OpenHands-Versaを今後の研究のための強力なベースラインとして確立する。

要約(オリジナル)

Modern human labor is characterized by specialization; we train for years and develop particular tools that allow us to perform well across a variety of tasks. In addition, AI agents have been specialized for domains such as software engineering, web navigation, and workflow automation. However, this results in agents that are good for one thing but fail to generalize beyond their intended scope. One reason for this is that agent developers provide a highly specialized set of tools or make architectural decisions optimized for a specific use case or benchmark. In this work, we ask the question: what is the minimal set of general tools that can be used to achieve high performance across a diverse set of tasks? Our answer is OpenHands-Versa, a generalist agent built with a modest number of general tools: code editing and execution, web search, as well as multimodal web browsing and file access. Importantly, OpenHands-Versa demonstrates superior or competitive performance over leading specialized agents across three diverse and challenging benchmarks: SWE-Bench Multimodal, GAIA, and The Agent Company, outperforming the best-performing previously published results with absolute improvements in success rate of 9.1, 1.3, and 9.1 points respectively. Further, we show how existing state-of-the-art multi-agent systems fail to generalize beyond their target domains. These results demonstrate the feasibility of developing a generalist agent to solve diverse tasks and establish OpenHands-Versa as a strong baseline for future research.

arxiv情報

著者 Aditya Bharat Soni,Boxuan Li,Xingyao Wang,Valerie Chen,Graham Neubig
発行日 2025-06-03 15:50:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク