Agent S: An Open Agentic Framework that Uses Computers Like a Human

要約

Agent S は、グラフィカル ユーザー インターフェイス (GUI) を介してコンピュータとの自律的な対話を可能にするオープン エージェント フレームワークであり、複雑な複数ステップのタスクを自動化することで人間とコンピュータの対話を変革することを目的としています。
Agent S は、コンピュータ タスクの自動化における 3 つの主要な課題、つまりドメイン固有の知識の取得、長期にわたるタスク期間にわたる計画、および動的で不均一なインターフェイスの処理に対処することを目指しています。
この目的を達成するために、エージェント S は経験拡張型の階層計画を導入します。これは、外部の知識の検索と複数のレベルでの内部の経験の取得から学習し、効率的なタスク計画とサブタスクの実行を促進します。
さらに、エージェント コンピューター インターフェイス (ACI) を採用し、マルチモーダル大規模言語モデル (MLLM) に基づいた GUI エージェントの推論と制御機能をより適切に引き出します。
OSWorld ベンチマークでの評価では、Agent S が成功率でベースラインを 9.37% 上回り (83.6% の相対的改善)、新たな最先端の性能を達成していることが示されています。
包括的な分析により、個々のコンポーネントの有効性が強調され、将来の改善のための洞察が得られます。
さらに、Agent S は、新しくリリースされた WindowsAgentArena ベンチマークで、さまざまなオペレーティング システムに対する広範な汎用性を示しています。
コードは https://github.com/simular-ai/Agent-S で入手できます。

要約(オリジナル)

We present Agent S, an open agentic framework that enables autonomous interaction with computers through a Graphical User Interface (GUI), aimed at transforming human-computer interaction by automating complex, multi-step tasks. Agent S aims to address three key challenges in automating computer tasks: acquiring domain-specific knowledge, planning over long task horizons, and handling dynamic, non-uniform interfaces. To this end, Agent S introduces experience-augmented hierarchical planning, which learns from external knowledge search and internal experience retrieval at multiple levels, facilitating efficient task planning and subtask execution. In addition, it employs an Agent-Computer Interface (ACI) to better elicit the reasoning and control capabilities of GUI agents based on Multimodal Large Language Models (MLLMs). Evaluation on the OSWorld benchmark shows that Agent S outperforms the baseline by 9.37% on success rate (an 83.6% relative improvement) and achieves a new state-of-the-art. Comprehensive analysis highlights the effectiveness of individual components and provides insights for future improvements. Furthermore, Agent S demonstrates broad generalizability to different operating systems on a newly-released WindowsAgentArena benchmark. Code available at https://github.com/simular-ai/Agent-S.

arxiv情報

著者 Saaket Agashe,Jiuzhou Han,Shuyu Gan,Jiachen Yang,Ang Li,Xin Eric Wang
発行日 2024-10-10 17:43:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク