Cradle: Empowering Foundation Agents Towards General Computer Control

要約

特定のシナリオでは成功しているにもかかわらず、既存の財団エージェントは依然として、手動で設計された観察空間とアクション空間を持つ環境のカプセル化が劇的に異なるため、さまざまな仮想シナリオにわたって一般化するのに苦労しています。
この問題に対処するために、最も統一され標準化されたインターフェイスを通じて、つまりスクリーンショットを入力として使用し、キーボードとマウスの操作を出力として使用して、財団エージェントがソフトウェアと対話することを制限する General Computer Control (GCC) 設定を提案します。
GCC に向けた予備的な試みとして、モジュール式で柔軟な LMM を利用したフレームワークである Cradle を紹介します。
6 つの主要なモジュールによって強化された Cradle は、入力スクリーンショットを理解し、高レベルの計画を立てた後、下位レベルのキーボードとマウスの制御用の実行可能コードを出力できるため、Cradle はあらゆるソフトウェアと対話し、構築された機能に依存することなく、長期にわたる複雑なタスクを完了できます。
APIで。
実験結果によると、Cradle は、これまで未開発だった 4 つの商用ビデオ ゲーム、5 つのソフトウェア アプリケーション、および包括的なベンチマークである OSWorld にわたって、顕著な汎用性と印象的なパフォーマンスを示しています。
Cradle は、財団エージェントが複雑な AAA ゲームである Red Dead Redemption 2 (RDR2) のメイン ストーリーラインに従い、40 分間の実際のミッションを完了できるようにした最初の製品です。
Cradle はまた、Cities: Skylines で人口 1,000 人の都市を作成したり、Stardew Valley でパースニップを栽培して収穫したり、Dealer’s Life 2 で毎週最大合計 87% の利益を得る取引や交渉を行うこともできます。Cradle は、次のような日常的なソフトウェアを操作できるだけではありません。
Chrome、Outlook、Feishu だけでなく、Meitu や CapCut を使用して画像やビデオを編集することもできます。
Cradle は、あらゆるソフトウェア、特に複雑なゲームをベンチマークに簡単に変換してエージェントのさまざまな能力を評価し、さらなるデータ収集を容易にすることで財団エージェントの範囲を大幅に拡張し、ゼネラリスト エージェントへの道を開きます。

要約(オリジナル)

Despite the success in specific scenarios, existing foundation agents still struggle to generalize across various virtual scenarios, mainly due to the dramatically different encapsulations of environments with manually designed observation and action spaces. To handle this issue, we propose the General Computer Control (GCC) setting to restrict foundation agents to interact with software through the most unified and standardized interface, i.e., using screenshots as input and keyboard and mouse actions as output. We introduce Cradle, a modular and flexible LMM-powered framework, as a preliminary attempt towards GCC. Enhanced by six key modules, Cradle can understand input screenshots and output executable code for low-level keyboard and mouse control after high-level planning, so that Cradle can interact with any software and complete long-horizon complex tasks without relying on any built-in APIs. Experimental results show that Cradle exhibits remarkable generalizability and impressive performance across four previously unexplored commercial video games, five software applications, and a comprehensive benchmark, OSWorld. Cradle is the first to enable foundation agents to follow the main storyline and complete 40-minute-long real missions in the complex AAA game Red Dead Redemption 2 (RDR2). Cradle can also create a city of a thousand people in Cities: Skylines, farm and harvest parsnips in Stardew Valley, and trade and bargain with a maximal weekly total profit of 87% in Dealer’s Life 2. Cradle can not only operate daily software, like Chrome, Outlook, and Feishu, but also edit images and videos using Meitu and CapCut. Cradle greatly extends the reach of foundation agents by enabling the easy conversion of any software, especially complex games, into benchmarks to evaluate agents’ various abilities and facilitate further data collection, thus paving the way for generalist agents.

arxiv情報

著者 Weihao Tan,Wentao Zhang,Xinrun Xu,Haochong Xia,Ziluo Ding,Boyu Li,Bohan Zhou,Junpeng Yue,Jiechuan Jiang,Yewen Li,Ruyi An,Molei Qin,Chuqiao Zong,Longtao Zheng,Yujie Wu,Xiaoqiang Chai,Yifei Bi,Tianbao Xie,Pengjie Gu,Xiyun Li,Ceyao Zhang,Long Tian,Chaojie Wang,Xinrun Wang,Börje F. Karlsson,Bo An,Shuicheng Yan,Zongqing Lu
発行日 2024-07-02 17:23:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク