Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study

要約

最近の研究では、特定のタスクやシナリオにおける財団エージェントの成功が実証されています。
ただし、既存のエージェントは、主に多様な観察およびアクション空間とセマンティックギャップ、またはタスク固有のリソースへの依存により、さまざまなシナリオにわたって一般化することができません。
この作業では、General Computer Control (GCC) 設定を提案します。これは、コンピューターの画面イメージ (および場合によっては音声) のみを入力として受け取り、キーボードとマウスの操作を出力として生成することによって、あらゆるコンピューター タスクを習得できる基盤エージェントを構築します。
人間とコンピュータの相互作用に。
GCC をターゲットとするために、さまざまなタスクにわたって一般化可能性と自己改善を確保するために、内省、タスク推論、スキルキュレーションなどの強力な推論能力を備えたエージェント フレームワークである Cradle を提案します。
Cradle の機能を実証するために、複雑な AAA ゲーム Red Dead Redemption II に Cradle を導入し、困難な目標を持つ GCC に向けた予備的な試みとして機能させました。
私たちのエージェントは、事前の知識やアプリケーション固有のリソースへの依存を最小限に抑えながら、メインのストーリーラインに従い、この複雑な AAA ゲームで実際のミッションを完了することができます。
プロジェクトの Web サイトは https://baai-agents.github.io/Cradle/ にあります。

要約(オリジナル)

Recent studies have demonstrated the success of foundation agents in specific tasks or scenarios. However, existing agents cannot generalize across different scenarios, mainly due to their diverse observation and action spaces and semantic gaps, or reliance on task-specific resources. In this work, we propose the General Computer Control (GCC) setting: building foundation agents that can master any computer task by taking only screen images (and possibly audio) of the computer as input, and producing keyboard and mouse operations as output, similar to human-computer interaction. To target GCC, we propose Cradle, an agent framework with strong reasoning abilities, including self-reflection, task inference, and skill curation, to ensure generalizability and self-improvement across various tasks. To demonstrate the capabilities of Cradle, we deploy it in the complex AAA game Red Dead Redemption II, serving as a preliminary attempt towards GCC with a challenging target. Our agent can follow the main storyline and finish real missions in this complex AAA game, with minimal reliance on prior knowledge and application-specific resources. The project website is at https://baai-agents.github.io/Cradle/.

arxiv情報

著者 Weihao Tan,Ziluo Ding,Wentao Zhang,Boyu Li,Bohan Zhou,Junpeng Yue,Haochong Xia,Jiechuan Jiang,Longtao Zheng,Xinrun Xu,Yifei Bi,Pengjie Gu,Xinrun Wang,Börje F. Karlsson,Bo An,Zongqing Lu
発行日 2024-03-05 18:22:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク