Scaling Instructable Agents Across Many Simulated Worlds

要約

あらゆる 3D 環境で任意の言語命令に従うことができる具体化された AI システムを構築することは、一般的な AI を作成するための重要な課題です。
この目標を達成するには、複雑なタスクを達成するために、知覚と具体化された行動における基礎言語を学ぶ必要があります。
Scalable, Instructable, Multiworld Agent (SIMA) プロジェクトは、精選された研究環境やオープンエンドの商用ビデオ ゲームなど、さまざまな仮想 3D 環境にわたって自由形式の指示に従うようにエージェントをトレーニングすることで、この問題に取り組んでいます。
私たちの目標は、シミュレートされた 3D 環境で人間ができることはすべて達成できる、指示可能なエージェントを開発することです。
私たちのアプローチは、最小限の仮定を課しながら、言語主導の一般性に焦点を当てています。
当社のエージェントは、一般的な人間のようなインターフェイスを使用してリアルタイムで環境と対話します。入力は画像観察と言語指示であり、出力はキーボードとマウスの操作です。
この一般的なアプローチは困難ですが、これにより、視覚的に複雑で意味的に豊富な多くの環境にわたってエージェントが地上言語を使用できるようになり、同時に新しい環境でもエージェントを容易に実行できるようになります。
この文書では、私たちの動機と目標、これまでの初期の進歩、およびいくつかの多様な研究環境とさまざまな商用ビデオゲームに関する有望な予備結果について説明します。

要約(オリジナル)

Building embodied AI systems that can follow arbitrary language instructions in any 3D environment is a key challenge for creating general AI. Accomplishing this goal requires learning to ground language in perception and embodied actions, in order to accomplish complex tasks. The Scalable, Instructable, Multiworld Agent (SIMA) project tackles this by training agents to follow free-form instructions across a diverse range of virtual 3D environments, including curated research environments as well as open-ended, commercial video games. Our goal is to develop an instructable agent that can accomplish anything a human can do in any simulated 3D environment. Our approach focuses on language-driven generality while imposing minimal assumptions. Our agents interact with environments in real-time using a generic, human-like interface: the inputs are image observations and language instructions and the outputs are keyboard-and-mouse actions. This general approach is challenging, but it allows agents to ground language across many visually complex and semantically rich environments while also allowing us to readily run agents in new environments. In this paper we describe our motivation and goal, the initial progress we have made, and promising preliminary results on several diverse research environments and a variety of commercial video games.

arxiv情報

著者 SIMA Team,Maria Abi Raad,Arun Ahuja,Catarina Barros,Frederic Besse,Andrew Bolt,Adrian Bolton,Bethanie Brownfield,Gavin Buttimore,Max Cant,Sarah Chakera,Stephanie C. Y. Chan,Jeff Clune,Adrian Collister,Vikki Copeman,Alex Cullum,Ishita Dasgupta,Dario de Cesare,Julia Di Trapani,Yani Donchev,Emma Dunleavy,Martin Engelcke,Ryan Faulkner,Frankie Garcia,Charles Gbadamosi,Zhitao Gong,Lucy Gonzales,Kshitij Gupta,Karol Gregor,Arne Olav Hallingstad,Tim Harley,Sam Haves,Felix Hill,Ed Hirst,Drew A. Hudson,Jony Hudson,Steph Hughes-Fitt,Danilo J. Rezende,Mimi Jasarevic,Laura Kampis,Rosemary Ke,Thomas Keck,Junkyung Kim,Oscar Knagg,Kavya Kopparapu,Rory Lawton,Andrew Lampinen,Shane Legg,Alexander Lerchner,Marjorie Limont,Yulan Liu,Maria Loks-Thompson,Joseph Marino,Kathryn Martin Cussons,Loic Matthey,Siobhan Mcloughlin,Piermaria Mendolicchio,Hamza Merzic,Anna Mitenkova,Alexandre Moufarek,Valeria Oliveira,Yanko Oliveira,Hannah Openshaw,Renke Pan,Aneesh Pappu,Alex Platonov,Ollie Purkiss,David Reichert,John Reid,Pierre Harvey Richemond,Tyson Roberts,Giles Ruscoe,Jaume Sanchez Elias,Tasha Sandars,Daniel P. Sawyer,Tim Scholtes,Guy Simmons,Daniel Slater,Hubert Soyer,Heiko Strathmann,Peter Stys,Allison C. Tam,Denis Teplyashin,Tayfun Terzi,Davide Vercelli,Bojan Vujatovic,Marcus Wainwright,Jane X. Wang,Zhengdong Wang,Daan Wierstra,Duncan Williams,Nathaniel Wong,Sarah York,Nick Young
発行日 2024-10-11 16:30:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG, cs.RO パーマリンク