An Interactive Agent Foundation Model

要約

人工知能システムの開発は、静的なタスク固有のモデルの作成から、幅広いアプリケーションで優れたパフォーマンスを発揮できる動的なエージェントベースのシステムに移行しつつあります。
私たちは、幅広いドメイン、データセット、タスクにわたって AI エージェントをトレーニングするための新しいマルチタスク エージェント トレーニング パラダイムを使用する、インタラクティブ エージェント基盤モデルを提案します。
当社のトレーニング パラダイムは、ビジュアル マスクされた自動エンコーダー、言語モデリング、次のアクションの予測などのさまざまな事前トレーニング戦略を統合し、多用途で適応性のある AI フレームワークを可能にします。
私たちは、ロボティクス、ゲーム AI、ヘルスケアという 3 つの異なるドメインにわたってフレームワークのパフォーマンスを実証します。
私たちのモデルは、各領域で意味のある文脈に関連した出力を生成する能力を実証しています。
私たちのアプローチの強みは、ロボットシーケンス、ゲームプレイデータ、大規模なビデオデータセット、効果的なマルチモーダルおよびマルチタスク学習のためのテキスト情報などのさまざまなデータソースを活用するその汎用性にあります。
私たちのアプローチは、ジェネラリストで行動を起こすマルチモーダル システムを開発するための有望な手段を提供します。

要約(オリジナル)

The development of artificial intelligence systems is transitioning from creating static, task-specific models to dynamic, agent-based systems capable of performing well in a wide range of applications. We propose an Interactive Agent Foundation Model that uses a novel multi-task agent training paradigm for training AI agents across a wide range of domains, datasets, and tasks. Our training paradigm unifies diverse pre-training strategies, including visual masked auto-encoders, language modeling, and next-action prediction, enabling a versatile and adaptable AI framework. We demonstrate the performance of our framework across three separate domains — Robotics, Gaming AI, and Healthcare. Our model demonstrates its ability to generate meaningful and contextually relevant outputs in each area. The strength of our approach lies in its generality, leveraging a variety of data sources such as robotics sequences, gameplay data, large-scale video datasets, and textual information for effective multimodal and multi-task learning. Our approach provides a promising avenue for developing generalist, action-taking, multimodal systems.

arxiv情報

著者 Zane Durante,Bidipta Sarkar,Ran Gong,Rohan Taori,Yusuke Noda,Paul Tang,Ehsan Adeli,Shrinidhi Kowshika Lakshmikanth,Kevin Schulman,Arnold Milstein,Demetri Terzopoulos,Ade Famoti,Noboru Kuno,Ashley Llorens,Hoi Vo,Katsu Ikeuchi,Li Fei-Fei,Jianfeng Gao,Naoki Wake,Qiuyuan Huang
発行日 2024-06-17 15:50:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク