Atari-GPT: Investigating the Capabilities of Multimodal Large Language Models as Low-Level Policies for Atari Games

要約

大規模言語モデル (LLM) の最近の進歩により、その機能は従来のテキストベースのタスクを超えてマルチモーダル領域に拡張され、視覚、聴覚、およびテキストのデータが統合されています。
マルチモーダル LLM は、ロボット工学やゲームなどの分野で高レベルの計画を立てるために広く研究されてきましたが、低レベルのコントローラーとしての可能性はほとんど未開発のままです。
このペーパーでは、Atari ビデオ ゲームの領域における低レベル コントローラーとしてのマルチモーダル LLM のアプリケーションを検討し、低レベルの制御タスクを実行するマルチモーダル LLM の能力を評価するための新しいベンチマークとして Atari ゲーム パフォーマンスを紹介します。
膨大な計算リソースと報酬関数の仕様を必要とする従来の強化学習 (RL) や模倣学習 (IL) 手法とは異なり、これらの LLM は既存のマルチモーダルな知識を利用してゲーム環境に直接関与します。
私たちの研究では、複雑な視覚的シーンを理解して対話し、戦略的対応を策定する能力に焦点を当てて、従来の RL エージェント、人間のプレーヤー、ランダム エージェントに対する複数のマルチモーダル LLM のパフォーマンスを評価しています。
さらに、人間が実証したゲームプレイの軌跡を組み込んでモデルのコンテキスト理解を強化することにより、インコンテキスト学習 (ICL) の影響を調べます。
この調査を通じて、マルチモーダル LLM が広範なトレーニングを活用して低レベルのコントローラーとして効果的に機能できる程度を判断し、動的で視覚的に複雑な環境における潜在的なアプリケーションを再定義することを目的としています。
追加の結果とビデオは、プロジェクトの Web ページ: https://sites.google.com/view/atari-gpt/ でご覧いただけます。

要約(オリジナル)

Recent advancements in large language models (LLMs) have expanded their capabilities beyond traditional text-based tasks to multimodal domains, integrating visual, auditory, and textual data. While multimodal LLMs have been extensively explored for high-level planning in domains like robotics and games, their potential as low-level controllers remains largely untapped. This paper explores the application of multimodal LLMs as low-level controllers in the domain of Atari video games, introducing Atari game performance as a new benchmark for evaluating the ability of multimodal LLMs to perform low-level control tasks. Unlike traditional reinforcement learning (RL) and imitation learning (IL) methods that require extensive computational resources as well as reward function specification, these LLMs utilize pre-existing multimodal knowledge to directly engage with game environments. Our study assesses multiple multimodal LLMs performance against traditional RL agents, human players, and random agents, focusing on their ability to understand and interact with complex visual scenes and formulate strategic responses. Additionally, we examine the impact of In-Context Learning (ICL) by incorporating human-demonstrated game-play trajectories to enhance the models contextual understanding. Through this investigation, we aim to determine the extent to which multimodal LLMs can leverage their extensive training to effectively function as low-level controllers, thereby redefining potential applications in dynamic and visually complex environments. Additional results and videos are available at our project webpage: https://sites.google.com/view/atari-gpt/.

arxiv情報

著者 Nicholas R. Waytowich,Devin White,MD Sunbeam,Vinicius G. Goecks
発行日 2024-08-28 17:08:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク