TextAtari: 100K Frames Game Playing with Language Agents

要約

TextAtariは、最大100,000のステップにまたがる非常に長期の意思決定タスクで言語エージェントを評価するためのベンチマークです。
古典的なアタリゲームの視覚的状態表現を豊かなテキストの説明に変換することにより、Textatariは、自然言語処理でシーケンシャルな意思決定を橋渡しする挑戦的なテストベッドを作成します。
ベンチマークには、さまざまな複雑さ、アクションスペース、および計画の視野を持つ100近くの異なるタスクが含まれており、すべてが監視されていない表現学習フレームワーク(Atariari)を通じてテキストとしてレンダリングされます。
3つのエージェントフレームワーク(ゼロショット、少ないショットチェーン、および反射推論)にわたって、3つのオープンソースの大型言語モデル(QWEN2.5-7B、GEMMA-7B、およびLLAMA3.1-8B)を評価して、これらの長期の課題の異なる形態の事前知識がパフォーマンスにどのように影響するかを評価します。
4つのシナリオ、根本的、不明瞭な、手動の増強、および参照ベースの投資は、エージェントの意思決定に関する意味的理解、指導の理解、および専門家のデモンストレーションの影響を調査します。
私たちの結果は、広範な計画タスクにおける言語エージェントと人間のプレーヤーの間の重要なパフォーマンスギャップを明らかにし、数万のステップにわたる順次推論、州の追跡、戦略的計画の課題を強調しています。
Textatariは、標準化された評価プロトコル、ベースラインの実装、および言語モデルと計画の交差点で研究を進めるためのフレームワークを提供します。

要約(オリジナル)

We present TextAtari, a benchmark for evaluating language agents on very long-horizon decision-making tasks spanning up to 100,000 steps. By translating the visual state representations of classic Atari games into rich textual descriptions, TextAtari creates a challenging test bed that bridges sequential decision-making with natural language processing. The benchmark includes nearly 100 distinct tasks with varying complexity, action spaces, and planning horizons, all rendered as text through an unsupervised representation learning framework (AtariARI). We evaluate three open-source large language models (Qwen2.5-7B, Gemma-7B, and Llama3.1-8B) across three agent frameworks (zero-shot, few-shot chain-of-thought, and reflection reasoning) to assess how different forms of prior knowledge affect performance on these long-horizon challenges. Four scenarios-Basic, Obscured, Manual Augmentation, and Reference-based-investigate the impact of semantic understanding, instruction comprehension, and expert demonstrations on agent decision-making. Our results reveal significant performance gaps between language agents and human players in extensive planning tasks, highlighting challenges in sequential reasoning, state tracking, and strategic planning across tens of thousands of steps. TextAtari provides standardized evaluation protocols, baseline implementations, and a framework for advancing research at the intersection of language models and planning.

arxiv情報

著者 Wenhao Li,Wenwu Li,Chuyun Shen,Junjie Sheng,Zixiao Huang,Di Wu,Yun Hua,Wei Yin,Xiangfeng Wang,Hongyuan Zha,Bo Jin
発行日 2025-06-04 15:55:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク