Can Language Models Serve as Text-Based World Simulators?

要約

仮想環境は、複雑な計画や意思決定タスクの進歩をベンチマークする上で重要な役割を果たしますが、手動で構築するには費用がかかり、複雑です。
現在の言語モデル自体が世界シミュレータとして機能し、アクションがさまざまな世界の状態をどのように変化させるかを正確に予測し、大規模な手動コーディングの必要性を回避できるでしょうか?
私たちの目標は、テキストベースのシミュレーターのコンテキストでこの質問に答えることです。
私たちのアプローチは、テキストのゲーム状態遷移と付随するゲーム タスクのデータセットを含む、ByteSized32-State-Prediction と呼ばれる新しいベンチマークを構築して使用することです。
私たちはこれを使用して、LLM がテキストベースのワールド シミュレーターとしてどの程度機能するかを初めて直接定量化します。
このデータセットで GPT-4 をテストしたところ、その優れたパフォーマンスにもかかわらず、更なる革新がなければ依然として信頼性の低いワールド シミュレータであることがわかりました。
したがって、この研究は、現在の LLM の機能と弱点に関する新たな洞察と、新しいモデルの出現に伴う将来の進歩を追跡するための新しいベンチマークの両方に貢献します。

要約(オリジナル)

Virtual environments play a key role in benchmarking advances in complex planning and decision-making tasks but are expensive and complicated to build by hand. Can current language models themselves serve as world simulators, correctly predicting how actions change different world states, thus bypassing the need for extensive manual coding? Our goal is to answer this question in the context of text-based simulators. Our approach is to build and use a new benchmark, called ByteSized32-State-Prediction, containing a dataset of text game state transitions and accompanying game tasks. We use this to directly quantify, for the first time, how well LLMs can serve as text-based world simulators. We test GPT-4 on this dataset and find that, despite its impressive performance, it is still an unreliable world simulator without further innovations. This work thus contributes both new insights into current LLM’s capabilities and weaknesses, as well as a novel benchmark to track future progress as new models appear.

arxiv情報

著者 Ruoyao Wang,Graham Todd,Ziang Xiao,Xingdi Yuan,Marc-Alexandre Côté,Peter Clark,Peter Jansen
発行日 2024-06-10 17:24:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク