CivRealm: A Learning and Reasoning Odyssey in Civilization for Decision-Making Agents

要約

意思決定エージェントの一般化には、過去の経験からの学習と新しい文脈での推論という 2 つの基本要素が含まれます。
ただし、ほとんどの対話型環境では学習に主に重点が置かれており、推論の複雑さが犠牲になることがよくあります。
このペーパーでは、Civilization ゲームからインスピレーションを得た環境である CivRealm を紹介します。
文明が人類の歴史や社会と深く調和しているためには高度な学習が必要ですが、刻々と変化する状況には一般化するための強力な推論が必要です。
特に、CivRealm は、プレイヤーの数が変化する不完全情報総和ゲームを設定します。
多数の複雑な機能があり、エージェントは外交と交渉のスキルを必要とする無制限の確率的環境に対処する必要があります。
CivRealm 内では、学習に重点を置くテンソルベースのエージェントと推論に重点を置く言語ベースのエージェントという 2 つの典型的なエージェント タイプのインターフェイスを提供します。
さらなる研究を促進するために、両方のパラダイムの初期結果を提示します。
正規の RL ベースのエージェントはミニゲームではそれなりのパフォーマンスを示しますが、RL ベースのエージェントと LLM ベースのエージェントはどちらもゲーム全体では大幅な進歩を遂げるのに苦労しています。
全体として、CivRealm は、意思決定エージェントにとって、独自の学習と推論の課題として位置づけられています。
コードは https://github.com/bigai-ai/civrealm で入手できます。

要約(オリジナル)

The generalization of decision-making agents encompasses two fundamental elements: learning from past experiences and reasoning in novel contexts. However, the predominant emphasis in most interactive environments is on learning, often at the expense of complexity in reasoning. In this paper, we introduce CivRealm, an environment inspired by the Civilization game. Civilization’s profound alignment with human history and society necessitates sophisticated learning, while its ever-changing situations demand strong reasoning to generalize. Particularly, CivRealm sets up an imperfect-information general-sum game with a changing number of players; it presents a plethora of complex features, challenging the agent to deal with open-ended stochastic environments that require diplomacy and negotiation skills. Within CivRealm, we provide interfaces for two typical agent types: tensor-based agents that focus on learning, and language-based agents that emphasize reasoning. To catalyze further research, we present initial results for both paradigms. The canonical RL-based agents exhibit reasonable performance in mini-games, whereas both RL- and LLM-based agents struggle to make substantial progress in the full game. Overall, CivRealm stands as a unique learning and reasoning challenge for decision-making agents. The code is available at https://github.com/bigai-ai/civrealm.

arxiv情報

著者 Siyuan Qi,Shuo Chen,Yexin Li,Xiangyu Kong,Junqi Wang,Bangcheng Yang,Pring Wong,Yifan Zhong,Xiaoyuan Zhang,Zhaowei Zhang,Nian Liu,Wei Wang,Yaodong Yang,Song-Chun Zhu
発行日 2024-01-19 09:14:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク