World Models with Hints of Large Language Models for Goal Achieving

要約

強化学習は、手動で報酬を指定することが難しいため、長期的なタスクと希薄な目標に直面すると苦戦します。
既存の手法は、固有の報酬を追加することでこの問題に対処していますが、目的を持った探索が不足しており、大規模な状態空間とアクション空間を伴う長期的な意思決定タスクにおいて意味のあるガイダンスを提供できない可能性があります。
人間の認知に触発されて、私たちは、Dreaming with Large Language Models (DLLM) という名前の新しいマルチモーダル モデル ベースの RL アプローチを提案します。
DLLM は、LLM から提案されたヒントサブ目標をモデルのロールアウトに統合し、困難なタスクにおける目標の発見と達成を促進します。
DLLM は、モデルのロールアウト中に言語モデルによって概説されたヒントと一致するサンプルに、より高い固有の報酬を割り当てることで、エージェントを有意義で効率的な探索に導きます。
広範な実験により、HomeGrid、Crafter、Minecraft など、さまざまな困難で報酬が少ない環境において、DLLM が最近の手法よりもそれぞれ 27.7%、21.1%、9.9% 優れたパフォーマンスを発揮することが実証されました。

要約(オリジナル)

Reinforcement learning struggles in the face of long-horizon tasks and sparse goals due to the difficulty in manual reward specification. While existing methods address this by adding intrinsic rewards, they may fail to provide meaningful guidance in long-horizon decision-making tasks with large state and action spaces, lacking purposeful exploration. Inspired by human cognition, we propose a new multi-modal model-based RL approach named Dreaming with Large Language Models (DLLM). DLLM integrates the proposed hinting subgoals from the LLMs into the model rollouts to encourage goal discovery and reaching in challenging tasks. By assigning higher intrinsic rewards to samples that align with the hints outlined by the language model during model rollouts, DLLM guides the agent toward meaningful and efficient exploration. Extensive experiments demonstrate that the DLLM outperforms recent methods in various challenging, sparse-reward environments such as HomeGrid, Crafter, and Minecraft by 27.7\%, 21.1\%, and 9.9\%, respectively.

arxiv情報

著者 Zeyuan Liu,Ziyu Huan,Xiyao Wang,Jiafei Lyu,Jian Tao,Xiu Li,Furong Huang,Huazhe Xu
発行日 2024-06-11 15:49:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク