要約
自然言語記述からの高密度報酬の自動合成は、強化学習 (RL) における有望なパラダイムであり、スパース報酬問題、オープンエンド探索、階層的スキル設計に応用できます。
最近の研究では、大規模言語モデル (LLM) の事前知識を活用することで、有望なステップが実現されました。
ただし、これらのアプローチには重要な制限があります。観測ごとに LLM アノテーションが必要なため、数十億の環境サンプルを必要とする問題に拡張できないか、存在しないか収集できない可能性がある多様なオフライン データセットが必要です。
この取り組みでは、アルゴリズムとシステムレベルの貢献を組み合わせて、これらの制限に対処します。
私たちは、LLM フィードバックを使用して RL ポリシーと固有の報酬関数を同時に学習する分散アーキテクチャである \oni を提案します。
私たちのアプローチでは、非同期 LLM サーバーを介してエージェントが収集したエクスペリエンスに注釈を付け、それを抽出して固有の報酬モデルを作成します。
ハッシュ、分類、ランク付けモデルなど、さまざまな複雑さの報酬モデリングのための幅広いアルゴリズムの選択肢を検討します。
それらの相対的なトレードオフを研究することで、スパース報酬問題に対する固有の報酬設計に関する疑問を明らかにしました。
私たちのアプローチは、外部データセットを必要とせず、エージェントが収集した経験のみを使用して、シンプルな統合プロセスで NetHack 学習環境からのさまざまな挑戦的で報酬の少ないタスクにわたって最先端のパフォーマンスを実現します。
コードは \url{https://github.com/facebookresearch/oni} で公開しています。
要約(オリジナル)
Automatically synthesizing dense rewards from natural language descriptions is a promising paradigm in reinforcement learning (RL), with applications to sparse reward problems, open-ended exploration, and hierarchical skill design. Recent works have made promising steps by exploiting the prior knowledge of large language models (LLMs). However, these approaches suffer from important limitations: they are either not scalable to problems requiring billions of environment samples, due to requiring LLM annotations for each observation, or they require a diverse offline dataset, which may not exist or be impossible to collect. In this work, we address these limitations through a combination of algorithmic and systems-level contributions. We propose \oni, a distributed architecture that simultaneously learns an RL policy and an intrinsic reward function using LLM feedback. Our approach annotates the agent’s collected experience via an asynchronous LLM server, which is then distilled into an intrinsic reward model. We explore a range of algorithmic choices for reward modeling with varying complexity, including hashing, classification, and ranking models. By studying their relative tradeoffs, we shed light on questions regarding intrinsic reward design for sparse reward problems. Our approach achieves state-of-the-art performance across a range of challenging, sparse reward tasks from the NetHack Learning Environment in a simple unified process, solely using the agent’s gathered experience, without requiring external datasets. We make our code available at \url{https://github.com/facebookresearch/oni}.
arxiv情報
著者 | Qinqing Zheng,Mikael Henaff,Amy Zhang,Aditya Grover,Brandon Amos |
発行日 | 2024-12-17 22:29:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google