要約
自然言語記述からの高密度報酬の自動合成は、強化学習 (RL) における有望なパラダイムであり、スパース報酬問題、オープンエンド探索、階層的スキル設計に応用できます。
最近の研究では、大規模言語モデル (LLM) の事前知識を活用することで、有望なステップが実現されました。
ただし、これらのアプローチには重要な制限があります。つまり、数十億の環境サンプルを必要とする問題に拡張可能ではありません。
または、コンパクトなコードで表現できる報酬関数に限定されており、ソースコードが必要な場合があり、微妙なセマンティクスを把握することが困難です。
または、多様なオフライン データセットが必要ですが、そのデータセットが存在しないか、収集できない場合があります。
この取り組みでは、アルゴリズムとシステムレベルの貢献を組み合わせて、これらの制限に対処します。
我々は、LLM フィードバックを使用して RL ポリシーと固有の報酬関数を同時に学習する分散アーキテクチャである ONI を提案します。
私たちのアプローチでは、非同期 LLM サーバーを介してエージェントが収集したエクスペリエンスに注釈を付け、それを抽出して固有の報酬モデルを作成します。
ハッシュ、分類、ランク付けモデルなど、さまざまな複雑さの報酬モデリングのための幅広いアルゴリズムの選択肢を検討します。
それらの相対的なトレードオフを研究することで、スパース報酬問題に対する固有の報酬設計に関する疑問を明らかにしました。
私たちのアプローチは、外部データセットやソース コードを必要とせず、エージェントが収集した経験のみを使用して、シンプルな統合プロセスで NetHack 学習環境からのさまざまな挑戦的で報酬の少ないタスクにわたって最先端のパフォーマンスを実現します。
コードは \url{URL} で利用できるようになります (近日公開予定)。
要約(オリジナル)
Automatically synthesizing dense rewards from natural language descriptions is a promising paradigm in reinforcement learning (RL), with applications to sparse reward problems, open-ended exploration, and hierarchical skill design. Recent works have made promising steps by exploiting the prior knowledge of large language models (LLMs). However, these approaches suffer from important limitations: they are either not scalable to problems requiring billions of environment samples; or are limited to reward functions expressible by compact code, which may require source code and have difficulty capturing nuanced semantics; or require a diverse offline dataset, which may not exist or be impossible to collect. In this work, we address these limitations through a combination of algorithmic and systems-level contributions. We propose ONI, a distributed architecture that simultaneously learns an RL policy and an intrinsic reward function using LLM feedback. Our approach annotates the agent’s collected experience via an asynchronous LLM server, which is then distilled into an intrinsic reward model. We explore a range of algorithmic choices for reward modeling with varying complexity, including hashing, classification, and ranking models. By studying their relative tradeoffs, we shed light on questions regarding intrinsic reward design for sparse reward problems. Our approach achieves state-of-the-art performance across a range of challenging, sparse reward tasks from the NetHack Learning Environment in a simple unified process, solely using the agent’s gathered experience, without requiring external datasets nor source code. We make our code available at \url{URL} (coming soon).
arxiv情報
著者 | Qinqing Zheng,Mikael Henaff,Amy Zhang,Aditya Grover,Brandon Amos |
発行日 | 2024-10-30 13:52:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google