Large Language Models as Efficient Reward Function Searchers for Custom-Environment Multi-Objective Reinforcement Learning

要約

複雑なカスタム環境と複数の要求を持つ強化学習(RL)タスクにおいて、効果的な報酬関数の設計と改良を実現することは、かなりの困難を伴う。本論文では、LLMを用いた効率的な報酬関数探索器ERFSLを提案する。これは、LLMを効果的なホワイトボックス探索器とし、その高度な意味理解能力を強調するものである。具体的には、数値的に明示されたユーザ要求ごとに報酬成分を生成し、報酬批判器を用いて正しいコード形式を特定する。次に、LLMは報酬成分に重みを割り当ててその値のバランスをとり、学習ログ解析器から提供されるコンテキストに基づいて、遺伝的アルゴリズムに似た方向性の突然変異と交叉戦略を柔軟に採用することで、曖昧さや冗長な調整なしに重みを反復的に調整する。このフレームワークを、人間による直接的なフィードバックや報酬例のない(ゼロショット学習)水中データ収集RLタスクに適用した。報酬評論家は、各要件に対して1つのフィードバック例のみで報酬コードを修正することに成功し、修正不可能なエラーを効果的に防止した。重みの初期化により、重み探索の必要なく、パレート解集合内で異なる報酬関数を獲得することができる。ウェイトが500倍ずれている場合でも、ユーザーの要求を満たすために必要な反復回数は平均5.2回です。ERFSLはまた、GPT-4o miniを利用するほとんどのプロンプトでうまく機能する。これは、重み探索プロセスを分解することで、数値および長い文脈の理解能力の要件を軽減しているからである

要約(オリジナル)

Achieving the effective design and improvement of reward functions in reinforcement learning (RL) tasks with complex custom environments and multiple requirements presents considerable challenges. In this paper, we propose ERFSL, an efficient reward function searcher using LLMs, which enables LLMs to be effective white-box searchers and highlights their advanced semantic understanding capabilities. Specifically, we generate reward components for each numerically explicit user requirement and employ a reward critic to identify the correct code form. Then, LLMs assign weights to the reward components to balance their values and iteratively adjust the weights without ambiguity and redundant adjustments by flexibly adopting directional mutation and crossover strategies, similar to genetic algorithms, based on the context provided by the training log analyzer. We applied the framework to an underwater data collection RL task without direct human feedback or reward examples (zero-shot learning). The reward critic successfully corrects the reward code with only one feedback instance for each requirement, effectively preventing unrectifiable errors. The initialization of weights enables the acquisition of different reward functions within the Pareto solution set without the need for weight search. Even in cases where a weight is 500 times off, on average, only 5.2 iterations are needed to meet user requirements. The ERFSL also works well with most prompts utilizing GPT-4o mini, as we decompose the weight searching process to reduce the requirement for numerical and long-context understanding capabilities

arxiv情報

著者 Guanwen Xie,Jingzehua Xu,Yiyuan Yang,Yimian Ding,Shuai Zhang
発行日 2024-11-01 03:47:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SY, eess.SY パーマリンク