A Large Language Model-Driven Reward Design Framework via Dynamic Feedback for Reinforcement Learning

要約

大規模言語モデル (LLM) は、強化学習 (RL) タスクの報酬関数の設計において大きな可能性を示しています。
ただし、高品質の報酬コードを取得するには、多くの場合、人間の介入、多数の LLM クエリ、または反復的な RL トレーニングが必要になります。
これらの問題に対処するために、報酬関数コードを繰り返し生成して改善する LLM 主導の報酬設計フレームワークである CARD を提案します。
具体的には、CARD にはコードを生成して検証するコーダーが含まれており、評価者はコードを改善する際にコーダーを導く動的なフィードバックを提供するため、人間によるフィードバックの必要性が排除されます。
プロセス フィードバックと軌道フィードバックに加えて、軌道の好みに基づいて現在の報酬関数を評価する軌道好み評価 (TPE) を導入します。
コードが TPE に失敗した場合、エバリュエーターは優先フィードバックを提供し、反復ごとの RL トレーニングを回避し、報酬関数をタスクの目的によりよく適合させます。
Meta-World と ManiSkill2 の実証結果は、私たちの方法がタスクのパフォーマンスとトークンの効率の間で効果的なバランスを達成し、すべてのタスクにわたってベースラインを上回るか一致していることを示しています。
12 タスク中 10 タスクで、CARD は専門家が設計した報酬でトレーニングされたポリシーよりも優れた、または同等のパフォーマンスを示し、私たちの手法は 3 つのタスクでオラクルを上回りました。

要約(オリジナル)

Large Language Models (LLMs) have shown significant potential in designing reward functions for Reinforcement Learning (RL) tasks. However, obtaining high-quality reward code often involves human intervention, numerous LLM queries, or repetitive RL training. To address these issues, we propose CARD, a LLM-driven Reward Design framework that iteratively generates and improves reward function code. Specifically, CARD includes a Coder that generates and verifies the code, while a Evaluator provides dynamic feedback to guide the Coder in improving the code, eliminating the need for human feedback. In addition to process feedback and trajectory feedback, we introduce Trajectory Preference Evaluation (TPE), which evaluates the current reward function based on trajectory preferences. If the code fails the TPE, the Evaluator provides preference feedback, avoiding RL training at every iteration and making the reward function better aligned with the task objective. Empirical results on Meta-World and ManiSkill2 demonstrate that our method achieves an effective balance between task performance and token efficiency, outperforming or matching the baselines across all tasks. On 10 out of 12 tasks, CARD shows better or comparable performance to policies trained with expert-designed rewards, and our method even surpasses the oracle on 3 tasks.

arxiv情報

著者 Shengjie Sun,Runze Liu,Jiafei Lyu,Jing-Wen Yang,Liangpeng Zhang,Xiu Li
発行日 2024-10-18 17:51:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク