要約
強化学習 (RL) では、現実世界のアプリケーションでは、一時的な報酬しかない場合でも、遅延したまばらなフィードバックに遭遇することがよくあります。
これまでのアプローチでは、単位の割り当てに対する報酬の再分配においてある程度の進歩が見られましたが、冗長性による訓練の困難やミッションパフォーマンス評価の多面的な性質の見落としから生じる曖昧な帰属など、依然として課題に直面しています。
大規模言語モデル (LLM) には、有益な意思決定の知識が含まれ、報酬の再分配のための妥当なツールが提供されることが期待されます。
それでも、この場合に LLM を導入することは、言語知識と記号形式の要件の間に不整合があり、推論に固有のランダム性や幻覚が伴うため、簡単ではありません。
これらの問題に取り組むために、単位の割り当てを改善するために、LLM を利用した新しいシンボリックベースの意思決定フレームワークである LaRe を導入します。
LaRe の鍵となるのは潜在報酬の概念です。これは多次元のパフォーマンス評価として機能し、さまざまな観点からより解釈しやすい目標達成を可能にし、より効果的な報酬の再分配を促進します。
LLM から意味論的に生成されたコードは、記号オブジェクトに対して実行可能であるため、言語知識と記号の潜在的報酬の橋渡しができることを検証します。
一方、LLM推論の安定性と信頼性を高めるために、潜在報酬の自己検証を設計します。
理論的には、潜在報酬における報酬に無関係な冗長性の除去は、より正確な報酬推定により RL パフォーマンスに利益をもたらします。
広範な実験結果は、LaRe が (i) SOTA 手法よりも優れた時間的クレジット割り当てを実現し、(ii) 複数のエージェント間での貢献の割り当てに優れ、(iii) 特定のタスクに対するグラウンド トゥルース報酬で訓練されたポリシーを上回るパフォーマンスを示していることを証明しています。
要約(オリジナル)
Reinforcement learning (RL) often encounters delayed and sparse feedback in real-world applications, even with only episodic rewards. Previous approaches have made some progress in reward redistribution for credit assignment but still face challenges, including training difficulties due to redundancy and ambiguous attributions stemming from overlooking the multifaceted nature of mission performance evaluation. Hopefully, Large Language Model (LLM) encompasses fruitful decision-making knowledge and provides a plausible tool for reward redistribution. Even so, deploying LLM in this case is non-trivial due to the misalignment between linguistic knowledge and the symbolic form requirement, together with inherent randomness and hallucinations in inference. To tackle these issues, we introduce LaRe, a novel LLM-empowered symbolic-based decision-making framework, to improve credit assignment. Key to LaRe is the concept of the Latent Reward, which works as a multi-dimensional performance evaluation, enabling more interpretable goal attainment from various perspectives and facilitating more effective reward redistribution. We examine that semantically generated code from LLM can bridge linguistic knowledge and symbolic latent rewards, as it is executable for symbolic objects. Meanwhile, we design latent reward self-verification to increase the stability and reliability of LLM inference. Theoretically, reward-irrelevant redundancy elimination in the latent reward benefits RL performance from more accurate reward estimation. Extensive experimental results witness that LaRe (i) achieves superior temporal credit assignment to SOTA methods, (ii) excels in allocating contributions among multiple agents, and (iii) outperforms policies trained with ground truth rewards for certain tasks.
arxiv情報
著者 | Yun Qu,Yuhang Jiang,Boyuan Wang,Yixiu Mao,Cheems Wang,Chang Liu,Xiangyang Ji |
発行日 | 2025-01-09 11:39:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google