要約
報酬形成は、補助的な有益な報酬を通じて即座にフィードバックを提供することで、強化学習における報酬が少ないという課題に対処するのに効果的です。
報酬形成戦略に基づいて、集中型報酬エージェント (CRA) と複数の分散ポリシー エージェントを統合する、新しいマルチタスク強化学習フレームワークを提案します。
CRA は知識プールとして機能し、さまざまなタスクから知識を抽出し、それを個々の政策担当者に配布して学習効率を向上させることを目的としています。
具体的には、形成された報酬は、知識をコード化するための簡単な指標として機能します。
このフレームワークは、確立されたタスク間での知識共有を強化するだけでなく、貴重な報酬シグナルを転送することで新しいタスクにも適応します。
提案された方法を離散領域と連続領域の両方で検証し、マルチタスクのスパース報酬設定における堅牢性と、目に見えないタスクへの効果的な転送可能性を実証します。
要約(オリジナル)
Reward shaping is effective in addressing the sparse-reward challenge in reinforcement learning by providing immediate feedback through auxiliary informative rewards. Based on the reward shaping strategy, we propose a novel multi-task reinforcement learning framework, that integrates a centralized reward agent (CRA) and multiple distributed policy agents. The CRA functions as a knowledge pool, which aims to distill knowledge from various tasks and distribute it to individual policy agents to improve learning efficiency. Specifically, the shaped rewards serve as a straightforward metric to encode knowledge. This framework not only enhances knowledge sharing across established tasks but also adapts to new tasks by transferring valuable reward signals. We validate the proposed method on both discrete and continuous domains, demonstrating its robustness in multi-task sparse-reward settings and its effective transferability to unseen tasks.
arxiv情報
著者 | Haozhe Ma,Zhengding Luo,Thanh Vinh Vo,Kuankuan Sima,Tze-Yun Leong |
発行日 | 2024-08-20 13:49:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google