Efficient Multi-Task Reinforcement Learning via Task-Specific Action Correction

要約

マルチタスク強化学習 (MTRL) は、ロボットの汎化を強化し、複数のタスクを同時に実行できるようにする可能性を示しています。
ただし、MTRL のパフォーマンスは、依然としてタスク間の競合やネガティブな干渉の影響を受けやすい可能性があります。
効率的な MTRL を促進するために、複数のタスクの同時学習用に設計された一般的で補完的なアプローチであるタスク固有アクション修正 (TSAC) を提案します。
TSAC は、ポリシー学習を 2 つの個別のポリシー、つまり共有ポリシー (SP) とアクション修正ポリシー (ACP) に分解します。
SP で特定のタスクの詳細に過度に焦点を当てることによって生じる競合を軽減するために、ACP には目標指向のまばらな報酬が組み込まれており、エージェントが長期的な視点を採用し、タスク全体の一般化を達成できるようにします。
追加の報酬により、元の問題が多目的 MTRL 問題に変換されます。
さらに、多目的 MTRL を単一目的の定式化に変換するために、TSAC は仮想の期待予算をスパース報酬に割り当て、ラグランジュ法を使用して制約付きの単一目的の最適化を制約のない最適化に変換します。
Meta-World の MT10 および MT50 ベンチマークで実施された実験評価では、TSAC が既存の最先端の手法を上回っており、サンプル効率と効果的なアクション実行の両方で大幅な改善を達成していることが実証されています。

要約(オリジナル)

Multi-task reinforcement learning (MTRL) demonstrate potential for enhancing the generalization of a robot, enabling it to perform multiple tasks concurrently. However, the performance of MTRL may still be susceptible to conflicts between tasks and negative interference. To facilitate efficient MTRL, we propose Task-Specific Action Correction (TSAC), a general and complementary approach designed for simultaneous learning of multiple tasks. TSAC decomposes policy learning into two separate policies: a shared policy (SP) and an action correction policy (ACP). To alleviate conflicts resulting from excessive focus on specific tasks’ details in SP, ACP incorporates goal-oriented sparse rewards, enabling an agent to adopt a long-term perspective and achieve generalization across tasks. Additional rewards transform the original problem into a multi-objective MTRL problem. Furthermore, to convert the multi-objective MTRL into a single-objective formulation, TSAC assigns a virtual expected budget to the sparse rewards and employs Lagrangian method to transform a constrained single-objective optimization into an unconstrained one. Experimental evaluations conducted on Meta-World’s MT10 and MT50 benchmarks demonstrate that TSAC outperforms existing state-of-the-art methods, achieving significant improvements in both sample efficiency and effective action execution.

arxiv情報

著者 Jinyuan Feng,Min Chen,Zhiqiang Pu,Tenghai Qiu,Jianqiang Yi
発行日 2024-04-09 02:11:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク