QMP: Q-switch Mixture of Policies for Multi-Task Behavior Sharing

要約

Multi-Task Rewnection Learning(MTRL)は、個別に学習するよりもサンプル効率を向上させるために、いくつかのタスクを同時に学習することを目指しています。
従来の方法は、タスク間でパラメーターまたは再生データを共有することにより、これを達成します。
この作業では、既存のMTRLメソッドに加えて使用できるタスク全体で行動ポリシーを共有するための新しいフレームワークを紹介します。
重要なアイデアは、他のタスクポリシーから行動を採用することにより、各タスクのオフポリシーデータ収集を改善することです。
別のタスクのトレーニングデータを収集するために1つのタスクで取得された有用な動作を選択的に共有すると、より高品質の軌道につながり、よりサンプル効率の高いMTRLにつながる可能性があります。
したがって、タスクのQ機能を使用して有用な共有行動を評価および選択することにより、異なるタスクポリシー間で行動を選択するように、ポリシーのQスイッチ混合(QMP)と呼ばれるシンプルで原則的なフレームワークを導入します。
QMPが基礎となるRLアルゴリズムのサンプル効率を改善する方法を理論的に分析します。
私たちの実験は、QMPの行動政策共有が多くの一般的なMTRLアルゴリズムに対して補完的な利益を提供し、さまざまな操作、移動、およびナビゲーション環境で行動を共有する代替方法を上回ることを示しています。
ビデオはhttps://qmp-mtrl.github.ioで入手できます。

要約(オリジナル)

Multi-task reinforcement learning (MTRL) aims to learn several tasks simultaneously for better sample efficiency than learning them separately. Traditional methods achieve this by sharing parameters or relabeled data between tasks. In this work, we introduce a new framework for sharing behavioral policies across tasks, which can be used in addition to existing MTRL methods. The key idea is to improve each task’s off-policy data collection by employing behaviors from other task policies. Selectively sharing helpful behaviors acquired in one task to collect training data for another task can lead to higher-quality trajectories, leading to more sample-efficient MTRL. Thus, we introduce a simple and principled framework called Q-switch mixture of policies (QMP) that selectively shares behavior between different task policies by using the task’s Q-function to evaluate and select useful shareable behaviors. We theoretically analyze how QMP improves the sample efficiency of the underlying RL algorithm. Our experiments show that QMP’s behavioral policy sharing provides complementary gains over many popular MTRL algorithms and outperforms alternative ways to share behaviors in various manipulation, locomotion, and navigation environments. Videos are available at https://qmp-mtrl.github.io.

arxiv情報

著者 Grace Zhang,Ayush Jain,Injune Hwang,Shao-Hua Sun,Joseph J. Lim
発行日 2025-04-28 23:27:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク