要約
マルチタスク強化学習は、単一のポリシーで一連の異なるタスクを達成しようとします。
複数のタスク間でパラメータを共有することでデータ効率を高めるには、ネットワークを個別のモジュールに分割し、これらのモジュールをタスク固有のポリシーに再結合するようにルーティング ネットワークをトレーニングするのが一般的です。
しかし、既存のルーティング手法では、すべてのタスクに対して固定数のモジュールが使用されており、さまざまな困難を伴うタスクにはさまざまな量の知識が必要であることが一般的に無視されています。
この研究では、特定の中間モジュールの戦略的なスキップを学習し、それによってタスクごとに異なる数のモジュールを柔軟に選択するダイナミック デプス ルーティング (D2R) フレームワークを提示します。
このフレームワークの下で、オフポリシー トレーニング中の動作ポリシーとターゲット ポリシー間の異なるルーティング パスの問題に対処するために、ResRouting メソッドをさらに導入します。
さらに、マスター済みのタスクの配線を妨げることなく、未マスターのタスクの継続的な配線探索を促進する自動ルート バランシング メカニズムを設計します。
Meta-World ベンチマークでは、さまざまなロボット操作タスクに関する広範な実験が行われており、D2R は学習効率が大幅に向上し、最先端のパフォーマンスを実現します。
要約(オリジナル)
Multi-task reinforcement learning endeavors to accomplish a set of different tasks with a single policy. To enhance data efficiency by sharing parameters across multiple tasks, a common practice segments the network into distinct modules and trains a routing network to recombine these modules into task-specific policies. However, existing routing approaches employ a fixed number of modules for all tasks, neglecting that tasks with varying difficulties commonly require varying amounts of knowledge. This work presents a Dynamic Depth Routing (D2R) framework, which learns strategic skipping of certain intermediate modules, thereby flexibly choosing different numbers of modules for each task. Under this framework, we further introduce a ResRouting method to address the issue of disparate routing paths between behavior and target policies during off-policy training. In addition, we design an automatic route-balancing mechanism to encourage continued routing exploration for unmastered tasks without disturbing the routing of mastered ones. We conduct extensive experiments on various robotics manipulation tasks in the Meta-World benchmark, where D2R achieves state-of-the-art performance with significantly improved learning efficiency.
arxiv情報
著者 | Jinmin He,Kai Li,Yifan Zang,Haobo Fu,Qiang Fu,Junliang Xing,Jian Cheng |
発行日 | 2024-01-25 14:35:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google