Fleet Learning via Policy Merging

要約

ロボット群は、環境との対話によって生成された異種ストリーミング データ サイロを大量に取り込みます。これは、簡単に保存または送信できる量をはるかに超えています。
同時に、ロボットのチームは、さまざまな環境での異種混合の経験を通じて、多様なスキルを共同で習得する必要があります。
フリート規模のデータを送信したり一元管理したりすることなく、このようなフリートレベルの学習を実現するにはどうすればよいでしょうか?
この論文では、潜在的な解決策として、このような分散された異種データセットからのポリシー結合 (PoMe) を調査します。
フリート設定でポリシーを効率的にマージするために、リカレント ニューラル ネットワークで制御ポリシーをパラメータ化するときに生じる順列不変性を考慮した分散学習のインスタンス化である FLEET-MERGE を提案します。
FLEET-MERGE がメタワールド環境の 50 のタスクでトレーニングされたポリシーの動作を統合し、テスト時にほぼすべてのトレーニング タスクで良好なパフォーマンスを発揮することを示します。
さらに、構成および接触の多いロボット操作タスクにおけるフリート ポリシー学習用の新しいロボット ツール使用ベンチマーク FLEET-TOOLS を導入し、ベンチマークでの FLEET-MERGE の有効性を検証します。

要約(オリジナル)

Fleets of robots ingest massive amounts of heterogeneous streaming data silos generated by interacting with their environments, far more than what can be stored or transmitted with ease. At the same time, teams of robots should co-acquire diverse skills through their heterogeneous experiences in varied settings. How can we enable such fleet-level learning without having to transmit or centralize fleet-scale data? In this paper, we investigate policy merging (PoMe) from such distributed heterogeneous datasets as a potential solution. To efficiently merge policies in the fleet setting, we propose FLEET-MERGE, an instantiation of distributed learning that accounts for the permutation invariance that arises when parameterizing the control policies with recurrent neural networks. We show that FLEET-MERGE consolidates the behavior of policies trained on 50 tasks in the Meta-World environment, with good performance on nearly all training tasks at test time. Moreover, we introduce a novel robotic tool-use benchmark, FLEET-TOOLS, for fleet policy learning in compositional and contact-rich robot manipulation tasks, to validate the efficacy of FLEET-MERGE on the benchmark.

arxiv情報

著者 Lirui Wang,Kaiqing Zhang,Allan Zhou,Max Simchowitz,Russ Tedrake
発行日 2024-02-15 02:07:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク