Fleet Policy Learning via Weight Merging and An Application to Robotic Tool-Use

要約

ロボットの艦隊は、環境との相互作用によって生成される膨大な量のストリーミングデータを摂取する。同時に、ロボットのチームが様々な環境での経験を通して、多様なスキルを共同で習得できることを望んでいる。このようなフリートレベルの学習を、フリートスケールのデータを送信したり集中管理したりすることなく実現するにはどうすればよいのだろうか?本稿では、潜在的な解決策として、ポリシーの分散学習について検討する。分散環境において効率的にポリシーをマージするために、リカレントニューラルネットワークによってパラメータ化されたポリシーを学習する際に生じうる対称性を考慮した分散学習のインスタンスであるフリートマージ(fleet-merge)を提案する。我々は、フリートマージが、メタワールド環境における50のタスクで学習されたポリシーの振る舞いを統合し、統合されたポリシーがテスト時にほぼ全ての学習タスクで良好な性能を達成することを示す。さらに、我々は、より広範な関心が持たれるであろう、構成的で接触に富むロボット操作タスクにおけるフリートポリシー学習のための、新しいロボットツール使用ベンチマークであるfleet-toolsを導入し、このベンチマークにおけるフリートマージの有効性を検証する。

要約(オリジナル)

Fleets of robots ingest massive amounts of streaming data generated by interacting with their environments, far more than those that can be stored or transmitted with ease. At the same time, we hope that teams of robots can co-acquire diverse skills through their experiences in varied settings. How can we enable such fleet-level learning without having to transmit or centralize fleet-scale data? In this paper, we investigate distributed learning of policies as a potential solution. To efficiently merge policies in the distributed setting, we propose fleet-merge, an instantiation of distributed learning that accounts for the symmetries that can arise in learning policies that are parameterized by recurrent neural networks. We show that fleet-merge consolidates the behavior of policies trained on 50 tasks in the Meta-World environment, with the merged policy achieving good performance on nearly all training tasks at test time. Moreover, we introduce a novel robotic tool-use benchmark, fleet-tools, for fleet policy learning in compositional and contact-rich robot manipulation tasks, which might be of broader interest, and validate the efficacy of fleet-merge on the benchmark.

arxiv情報

著者 Lirui Wang,Kaiqing Zhang,Allan Zhou,Max Simchowitz,Russ Tedrake
発行日 2023-10-02 17:23:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO パーマリンク