Distilling Morphology-Conditioned Hypernetworks for Efficient Universal Morphology Control

要約

さまざまなロボット形態にわたる普遍的なポリシーを学習すると、学習効率が大幅に向上し、目に見えない形態に対するゼロショット一般化が可能になります。
ただし、高パフォーマンスのユニバーサル ポリシーを学習するには、単純な多層パーセプトロン (MLP) よりもメモリと計算コストが大きいトランスフォーマー (TF) のような洗練されたアーキテクチャが必要です。
推論時に TF のような良好なパフォーマンスと MLP のような高効率の両方を達成するために、HyperDistill を提案します。これは、(1) ロボットごとの MLP ポリシーを生成する形態条件付きハイパーネットワーク (HN)、および (2) ポリシー蒸留で構成されます。
トレーニングを成功させるために不可欠なアプローチ。
数百の多様な形態を持つベンチマークである UNIMAL では、HyperDistill がトレーニング ロボットと目に見えないテスト ロボットの両方でユニバーサル TF 教師ポリシーと同様に機能し、モデル サイズが 6 ~ 14 倍、計算コストが 67 ~ 160 分の 1 に削減されることを示します。
さまざまな環境で。
私たちの分析では、推論時の HyperDistill の効率上の利点は、知識の分離、つまりタスク間およびタスク内の知識を分離する機能によるものであると考えられており、この一般原則は他のドメインの推論効率を向上させるためにも適用できます。

要約(オリジナル)

Learning a universal policy across different robot morphologies can significantly improve learning efficiency and enable zero-shot generalization to unseen morphologies. However, learning a highly performant universal policy requires sophisticated architectures like transformers (TF) that have larger memory and computational cost than simpler multi-layer perceptrons (MLP). To achieve both good performance like TF and high efficiency like MLP at inference time, we propose HyperDistill, which consists of: (1) A morphology-conditioned hypernetwork (HN) that generates robot-wise MLP policies, and (2) A policy distillation approach that is essential for successful training. We show that on UNIMAL, a benchmark with hundreds of diverse morphologies, HyperDistill performs as well as a universal TF teacher policy on both training and unseen test robots, but reduces model size by 6-14 times, and computational cost by 67-160 times in different environments. Our analysis attributes the efficiency advantage of HyperDistill at inference time to knowledge decoupling, i.e., the ability to decouple inter-task and intra-task knowledge, a general principle that could also be applied to improve inference efficiency in other domains.

arxiv情報

著者 Zheng Xiong,Risto Vuorio,Jacob Beck,Matthieu Zimmer,Kun Shao,Shimon Whiteson
発行日 2024-02-09 17:40:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク