A Framework for Few-Shot Policy Transfer through Observation Mapping and Behavior Cloning

要約

ロボット工学アプリケーション向けの強化学習における最近の進歩にもかかわらず、対話コストが高額であるため、多くのタスクの解決が法外に困難なままです。
転移学習は、ソース ドメインで学習した知識を転送することで、ターゲット ドメインでのトレーニング時間を短縮します。
Sim2Real 転送は、シミュレートされたロボット ドメインから物理的なターゲット ドメインに知識を転送するのに役立ちます。
知識の伝達により、対話コストが高い物理世界でのタスクのトレーニングに必要な時間が短縮されます。
ただし、既存のアプローチのほとんどは、タスク構造と 2 つのドメインの物理的特性が正確に一致していることを前提としています。
この研究では、観測マッピングと動作クローニングを介した 2 つのドメイン間のフューショット ポリシー転送のフレームワークを提案します。
敵対的生成ネットワーク (GAN) とサイクル一貫性損失を使用して、ソース ドメインとターゲット ドメイン間の観測結果をマッピングし、後でこの学習されたマッピングを使用して、成功したソース タスクの動作ポリシーをターゲット ドメインに複製します。
ターゲット タスクの対話が限られている場合、およびソース タスクとターゲット タスクが意味的に異なる場合に、動作ポリシーの転送が成功することが観察されています。

要約(オリジナル)

Despite recent progress in Reinforcement Learning for robotics applications, many tasks remain prohibitively difficult to solve because of the expensive interaction cost. Transfer learning helps reduce the training time in the target domain by transferring knowledge learned in a source domain. Sim2Real transfer helps transfer knowledge from a simulated robotic domain to a physical target domain. Knowledge transfer reduces the time required to train a task in the physical world, where the cost of interactions is high. However, most existing approaches assume exact correspondence in the task structure and the physical properties of the two domains. This work proposes a framework for Few-Shot Policy Transfer between two domains through Observation Mapping and Behavior Cloning. We use Generative Adversarial Networks (GANs) along with a cycle-consistency loss to map the observations between the source and target domains and later use this learned mapping to clone the successful source task behavior policy to the target domain. We observe successful behavior policy transfer with limited target task interactions and in cases where the source and target task are semantically dissimilar.

arxiv情報

著者 Yash Shukla,Bharat Kesari,Shivam Goel,Robert Wright,Jivko Sinapov
発行日 2023-10-13 03:15:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク