Visual-Policy Learning through Multi-Camera View to Single-Camera View Knowledge Distillation for Robot Manipulation Tasks

要約

マルチカメラ ビューを同時に使用すると、ビジュアル ポリシーの一般化機能とパフォーマンスが向上することが示されています。
ただし、実際のシナリオではハードウェアのコストと設計上の制約により、複数のカメラを使用することが困難になる可能性があります。
この研究では、ロボット操作タスクのための視覚ベースの強化学習 (RL) アルゴリズムの一般化パフォーマンスを向上させるための新しいアプローチを提示します。
私たちの提案する方法は、知識の蒸留として知られる手法を利用することを含みます。この手法では、複数のカメラの視点で訓練された事前に訓練された「教師」のポリシーが、単一のカメラの視点から学習する「学生」のポリシーを導きます。
カメラ位置の摂動に対する学生ポリシーの堅牢性を強化するために、データ拡張と極端な視点変更を使用してトレーニングされます。
その結果、学生ポリシーは、カメラの視点に関係なく、関心のあるオブジェクトを正確かつ一貫して見つけることができる堅牢な視覚的特徴を学習します。
提案された方法の有効性と効率は、シミュレーションと実世界の両方の環境で評価されました。
結果は、単一ビューの視覚的学生ポリシーが、困難なオブジェクトをつかんで持ち上げることをうまく学習できることを示しています。これは、単一ビューのポリシーだけでは不可能でした。
さらに、学生ポリシーはゼロショット転送機能を示しており、目に見えない視覚的構成の現実世界のシナリオでオブジェクトをうまくつかんで持ち上げることができます。

要約(オリジナル)

The use of multi-camera views simultaneously has been shown to improve the generalization capabilities and performance of visual policies. However, the hardware cost and design constraints in real-world scenarios can potentially make it challenging to use multiple cameras. In this study, we present a novel approach to enhance the generalization performance of vision-based Reinforcement Learning (RL) algorithms for robotic manipulation tasks. Our proposed method involves utilizing a technique known as knowledge distillation, in which a pre-trained “teacher” policy trained with multiple camera viewpoints guides a “student” policy in learning from a single camera viewpoint. To enhance the student policy’s robustness against camera location perturbations, it is trained using data augmentation and extreme viewpoint changes. As a result, the student policy learns robust visual features that allow it to locate the object of interest accurately and consistently, regardless of the camera viewpoint. The efficacy and efficiency of the proposed method were evaluated both in simulation and real-world environments. The results demonstrate that the single-view visual student policy can successfully learn to grasp and lift a challenging object, which was not possible with a single-view policy alone. Furthermore, the student policy demonstrates zero-shot transfer capability, where it can successfully grasp and lift objects in real-world scenarios for unseen visual configurations.

arxiv情報

著者 Cihan Acar,Kuluhan Binici,Alp Tekirdağ,Wu Ya
発行日 2023-03-13 11:42:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク