Robust Visual Sim-to-Real Transfer for Robotic Manipulation

要約

シミュレーションで視覚運動ポリシーを学習することは、現実世界よりもはるかに安全で安価です。
ただし、シミュレートされたデータと実際のデータの間に不一致があるため、シミュレーターでトレーニングされたポリシーが実際のロボットに転送されると失敗することがよくあります。
視覚的なシミュレーションと実際のドメインのギャップを埋めるための一般的なアプローチの 1 つは、ドメインのランダム化 (DR) です。
これまでの研究では主に姿勢推定や物体検出などの非身体的タスクの DR を評価していましたが、今回は視覚領域のランダム化手法を体系的に検討し、豊富な挑戦的なロボット操作タスクでベンチマークを行います。
特に、テクスチャのランダム化、照明のランダム化、オブジェクトの色の変化、およびカメラパラメータのための DR パラメータを選択するための立方体の位置特定のオフラインプロキシタスクを提案します。
特に、DR パラメータがオフライン プロキシ タスクとオンライン ポリシーに同様の影響を与えることを実証しています。
したがって、オフラインで最適化された DR パラメーターを使用して、シミュレーションで視覚運動ポリシーをトレーニングし、そのようなポリシーを実際のロボットに直接適用します。
私たちのアプローチは、さまざまな困難な操作タスクでテストした場合、平均 93% の成功率を達成しました。
さらに、実際のシーンでの視覚的な変化に対するポリシーの堅牢性を評価し、シミュレーターでトレーニングされたポリシーが、実際の限られたデータを使用して学習されたポリシーよりも優れていることを示します。
コード、シミュレーション環境、実際のロボット データセット、トレーニング済みモデルは、https://www.di.ens.fr/willow/research/robust_s2r/ で入手できます。

要約(オリジナル)

Learning visuomotor policies in simulation is much safer and cheaper than in the real world. However, due to discrepancies between the simulated and real data, simulator-trained policies often fail when transferred to real robots. One common approach to bridge the visual sim-to-real domain gap is domain randomization (DR). While previous work mainly evaluates DR for disembodied tasks, such as pose estimation and object detection, here we systematically explore visual domain randomization methods and benchmark them on a rich set of challenging robotic manipulation tasks. In particular, we propose an off-line proxy task of cube localization to select DR parameters for texture randomization, lighting randomization, variations of object colors and camera parameters. Notably, we demonstrate that DR parameters have similar impact on our off-line proxy task and on-line policies. We, hence, use off-line optimized DR parameters to train visuomotor policies in simulation and directly apply such policies to a real robot. Our approach achieves 93% success rate on average when tested on a diverse set of challenging manipulation tasks. Moreover, we evaluate the robustness of policies to visual variations in real scenes and show that our simulator-trained policies outperform policies learned using real but limited data. Code, simulation environment, real robot datasets and trained models are available at https://www.di.ens.fr/willow/research/robust_s2r/.

arxiv情報

著者 Ricardo Garcia,Robin Strudel,Shizhe Chen,Etienne Arlaud,Ivan Laptev,Cordelia Schmid
発行日 2023-07-28 05:47:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク