要約
ロボット工学における深層学習モデルの有用性は、トレーニングデータの可用性に大きく依存しています。
トレーニングデータの手動注釈は、多くの場合実行不可能です。
合成データは実行可能な代替手段ですが、ドメインギャップに悩まされています。
手動の注釈作業なしでトレーニングデータを取得するためのマルチステップ方法を提案します。3Dオブジェクトメッシュから、最新の合成パイプラインを使用して画像を生成します。
最先端の画像から画像への変換方法を利用して、合成画像を実際のドメインに適合させ、学習した方法でドメインのギャップを最小限に抑えます。
翻訳ネットワークは、ペアになっていない画像からトレーニングされます。つまり、注釈のない実際の画像のコレクションが必要です。
生成され洗練された画像は、特定のタスクの深層学習モデルをトレーニングするために使用できます。
また、トレーニング時間を短縮し、グローバルな一貫性を高めるパッチベースのトレーニングなど、パフォーマンスをさらに向上させる翻訳方法の拡張機能を提案および評価します。
私たちの方法を評価し、2つのロボットデータセットでその有効性を示します。
最後に、学習した改良操作についての洞察を提供します。
要約(オリジナル)
The usefulness of deep learning models in robotics is largely dependent on the availability of training data. Manual annotation of training data is often infeasible. Synthetic data is a viable alternative, but suffers from domain gap. We propose a multi-step method to obtain training data without manual annotation effort: From 3D object meshes, we generate images using a modern synthesis pipeline. We utilize a state-of-the-art image-to-image translation method to adapt the synthetic images to the real domain, minimizing the domain gap in a learned manner. The translation network is trained from unpaired images, i.e. just requires an un-annotated collection of real images. The generated and refined images can then be used to train deep learning models for a particular task. We also propose and evaluate extensions to the translation method that further increase performance, such as patch-based training, which shortens training time and increases global consistency. We evaluate our method and demonstrate its effectiveness on two robotic datasets. We finally give insight into the learned refinement operations.
arxiv情報
著者 | Benedikt T. Imbusch,Max Schwarz,Sven Behnke |
発行日 | 2022-06-28 12:12:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google