要約
マルチオブジェクトロボット操作シナリオに焦点を当てた、高密度オブジェクトネット(DON)の堅牢で効率的なトレーニングのためのフレームワークを提案します。
DONは、高密度でビュー不変のオブジェクト記述子を取得するための一般的なアプローチです。これは、ポーズ推定、制御のための状態表現など、ロボット操作の多数のダウンストリームタスクに使用できます。ただし、元の作業はトレーニングに重点を置いていました。
特異化されたオブジェクトで、インスタンス固有のマルチオブジェクトアプリケーションでの結果は限られています。
さらに、トレーニングには、各オブジェクトの3D再構成やマスク注釈を含む複雑なデータ収集パイプラインが必要です。
このホワイトペーパーでは、データ収集とトレーニング体制を簡素化することでDONの有効性をさらに向上させ、一貫して高い精度を実現し、少ないデータ要件でキーポイントの堅牢な追跡を可能にします。
特に、適切に選択された拡張スキームと組み合わせて、単一オブジェクトではなくマルチオブジェクトデータを使用したトレーニングに重点を置いています。
さらに、元のピクセル単位の定式化に代わる損失の定式化を提案します。これにより、より良い結果が得られ、ハイパーパラメータの影響を受けにくくなります。
最後に、実際のロボット把持タスクで提案されたフレームワークの堅牢性と精度を示します。
要約(オリジナル)
We propose a framework for robust and efficient training of Dense Object Nets (DON) with a focus on multi-object robot manipulation scenarios. DON is a popular approach to obtain dense, view-invariant object descriptors, which can be used for a multitude of downstream tasks in robot manipulation, such as, pose estimation, state representation for control, etc.. However, the original work focused training on singulated objects, with limited results on instance-specific, multi-object applications. Additionally, a complex data collection pipeline, including 3D reconstruction and mask annotation of each object, is required for training. In this paper, we further improve the efficacy of DON with a simplified data collection and training regime, that consistently yields higher precision and enables robust tracking of keypoints with less data requirements. In particular, we focus on training with multi-object data instead of singulated objects, combined with a well-chosen augmentation scheme. We additionally propose an alternative loss formulation to the original pixelwise formulation that offers better results and is less sensitive to hyperparameters. Finally, we demonstrate the robustness and accuracy of our proposed framework on a real-world robotic grasping task.
arxiv情報
著者 | David B. Adrian,Andras Gabor Kupcsik,Markus Spies,Heiko Neumann |
発行日 | 2022-06-24 08:24:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google