STAR: Shape-focused Texture Agnostic Representations for Improved Object Detection and 6D Pose Estimation


機械学習の最近の進歩は、ロボットによる把握のための物体検出と 6D 姿勢推定に大きな恩恵をもたらしました。
ただし、テクスチャのない金属オブジェクトは、視覚的な手がかりの少なさと CNN のテクスチャ バイアスにより、依然として大きな課題を抱えています。
この問題に対処するために、CAD モデルからの学習に焦点を当て、オブジェクトの形状の特徴を強調する、テクスチャに依存しないアプローチを提案します。
形状特徴の学習に重点を置くために、トレーニング データのレンダリング中にテクスチャがランダム化されます。
テクスチャをノイズとして扱うことにより、トレーニング データの生成中に現実世界のオブジェクト インスタンスやその最終的な外観が必要なくなります。
ロボット工学の産業環境向けに特別に作成され、テクスチャレスおよび金属オブジェクトを特徴とする TLESS および ITODD データセットが評価に使用されました。
テクスチャ非依存性により、ロボット工学アプリケーションで一般的な画像ノイズ、モーション ブラー、明るさの変化などの画像の摂動に対する堅牢性も向上します。
コードとデータセットは、 で公開されています。


Recent advances in machine learning have greatly benefited object detection and 6D pose estimation for robotic grasping. However, textureless and metallic objects still pose a significant challenge due to fewer visual cues and the texture bias of CNNs. To address this issue, we propose a texture-agnostic approach that focuses on learning from CAD models and emphasizes object shape features. To achieve a focus on learning shape features, the textures are randomized during the rendering of the training data. By treating the texture as noise, the need for real-world object instances or their final appearance during training data generation is eliminated. The TLESS and ITODD datasets, specifically created for industrial settings in robotics and featuring textureless and metallic objects, were used for evaluation. Texture agnosticity also increases the robustness against image perturbations such as imaging noise, motion blur, and brightness changes, which are common in robotics applications. Code and datasets are publicly available at


著者 Peter Hönig,Stefan Thalhammer,Jean-Baptiste Weibel,Matthias Hirschmanner,Markus Vincze
発行日 2024-02-07 14:18:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク