BOP-D: Revisiting 6D Pose Estimation Benchmark for Better Evaluation under Visual Ambiguities

要約

現在、6D 姿勢推定手法は、グランド トゥルース アノテーションについて、視覚的な曖昧さをグローバル オブジェクトの対称性にのみ関連するものとして考慮するデータセットでベンチマークされています。
ただし、以前に観察されたように [26]、曖昧さを解消する部分が隠れた場合、視点や遮蔽オブジェクトの存在によっては、視覚的な曖昧さが発生する可能性もあります。
したがって、視覚的な曖昧さは実際には画像ごとに異なります。
したがって、我々はまず、画像内の物体表面の可視性を考慮して、視覚的な曖昧さを正確に判断し、各画像に固有の 6D 姿勢分布でこれらのデータセットに再アノテーションを付ける自動方法を提案します。
この改善されたグラウンド トゥルースを考慮して、最先端の手法を再評価し、これによってこれらの手法のランキングが大幅に変更されることを示します。
私たちのアノテーションにより、実際の画像上の姿勢分布を初めて推定できる最近の方法のベンチマークを行うこともできます。
T-LESS データセットのアノテーションとコードを公開します。

要約(オリジナル)

Currently, 6D pose estimation methods are benchmarked on datasets that consider, for their ground truth annotations, visual ambiguities as only related to global object symmetries. However, as previously observed [26], visual ambiguities can also happen depending on the viewpoint or the presence of occluding objects, when disambiguating parts become hidden. The visual ambiguities are therefore actually different across images. We thus first propose an automatic method to re-annotate those datasets with a 6D pose distribution specific to each image, taking into account the visibility of the object surface in the image to correctly determine the visual ambiguities. Given this improved ground truth, we re-evaluate the state-of-the-art methods and show this greatly modify the ranking of these methods. Our annotations also allow us to benchmark recent methods able to estimate a pose distribution on real images for the first time. We will make our annotations for the T-LESS dataset and our code publicly available.

arxiv情報

著者 Boris Meden,Asma Brazi,Steve Bourgeois,Fabrice Mayran de Chamisso,Vincent Lepetit
発行日 2024-08-30 13:52:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク