要約
6Dポーズ推定は、カメラの観察を最もよく説明するオブジェクトのポーズを決定することを目的としています。
非曖昧なオブジェクトのユニークなソリューションは、視点に応じて、対称オブジェクトのマルチモーダルポーズ分布、または対称的な要素の閉塞が発生したときに発生する場合に変換できます。
現在、6Dポーズ推定方法は、グラウンドトゥルースの注釈について、グローバルオブジェクトの対称性にのみ関連する視覚的なあいまいさを考慮するデータセットにベンチマークされていますが、カメラの視点を説明するためにイメージごとに定義する必要があります。
したがって、最初に、画像のオブジェクト表面の可視性を考慮して、視覚的なあいまいさを正しく決定するために、各画像に固有の6Dポーズ分布でそれらのデータセットを再現する自動メソッドを提案します。
第二に、この改善された地上の真理を考えると、最先端のシングルポーズメソッドを再評価し、これがこれらの方法のランキングを大幅に変更することを示します。
第三に、いくつかの最近の研究がソリューションの完全なセットを推定することに焦点を当てているため、画像ごとの分布グラウンドトゥルースに対してそれらを評価するための精度/リコールの定式化を導き出し、実際の画像でのポーズ分布方法の最初のベンチマークにします。
要約(オリジナル)
6D pose estimation aims at determining the object pose that best explains the camera observation. The unique solution for non-ambiguous objects can turn into a multi-modal pose distribution for symmetrical objects or when occlusions of symmetry-breaking elements happen, depending on the viewpoint. Currently, 6D pose estimation methods are benchmarked on datasets that consider, for their ground truth annotations, visual ambiguities as only related to global object symmetries, whereas they should be defined per-image to account for the camera viewpoint. We thus first propose an automatic method to re-annotate those datasets with a 6D pose distribution specific to each image, taking into account the object surface visibility in the image to correctly determine the visual ambiguities. Second, given this improved ground truth, we re-evaluate the state-of-the-art single pose methods and show that this greatly modifies the ranking of these methods. Third, as some recent works focus on estimating the complete set of solutions, we derive a precision/recall formulation to evaluate them against our image-wise distribution ground truth, making it the first benchmark for pose distribution methods on real images.
arxiv情報
著者 | Boris Meden,Asma Brazi,Fabrice Mayran de Chamisso,Steve Bourgeois,Vincent Lepetit |
発行日 | 2025-05-14 14:02:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google