要約
2 段階のオブジェクト姿勢推定パラダイムは、最初に画像上のセマンティック キーポイントを検出し、次に再投影エラーを最小限に抑えることによって 6D 姿勢を推定します。
標準的なベンチマークでは優れたパフォーマンスを発揮しますが、既存の手法では、推定の品質と不確実性について証明可能な保証はありません。
この論文では、2つの基本的な変更、つまり、等角キーポイント検出と幾何学的不確実性の伝播を2段階パラダイムに挿入し、証明可能で計算可能な最悪の場合の誤差範囲を推定に与える最初の姿勢推定器を提案します。
一方では、共形キーポイント検出は帰納的共形予測の統計的機械を適用して、ヒューリスティックなキーポイント検出を、ユーザー指定の限界確率 (たとえば、90%) でグラウンドトゥルース キーポイントをカバーする円形または楕円形の予測セットに変換します。
一方、幾何学的不確実性の伝播は、キーポイントの幾何学的制約を 6D オブジェクト ポーズに伝播し、同じ確率でグラウンド トゥルース ポーズのカバレッジを保証する Pose UnceRtainty SEt (PURSE) につながります。
ただし、PURSE は非凸集合であり、推定された姿勢や不確実性に直接つながることはありません。
したがって、RANdom Sample averaGing (RANSAG) を開発して、平均姿勢を計算し、平均姿勢とグラウンド トゥルースの間の最悪の場合の誤差の上限に半定値緩和を適用します。
LineMOD Occlusion データセットで次のことを示します。(i) PURSE は有効な確率でグラウンドトゥルースをカバーします。
(ii) 最悪の場合の誤差範囲は、正確な不確実性の定量化を提供します。
(iii) 平均ポーズは、まばらなキーポイントに基づく代表的な方法よりも優れた、または同様の精度を達成します。
要約(オリジナル)
The two-stage object pose estimation paradigm first detects semantic keypoints on the image and then estimates the 6D pose by minimizing reprojection errors. Despite performing well on standard benchmarks, existing techniques offer no provable guarantees on the quality and uncertainty of the estimation. In this paper, we inject two fundamental changes, namely conformal keypoint detection and geometric uncertainty propagation, into the two-stage paradigm and propose the first pose estimator that endows an estimation with provable and computable worst-case error bounds. On one hand, conformal keypoint detection applies the statistical machinery of inductive conformal prediction to convert heuristic keypoint detections into circular or elliptical prediction sets that cover the groundtruth keypoints with a user-specified marginal probability (e.g., 90%). Geometric uncertainty propagation, on the other, propagates the geometric constraints on the keypoints to the 6D object pose, leading to a Pose UnceRtainty SEt (PURSE) that guarantees coverage of the groundtruth pose with the same probability. The PURSE, however, is a nonconvex set that does not directly lead to estimated poses and uncertainties. Therefore, we develop RANdom SAmple averaGing (RANSAG) to compute an average pose and apply semidefinite relaxation to upper bound the worst-case errors between the average pose and the groundtruth. On the LineMOD Occlusion dataset we demonstrate: (i) the PURSE covers the groundtruth with valid probabilities; (ii) the worst-case error bounds provide correct uncertainty quantification; and (iii) the average pose achieves better or similar accuracy as representative methods based on sparse keypoints.
arxiv情報
著者 | Heng Yang,Marco Pavone |
発行日 | 2023-03-22 00:55:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google