Certifiable 3D Object Pose Estimation: Foundations, Learning Models, and Self-Training

要約

オブジェクトの部分的な点群が与えられた場合、目標はオブジェクトのポーズを推定するだけでなく、結果として得られる推定値の正確性の証明書を提供することでもあります。
私たちの最初の貢献は、エンド ツー エンドの認識モデルの認証に関する一般的な理論です。
特に、推定値とグラウンド トゥルースの間の距離を制限する $\zeta$-correctness の概念を導入します。
$\zeta$ の正確性は、次の 2 つの証明書を実装することで評価できることを示します。
入力データが一意の推定値を計算するのに十分かどうかを主張します。
私たちの 2 番目の貢献は、この理論を適用し、新しい学習ベースの認証可能な姿勢推定器を設計することです。
証明可能なポーズ推定問題を解決するために、2 つの証明書で補強されたセマンティック キーポイント ベースのポーズ推定モデルである C-3PO を提案します。
C-3PO には、微分可能な最適化レイヤーとして実装されたキーポイント コレクターも含まれており、大きな検出エラー (sim-to-real ギャップによるものなど) を修正できます。
私たちの 3 つ目の貢献は、トレーニング中に C-3PO に監視信号を提供するために、観察可能な正しさの証明書を使用する新しい自己監視トレーニング アプローチです。
その中で、モデルは各トレーニング反復で、観測可能なほど正しい入出力ペアでのみトレーニングします。
トレーニングが進むにつれて、観測可能な正しい入出力ペアが増え、多くの場合、最終的には 100% 近くに達することがわかります。
私たちの実験は、(i) 標準的なセマンティック キーポイント ベースの方法が最近の代替方法よりも優れていること、(ii) C-3PO がパフォーマンスをさらに向上させ、すべてのベースラインよりも大幅に優れていること、(iii) C-3PO の証明書が正しい姿勢推定を識別できることを示しています。
.

要約(オリジナル)

We consider a certifiable object pose estimation problem, where — given a partial point cloud of an object — the goal is to not only estimate the object pose, but also to provide a certificate of correctness for the resulting estimate. Our first contribution is a general theory of certification for end-to-end perception models. In particular, we introduce the notion of $\zeta$-correctness, which bounds the distance between an estimate and the ground truth. We show that $\zeta$-correctness can be assessed by implementing two certificates: (i) a certificate of observable correctness, that asserts if the model output is consistent with the input data and prior information, (ii) a certificate of non-degeneracy, that asserts whether the input data is sufficient to compute a unique estimate. Our second contribution is to apply this theory and design a new learning-based certifiable pose estimator. We propose C-3PO, a semantic-keypoint-based pose estimation model, augmented with the two certificates, to solve the certifiable pose estimation problem. C-3PO also includes a keypoint corrector, implemented as a differentiable optimization layer, that can correct large detection errors (e.g. due to the sim-to-real gap). Our third contribution is a novel self-supervised training approach that uses our certificate of observable correctness to provide the supervisory signal to C-3PO during training. In it, the model trains only on the observably correct input-output pairs, in each training iteration. As training progresses, we see that the observably correct input-output pairs grow, eventually reaching near 100% in many cases. Our experiments show that (i) standard semantic-keypoint-based methods outperform more recent alternatives, (ii) C-3PO further improves performance and significantly outperforms all the baselines, and (iii) C-3PO’s certificates are able to discern correct pose estimates.

arxiv情報

著者 Rajat Talak,Lisa Peng,Luca Carlone
発行日 2023-01-24 19:34:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク