KVN: Keypoints Voting Network with Differentiable RANSAC for Stereo Pose Estimation

要約

オブジェクトの姿勢推定は、いくつかのロボット工学および拡張現実アプリケーションで活用される基本的なコンピューター ビジョン タスクです。
確立されたアプローチの多くは、RANSAC (ランダム サンプル コンセンサス) を使用した 2D と 3D のキーポイントの対応の予測と、PnP (Perspective-n-Point) アルゴリズムを使用したオブジェクトの姿勢の推定に依存しています。
RANSAC は微分不可能であるため、対応関係をエンドツーエンドの方法で直接学習することはできません。
この論文では、(i) 微分可能な RANSAC 層をよく知られた単眼姿勢推定ネットワークに導入することにより、ステレオ画像ベースの物体姿勢推定問題に取り組みます。
(ii) 複数のビューからの情報を融合できる不確実性主導型のマルチビュー PnP ソルバーを活用します。
私たちは、挑戦的な公開ステレオオブジェクト姿勢推定データセットに対するアプローチを評価し、他の最近のアプローチと比較して最先端の結果をもたらしました。
さらに、アブレーション研究では、微分可能な RANSAC 層が提案された方法の精度に重要な役割を果たすことを示しています。
この文書では、私たちのメソッドのオープンソース実装をリリースします。

要約(オリジナル)

Object pose estimation is a fundamental computer vision task exploited in several robotics and augmented reality applications. Many established approaches rely on predicting 2D-3D keypoint correspondences using RANSAC (Random sample consensus) and estimating the object pose using the PnP (Perspective-n-Point) algorithm. Being RANSAC non-differentiable, correspondences cannot be directly learned in an end-to-end fashion. In this paper, we address the stereo image-based object pose estimation problem by (i) introducing a differentiable RANSAC layer into a well-known monocular pose estimation network; (ii) exploiting an uncertainty-driven multi-view PnP solver which can fuse information from multiple views. We evaluate our approach on a challenging public stereo object pose estimation dataset, yielding state-of-the-art results against other recent approaches. Furthermore, in our ablation study, we show that the differentiable RANSAC layer plays a significant role in the accuracy of the proposed method. We release with this paper the open-source implementation of our method.

arxiv情報

著者 Ivano Donadi,Alberto Pretto
発行日 2023-07-21 12:43:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク