KVN: Keypoints Voting Network with Differentiable RANSAC for Stereo Pose Estimation


オブジェクトの姿勢推定は、いくつかのロボット工学および拡張現実アプリケーションで活用される基本的なコンピューター ビジョン タスクです。
確立されたアプローチの多くは、RANSAC (ランダム サンプル コンセンサス) を使用した 2D と 3D のキーポイントの対応の予測と、PnP (Perspective-n-Point) アルゴリズムを使用したオブジェクトの姿勢の推定に依存しています。
RANSAC は微分不可能であるため、対応関係をエンドツーエンドの方法で直接学習することはできません。
この論文では、i) 微分可能な RANSAC 層をよく知られた単眼姿勢推定ネットワークに導入することにより、ステレオ画像ベースの物体姿勢推定問題に取り組みます。
ii) 複数のビューからの情報を融合できる不確実性主導のマルチビュー PnP ソルバーを利用します。
私たちは、挑戦的な公開ステレオ オブジェクト姿勢推定データセットと、透明テーブルウェア データセット (TTD) と呼ばれるカスタム構築データセットに対するアプローチを評価し、他の最近のアプローチに対して最先端の結果をもたらしました。
さらに、アブレーション研究では、微分可能な RANSAC 層が提案された方法の精度に重要な役割を果たすことを示しています。
このペーパーでは、メソッドのコードと TTD データセットを公開します。


Object pose estimation is a fundamental computer vision task exploited in several robotics and augmented reality applications. Many established approaches rely on predicting 2D-3D keypoint correspondences using RANSAC (Random sample consensus) and estimating the object pose using the PnP (Perspective-n-Point) algorithm. Being RANSAC non-differentiable, correspondences cannot be directly learned in an end-to-end fashion. In this paper, we address the stereo image-based object pose estimation problem by i) introducing a differentiable RANSAC layer into a well-known monocular pose estimation network; ii) exploiting an uncertainty-driven multi-view PnP solver which can fuse information from multiple views. We evaluate our approach on a challenging public stereo object pose estimation dataset and a custom-built dataset we call Transparent Tableware Dataset (TTD), yielding state-of-the-art results against other recent approaches. Furthermore, in our ablation study, we show that the differentiable RANSAC layer plays a significant role in the accuracy of the proposed method. We release with this paper the code of our method and the TTD dataset.


著者 Ivano Donadi,Alberto Pretto
発行日 2024-02-28 15:46:50+00:00
