Self-supervised Wide Baseline Visual Servoing via 3D Equivariance

要約

ビジュアル サーボの難しい入力設定の 1 つは、初期カメラ ビューと目標カメラ ビューが離れている場合です。
ベースラインが広いとオブジェクトの外観が大幅に変化し、オクルージョンが発生する可能性があるため、このような設定は困難です。
この論文では、3D グラウンド トゥルースの監視を必要としない、広いベースライン イメージに対する新しい自己監視型ビジュアル サーボ方式を紹介します。
オブジェクトに対する絶対カメラ ポーズを回帰する既存のアプローチでは、オブジェクトの 3D グラウンド トゥルース データが 3D バウンディング ボックスまたはメッシュの形式で必要です。
3D 等分散と呼ばれる幾何学的特性を活用することにより、一貫した視覚的表現を学習します。表現は、3D 変換の関数として予測可能な方法で変換されます。
特徴空間が基礎となる測地線空間に忠実であることを保証するために、測地線保存制約が等分散とともに適用されます。
3D 監視を必要とせずに、これら 2 つの幾何学的特性を効果的に適用できるシャム ネットワークを設計します。
学習したモデルを使用すると、学習した空間の勾配に従うだけで相対的な変換を推測でき、閉ループのビジュアル サーボのフィードバックとして使用できます。
私たちの方法は、YCB データセットのオブジェクトで評価され、ビジュアル サーボ タスク、または 3D 監視を使用する最先端のアプローチに関してオブジェクト アライメント タスクで有意な優れた性能を示しています。
私たちのものは、35% 以上の平均距離エラー削減と、3cm のエラー許容度で 90% 以上の成功率をもたらします。

要約(オリジナル)

One of the challenging input settings for visual servoing is when the initial and goal camera views are far apart. Such settings are difficult because the wide baseline can cause drastic changes in object appearance and cause occlusions. This paper presents a novel self-supervised visual servoing method for wide baseline images which does not require 3D ground truth supervision. Existing approaches that regress absolute camera pose with respect to an object require 3D ground truth data of the object in the forms of 3D bounding boxes or meshes. We learn a coherent visual representation by leveraging a geometric property called 3D equivariance-the representation is transformed in a predictable way as a function of 3D transformation. To ensure that the feature-space is faithful to the underlying geodesic space, a geodesic preserving constraint is applied in conjunction with the equivariance. We design a Siamese network that can effectively enforce these two geometric properties without requiring 3D supervision. With the learned model, the relative transformation can be inferred simply by following the gradient in the learned space and used as feedback for closed-loop visual servoing. Our method is evaluated on objects from the YCB dataset, showing meaningful outperformance on a visual servoing task, or object alignment task with respect to state-of-the-art approaches that use 3D supervision. Ours yields more than 35% average distance error reduction and more than 90% success rate with 3cm error tolerance.

arxiv情報

著者 Jinwook Huh,Jungseok Hong,Suveer Garg,Hyun Soo Park,Volkan Isler
発行日 2022-09-12 17:38:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク