要約
剛体オブジェクトの姿勢の推定は、自動化や拡張現実の幅広い用途に使用されるコンピューター ビジョンの基本的な問題の 1 つです。
既存のアプローチのほとんどは、オブジェクト クラスごとに 1 つのネットワーク戦略を採用し、オブジェクトの 3D モデルや深度データに大きく依存し、時間のかかる反復的な改良を採用していますが、これは一部のアプリケーションでは非現実的である可能性があります。
この論文では、これらの制限に対処する、複数オブジェクトの単眼姿勢推定のための新しいアプローチである CVAM-Pose を紹介します。
CVAM-Pose メソッドは、ラベルが埋め込まれた条件付き変分オートエンコーダー ネットワークを使用して、単一の低次元潜在空間内の複数のオブジェクトの正規化された表現を暗黙的に抽象化します。
この自動エンコード プロセスは、投影カメラでキャプチャされた画像のみを使用し、オブジェクトのオクルージョンやシーンの乱雑さに対して堅牢です。
オブジェクトのクラスはワンホット エンコードされ、ネットワーク全体に埋め込まれます。
提案されたラベル埋め込み姿勢回帰戦略は、連続姿勢表現を利用して学習された潜在空間表現を解釈します。
アブレーション テストと体系的な評価により、複数オブジェクトのシナリオに対する CVAM-Pose 法の拡張性と効率性が実証されています。
提案された CVAM-Pose は、競合する潜在空間アプローチよりも優れています。
たとえば、Linemod-Occluded データセットの $\mathrm{AR_{VSD}}$ メトリクスを使用して評価すると、AAE 手法とマルチパス手法よりそれぞれ 25% と 20% 優れています。
また、BOP 課題で報告された 3D モデルに依存する方法にある程度匹敵する結果も達成されます。
利用可能なコード: https://github.com/JZhao12/CVAM-Pose
要約(オリジナル)
Estimating rigid objects’ poses is one of the fundamental problems in computer vision, with a range of applications across automation and augmented reality. Most existing approaches adopt one network per object class strategy, depend heavily on objects’ 3D models, depth data, and employ a time-consuming iterative refinement, which could be impractical for some applications. This paper presents a novel approach, CVAM-Pose, for multi-object monocular pose estimation that addresses these limitations. The CVAM-Pose method employs a label-embedded conditional variational autoencoder network, to implicitly abstract regularised representations of multiple objects in a single low-dimensional latent space. This autoencoding process uses only images captured by a projective camera and is robust to objects’ occlusion and scene clutter. The classes of objects are one-hot encoded and embedded throughout the network. The proposed label-embedded pose regression strategy interprets the learnt latent space representations utilising continuous pose representations. Ablation tests and systematic evaluations demonstrate the scalability and efficiency of the CVAM-Pose method for multi-object scenarios. The proposed CVAM-Pose outperforms competing latent space approaches. For example, it is respectively 25% and 20% better than AAE and Multi-Path methods, when evaluated using the $\mathrm{AR_{VSD}}$ metric on the Linemod-Occluded dataset. It also achieves results somewhat comparable to methods reliant on 3D models reported in BOP challenges. Code available: https://github.com/JZhao12/CVAM-Pose
arxiv情報
著者 | Jianyu Zhao,Wei Quan,Bogdan J. Matuszewski |
発行日 | 2024-10-11 17:26:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google