Category-Level Pose Retrieval with Contrastive Features Learnt with Occlusion Augmentation

要約

姿勢推定は通常、ビン分類問題または回帰問題として取り組まれます。
どちらの場合も、アイデアはオブジェクトの姿勢を直接予測することです。
これは、似たようなポーズの外観のバリエーションと異なるポーズ間の類似性のため、重要なタスクです。
代わりに、2 つのポーズを推定するよりも比較する方が簡単であるという重要なアイデアに従います。
その目的のためにレンダリングと比較のアプローチが採用されてきましたが、これらは不安定で、計算コストが高く、リアルタイム アプリケーションでは遅くなる傾向があります。
ダイナミック マージンと連続ポーズ ラベル空間を備えた対照的損失を使用してアライメント メトリックを学習することにより、カテゴリ レベルのポーズ推定を行うことを提案します。
効率的な推論のために、埋め込み空間に投影されたレンダリングの参照セットを使用した単純なリアルタイム画像検索スキームを使用します。
現実世界の条件に対するロバスト性を実現するために、合成オクルージョン、バウンディング ボックスの摂動、および外観の増強を採用しています。
当社のアプローチは、PASCAL3D および OccludedPASCAL3D で最先端のパフォーマンスを実現し、KITTI3D で高品質の結果を実現します。

要約(オリジナル)

Pose estimation is usually tackled as either a bin classification problem or as a regression problem. In both cases, the idea is to directly predict the pose of an object. This is a non-trivial task because of appearance variations of similar poses and similarities between different poses. Instead, we follow the key idea that it is easier to compare two poses than to estimate them. Render-and-compare approaches have been employed to that end, however, they tend to be unstable, computationally expensive, and slow for real-time applications. We propose doing category-level pose estimation by learning an alignment metric using a contrastive loss with a dynamic margin and a continuous pose-label space. For efficient inference, we use a simple real-time image retrieval scheme with a reference set of renderings projected to an embedding space. To achieve robustness to real-world conditions, we employ synthetic occlusions, bounding box perturbations, and appearance augmentations. Our approach achieves state-of-the-art performance on PASCAL3D and OccludedPASCAL3D, as well as high-quality results on KITTI3D.

arxiv情報

著者 Georgios Kouros,Shubham Shrivastava,Cédric Picron,Sushruth Nagesh,Punarjay Chakravarty,Tinne Tuytelaars
発行日 2022-08-16 13:35:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.4.8 パーマリンク