Category-Level Pose Retrieval with Contrastive Features Learnt with Occlusion Augmentation


代わりに、2 つのポーズを推定するよりも比較する方が簡単であるという重要なアイデアに従います。
その目的のためにレンダリングと比較のアプローチが採用されてきましたが、これらは不安定で、計算コストが高く、リアルタイム アプリケーションでは遅くなる傾向があります。
ダイナミック マージンと連続ポーズ ラベル空間を備えた対照的損失を使用してアライメント メトリックを学習することにより、カテゴリ レベルのポーズ推定を行うことを提案します。
現実世界の条件に対するロバスト性を実現するために、合成オクルージョン、バウンディング ボックスの摂動、および外観の増強を採用しています。
当社のアプローチは、PASCAL3D および OccludedPASCAL3D で最先端のパフォーマンスを実現し、KITTI3D で高品質の結果を実現します。


Pose estimation is usually tackled as either a bin classification problem or as a regression problem. In both cases, the idea is to directly predict the pose of an object. This is a non-trivial task because of appearance variations of similar poses and similarities between different poses. Instead, we follow the key idea that it is easier to compare two poses than to estimate them. Render-and-compare approaches have been employed to that end, however, they tend to be unstable, computationally expensive, and slow for real-time applications. We propose doing category-level pose estimation by learning an alignment metric using a contrastive loss with a dynamic margin and a continuous pose-label space. For efficient inference, we use a simple real-time image retrieval scheme with a reference set of renderings projected to an embedding space. To achieve robustness to real-world conditions, we employ synthetic occlusions, bounding box perturbations, and appearance augmentations. Our approach achieves state-of-the-art performance on PASCAL3D and OccludedPASCAL3D, as well as high-quality results on KITTI3D.


著者 Georgios Kouros,Shubham Shrivastava,Cédric Picron,Sushruth Nagesh,Punarjay Chakravarty,Tinne Tuytelaars
発行日 2022-08-16 13:35:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, I.4.8 パーマリンク