Few-Shot Object Detection and Viewpoint Estimation for Objects in the Wild

要約

画像内のオブジェクトを検出し、それらの視点を推定することは、3D シーンを理解するための重要なタスクです。
最近のアプローチは、オブジェクト検出と視点推定の非常に大規模なベンチマークで優れた結果を達成しています。
ただし、サンプル数が少ない新しいオブジェクト カテゴリのパフォーマンスは依然として遅れをとっています。
この論文では、少数ショットのオブジェクト検出と少数ショットの視点推定の問題に取り組みます。
両方のタスクで、さまざまなモダリティのデータから抽出されたクラス代表機能を使用してネットワーク予測を導く利点を示します。オブジェクト検出用の画像パッチと、視点推定用の整列 3D モデルです。
その単純さにもかかわらず、私たちの方法は、数ショットのオブジェクト検出のための PASCAL と COCO、および少数ショットの視点推定のための Pascal3D+ と ObjectNet3D を含む、さまざまなデータセットで最先端の方法よりも大幅に優れています。
さらに、3D モデルが利用できない場合は、幾何学的類似性と異なるクラス間での一貫したポーズ ラベル付けを利用することにより、単純なカテゴリに依存しない視点推定方法を導入します。
パフォーマンスは多少低下しますが、この設定では以前の方法よりも優れた結果が得られます。
最後に、私たちは初めて、ObjectNet3D、Pascal3D+、および Pix3D という実際の視点推定のための 3 つの挑戦的なベンチマークで、両方の少数ショット タスクの組み合わせに取り組み、非常に有望な結果を示しました。

要約(オリジナル)

Detecting objects and estimating their viewpoints in images are key tasks of 3D scene understanding. Recent approaches have achieved excellent results on very large benchmarks for object detection and viewpoint estimation. However, performances are still lagging behind for novel object categories with few samples. In this paper, we tackle the problems of few-shot object detection and few-shot viewpoint estimation. We demonstrate on both tasks the benefits of guiding the network prediction with class-representative features extracted from data in different modalities: image patches for object detection, and aligned 3D models for viewpoint estimation. Despite its simplicity, our method outperforms state-of-the-art methods by a large margin on a range of datasets, including PASCAL and COCO for few-shot object detection, and Pascal3D+ and ObjectNet3D for few-shot viewpoint estimation. Furthermore, when the 3D model is not available, we introduce a simple category-agnostic viewpoint estimation method by exploiting geometrical similarities and consistent pose labelling across different classes. While it moderately reduces performance, this approach still obtains better results than previous methods in this setting. Last, for the first time, we tackle the combination of both few-shot tasks, on three challenging benchmarks for viewpoint estimation in the wild, ObjectNet3D, Pascal3D+ and Pix3D, showing very promising results.

arxiv情報

著者 Yang Xiao,Vincent Lepetit,Renaud Marlet
発行日 2022-10-12 14:46:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク