Generating Features with Increased Crop-related Diversity for Few-Shot Object Detection

要約

タイトル:少数派オブジェクト検出のために穀物関連多様性を高めた特徴量の生成

要約:

– 二段階オブジェクト検出器はオブジェクトの提案を生成し、それらを分類して画像内のオブジェクトを検出する。これらの提案には、オブジェクトを完璧に含むわけではなく、多くの可能な方法でオーバーラップするため、提案の難易度に大きな変動がある。
– このクロップ関連の変動に対して堅牢な分類器をトレーニングするには、少数派設定では利用可能な豊富なトレーニングデータが必要であるが、それが存在しない場合がある。この問題を緩和するために、穀物関連の多様性を高めたデータ生成モデルを提案する。
– 主なアイデアは、潜在空間を変換することで、異なる正規化を示す潜在コードが異なるクロップ関連の変動を表現し、潜在ノルムを単純に変化させることで難易度レベルが上がる多様な特徴を生成できることである。
– 特に、各潜在コードはリスケールされ、そのノルムは入力クロップに対するグラウンドトゥルースボックスのIoUスコアと線形相関するようになっている。ここで、IoUスコアはクロップの難易度レベルを表すプロキシである。
– このVAEモデルを、各クラスの意味コードに従ってベースクラスでトレーニングし、トレーニング済みモデルを使用して新しいクラスの特徴を生成する方法を提案する。
– 実験では、提案手法により、PASCAL VOCおよびMS COCOデータセットで現在の最先端の少数派オブジェクト検出手法よりも良好な結果が得られた。

要約(オリジナル)

Two-stage object detectors generate object proposals and classify them to detect objects in images. These proposals often do not contain the objects perfectly but overlap with them in many possible ways, exhibiting great variability in the difficulty levels of the proposals. Training a robust classifier against this crop-related variability requires abundant training data, which is not available in few-shot settings. To mitigate this issue, we propose a novel variational autoencoder (VAE) based data generation model, which is capable of generating data with increased crop-related diversity. The main idea is to transform the latent space such latent codes with different norms represent different crop-related variations. This allows us to generate features with increased crop-related diversity in difficulty levels by simply varying the latent norm. In particular, each latent code is rescaled such that its norm linearly correlates with the IoU score of the input crop w.r.t. the ground-truth box. Here the IoU score is a proxy that represents the difficulty level of the crop. We train this VAE model on base classes conditioned on the semantic code of each class and then use the trained model to generate features for novel classes. In our experiments our generated features consistently improve state-of-the-art few-shot object detection methods on the PASCAL VOC and MS COCO datasets.

arxiv情報

著者 Jingyi Xu,Hieu Le,Dimitris Samaras
発行日 2023-04-11 09:47:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク