要約
少数のショットオブジェクト検出(FSOD)の目的は、トレーニングサンプルがほとんどない新しいオブジェクトを検出することです。
このタスクの中心的な課題は、学習検出モデルを未知のシナリオに適応できるベースカテゴリ空間に基づいて、データが限られているデータを持つ新しいカテゴリの一般化された機能空間を構築する方法です。
ただし、新しいカテゴリの不十分なサンプルによって制限されていますが、2つの問題がまだ存在します。(1)斬新なカテゴリの特徴は、ベースカテゴリの特徴によって容易に暗黙的に表現され、分離不可能な分類器境界につながります。
これらの問題に対処するために、特徴空間とサンプルの視点から導き出された否定的な影響を軽減するために副情報を導入し、FSODの新しい一般化された特徴表現学習方法を策定します。
具体的には、まず、埋め込みサイド情報を利用して知識マトリックスを構築して、ベースカテゴリと新しいカテゴリ間のセマンティック関係を定量化します。
次に、意味的に類似したカテゴリ間の差別を強化するために、副情報を埋め込むコンテキストセマンティックな監視された監視された対照学習をさらに開発します。
さらに、まばらなサンプルによって引き起こされる過剰適合の問題を防ぐために、サンプルの多様性を増強するために、副情報ガイド付き地域認識マスクモジュールが導入されます。サンプルの多様性は、反事実的な説明を介して同様のカテゴリを区別し、差別的表現空間をさらに洗練する偏った情報を見つけて放棄します。
Pascal VOC、MS Coco、LVIS V1、FSOD-1K、およびFSVOD-500ベンチマークでResNetおよびVITバックボーンを使用した広範な実験は、モデルが以前の最先端の方法を上回り、ほとんどのショット/スプリットでのFSODの能力を大幅に改善することを示しています。
要約(オリジナル)
The objective of few-shot object detection (FSOD) is to detect novel objects with few training samples. The core challenge of this task is how to construct a generalized feature space for novel categories with limited data on the basis of the base category space, which could adapt the learned detection model to unknown scenarios. However, limited by insufficient samples for novel categories, two issues still exist: (1) the features of the novel category are easily implicitly represented by the features of the base category, leading to inseparable classifier boundaries, (2) novel categories with fewer data are not enough to fully represent the distribution, where the model fine-tuning is prone to overfitting. To address these issues, we introduce the side information to alleviate the negative influences derived from the feature space and sample viewpoints and formulate a novel generalized feature representation learning method for FSOD. Specifically, we first utilize embedding side information to construct a knowledge matrix to quantify the semantic relationship between the base and novel categories. Then, to strengthen the discrimination between semantically similar categories, we further develop contextual semantic supervised contrastive learning which embeds side information. Furthermore, to prevent overfitting problems caused by sparse samples, a side-information guided region-aware masked module is introduced to augment the diversity of samples, which finds and abandons biased information that discriminates between similar categories via counterfactual explanation, and refines the discriminative representation space further. Extensive experiments using ResNet and ViT backbones on PASCAL VOC, MS COCO, LVIS V1, FSOD-1K, and FSVOD-500 benchmarks demonstrate that our model outperforms the previous state-of-the-art methods, significantly improving the ability of FSOD in most shots/splits.
arxiv情報
著者 | Ruoyu Chen,Hua Zhang,Jingzhi Li,Li Liu,Zhen Huang,Xiaochun Cao |
発行日 | 2025-04-09 17:24:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google