FS-DETR: Few-Shot DEtection TRansformer with prompting and without re-training

要約

このホワイト ペーパーは、Few-Shot Object Detection (FSOD) に関するもので、新しいクラス (トレーニング中には見ら​​れない) を表すいくつかのテンプレート (例) が与えられた場合、目標は一連の画像内でその出現をすべて検出することです。
実用的な観点から、FSOD システムは次の要件を満たす必要があります。(a) テスト時に微調整を必要とせずにそのまま使用する必要がある、(b) 任意の数の新しいオブジェクトを同時に処理できなければならない
各クラスから任意の数の例をサポートしながら、(c) クローズド システムに匹敵する精度を達成する必要があります。
(a) をサポートするシステムは (比較的) 少ないですが、私たちの知る限り、(b) と (c) をサポートするシステムはありません。
この作業では、次の貢献を行います。必要性 (a) と (b) の両方に対処できる、シンプルでありながら強力な少数ショット検出トランスフォーマー (FS-DETR) を初めて導入します。
私たちのシステムは DETR フレームワークに基づいて構築され、次の 2 つの重要なアイデアに基づいて拡張されています。(1) テスト時に新しいクラスの提供されたビジュアル テンプレートをビジュアル プロンプトとしてフィードし、(2) これらのプロンプトに疑似クラスを「スタンプ」します。
埋め込みは、デコーダの出力で予測されます。
重要なことは、私たちのシステムが既存の方法よりも柔軟であるだけでなく、必要条件 (c) を満たすための一歩を踏み出し、より正確であり、現在の最先端技術に最もよく匹敵し、優れていることを示すことです。
-FSOD の確立されたベンチマーク (PASCAL VOC & MSCOCO)。
コードが利用可能になります。

要約(オリジナル)

This paper is on Few-Shot Object Detection (FSOD), where given a few templates (examples) depicting a novel class (not seen during training), the goal is to detect all of its occurrences within a set of images. From a practical perspective, an FSOD system must fulfil the following desiderata: (a) it must be used as is, without requiring any fine-tuning at test time, (b) it must be able to process an arbitrary number of novel objects concurrently while supporting an arbitrary number of examples from each class and (c) it must achieve accuracy comparable to a closed system. While there are (relatively) few systems that support (a), to our knowledge, there is no system supporting (b) and (c). In this work, we make the following contributions: We introduce, for the first time, a simple, yet powerful, few-shot detection transformer (FS-DETR) that can address both desiderata (a) and (b). Our system builds upon the DETR framework, extending it based on two key ideas: (1) feed the provided visual templates of the novel classes as visual prompts during test time, and (2) “stamp” these prompts with pseudo-class embeddings, which are then predicted at the output of the decoder. Importantly, we show that our system is not only more flexible than existing methods, but also, making a step towards satisfying desideratum (c), it is more accurate, matching and outperforming the current state-of-the-art on the most well-established benchmarks (PASCAL VOC & MSCOCO) for FSOD. Code will be made available.

arxiv情報

著者 Adrian Bulat,Ricardo Guerrero,Brais Martinez,Georgios Tzimiropoulos
発行日 2022-10-10 17:03:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク