Rethinking Few-Shot Object Detection on a Multi-Domain Benchmark

要約

数ショットオブジェクト検出(FSOD)に関する既存の作業のほとんどは、事前トレーニングと数ショット学習データセットの両方が同様のドメインからのものである設定に焦点を合わせています。
ただし、複数のドメインでは、数ショットのアルゴリズムが重要です。
したがって、評価は幅広いアプリケーションを反映する必要があります。
FSODアルゴリズムを評価するために、幅広いドメインからの10個のデータセットで構成されるMulti-dOmain Few-Shot Object Detection(MoFSOD)ベンチマークを提案します。
凍結レイヤー、さまざまなアーキテクチャ、さまざまな事前トレーニングデータセットがFSODのパフォーマンスに与える影響を包括的に分析します。
私たちの経験的結果は、以前の研究では調査されていないいくつかの重要な要因を示しています:1)以前の信念に反して、マルチドメインベンチマークでは、微調整(FT)はFSODの強力なベースラインであり、同等以上のパフォーマンスを発揮します。
最先端の(SOTA)アルゴリズム。
2)ベースラインとしてFTを利用すると、複数のアーキテクチャを探索できます。同様の事前トレーニングパフォーマンスを使用しても、それらがダウンストリームの少数ショットタスクに大きな影響を与えることがわかりました。
3)事前トレーニングと数ショット学習を分離することにより、MoFSODを使用すると、さまざまな事前トレーニングデータセットの影響を調査でき、正しい選択により、ダウンストリームタスクのパフォーマンスを大幅に向上させることができます。
これらの調査結果に基づいて、FSODパフォーマンスを改善するための調査の可能な方法をリストし、MoFSODベンチマークでSOTAパフォーマンスにつながる既存のアルゴリズムへの2つの簡単な変更を提案します。
コードはhttps://github.com/amazon-research/few-shot-object-detection-benchmarkで入手できます。

要約(オリジナル)

Most existing works on few-shot object detection (FSOD) focus on a setting where both pre-training and few-shot learning datasets are from a similar domain. However, few-shot algorithms are important in multiple domains; hence evaluation needs to reflect the broad applications. We propose a Multi-dOmain Few-Shot Object Detection (MoFSOD) benchmark consisting of 10 datasets from a wide range of domains to evaluate FSOD algorithms. We comprehensively analyze the impacts of freezing layers, different architectures, and different pre-training datasets on FSOD performance. Our empirical results show several key factors that have not been explored in previous works: 1) contrary to previous belief, on a multi-domain benchmark, fine-tuning (FT) is a strong baseline for FSOD, performing on par or better than the state-of-the-art (SOTA) algorithms; 2) utilizing FT as the baseline allows us to explore multiple architectures, and we found them to have a significant impact on down-stream few-shot tasks, even with similar pre-training performances; 3) by decoupling pre-training and few-shot learning, MoFSOD allows us to explore the impact of different pre-training datasets, and the right choice can boost the performance of the down-stream tasks significantly. Based on these findings, we list possible avenues of investigation for improving FSOD performance and propose two simple modifications to existing algorithms that lead to SOTA performance on the MoFSOD benchmark. The code is available at https://github.com/amazon-research/few-shot-object-detection-benchmark.

arxiv情報

著者 Kibok Lee,Hao Yang,Satyaki Chakraborty,Zhaowei Cai,Gurumurthy Swaminathan,Avinash Ravichandran,Onkar Dabeer
発行日 2022-07-22 16:13:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク