Frozen-DETR: Enhancing DETR with Image Understanding from Frozen Foundation Models

要約

最近の視覚基盤モデルは、普遍的な表現を抽出し、さまざまなタスクで優れた能力を発揮できます。
しかし、物体検出への応用は、特に微調整が行われないまま、ほとんど見落とされています。
この研究では、凍結基礎モデルが、物体検出用に事前トレーニングされていない場合でも、多用途の機能拡張機能となり得ることを示します。
具体的には、次の 2 つの方法で、基礎モデルの高レベルの画像理解を直接検出器に転送することを検討します。
まず、基礎モデルのクラス トークンにより、複雑なシーンを深く理解できるようになり、コンパクトなコンテキストが提供されるため、検出器のデコーダーでのオブジェクト クエリのデコードが容易になります。
さらに、基盤モデルのパッチ トークンは、セマンティックの詳細を提供することで、検出器のエンコーダーの機能を強化できます。
一般的に使用されるバックボーンではなく、凍結された基礎モデルをプラグアンドプレイ モジュールとして利用すると、検出器のバックボーンと基礎モデルの間のアーキテクチャの不一致によって引き起こされる問題を防ぎながら、検出器のパフォーマンスを大幅に向上させることができます。
このような新しいパラダイムにより、それぞれ 1 つまたは 2 つの基礎モデルを統合することで、SOTA クエリベースの検出器 DINO の AP を 49.0% AP から 51.9% AP (+2.9% AP)、さらに 53.8% AP (+4.8% AP) に向上させました。
検出器のバックボーンとして R50 を使用して 12 エポックのトレーニングを行った後の COCO 検証セットでの結果。

要約(オリジナル)

Recent vision foundation models can extract universal representations and show impressive abilities in various tasks. However, their application on object detection is largely overlooked, especially without fine-tuning them. In this work, we show that frozen foundation models can be a versatile feature enhancer, even though they are not pre-trained for object detection. Specifically, we explore directly transferring the high-level image understanding of foundation models to detectors in the following two ways. First, the class token in foundation models provides an in-depth understanding of the complex scene, which facilitates decoding object queries in the detector’s decoder by providing a compact context. Additionally, the patch tokens in foundation models can enrich the features in the detector’s encoder by providing semantic details. Utilizing frozen foundation models as plug-and-play modules rather than the commonly used backbone can significantly enhance the detector’s performance while preventing the problems caused by the architecture discrepancy between the detector’s backbone and the foundation model. With such a novel paradigm, we boost the SOTA query-based detector DINO from 49.0% AP to 51.9% AP (+2.9% AP) and further to 53.8% AP (+4.8% AP) by integrating one or two foundation models respectively, on the COCO validation set after training for 12 epochs with R50 as the detector’s backbone.

arxiv情報

著者 Shenghao Fu,Junkai Yan,Qize Yang,Xihan Wei,Xiaohua Xie,Wei-Shi Zheng
発行日 2024-10-25 15:38:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク