要約
F-VLM は、Frozen Vision および言語モデルに基づいて構築された単純なオープン語彙オブジェクト検出方法です。
F-VLM は、知識の蒸留や検出に合わせた事前トレーニングの必要性を排除することで、現在のマルチステージ トレーニング パイプラインを簡素化します。
驚くべきことに、凍結された VLM は、1) 検出に必要な局所性に敏感な特徴を保持し、2) 強力な領域分類子であることがわかります。
検出器ヘッドのみを微調整し、推論時に各領域の検出器と VLM 出力を組み合わせます。
F-VLM は魅力的なスケーリング動作を示し、LVIS オープン語彙検出ベンチマークの新しいカテゴリで、以前の最先端技術よりも +6.5 マスク AP の改善を達成しています。
さらに、大幅なトレーニングの高速化と計算の節約に加えて、COCO オープン語彙検出ベンチマークとクロスデータセット転送検出で非常に競争力のある結果を示しています。
コードが公開されます。
要約(オリジナル)
We present F-VLM, a simple open-vocabulary object detection method built upon Frozen Vision and Language Models. F-VLM simplifies the current multi-stage training pipeline by eliminating the need for knowledge distillation or detection-tailored pretraining. Surprisingly, we observe that a frozen VLM: 1) retains the locality-sensitive features necessary for detection, and 2) is a strong region classifier. We finetune only the detector head and combine the detector and VLM outputs for each region at inference time. F-VLM shows compelling scaling behavior and achieves +6.5 mask AP improvement over the previous state of the art on novel categories of LVIS open-vocabulary detection benchmark. In addition, we demonstrate very competitive results on COCO open-vocabulary detection benchmark and cross-dataset transfer detection, in addition to significant training speed-up and compute savings. Code will be released.
arxiv情報
著者 | Weicheng Kuo,Yin Cui,Xiuye Gu,AJ Piergiovanni,Anelia Angelova |
発行日 | 2022-09-30 17:59:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google