要約
オープン語彙の検出は、トレーニング中に遭遇しなかったものも含め、クラス名に基づいてオブジェクトを検出する必要があるため、困難なタスクです。
既存の手法は、さまざまな大規模データセットでの事前トレーニングを通じて、強力なゼロショット検出機能を示しています。
しかし、これらのアプローチは依然として 2 つの主要な課題に直面しています。(i) エンドツーエンドのトレーニング用に多様なデータ ソースを普遍的に統合する方法、(ii) 地域レベルのクロスモダリティを理解するために言語対応機能を効果的に活用する方法。
これらの課題に対処するために、私たちは OV-DINO と呼ばれる新しい統合オープン語彙検出方法を提案します。これは、統一フレームワークで言語を意識した選択的融合を使用して、多様な大規模データセットで事前トレーニングします。
具体的には、統合データ統合 (UniDI) パイプラインを導入し、さまざまなデータ ソースを検出中心のデータに統合することで、エンドツーエンドのトレーニングを可能にし、擬似ラベル生成によるノイズを排除します。
さらに、言語を意識したクエリ選択と融合プロセスを通じてモデルの言語を認識する機能を有効にする、Language-Aware Selective Fusion (LASF) モジュールを提案します。
一般的なオープン語彙検出ベンチマーク データセットで提案された OV-DINO のパフォーマンスを評価し、ゼロで COCO データセットで 50.6\%、LVIS データセットで 40.0\% の AP という最先端の結果を達成しました。
-ショットの方法で、その強力な汎化能力を示します。
さらに、COCO で微調整された OV-DINO は 58.4\% AP を達成し、同じバックボーンを持つ多くの既存の方法を上回ります。
OV-DINO のコードは \href{https://github.com/wanghao9610/OV-DINO}{https://github.com/wanghao9610/OV-DINO} で入手できます。
要約(オリジナル)
Open-vocabulary detection is a challenging task due to the requirement of detecting objects based on class names, including those not encountered during training. Existing methods have shown strong zero-shot detection capabilities through pre-training on diverse large-scale datasets. However, these approaches still face two primary challenges: (i) how to universally integrate diverse data sources for end-to-end training, and (ii) how to effectively leverage the language-aware capability for region-level cross-modality understanding. To address these challenges, we propose a novel unified open-vocabulary detection method called OV-DINO, which pre-trains on diverse large-scale datasets with language-aware selective fusion in a unified framework. Specifically, we introduce a Unified Data Integration (UniDI) pipeline to enable end-to-end training and eliminate noise from pseudo-label generation by unifying different data sources into detection-centric data. In addition, we propose a Language-Aware Selective Fusion (LASF) module to enable the language-aware ability of the model through a language-aware query selection and fusion process. We evaluate the performance of the proposed OV-DINO on popular open-vocabulary detection benchmark datasets, achieving state-of-the-art results with an AP of 50.6\% on the COCO dataset and 40.0\% on the LVIS dataset in a zero-shot manner, demonstrating its strong generalization ability. Furthermore, the fine-tuned OV-DINO on COCO achieves 58.4\% AP, outperforming many existing methods with the same backbone. The code for OV-DINO will be available at \href{https://github.com/wanghao9610/OV-DINO}{https://github.com/wanghao9610/OV-DINO}.
arxiv情報
著者 | Hao Wang,Pengzhen Ren,Zequn Jie,Xiao Dong,Chengjian Feng,Yinlong Qian,Lin Ma,Dongmei Jiang,Yaowei Wang,Xiangyuan Lan,Xiaodan Liang |
発行日 | 2024-07-10 17:05:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google