OmDet: Large-scale vision-language multi-dataset pre-training with multimodal detection network

要約

オープンボキャブラリーおよびオープンワールドシナリオにおけるオブジェクト検出 (OD) の進歩は、コンピューター ビジョンにおける重要な課題です。
この研究では、新しい言語対応物体検出アーキテクチャである OmDet と、継続的な学習と複数のデータセットの視覚言語の事前トレーニングを利用する革新的なトレーニング メカニズムを紹介します。
OmDet は自然言語を普遍的な知識表現として活用し、多様なデータセットから「視覚語彙」を蓄積し、タスクを言語条件付き検出フレームワークとして統合します。
当社のマルチモーダル検出ネットワーク (MDN) は、マルチデータセットの共同トレーニングの課題を克服し、手動でラベル分類を結合することなく多数のトレーニング データセットに一般化します。
私たちは、野外での物体検出、オープンな語彙検出、およびフレーズグラウンディングにおいて強力なベースラインを超える OmDet の優れたパフォーマンスを実証し、最先端の結果を達成しました。
アブレーション研究では、トレーニング前の視覚語彙のスケーリングの影響が明らかになり、より大規模なデータセットへのさらなる拡張に向けた有望な方向性が示されています。
当社のディープ フュージョン アプローチの有効性は、複数のデータセットから共同で学習し、知識の共有を通じてパフォーマンスを向上させる機能によって強調されます。

要約(オリジナル)

The advancement of object detection (OD) in open-vocabulary and open-world scenarios is a critical challenge in computer vision. This work introduces OmDet, a novel language-aware object detection architecture, and an innovative training mechanism that harnesses continual learning and multi-dataset vision-language pre-training. Leveraging natural language as a universal knowledge representation, OmDet accumulates a ‘visual vocabulary’ from diverse datasets, unifying the task as a language-conditioned detection framework. Our multimodal detection network (MDN) overcomes the challenges of multi-dataset joint training and generalizes to numerous training datasets without manual label taxonomy merging. We demonstrate superior performance of OmDet over strong baselines in object detection in the wild, open-vocabulary detection, and phrase grounding, achieving state-of-the-art results. Ablation studies reveal the impact of scaling the pre-training visual vocabulary, indicating a promising direction for further expansion to larger datasets. The effectiveness of our deep fusion approach is underscored by its ability to learn jointly from multiple datasets, enhancing performance through knowledge sharing.

arxiv情報

著者 Tiancheng Zhao,Peng Liu,Kyusong Lee
発行日 2024-02-25 23:39:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク