CerberusDet: Unified Multi-Task Object Detection

要約

オブジェクトの検出は、コンピューター ビジョンの中核となるタスクです。
長年にわたり、数多くのモデルが開発され、性能が大幅に向上してきました。
ただし、これらの従来のモデルは、通常、トレーニングの対象となったデータと、モデルが定義するカテゴリ ロジックによって制限されます。
最近の言語視覚モデルの台頭により、これらの固定カテゴリーに限定されない新しい手法が登場しました。
このようなオープンボキャブラリ検出モデルは、その柔軟性にもかかわらず、クラスが固定された従来のモデルと比較すると精度がまだ不十分です。
同時に、より正確なデータ固有のモデルは、クラスを拡張したり、トレーニングのために異なるデータセットを結合したりする必要がある場合に課題に直面します。
後者は、異なるロジックや競合するクラス定義のために組み合わせることができないことが多く、パフォーマンスを損なうことなくモデルを改善することが困難になります。
このペーパーでは、複数の物体検出タスクを処理するために設計されたマルチヘッド モデルを備えたフレームワークである CerberusDet を紹介します。
提案されたモデルは YOLO アーキテクチャに基づいて構築されており、別々のタスクヘッドを維持しながら、バックボーンとネックの両方のコンポーネントの視覚的特徴を効率的に共有します。
このアプローチにより、CerberusDet は最適な結果を提供しながら非常に効率的に実行できるようになります。
PASCAL VOC データセットと Objects365 データセットの追加カテゴリに基づいてモデルを評価し、その機能を実証しました。
CerberusDet は、推論時間を 36% 短縮しながら、最先端のデータ固有モデルと同等の結果を達成しました。
一緒にトレーニングされるタスクが多いほど、個々のモデルを順番に実行する場合と比較して、提案されたモデルの効率が高くなります。
トレーニング コードと推論コード、およびモデルは、オープンソースとして入手できます (https://github.com/ai-forever/CerberusDet)。

要約(オリジナル)

Object detection is a core task in computer vision. Over the years, the development of numerous models has significantly enhanced performance. However, these conventional models are usually limited by the data on which they were trained and by the category logic they define. With the recent rise of Language-Visual Models, new methods have emerged that are not restricted to these fixed categories. Despite their flexibility, such Open Vocabulary detection models still fall short in accuracy compared to traditional models with fixed classes. At the same time, more accurate data-specific models face challenges when there is a need to extend classes or merge different datasets for training. The latter often cannot be combined due to different logics or conflicting class definitions, making it difficult to improve a model without compromising its performance. In this paper, we introduce CerberusDet, a framework with a multi-headed model designed for handling multiple object detection tasks. Proposed model is built on the YOLO architecture and efficiently shares visual features from both backbone and neck components, while maintaining separate task heads. This approach allows CerberusDet to perform very efficiently while still delivering optimal results. We evaluated the model on the PASCAL VOC dataset and additional categories from the Objects365 dataset to demonstrate its abilities. CerberusDet achieved results comparable to state-of-the-art data-specific models with 36% less inference time. The more tasks are trained together, the more efficient the proposed model becomes compared to running individual models sequentially. The training and inference code, as well as the model, are available as open-source (https://github.com/ai-forever/CerberusDet).

arxiv情報

著者 Irina Tolstykh,Mikhail Chernyshov,Maksim Kuprashevich
発行日 2024-07-17 15:00:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.2.0 パーマリンク