CerberusDet: Unified Multi-Task Object Detection


オブジェクトの検出は、コンピューター ビジョンの中核となるタスクです。
ただし、これらの従来のモデルは、通常、トレーニングの対象となったデータと、モデルが定義するカテゴリ ロジックによって制限されます。
このペーパーでは、複数の物体検出タスクを処理するために設計されたマルチヘッド モデルを備えたフレームワークである CerberusDet を紹介します。
提案されたモデルは YOLO アーキテクチャに基づいて構築されており、別々のタスクヘッドを維持しながら、バックボーンとネックの両方のコンポーネントの視覚的特徴を効率的に共有します。
このアプローチにより、CerberusDet は最適な結果を提供しながら非常に効率的に実行できるようになります。
PASCAL VOC データセットと Objects365 データセットの追加カテゴリに基づいてモデルを評価し、その機能を実証しました。
CerberusDet は、推論時間を 36% 短縮しながら、最先端のデータ固有モデルと同等の結果を達成しました。
トレーニング コードと推論コード、およびモデルは、オープンソースとして入手できます (https://github.com/ai-forever/CerberusDet)。


Object detection is a core task in computer vision. Over the years, the development of numerous models has significantly enhanced performance. However, these conventional models are usually limited by the data on which they were trained and by the category logic they define. With the recent rise of Language-Visual Models, new methods have emerged that are not restricted to these fixed categories. Despite their flexibility, such Open Vocabulary detection models still fall short in accuracy compared to traditional models with fixed classes. At the same time, more accurate data-specific models face challenges when there is a need to extend classes or merge different datasets for training. The latter often cannot be combined due to different logics or conflicting class definitions, making it difficult to improve a model without compromising its performance. In this paper, we introduce CerberusDet, a framework with a multi-headed model designed for handling multiple object detection tasks. Proposed model is built on the YOLO architecture and efficiently shares visual features from both backbone and neck components, while maintaining separate task heads. This approach allows CerberusDet to perform very efficiently while still delivering optimal results. We evaluated the model on the PASCAL VOC dataset and additional categories from the Objects365 dataset to demonstrate its abilities. CerberusDet achieved results comparable to state-of-the-art data-specific models with 36% less inference time. The more tasks are trained together, the more efficient the proposed model becomes compared to running individual models sequentially. The training and inference code, as well as the model, are available as open-source (https://github.com/ai-forever/CerberusDet).


著者 Irina Tolstykh,Mikhail Chernyshov,Maksim Kuprashevich
発行日 2024-07-17 15:00:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.2.0 パーマリンク