DiffusionEngine: Diffusion Model is Scalable Data Engine for Object Detection

要約

データはディープラーニングの基礎です。
この論文では、最近開発された拡散モデルが物体検出のためのスケーラブルなデータ エンジンであることを明らかにしています。
検出指向のデータをスケールアップする既存の方法では、多くの場合、ターゲット画像を取得するために手動で収集または生成モデルを必要とし、その後、トレーニング ペアを生成するためにデータの拡張とラベル付けが必要ですが、コストがかかり、複雑で、多様性に欠けています。
これらの問題に対処するために、単一ステージで高品質の検出指向のトレーニング ペアを提供するデータ スケールアップ エンジンである DiffusionEngine (DE) を紹介します。
DE は、事前トレーニングされた拡散モデルと効果的な検出アダプターで構成され、プラグ アンド プレイ方式でスケーラブルで多様かつ一般化可能な検出データの生成に貢献します。
検出アダプターは、既製の拡散モデルの暗黙的な意味論と位置の知識を検出対応信号と調整して、より適切な境界ボックス予測を行うように学習されます。
さらに、追跡調査を促進するために既存の検出ベンチマークをスケールアップするために、COCO-DE と VOC-DE という 2 つのデータセットを提供しています。
広範な実験により、DE によるデータのスケールアップが、さまざまな検出アルゴリズム、自己教師あり事前トレーニング、データ疎、ラベル不足、クロスドメイン、半教師あり学習などのさまざまなシナリオで大幅な改善を達成できることが実証されています。
たとえば、DE と DINO ベースのアダプターを使用してデータをスケールアップすると、mAP は COCO で 3.1%、VOC で 7.6%、Clipart で 11.5% 向上します。

要約(オリジナル)

Data is the cornerstone of deep learning. This paper reveals that the recently developed Diffusion Model is a scalable data engine for object detection. Existing methods for scaling up detection-oriented data often require manual collection or generative models to obtain target images, followed by data augmentation and labeling to produce training pairs, which are costly, complex, or lacking diversity. To address these issues, we presentDiffusionEngine (DE), a data scaling-up engine that provides high-quality detection-oriented training pairs in a single stage. DE consists of a pre-trained diffusion model and an effective Detection-Adapter, contributing to generating scalable, diverse and generalizable detection data in a plug-and-play manner. Detection-Adapter is learned to align the implicit semantic and location knowledge in off-the-shelf diffusion models with detection-aware signals to make better bounding-box predictions. Additionally, we contribute two datasets, i.e., COCO-DE and VOC-DE, to scale up existing detection benchmarks for facilitating follow-up research. Extensive experiments demonstrate that data scaling-up via DE can achieve significant improvements in diverse scenarios, such as various detection algorithms, self-supervised pre-training, data-sparse, label-scarce, cross-domain, and semi-supervised learning. For example, when using DE with a DINO-based adapter to scale up data, mAP is improved by 3.1% on COCO, 7.6% on VOC, and 11.5% on Clipart.

arxiv情報

著者 Manlin Zhang,Jie Wu,Yuxi Ren,Ming Li,Jie Qin,Xuefeng Xiao,Wei Liu,Rui Wang,Min Zheng,Andy J. Ma
発行日 2023-09-07 17:55:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク