Proposal-Contrastive Pretraining for Object Detection from Fewer Data

要約

事前トレーニングされたディープ ニューラル ネットワークの使用は、利用可能なデータがほとんどなくても強力な結果を達成できる魅力的な方法です。
物体検出などの高密度の問題に特化した場合、画像内のグローバルな情報ではなくローカルな情報を学習する方が効率的であることが証明されています。
ただし、教師なし事前トレーニングの場合、一般的な対照学習では大きなバッチ サイズが必要となり、そのため多くのリソースが必要になります。
この問題に対処するために、私たちは、優れたパフォーマンスと多くの多様なオブジェクト提案を生成するという特殊性により、最近コミュニティで注目を集めているトランスベースのオブジェクト検出器に興味を持っています。
この研究では、この特性を活用した新しい教師なし全体事前トレーニング アプローチである提案選択コントラスト (ProSeCo) を紹介します。
ProSeCo は、検出器によって生成された多数のオブジェクト提案を対比学習に使用します。これにより、画像内の局所情報を学習するためのオブジェクトレベルの特徴と組み合わせて、より小さいバッチサイズの使用が可能になります。
コントラスト損失の有効性を向上させるために、複数の重複するオブジェクトの提案を考慮するために、肯定的な例の選択にオブジェクトの位置情報を導入します。
事前トレーニングされたバックボーンを再利用する場合、バックボーンと検出ヘッドの間でローカル情報を学習する際の一貫性を維持することを推奨します。
私たちの方法は、より少ないデータでの学習における標準および新しいベンチマークでの物体検出の教師なし事前トレーニングにおいて最先端のパフォーマンスを上回ることを示します。

要約(オリジナル)

The use of pretrained deep neural networks represents an attractive way to achieve strong results with few data available. When specialized in dense problems such as object detection, learning local rather than global information in images has proven to be more efficient. However, for unsupervised pretraining, the popular contrastive learning requires a large batch size and, therefore, a lot of resources. To address this problem, we are interested in transformer-based object detectors that have recently gained traction in the community with good performance and with the particularity of generating many diverse object proposals. In this work, we present Proposal Selection Contrast (ProSeCo), a novel unsupervised overall pretraining approach that leverages this property. ProSeCo uses the large number of object proposals generated by the detector for contrastive learning, which allows the use of a smaller batch size, combined with object-level features to learn local information in the images. To improve the effectiveness of the contrastive loss, we introduce the object location information in the selection of positive examples to take into account multiple overlapping object proposals. When reusing pretrained backbone, we advocate for consistency in learning local information between the backbone and the detection head. We show that our method outperforms state of the art in unsupervised pretraining for object detection on standard and novel benchmarks in learning with fewer data.

arxiv情報

著者 Quentin Bouniot,Romaric Audigier,Angélique Loesch,Amaury Habrard
発行日 2023-10-25 17:59:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク