Proper Reuse of Image Classification Features Improves Object Detection

要約

転移学習の一般的な方法は、データが豊富な上流タスクで事前トレーニングを行うことにより、下流モデルの重みを初期化することです。
特にオブジェクト検出では、機能バックボーンは通常、Imagenet分類器の重みで初期化され、オブジェクト検出タスクで微調整されます。
最近の研究は、これがより長いトレーニング体制の下で厳密に必要ではないことを示しており、バックボーンを最初からトレーニングするためのレシピを提供しています。
このエンドツーエンドのトレーニングトレンドの反対方向を調査します。極端な形式の知識保存(分類器で初期化されたバックボーンを凍結する)が一貫して多くの異なる検出モデルを改善し、大幅なリソース節約につながることを示します。
残りの検出器コンポーネントの容量と構造が、凍結されたバックボーンを活用する上で重要な要素であるという仮説を立て、実験的に裏付けます。
私たちの調査結果の即時の適用には、ロングテールオブジェクトクラスの検出や、より少ない計算リソースへのアクセスで研究者がフィールドにアクセスしやすくすることに貢献する計算およびメモリリソースの節約などのハードケースのパフォーマンスの向上が含まれます。

要約(オリジナル)

A common practice in transfer learning is to initialize the downstream model weights by pre-training on a data-abundant upstream task. In object detection specifically, the feature backbone is typically initialized with Imagenet classifier weights and fine-tuned on the object detection task. Recent works show this is not strictly necessary under longer training regimes and provide recipes for training the backbone from scratch. We investigate the opposite direction of this end-to-end training trend: we show that an extreme form of knowledge preservation — freezing the classifier-initialized backbone — consistently improves many different detection models, and leads to considerable resource savings. We hypothesize and corroborate experimentally that the remaining detector components capacity and structure is a crucial factor in leveraging the frozen backbone. Immediate applications of our findings include performance improvements on hard cases like detection of long-tail object classes and computational and memory resource savings that contribute to making the field more accessible to researchers with access to fewer computational resources.

arxiv情報

著者 Cristina Vasconcelos,Vighnesh Birodkar,Vincent Dumoulin
発行日 2022-06-27 17:28:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク