要約
大規模なベンチマークで事前トレーニングされたビジュアル モデルは一般的な知識をエンコードし、下流のタスクのためのより強力な表現を構築するのに効果的であることが証明されています。
既存のアプローチのほとんどは、事前トレーニングされたモデルに基づいて下流モデルを初期化または正規化することにより、微調整パラダイムに従います。
前者は後続の微調整フェーズで知識を保持できないため、過剰適合になる傾向があり、後者はセマンティック ドリフトを考慮せずに下流モデルの重みまたは特徴マップに強い制約を課すため、最適化が不十分になることがよくあります。
これらの問題に対処するために、我々は新しい微調整フレームワーク、すなわちセマンティックキャリブレーションを伴う分布正則化 (DR-Tune) を提案します。
これは、ダウンストリーム タスク ヘッドに事前トレーニングされた特徴分布の分類誤差を減らすことを強制することで分布正則化を採用し、ダウンストリーム エンコーダーの十分なトレーニングを可能にしながらオーバーフィットを防止します。
さらに、セマンティック ドリフトによる干渉を軽減するために、事前トレーニング済みおよび下流の特徴量分布のグローバルな形状とクラス センターを調整するためのセマンティック キャリブレーション (SC) モジュールを開発しました。
広く使用されている画像分類データセットに関する広範な実験により、DR-Tune がさまざまな事前トレーニング戦略の下でさまざまなバックボーンと組み合わせた場合にパフォーマンスが一貫して向上することが示されています。
コードは https://github.com/weeknan/DR-Tune で入手できます。
要約(オリジナル)
The visual models pretrained on large-scale benchmarks encode general knowledge and prove effective in building more powerful representations for downstream tasks. Most existing approaches follow the fine-tuning paradigm, either by initializing or regularizing the downstream model based on the pretrained one. The former fails to retain the knowledge in the successive fine-tuning phase, thereby prone to be over-fitting, and the latter imposes strong constraints to the weights or feature maps of the downstream model without considering semantic drift, often incurring insufficient optimization. To deal with these issues, we propose a novel fine-tuning framework, namely distribution regularization with semantic calibration (DR-Tune). It employs distribution regularization by enforcing the downstream task head to decrease its classification error on the pretrained feature distribution, which prevents it from over-fitting while enabling sufficient training of downstream encoders. Furthermore, to alleviate the interference by semantic drift, we develop the semantic calibration (SC) module to align the global shape and class centers of the pretrained and downstream feature distributions. Extensive experiments on widely used image classification datasets show that DR-Tune consistently improves the performance when combing with various backbones under different pretraining strategies. Code is available at: https://github.com/weeknan/DR-Tune.
arxiv情報
著者 | Nan Zhou,Jiaxin Chen,Di Huang |
発行日 | 2023-08-23 10:59:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google