Domain-Aware Fine-Tuning of Foundation Models


ファウンデーション モデル (FM) はコンピューター ビジョンに革命をもたらし、さまざまなドメインにわたる効果的な学習を可能にします。
この論文では、さまざまなバックボーン アーキテクチャを比較し、ドメイン関連のテキスト埋め込みを活用する新しいドメイン対応コンポーネントを導入することにより、FM のゼロショット ドメイン適応の可能性を調査します。
私たちは、Domino と呼ばれるドメイン適応型正規化を提案します。これは、微調整中にドメインの埋め込みを明示的に活用し、モデルをドメインに対応させます。
最終的に、Domino は、さまざまな目に見えない領域に効果的に適応できる、より堅牢なコンピューター ビジョン モデルを実現します。


Foundation models (FMs) have revolutionized computer vision, enabling effective learning across different domains. However, their performance under domain shift is yet underexplored. This paper investigates the zero-shot domain adaptation potential of FMs by comparing different backbone architectures and introducing novel domain-aware components that leverage domain related textual embeddings. We propose domain adaptive normalization, termed as Domino, which explicitly leverages domain embeddings during fine-tuning, thus making the model domain aware. Ultimately, Domino enables more robust computer vision models that can adapt effectively to various unseen domains.


著者 Ugur Ali Kaplan,Margret Keuper,Anna Khoreva,Dan Zhang,Yumeng Li
発行日 2024-07-10 13:27:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク