要約
ファウンデーション モデル (FM) はコンピューター ビジョンに革命をもたらし、さまざまなドメインにわたる効果的な学習を可能にします。
ただし、ドメイン移行時のパフォーマンスはまだ十分に解明されていません。
この論文では、さまざまなバックボーン アーキテクチャを比較し、ドメイン関連のテキスト埋め込みを活用する新しいドメイン対応コンポーネントを導入することにより、FM のゼロショット ドメイン適応の可能性を調査します。
私たちは、Domino と呼ばれるドメイン適応型正規化を提案します。これは、微調整中にドメインの埋め込みを明示的に活用し、モデルをドメインに対応させます。
最終的に、Domino は、さまざまな目に見えない領域に効果的に適応できる、より堅牢なコンピューター ビジョン モデルを実現します。
要約(オリジナル)
Foundation models (FMs) have revolutionized computer vision, enabling effective learning across different domains. However, their performance under domain shift is yet underexplored. This paper investigates the zero-shot domain adaptation potential of FMs by comparing different backbone architectures and introducing novel domain-aware components that leverage domain related textual embeddings. We propose domain adaptive normalization, termed as Domino, which explicitly leverages domain embeddings during fine-tuning, thus making the model domain aware. Ultimately, Domino enables more robust computer vision models that can adapt effectively to various unseen domains.
arxiv情報
著者 | Ugur Ali Kaplan,Margret Keuper,Anna Khoreva,Dan Zhang,Yumeng Li |
発行日 | 2024-07-10 13:27:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google