Transitive Vision-Language Prompt Learning for Domain Generalization

要約

ビジョン言語の事前トレーニングにより、ディープ モデルは目に見えない領域全体での一般化において大きな前進を遂げることができました。
視覚言語事前トレーニング モデルに基づく最近の学習方法は、領域の一般化のための優れたツールであり、この問題を大幅に解決できます。
ただし、ドメインの不変性とクラスの分離性の間のトレードオフによって進歩が依然として損なわれるという問題がいくつかあり、これは現在の DG 問題において重要です。
ただし、ドメインの不変性とクラスの分離性の間のトレードオフによって進歩が依然として損なわれるという問題がいくつかあり、これは現在の DG 問題において重要です。
この論文では、ディープ ビジョン プロンプトを活用してドメインの不変性に対処すると同時に、言語プロンプトを利用してクラスの分離性を確保し、ドメインの不変性とクラスの分離性のバランスを取る適応重み付けメカニズムと組み合わせた、新しいプロンプト学習戦略を紹介します。
広範な実験により、ディープ ビジョン プロンプトがドメイン不変の特徴を効果的に抽出し、ディープ モデルの汎化能力が大幅に向上し、3 つのデータセットで最先端のパフォーマンスが達成されることが実証されました。

要約(オリジナル)

The vision-language pre-training has enabled deep models to make a huge step forward in generalizing across unseen domains. The recent learning method based on the vision-language pre-training model is a great tool for domain generalization and can solve this problem to a large extent. However, there are still some issues that an advancement still suffers from trading-off between domain invariance and class separability, which are crucial in current DG problems. However, there are still some issues that an advancement still suffers from trading-off between domain invariance and class separability, which are crucial in current DG problems. In this paper, we introduce a novel prompt learning strategy that leverages deep vision prompts to address domain invariance while utilizing language prompts to ensure class separability, coupled with adaptive weighting mechanisms to balance domain invariance and class separability. Extensive experiments demonstrate that deep vision prompts effectively extract domain-invariant features, significantly improving the generalization ability of deep models and achieving state-of-the-art performance on three datasets.

arxiv情報

著者 Liyuan Wang,Yan Jin,Zhen Chen,Jinlin Wu,Mengke Li,Yang Lu,Hanzi Wang
発行日 2024-04-29 14:56:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク