Vision and Language Integration for Domain Generalization

要約

ドメイン一般化は、ソースドメインのトレーニングをトレーニングしてドメイン不変の特徴空間を明らかにし、モデルが未知のターゲットドメインで堅牢な一般化能力を実行できるようにすることを目的としています。
ただし、ドメインのギャップにより、信頼できる一般的な画像機能スペースを見つけることは困難であり、その理由は、画像に適した基本ユニットがないことです。
ビジョン空間の画像とは異なり、言語にはセマンティクスを効果的に伝えることができる包括的な表現要素があります。
言語のセマンティックな完全性と画像の直感性に触発され、言語空間とビジョン空間を組み合わせたVLCAを提案し、セマンティックスペースをブリッジドメインとして使用して複数の画像ドメインを接続します。
具体的には、言語空間では、言語の基本単位の完全性を活用することにより、ワードベクトル距離を介してカテゴリ間の関係の意味表現をキャプチャする傾向があります。
次に、ビジョン空間では、画像機能の直感性を活用することにより、同じクラスのサンプル機能の共通のパターンが低ランク近似によって調査されます。
最終的に、言語表現は、テキストと画像のマルチモーダル空間を介したビジョン表現と一致します。
実験は、提案された方法の有効性を示しています。

要約(オリジナル)

Domain generalization aims at training on source domains to uncover a domain-invariant feature space, allowing the model to perform robust generalization ability on unknown target domains. However, due to domain gaps, it is hard to find reliable common image feature space, and the reason for that is the lack of suitable basic units for images. Different from image in vision space, language has comprehensive expression elements that can effectively convey semantics. Inspired by the semantic completeness of language and intuitiveness of image, we propose VLCA, which combine language space and vision space, and connect the multiple image domains by using semantic space as the bridge domain. Specifically, in language space, by taking advantage of the completeness of language basic units, we tend to capture the semantic representation of the relations between categories through word vector distance. Then, in vision space, by taking advantage of the intuitiveness of image features, the common pattern of sample features with the same class is explored through low-rank approximation. In the end, the language representation is aligned with the vision representation through the multimodal space of text and image. Experiments demonstrate the effectiveness of the proposed method.

arxiv情報

著者 Yanmei Wang,Xiyao Liu,Fupeng Chu,Zhi Han
発行日 2025-04-17 14:19:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク