要約
共同視覚言語空間では、テキストの特徴(たとえば、「犬の写真」から)は、関連する画像の特徴(たとえば、犬の写真から)を効果的に表すことができます。
また、最近の研究では、この関節腔のクロスモーダル伝達現象が実証されました。
これらの観察から、ソースフリーの領域一般化に対処するために、画像を使用せずにプロンプトを介して多様なスタイルを合成することにより、ジョイント空間内のさまざまな分布シフトをシミュレートする PromptStyler を提案します。
提案された方法は、擬似単語 S* の学習可能なスタイル単語ベクトルを介して、(「a の S* スタイル」から) さまざまなスタイル特徴を生成することを学習します。
学習したスタイルによってコンテンツ情報が歪められないようにするため、スタイルコンテンツ特徴 (「[クラス] の S* スタイル」から) をジョイント内の対応するコンテンツ特徴 (「[クラス]」から) の近くに配置するように強制します。
視覚言語空間。
スタイルワードベクトルを学習した後、合成されたスタイルコンテンツ特徴を使用して線形分類器をトレーニングします。
PromptStyler は、トレーニングに画像を必要としないにもかかわらず、PACS、VLCS、OfficeHome、および DomainNet で最先端の技術を実現します。
要約(オリジナル)
In a joint vision-language space, a text feature (e.g., from ‘a photo of a dog’) could effectively represent its relevant image features (e.g., from dog photos). Also, a recent study has demonstrated the cross-modal transferability phenomenon of this joint space. From these observations, we propose PromptStyler which simulates various distribution shifts in the joint space by synthesizing diverse styles via prompts without using any images to deal with source-free domain generalization. The proposed method learns to generate a variety of style features (from ‘a S* style of a’) via learnable style word vectors for pseudo-words S*. To ensure that learned styles do not distort content information, we force style-content features (from ‘a S* style of a [class]’) to be located nearby their corresponding content features (from ‘[class]’) in the joint vision-language space. After learning style word vectors, we train a linear classifier using synthesized style-content features. PromptStyler achieves the state of the art on PACS, VLCS, OfficeHome and DomainNet, even though it does not require any images for training.
arxiv情報
著者 | Junhyeong Cho,Gilhyun Nam,Sungyeon Kim,Hunmin Yang,Suha Kwak |
発行日 | 2023-08-15 08:30:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google