Parts of Speech-Grounded Subspaces in Vision-Language Models

要約

視覚言語モデルから生じる潜像表現は、さまざまな下流タスクに非常に役立つことが証明されています。
ただし、それらの有用性は、さまざまな視覚的属性に関する絡み合いによって制限されます。
たとえば、最近の研究では、CLIP 画像表現が、予測できない形で特定の視覚的プロパティ (オブジェクトやアクションなど) に偏っていることが多いことがわかっています。
この論文では、品詞と特定の視覚的変化モード(例:名詞は物体に関連し、形容詞は外観を表す)の間の関連性を活用することにより、CLIPの共同視覚言語空間におけるさまざまな視覚モダリティの表現を分離することを提案します。
これは、特定の品詞に対応する変動を捕捉する部分空間を学習し、同時に残りの部分の変動を最小限に抑える適切な成分分析モデルを定式化することによって実現されます。
このような部分空間は、表現が置かれている多様体の基礎的な幾何学を尊重しながら、閉じた形式の画像またはテキストのさまざまな視覚的特性のもつれのない表現を生成します。
さらに、提案されたモデルは、特定の視覚的外観 (アーティストの絵画スタイルなど) に対応する部分空間の学習をさらに容易にし、CLIP ベースのテキストから画像への合成から視覚的テーマ全体を選択的に削除できることを示します。
私たちは、テキストから画像へのモデルを使用して部分空間投影を視覚化し、アーティストのスタイルの模倣を防ぐことによってモデルを定性的に検証し、クラス不変性メトリクスとベースラインのゼロショット分類の改善を通じて定量的に検証します。
私たちのコードは https://github.com/james-oldfield/PoS-subspaces で入手できます。

要約(オリジナル)

Latent image representations arising from vision-language models have proved immensely useful for a variety of downstream tasks. However, their utility is limited by their entanglement with respect to different visual attributes. For instance, recent work has shown that CLIP image representations are often biased toward specific visual properties (such as objects or actions) in an unpredictable manner. In this paper, we propose to separate representations of the different visual modalities in CLIP’s joint vision-language space by leveraging the association between parts of speech and specific visual modes of variation (e.g. nouns relate to objects, adjectives describe appearance). This is achieved by formulating an appropriate component analysis model that learns subspaces capturing variability corresponding to a specific part of speech, while jointly minimising variability to the rest. Such a subspace yields disentangled representations of the different visual properties of an image or text in closed form while respecting the underlying geometry of the manifold on which the representations lie. What’s more, we show the proposed model additionally facilitates learning subspaces corresponding to specific visual appearances (e.g. artists’ painting styles), which enables the selective removal of entire visual themes from CLIP-based text-to-image synthesis. We validate the model both qualitatively, by visualising the subspace projections with a text-to-image model and by preventing the imitation of artists’ styles, and quantitatively, through class invariance metrics and improvements to baseline zero-shot classification. Our code is available at: https://github.com/james-oldfield/PoS-subspaces.

arxiv情報

著者 James Oldfield,Christos Tzelepis,Yannis Panagakis,Mihalis A. Nicolaou,Ioannis Patras
発行日 2023-05-23 13:32:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク