Describing Sets of Images with Textual-PCA

要約

単一の画像の属性とセット内のバリエーションの両方をキャプチャして、一連の画像を意味的に記述しようとします。
この手順は主成分分析に似ており、射影ベクトルの役割が生成されたフレーズに置き換えられます。
最初に、セット内の画像に対して最大の平均意味的類似性を持つセントロイド フレーズが生成されます。ここで、類似性の計算と生成の両方が事前トレーニング済みの視覚言語モデルに基づいています。
次に、同じモデルを使用して、類似度スコアの中で最大の変動を生成するフレーズが生成されます。
次のフレーズは、潜在空間内で最大の分散フレーズに対して直交することを条件として分散を最大化し、プロセスが続行されます。
私たちの実験は、私たちの方法が画像セットの本質を納得のいくように捉え、セット全体のコンテキスト内で意味的に意味のある方法で個々の要素を説明できることを示しています。
コードは https://github.com/OdedH/textual-pca で入手できます。

要約(オリジナル)

We seek to semantically describe a set of images, capturing both the attributes of single images and the variations within the set. Our procedure is analogous to Principle Component Analysis, in which the role of projection vectors is replaced with generated phrases. First, a centroid phrase that has the largest average semantic similarity to the images in the set is generated, where both the computation of the similarity and the generation are based on pretrained vision-language models. Then, the phrase that generates the highest variation among the similarity scores is generated, using the same models. The next phrase maximizes the variance subject to being orthogonal, in the latent space, to the highest-variance phrase, and the process continues. Our experiments show that our method is able to convincingly capture the essence of image sets and describe the individual elements in a semantically meaningful way within the context of the entire set. Our code is available at: https://github.com/OdedH/textual-pca.

arxiv情報

著者 Oded Hupert,Idan Schwartz,Lior Wolf
発行日 2022-10-21 17:10:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク