Language-Informed Visual Concept Learning

要約

視覚世界に対する私たちの理解は、視覚実体のさまざまな側面を特徴づけるさまざまな概念軸を中心にしています。
さまざまな概念軸は言語によって簡単に指定できます。
色、各軸に沿った正確な視覚的なニュアンスは、多くの場合、言語表現の制限を超えます。
特定の絵画スタイル。
この研究における私たちの目標は、事前にトレーニングされた大規模な視覚言語モデルを抽出するだけで、言語に基づいた視覚概念表現を学習することです。
具体的には、事前にトレーニングされた Text-to-Image (T2I) モデルを通じて入力画像を再現することを目的として、言語に基づいた概念軸のセットに関連する情報をエンコードするように概念エンコーダーのセットをトレーニングします。
さまざまな概念エンコーダーのよりよい解きほぐしを促進するために、事前にトレーニングされた Visual Question Answering (VQA) モデルから取得されたテキスト エンベディングのセットに概念エンベディングを固定します。
推論時に、モデルは新しいテスト画像からさまざまな軸に沿って概念の埋め込みを抽出します。これをリミックスして、視覚的概念の新しい構成を持つ画像を生成できます。
軽量なテスト時の微調整手順により、トレーニングでは見られなかった新しい概念に一般化することもできます。

要約(オリジナル)

Our understanding of the visual world is centered around various concept axes, characterizing different aspects of visual entities. While different concept axes can be easily specified by language, e.g. color, the exact visual nuances along each axis often exceed the limitations of linguistic articulations, e.g. a particular style of painting. In this work, our goal is to learn a language-informed visual concept representation, by simply distilling large pre-trained vision-language models. Specifically, we train a set of concept encoders to encode the information pertinent to a set of language-informed concept axes, with an objective of reproducing the input image through a pre-trained Text-to-Image (T2I) model. To encourage better disentanglement of different concept encoders, we anchor the concept embeddings to a set of text embeddings obtained from a pre-trained Visual Question Answering (VQA) model. At inference time, the model extracts concept embeddings along various axes from new test images, which can be remixed to generate images with novel compositions of visual concepts. With a lightweight test-time finetuning procedure, it can also generalize to novel concepts unseen at training.

arxiv情報

著者 Sharon Lee,Yunzhi Zhang,Shangzhe Wu,Jiajun Wu
発行日 2023-12-06 16:24:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク