Linear Spaces of Meanings: the Compositional Language of VLMs

要約

事前トレーニング済みの視覚言語モデル (VLM) からのベクトル データ埋め込みの構成構造を調査します。
伝統的に、構成性は、既存の語彙からの単語の埋め込みに対する代数演算に関連付けられてきました。
対照的に、テキスト エンコーダーからのラベル表現を、埋め込み空間内のより小さいベクトル セットの組み合わせとして近似しようとします。
これらのベクトルは、効率的な方法で新しい概念を生成するために使用できる「理想的な言葉」と見なすことができます。
線形構成を理解するための理論的フレームワークを提示し、数学的表現理論との関係を描き、以前のもつれ解除の定義を示します。
理想的な単語は複合概念の優れた合成近似を提供し、同じ概念のトークンベースの分解よりも効果的であるという理論的および経験的証拠を提供します。

要約(オリジナル)

We investigate compositional structures in vector data embeddings from pre-trained vision-language models (VLMs). Traditionally, compositionality has been associated with algebraic operations on embeddings of words from a pre-existing vocabulary. In contrast, we seek to approximate label representations from a text encoder as combinations of a smaller set of vectors in the embedding space. These vectors can be seen as ‘ideal words’ which can be used to generate new concepts in an efficient way. We present a theoretical framework for understanding linear compositionality, drawing connections with mathematical representation theory and previous definitions of disentanglement. We provide theoretical and empirical evidence that ideal words provide good compositional approximations of composite concepts and can be more effective than token-based decompositions of the same concepts.

arxiv情報

著者 Matthew Trager,Pramuditha Perera,Luca Zancato,Alessandro Achille,Parminder Bhatia,Bing Xiang,Stefano Soatto
発行日 2023-02-28 08:11:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク