Concept Algebra for Score-Based Conditional Models

要約

この論文は、スコアベースのモデルに焦点を当てた、テキスト誘導生成モデルにおける学習された表現の構造に関するものです。
ここでは、概念が何らかの表現空間の部分空間 (または方向) としてコード化されるという考えに焦点を当てます。
私たちはこの考え方の数学的形式化を開発します。この形式主義を使用して、この特性を持つ表現の自然な選択があることを示し、与えられた概念に対応する表現の部分を識別する簡単な方法を開発します。
特に、これにより、表現の代数的操作を通じてモデルによって表現された概念を操作できるようになります。
安定拡散を使用した、テキストガイドによる画像生成の例を示してアイデアを示します。

要約(オリジナル)

This paper concerns the structure of learned representations in text-guided generative models, focusing on score-based models. Here, we focus on the idea that concepts are encoded as subspaces (or directions) of some representation space. We develop a mathematical formalization of this idea.Using this formalism, we show there’s a natural choice of representation with this property, and we develop a simple method for identifying the part of the representation corresponding to a given concept. In particular, this allows us to manipulate the concepts expressed by the model through algebraic manipulation of the representation. We demonstrate the idea with examples text-guided image generation, using Stable Diffusion.

arxiv情報

著者 Zihao Wang,Lin Gui,Jeffrey Negrea,Victor Veitch
発行日 2023-07-25 00:36:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク