Idempotent Generative Network

要約

私たちは、べき等になるようにニューラル ネットワークをトレーニングすることに基づいた生成モデリングの新しいアプローチを提案します。
冪等演算子は、最初の適用以降、結果を変更せずに順次適用できる演算子です。つまり $f(f(z))=f(z)$ です。
提案されたモデル $f$ は、次の目的を使用して、ソース分布 (例: ガウス ノイズ) をターゲット分布 (例: 現実的な画像) にマッピングするようにトレーニングされます: (1) ターゲット分布のインスタンスは、それ自体にマッピングされる必要があります。つまり $f(
x)=x$。
ターゲット多様体を、$f$ がそれ自体にマップするすべてのインスタンスのセットとして定義します。
(2) ソース配布を形成するインスタンスは、定義されたターゲット多様体にマッピングされる必要があります。
これは、冪等項 $f(f(z))=f(z)$ を最適化し、$f(z)$ の範囲がターゲット多様体上になるようにすることで実現されます。
理想的な仮定の下では、そのようなプロセスはターゲット分布に収束することが証明されています。
この戦略により、一貫した潜在空間を維持しながら 1 ステップで出力を生成できるモデルが得られ、同時に連続的な適用による改良も可能になります。
さらに、ターゲットとソースの両方のディストリビューションからの入力を処理することにより、モデルが破損または変更されたデータをターゲット多様体に適切に投影していることがわかりました。
この研究は、あらゆる入力をターゲットのデータ分布に投影できる「グローバル プロジェクター」への第一歩です。

要約(オリジナル)

We propose a new approach for generative modeling based on training a neural network to be idempotent. An idempotent operator is one that can be applied sequentially without changing the result beyond the initial application, namely $f(f(z))=f(z)$. The proposed model $f$ is trained to map a source distribution (e.g, Gaussian noise) to a target distribution (e.g. realistic images) using the following objectives: (1) Instances from the target distribution should map to themselves, namely $f(x)=x$. We define the target manifold as the set of all instances that $f$ maps to themselves. (2) Instances that form the source distribution should map onto the defined target manifold. This is achieved by optimizing the idempotence term, $f(f(z))=f(z)$ which encourages the range of $f(z)$ to be on the target manifold. Under ideal assumptions such a process provably converges to the target distribution. This strategy results in a model capable of generating an output in one step, maintaining a consistent latent space, while also allowing sequential applications for refinement. Additionally, we find that by processing inputs from both target and source distributions, the model adeptly projects corrupted or modified data back to the target manifold. This work is a first step towards a “global projector” that enables projecting any input into a target data distribution.

arxiv情報

著者 Assaf Shocher,Amil Dravid,Yossi Gandelsman,Inbar Mosseri,Michael Rubinstein,Alexei A. Efros
発行日 2023-11-02 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク