Direct Evolutionary Optimization of Variational Autoencoders With Binary Latents

要約

離散潜在変数は実世界のデータにとって重要であると考えられており、離散潜在変数を使用した変分オートエンコーダー (VAE) に関する研究の動機となっています。
ただし、この場合、標準のVAEトレーニングは不可能であり、従来のものと同様に離散VAEをトレーニングするために、離散分布を操作するさまざまな戦略が動機付けられました。
ここで、エンコーディング モデルに直接離散最適化を適用することで、潜在の離散性を完全にそのまま維持することも可能かどうかを尋ねます。
その結果、このアプローチは、サンプリング近似、再パラメータ化のトリック、および償却を回避することにより、標準の VAE トレーニングから大きく逸脱しています。
離散最適化は、切り捨てられた事後変数を進化的アルゴリズムと組み合わせて使用​​する変分設定で実現されます。
バイナリ潜在値を持つ VAE の場合、(A) そのような離散変分法がネットワークの重みの勾配上昇にどのように結び付くか、および (B) デコーダーがトレーニング用の潜在状態を選択するためにどのように使用されるかを示します。
従来の償却トレーニングはより効率的で、大規模なニューラル ネットワークに適用できます。
ただし、より小さなネットワークを使用すると、直接離散最適化が数百の潜在値に効率的にスケーラブルになることがわかります。
さらに重要なことは、直接最適化の有効性が「ゼロショット」学習において非常に競争力があることを発見したことです。
大規模な教師ありネットワークとは対照的に、ここで調査した VAE は、たとえば、クリーン データでの事前のトレーニングや大規模な画像データセットでのトレーニングを行わなくても、単一の画像のノイズを除去できます。
より一般的には、調査されたアプローチは、サンプリングベースの近似と再パラメータ化なしでVAEのトレーニングが実際に可能であることを示しており、これは一般的なVAEトレーニングの分析にとって興味深い可能性があります。
さらに、「ゼロ ショット」設定の場合、直接的な最適化により、VAE は以前は非生成的アプローチよりも優れていた場合に競争力を持つようになります。

要約(オリジナル)

Discrete latent variables are considered important for real world data, which has motivated research on Variational Autoencoders (VAEs) with discrete latents. However, standard VAE training is not possible in this case, which has motivated different strategies to manipulate discrete distributions in order to train discrete VAEs similarly to conventional ones. Here we ask if it is also possible to keep the discrete nature of the latents fully intact by applying a direct discrete optimization for the encoding model. The approach is consequently strongly diverting from standard VAE-training by sidestepping sampling approximation, reparameterization trick and amortization. Discrete optimization is realized in a variational setting using truncated posteriors in conjunction with evolutionary algorithms. For VAEs with binary latents, we (A) show how such a discrete variational method ties into gradient ascent for network weights, and (B) how the decoder is used to select latent states for training. Conventional amortized training is more efficient and applicable to large neural networks. However, using smaller networks, we here find direct discrete optimization to be efficiently scalable to hundreds of latents. More importantly, we find the effectiveness of direct optimization to be highly competitive in `zero-shot’ learning. In contrast to large supervised networks, the here investigated VAEs can, e.g., denoise a single image without previous training on clean data and/or training on large image datasets. More generally, the studied approach shows that training of VAEs is indeed possible without sampling-based approximation and reparameterization, which may be interesting for the analysis of VAE-training in general. For `zero-shot’ settings a direct optimization, furthermore, makes VAEs competitive where they have previously been outperformed by non-generative approaches.

arxiv情報

著者 Enrico Guiraud,Jakob Drefs,Jörg Lücke
発行日 2023-03-24 13:14:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 65C20, 68T07, cs.LG, I.2.6, stat.ML パーマリンク