Trading Information between Latents in Hierarchical Variational Autoencoders

要約

Variational Autoencoders (VAE) は、もともと (Kingma & Welling, 2014) 近似ベイジアン推論を実行する確率的生成モデルとして動機付けられました。
$\beta$-VAE の提案 (Higgins et al., 2017) は、この解釈を打ち破り、VAE を生成モデリング (表現学習、クラスタリング、非可逆データ圧縮など) を超えたアプリケーション ドメインに一般化します。
潜在表現の情報内容 (「ビット レート」) と再構築されたデータの歪みとの間のトレードオフ (Alemi et al., 2018)。
このホワイト ペーパーでは、このレート/歪みのトレードオフを、階層型 VAE、つまり複数の層の潜在変数を持つ VAE のコンテキストで再検討します。
レートを各レイヤーからの寄与に分割できる推論モデルの一般的なクラスを特定し、それを個別に調整できます。
ダウンストリーム タスクのパフォーマンスの理論的限界を個々のレイヤーのレートの関数として導き出し、大規模な実験で理論的発見を検証します。
私たちの結果は、特定のアプリケーションの対象となるレートスペースの領域に関する実務者向けのガイダンスを提供します。

要約(オリジナル)

Variational Autoencoders (VAEs) were originally motivated (Kingma & Welling, 2014) as probabilistic generative models in which one performs approximate Bayesian inference. The proposal of $\beta$-VAEs (Higgins et al., 2017) breaks this interpretation and generalizes VAEs to application domains beyond generative modeling (e.g., representation learning, clustering, or lossy data compression) by introducing an objective function that allows practitioners to trade off between the information content (‘bit rate’) of the latent representation and the distortion of reconstructed data (Alemi et al., 2018). In this paper, we reconsider this rate/distortion trade-off in the context of hierarchical VAEs, i.e., VAEs with more than one layer of latent variables. We identify a general class of inference models for which one can split the rate into contributions from each layer, which can then be tuned independently. We derive theoretical bounds on the performance of downstream tasks as functions of the individual layers’ rates and verify our theoretical findings in large-scale experiments. Our results provide guidance for practitioners on which region in rate-space to target for a given application.

arxiv情報

著者 Tim Z. Xiao,Robert Bamler
発行日 2023-02-09 18:56:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IT, cs.LG, math.IT, stat.ML パーマリンク