要約
タイトル:離散潜在変数を用いた表現のまばらさの学習
要約:
– 深層潜在生成モデルは、深層学習と確率モデルの長所をエレガントな方法で組み合わせた能力により、ますます注目されています。
– モデルで学習されるデータ表現は、頻繁に連続的で密なものです。
– しかしながら、多くのアプリケーションでは、スパースな表現が期待されます。たとえば、非監視学習の高次元のデータのスパースな埋め込みを学習する場合や、数千もの候補タグからマルチラベルを学習する場合などです。
– いくつかのシナリオでは、さらにまばらさの程度に制限がある場合があります:表現のゼロでない特徴数は、事前に定義された閾値$L_0$よりも大きくすることはできません。
– この論文では、スパースの構造を明示的にモデリングし、定量化されたまばらさの制約の下でデータのスパースな構造を学習するためのSparse Deep Latent Generative Model(SDLGM)を提案しています。
– スパース表現の結果は固定されておらず、観測自体に合わせて事前に定義された制限に従います。
– 特に、各観測$i$に対して、その表現のまばらさをモデル化する補助的なランダム変数$L_i$を導入します。スパース表現は2つのGumbel-Softmax分布を介して2段階のサンプリングプロセスで生成されます。
– 推論と学習については、MCグラディエント推定器に基づくアモルファスバリエーション法を開発しています。スパース表現の結果は、backpropagationによって微分可能です。
– 非監視学習と監視学習問題の複数のデータセットでの実験評価は、提案手法の利点を示しています。
要約(オリジナル)
Deep latent generative models have attracted increasing attention due to the capacity of combining the strengths of deep learning and probabilistic models in an elegant way. The data representations learned with the models are often continuous and dense. However in many applications, sparse representations are expected, such as learning sparse high dimensional embedding of data in an unsupervised setting, and learning multi-labels from thousands of candidate tags in a supervised setting. In some scenarios, there could be further restriction on degree of sparsity: the number of non-zero features of a representation cannot be larger than a pre-defined threshold $L_0$. In this paper we propose a sparse deep latent generative model SDLGM to explicitly model degree of sparsity and thus enable to learn the sparse structure of the data with the quantified sparsity constraint. The resulting sparsity of a representation is not fixed, but fits to the observation itself under the pre-defined restriction. In particular, we introduce to each observation $i$ an auxiliary random variable $L_i$, which models the sparsity of its representation. The sparse representations are then generated with a two-step sampling process via two Gumbel-Softmax distributions. For inference and learning, we develop an amortized variational method based on MC gradient estimator. The resulting sparse representations are differentiable with backpropagation. The experimental evaluation on multiple datasets for unsupervised and supervised learning problems shows the benefits of the proposed method.
arxiv情報
| 著者 | Zhao Xu,Daniel Onoro Rubio,Giuseppe Serra,Mathias Niepert |
| 発行日 | 2023-04-03 12:47:18+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI