要約
エネルギーベースのモデル(EBM)は、ニューラルネットワークを使用してパラメーター化確率分布のための柔軟なフレームワークを提供します。
ただし、パーティション関数(正規化定数)を計算する必要があるため、正確な最尤推定(MLE)によるEBMの学習は一般に扱いにくいものです。
この論文では、セットや順列などの組み合わせである個別のスペースで、ほぼ学習確率的EBMのための新しい定式化を提案します。
私たちの重要なアイデアは、両方ともニューラルネットワークとしてパラメーター化されたエネルギーモデルとその対数パーティションの両方を共同で学習することです。
私たちのアプローチは、確率的勾配降下(MCMCに依存せずに)でEBMを学習するための新しい扱いやすい客観的基準を提供するだけでなく、目に見えないデータポイントの対数パーティション関数を推定する新しい手段も提供します。
理論的側面では、連続関数の空間を最適化するときに、アプローチが最適なMLEソリューションを回復することを示します。
さらに、私たちのアプローチは、より広いファミリーファミリーのフェンチェルヨンの損失に自然に拡張されていることを示しており、組み合わせた空間のSparsemax損失を最適化するための最初の扱いやすい方法を取得できることを示しています。
マルチサーベルの分類とラベルのランキングに関するアプローチを示します。
要約(オリジナル)
Energy-based models (EBMs) offer a flexible framework for parameterizing probability distributions using neural networks. However, learning EBMs by exact maximum likelihood estimation (MLE) is generally intractable, due to the need to compute the partition function (normalization constant). In this paper, we propose a novel formulation for approximately learning probabilistic EBMs in combinatorially-large discrete spaces, such as sets or permutations. Our key idea is to jointly learn both an energy model and its log-partition, both parameterized as a neural network. Our approach not only provides a novel tractable objective criterion to learn EBMs by stochastic gradient descent (without relying on MCMC), but also a novel means to estimate the log-partition function on unseen data points. On the theoretical side, we show that our approach recovers the optimal MLE solution when optimizing in the space of continuous functions. Furthermore, we show that our approach naturally extends to the broader family of Fenchel-Young losses, allowing us to obtain the first tractable method for optimizing the sparsemax loss in combinatorially-large spaces. We demonstrate our approach on multilabel classification and label ranking.
arxiv情報
著者 | Michael E. Sander,Vincent Roulet,Tianlin Liu,Mathieu Blondel |
発行日 | 2025-01-30 17:46:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google