要約
Smooth Infomax(SIM)を紹介します。これは、ニューラルネットワークのさまざまな深さで学習された表現に解釈可能性の制約を組み込んだ自己監視表現学習の新しい方法です。
Simのアーキテクチャは、Infonceバウンドを使用してローカルに最適化された確率的モジュールに分割されます。
VAESに触発されたこれらのモジュールの表現は、ガウス分布のサンプルとして設計されており、標準的な正規分布に近いようにさらに制約されています。
これにより、滑らかで予測可能な空間が生じ、学習した表現の事後分析を容易にするために、デコーダーを通って潜在スペースを横断することができます。
SIMのパフォーマンスを連続した音声データで評価し、解釈の低いカウンターパートである貪欲なインフォマックス(GIM)と競合することを示しています。
さらに、SIMの内部表現に関する洞察を提供し、含まれている情報が表現全体であまり絡み合っておらず、寸法の小さなサブセットに集中していることを示しています。
これは、SIMの解釈の改善可能性をさらに強調しています。
要約(オリジナル)
We introduce Smooth InfoMax (SIM), a novel method for self-supervised representation learning that incorporates an interpretability constraint into the learned representations at various depths of the neural network. SIM’s architecture is split up into probabilistic modules, each locally optimized using the InfoNCE bound. Inspired by VAEs, the representations from these modules are designed to be samples from Gaussian distributions and are further constrained to be close to the standard normal distribution. This results in a smooth and predictable space, enabling traversal of the latent space through a decoder for easier post-hoc analysis of the learned representations. We evaluate SIM’s performance on sequential speech data, showing that it performs competitively with its less interpretable counterpart, Greedy InfoMax (GIM). Moreover, we provide insights into SIM’s internal representations, demonstrating that the contained information is less entangled throughout the representation and more concentrated in a smaller subset of the dimensions. This further highlights the improved interpretability of SIM.
arxiv情報
著者 | Fabian Denoodt,Bart de Boer,José Oramas |
発行日 | 2025-03-19 16:58:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google