Deep Discrete Encoders: Identifiable Deep Generative Models for Rich Data with Discrete Latent Layers

要約

生成的AIの時代において、潜在表現を持つ深層生成モデル(DGM)は絶大な人気を博している。その印象的な経験的性能にもかかわらず、これらのモデルの統計的特性は未解明のままである。DGMはしばしばオーバーパラメタ化され、識別不可能で、解釈不可能なブラックボックスであり、重要なアプリケーションに導入する際に深刻な懸念を引き起こす。このことに動機づけられ、我々は、離散的な潜在層を持つリッチなデータタイプのための、解釈可能なディープジェネレーティブモデリングフレームワークを提案する。DDEは、複数のバイナリ潜在層を持つ有向グラフィカルモデルである。理論的には、DDEに対する透明な識別可能性条件を提案し、これは潜在層が深くなるにつれて潜在層のサイズが徐々に小さくなることを意味する。識別可能性は一貫したパラメータ推定を保証し、深いアーキテクチャの解釈可能な設計を促す。計算面では、レイヤーごとの非線形スペクトル初期化と、それに続くペナルティ付き確率的近似EMアルゴリズムからなるスケーラブルな推定パイプラインを提案する。この手順により、指数関数的に多くの潜在成分を持つモデルを効率的に推定することができる。広範なシミュレーション研究により、我々の理論結果を検証し、提案アルゴリズムの優れた性能を実証する。階層的トピックモデリング、画像表現学習、教育テストにおける応答時間モデリングの3つの多様な実データセットにDDEを適用し、解釈可能な結果を得た。

要約(オリジナル)

In the era of generative AI, deep generative models (DGMs) with latent representations have gained tremendous popularity. Despite their impressive empirical performance, the statistical properties of these models remain underexplored. DGMs are often overparametrized, non-identifiable, and uninterpretable black boxes, raising serious concerns when deploying them in high-stakes applications. Motivated by this, we propose an interpretable deep generative modeling framework for rich data types with discrete latent layers, called Deep Discrete Encoders (DDEs). A DDE is a directed graphical model with multiple binary latent layers. Theoretically, we propose transparent identifiability conditions for DDEs, which imply progressively smaller sizes of the latent layers as they go deeper. Identifiability ensures consistent parameter estimation and inspires an interpretable design of the deep architecture. Computationally, we propose a scalable estimation pipeline of a layerwise nonlinear spectral initialization followed by a penalized stochastic approximation EM algorithm. This procedure can efficiently estimate models with exponentially many latent components. Extensive simulation studies validate our theoretical results and demonstrate the proposed algorithms’ excellent performance. We apply DDEs to three diverse real datasets for hierarchical topic modeling, image representation learning, response time modeling in educational testing, and obtain interpretable findings.

arxiv情報

著者 Seunghyun Lee,Yuqi Gu
発行日 2025-01-02 18:56:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ME, stat.ML パーマリンク