Disentangled Representation Learning with Transmitted Information Bottleneck

要約

生データからタスク関連情報のみをエンコードすること、つまり、もつれを解いた表現学習は、モデルの堅牢性と一般化性に大きく貢献します。
情報理論を使用して表現内の情報を正規化することで大幅な進歩が見られましたが、2 つの大きな課題が残っています。1) 表現の圧縮は必然的にパフォーマンスの低下につながります。
2) 表現上のもつれ解除制約が複雑な最適化にある。
これらの問題に対して、伝送情報を備えたベイジアン ネットワークを導入して、もつれを解く際の入力と表現の間の相互作用を定式化します。
このフレームワークに基づいて、我々は、\textbf{Dis}もつれ表現学習のための\textbf{T}送信\textbf{I}情報\textbf{B}ottleneck)を提案します。
情報の圧縮と保存。
変分推論を使用して、DisTIB の扱いやすい推定値を導き出します。
この推定は、再パラメータ化トリックを使用した標準の勾配降下法によって簡単に最適化できます。
さらに、我々は DisTIB が最適な解絡を達成できることを理論的に証明し、その優れた有効性を強調しています。
私たちの主張を確固たるものにするために、私たちはさまざまな下流タスクで広範な実験を実施して、DisTIB の魅力的な有効性を実証し、理論的分析を検証します。

要約(オリジナル)

Encoding only the task-related information from the raw data, \ie, disentangled representation learning, can greatly contribute to the robustness and generalizability of models. Although significant advances have been made by regularizing the information in representations with information theory, two major challenges remain: 1) the representation compression inevitably leads to performance drop; 2) the disentanglement constraints on representations are in complicated optimization. To these issues, we introduce Bayesian networks with transmitted information to formulate the interaction among input and representations during disentanglement. Building upon this framework, we propose \textbf{DisTIB} (\textbf{T}ransmitted \textbf{I}nformation \textbf{B}ottleneck for \textbf{Dis}entangled representation learning), a novel objective that navigates the balance between information compression and preservation. We employ variational inference to derive a tractable estimation for DisTIB. This estimation can be simply optimized via standard gradient descent with a reparameterization trick. Moreover, we theoretically prove that DisTIB can achieve optimal disentanglement, underscoring its superior efficacy. To solidify our claims, we conduct extensive experiments on various downstream tasks to demonstrate the appealing efficacy of DisTIB and validate our theoretical analyses.

arxiv情報

著者 Zhuohang Dang,Minnan Luo,Chengyou Jia,Guang Dai,Jihong Wang,Xiaojun Chang,Jingdong Wang
発行日 2024-08-14 14:11:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク