Disentangling Multi-view Representations Beyond Inductive Bias

要約

多視点(または-モダリティ)表現学習は、異なるビュー表現間の関係を理解することを目的としている。既存の手法は、強い帰納的バイアスを導入することで、マルチビュー表現を一貫性のある表現とビュー固有の表現に分離するが、これは汎化能力を制限する可能性がある。本論文では、帰納的バイアスを超えて、得られた表現の解釈可能性と汎化可能性の両方を保証することを目的とした、新しいマルチビュー表現分離手法を提案する。本手法は、マルチビューの一貫性を事前に発見することで、ディスエンタングリングの情報境界を決定することができ、学習目的を切り離すことができるという観察に基づいている。我々はまた、ビュー間の変換不変性とクラスタリング一貫性を最大化することにより、一貫性を容易に抽出できることを発見した。これらの観察から、我々は2段階のフレームワークを提案する。第一段階では、ビュー間で意味的に一貫性のある表現と、それに対応する擬似ラベルを生成する一貫性のあるエンコーダを訓練することで、マルチビューの一貫性を得る。第二段階では、一貫性のある表現と包括的な表現の間の相互情報の上限を最小化することにより、包括的な表現から特異性を切り離す。最後に、擬似ラベルとビュー固有表現を連結することで、元のデータを再構成する。4つのマルチビューデータセットを用いた実験により、提案手法がクラスタリングと分類性能の点で12の比較手法を凌駕することが実証された。また、可視化の結果、抽出された一貫性と特異性がコンパクトで解釈可能であることが示された。私たちのコードは \url{https://github.com/Guanzhou-Ke/DMRIB} にある。

要約(オリジナル)

Multi-view (or -modality) representation learning aims to understand the relationships between different view representations. Existing methods disentangle multi-view representations into consistent and view-specific representations by introducing strong inductive biases, which can limit their generalization ability. In this paper, we propose a novel multi-view representation disentangling method that aims to go beyond inductive biases, ensuring both interpretability and generalizability of the resulting representations. Our method is based on the observation that discovering multi-view consistency in advance can determine the disentangling information boundary, leading to a decoupled learning objective. We also found that the consistency can be easily extracted by maximizing the transformation invariance and clustering consistency between views. These observations drive us to propose a two-stage framework. In the first stage, we obtain multi-view consistency by training a consistent encoder to produce semantically-consistent representations across views as well as their corresponding pseudo-labels. In the second stage, we disentangle specificity from comprehensive representations by minimizing the upper bound of mutual information between consistent and comprehensive representations. Finally, we reconstruct the original data by concatenating pseudo-labels and view-specific representations. Our experiments on four multi-view datasets demonstrate that our proposed method outperforms 12 comparison methods in terms of clustering and classification performance. The visualization results also show that the extracted consistency and specificity are compact and interpretable. Our code can be found at \url{https://github.com/Guanzhou-Ke/DMRIB}.

arxiv情報

著者 Guanzhou Ke,Yang Yu,Guoqing Chao,Xiaoli Wang,Chenyang Xu,Shengfeng He
発行日 2023-08-04 13:22:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.MM パーマリンク