Rethinking Multi-view Representation Learning via Distilled Disentangling

要約

マルチビュー表現学習の目的は、多様なデータ ソースからビューの一貫性とビュー固有の両方を備えた堅牢な表現を導き出すことです。
このホワイトペーパーでは、この分野の既存のアプローチの詳細な分析を示し、ビュー一貫性のある表現とビュー固有の表現の間の冗長性という、よく見落とされがちな側面に焦点を当てています。
この目的を達成するために、私たちは「蒸留解法」と呼ぶ手法を組み込んだ、マルチビュー表現学習のための革新的なフレームワークを提案します。
私たちの方法では、マスクされたクロスビュー予測の概念を導入し、余分な計算オーバーヘッドを発生させることなく、さまざまなソースからコンパクトで高品質のビュー一貫性のある表現を抽出できるようにします。
さらに、マルチビュー表現から一貫性関連の情報を効率的にフィルタリングして除去し、より純粋なビュー固有の表現を生成する、蒸留されたもつれ解除モジュールを開発します。
このアプローチにより、ビュー一貫性のある表現とビュー固有の表現の間の冗長性が大幅に削減され、学習プロセスの全体的な効率が向上します。
私たちの経験的評価により、マスク率が高くなると、ビュー一貫性のある表現の品質が大幅に向上することが明らかになりました。
さらに、ビュー固有の表現の次元と比較してビュー一貫した表現の次元を削減すると、結合された表現の品質がさらに向上することがわかりました。
私たちのコードは https://github.com/Guanzhou-Ke/MRDD からアクセスできます。

要約(オリジナル)

Multi-view representation learning aims to derive robust representations that are both view-consistent and view-specific from diverse data sources. This paper presents an in-depth analysis of existing approaches in this domain, highlighting a commonly overlooked aspect: the redundancy between view-consistent and view-specific representations. To this end, we propose an innovative framework for multi-view representation learning, which incorporates a technique we term ‘distilled disentangling’. Our method introduces the concept of masked cross-view prediction, enabling the extraction of compact, high-quality view-consistent representations from various sources without incurring extra computational overhead. Additionally, we develop a distilled disentangling module that efficiently filters out consistency-related information from multi-view representations, resulting in purer view-specific representations. This approach significantly reduces redundancy between view-consistent and view-specific representations, enhancing the overall efficiency of the learning process. Our empirical evaluations reveal that higher mask ratios substantially improve the quality of view-consistent representations. Moreover, we find that reducing the dimensionality of view-consistent representations relative to that of view-specific representations further refines the quality of the combined representations. Our code is accessible at: https://github.com/Guanzhou-Ke/MRDD.

arxiv情報

著者 Guanzhou Ke,Bo Wang,Xiaoli Wang,Shengfeng He
発行日 2024-03-29 14:49:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク