A Clustering-guided Contrastive Fusion for Multi-view Representation Learning

要約

過去20年間、マルチビューアプリケーション開発を促進するために、多様なドメインから有用な情報を抽出するため、マルチビュー表現学習の分野でますます急速な進歩が見られた。しかしながら、このコミュニティは2つの課題に直面している:i)ノイズや不完全なビューの設定に対して、大量のラベルなしデータから頑健な表現を学習する方法、ii)様々な下流タスクのために、ビューの一貫性と補完性のバランスをとる方法。この目的のために、我々は、ロバストな表現を得るための高レベルのセマンティクスを抽出し、ビュー固有の表現をビュー共通の表現に融合するためにディープフュージョンネットワークを利用する。さらに、融合ネットワークが些細な解を導くことを防ぐために、融合ネットワークをガイドするクラスタリングタスクを採用する。そして、整合性と補完性のバランスをとるために、ビュー共通表現と各ビュー固有表現を整合させる非対称的な対照戦略を設計する。これらのモジュールはCLustering-guided cOntrastiVE fusioN (CLOVEN)として知られる統一的な手法に組み込まれる。提案手法を5つのデータセットで定量的、定性的に評価し、クラスタリングと分類においてCLOVENが11の競合するマルチビュー学習手法を凌駕することを実証する。不完全ビューシナリオにおいて、提案手法は競合手法よりもノイズ干渉に強い。さらに、可視化分析により、CLOVENはビュー固有表現の本質的な構造を保持し、同時にビュー共通表現のコンパクト性を改善できることが示された。ソースコードは https://github.com/guanzhou-ke/cloven で近日公開予定です。

要約(オリジナル)

The past two decades have seen increasingly rapid advances in the field of multi-view representation learning due to it extracting useful information from diverse domains to facilitate the development of multi-view applications. However, the community faces two challenges: i) how to learn robust representations from a large amount of unlabeled data to against noise or incomplete views setting, and ii) how to balance view consistency and complementary for various downstream tasks. To this end, we utilize a deep fusion network to fuse view-specific representations into the view-common representation, extracting high-level semantics for obtaining robust representation. In addition, we employ a clustering task to guide the fusion network to prevent it from leading to trivial solutions. For balancing consistency and complementary, then, we design an asymmetrical contrastive strategy that aligns the view-common representation and each view-specific representation. These modules are incorporated into a unified method known as CLustering-guided cOntrastiVE fusioN (CLOVEN). We quantitatively and qualitatively evaluate the proposed method on five datasets, demonstrating that CLOVEN outperforms 11 competitive multi-view learning methods in clustering and classification. In the incomplete view scenario, our proposed method resists noise interference better than those of our competitors. Furthermore, the visualization analysis shows that CLOVEN can preserve the intrinsic structure of view-specific representation while also improving the compactness of view-commom representation. Our source code will be available soon at https://github.com/guanzhou-ke/cloven.

arxiv情報

著者 Guanzhou Ke,Guoqing Chao,Xiaoli Wang,Chenyang Xu,Yongqi Zhu,Yang Yu
発行日 2023-08-04 13:20:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク