A Clustering-guided Contrastive Fusion for Multi-view Representation Learning

要約

過去20年間、マルチビュー表現学習の分野では、多様なドメインから有用な情報を抽出し、マルチビューアプリケーションの開発を促進するために、ますます急速な進歩を見せてきた。しかし、このコミュニティは2つの課題に直面している:i)ノイズや不完全なビュー設定に対して、大量のラベル付けされていないデータから堅牢な表現をどのように学習するか、ii)様々な下流のタスクのためにビューの一貫性と補完性をどのようにバランスさせるか、ということである。このため、我々はディープフュージョンネットワークを利用して、ビュー固有の表現をビュー共通の表現に融合し、ロバストな表現を得るための高レベルのセマンティクスを抽出する。また、融合ネットワークが瑣末な解を導かないように、クラスタリングタスクを採用し、融合ネットワークをガイドする。そして、一貫性と補完性を両立させるために、ビュー共通表現と各ビュー固有表現を整合させる非対称的な対照戦略を設計する。これらのモジュールは、CLustering-guided cOntrastiVE fusioN (CLOVEN)として知られる統一的な手法に組み込まれている。提案手法を5つのデータセットで定量的、定性的に評価し、クラスタリングと分類において、CLOVENが11の競合するマルチビュー学習手法を上回ることを実証する。また、不完全視点シナリオにおいて、提案手法は競合手法よりもノイズ干渉に強いことがわかった。さらに、可視化解析により、CLOVENはビュー固有表現の本質的な構造を維持しつつ、ビューコモン表現のコンパクト性を向上させることができることが示されました。ソースコードは近日中に https://github.com/guanzhou-ke/cloven で公開予定です。

要約(オリジナル)

The past two decades have seen increasingly rapid advances in the field of multi-view representation learning due to it extracting useful information from diverse domains to facilitate the development of multi-view applications. However, the community faces two challenges: i) how to learn robust representations from a large amount of unlabeled data to against noise or incomplete views setting, and ii) how to balance view consistency and complementary for various downstream tasks. To this end, we utilize a deep fusion network to fuse view-specific representations into the view-common representation, extracting high-level semantics for obtaining robust representation. In addition, we employ a clustering task to guide the fusion network to prevent it from leading to trivial solutions. For balancing consistency and complementary, then, we design an asymmetrical contrastive strategy that aligns the view-common representation and each view-specific representation. These modules are incorporated into a unified method known as CLustering-guided cOntrastiVE fusioN (CLOVEN). We quantitatively and qualitatively evaluate the proposed method on five datasets, demonstrating that CLOVEN outperforms 11 competitive multi-view learning methods in clustering and classification. In the incomplete view scenario, our proposed method resists noise interference better than those of our competitors. Furthermore, the visualization analysis shows that CLOVEN can preserve the intrinsic structure of view-specific representation while also improving the compactness of view-commom representation. Our source code will be available soon at https://github.com/guanzhou-ke/cloven.

arxiv情報

著者 Guanzhou Ke,Guoqing Chao,Xiaoli Wang,Chenyang Xu,Chang Xu,Yongqi Zhu,Yang Yu
発行日 2023-01-05 07:50:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク