要約
マルチモーダル表現学習は、複数のモダリティに固有の情報を関連付けて分解しようとしています。
モダリティ全体で共有されている情報からモダリティ固有の情報を解くことにより、解釈可能性と堅牢性を改善し、反事実的結果の生成などのダウンストリームタスクを可能にすることができます。
多くの現実世界のアプリケーションに深く絡み合っていることが多いため、2種類の情報を分離することは困難です。
私たちは、解き放たれた表現を学ぶための新しい自己監視アプローチである、解き込まれた自己監視学習(disentangledssl)を提案します。
特に、いわゆる最小必要な情報(MNI)ポイントが達成できない以前の作業ではカバーされていないシナリオに焦点を当てた、各解角表現の最適性の包括的な分析を提示します。
DeerentangledSSLは、複数の合成および実世界のデータセットで共有およびモダリティ固有の機能を正常に学習し、視覚言語データの予測タスクや生物学的データの分子フェノ型回収タスクを含むさまざまな下流タスクのベースラインを一貫して上回ることを実証します。
このコードはhttps://github.com/uhlerlab/disentangledsslで入手できます。
要約(オリジナル)
Multimodal representation learning seeks to relate and decompose information inherent in multiple modalities. By disentangling modality-specific information from information that is shared across modalities, we can improve interpretability and robustness and enable downstream tasks such as the generation of counterfactual outcomes. Separating the two types of information is challenging since they are often deeply entangled in many real-world applications. We propose Disentangled Self-Supervised Learning (DisentangledSSL), a novel self-supervised approach for learning disentangled representations. We present a comprehensive analysis of the optimality of each disentangled representation, particularly focusing on the scenario not covered in prior work where the so-called Minimum Necessary Information (MNI) point is not attainable. We demonstrate that DisentangledSSL successfully learns shared and modality-specific features on multiple synthetic and real-world datasets and consistently outperforms baselines on various downstream tasks, including prediction tasks for vision-language data, as well as molecule-phenotype retrieval tasks for biological data. The code is available at https://github.com/uhlerlab/DisentangledSSL.
arxiv情報
| 著者 | Chenyu Wang,Sharut Gupta,Xinyi Zhang,Sana Tonekaboni,Stefanie Jegelka,Tommi Jaakkola,Caroline Uhler | 
| 発行日 | 2025-03-17 16:27:27+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
