要約
マルチモーダル表現学習は、複数のモダリティに固有の情報を関連付けて分解することを目指します。
モダリティ間で共有される情報からモダリティ固有の情報を分離することで、解釈可能性と堅牢性が向上し、反事実結果の生成などの下流タスクが可能になります。
2 種類の情報は多くの実世界のアプリケーションで深く絡み合っていることが多いため、この 2 種類の情報を分離することは困難です。
我々は、もつれを解いた表現を学習するための新しい自己教師ありアプローチである解絡自己教師あり学習 (DisentangledSSL) を提案します。
我々は、特に、いわゆる最小必要情報 (MNI) ポイントが達成できない、以前の研究ではカバーされていないシナリオに焦点を当てて、それぞれのもつれ解除された表現の最適性の包括的な分析を提示します。
私たちは、DisentangledSSL が複数の合成データセットと現実世界のデータセットで共有されたモダリティ固有の特徴を学習し、視覚言語データの予測タスクや生物学的データの分子表現型検索タスクを含むさまざまな下流タスクでベースラインを一貫して上回るパフォーマンスを示すことを実証します。
要約(オリジナル)
Multimodal representation learning seeks to relate and decompose information inherent in multiple modalities. By disentangling modality-specific information from information that is shared across modalities, we can improve interpretability and robustness and enable downstream tasks such as the generation of counterfactual outcomes. Separating the two types of information is challenging since they are often deeply entangled in many real-world applications. We propose Disentangled Self-Supervised Learning (DisentangledSSL), a novel self-supervised approach for learning disentangled representations. We present a comprehensive analysis of the optimality of each disentangled representation, particularly focusing on the scenario not covered in prior work where the so-called Minimum Necessary Information (MNI) point is not attainable. We demonstrate that DisentangledSSL successfully learns shared and modality-specific features on multiple synthetic and real-world datasets and consistently outperforms baselines on various downstream tasks, including prediction tasks for vision-language data, as well as molecule-phenotype retrieval tasks for biological data.
arxiv情報
著者 | Chenyu Wang,Sharut Gupta,Xinyi Zhang,Sana Tonekaboni,Stefanie Jegelka,Tommi Jaakkola,Caroline Uhler |
発行日 | 2024-10-31 14:57:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google