Factorized Contrastive Learning: Going Beyond Multi-view Redundancy

要約

幅広いマルチモーダルタスクにおいて、対比学習は、ペア情報(画像とキャプション、ビデオと音声のペアなど)のみを含む豊富なラベルなしデータから表現を首尾よく学習できるため、特に魅力的なアプローチとなっています。
これらのアプローチを支えるのは、マルチビューの冗長性、つまりモダリティ間で共有される情報が下流のタスクには必要かつ十分であるという前提です。
ただし、現実世界の多くの設定では、タスク関連情報はモダリティ固有の領域にも含まれています。つまり、1 つのモダリティにのみ存在するが、依然としてタスクに関連する情報です。
下流のタスクに関連する共有情報と固有情報の両方を取得するために、自己教師ありマルチモーダル表現をどのように学習できるでしょうか?
この論文では、マルチビューの冗長性を超える新しいマルチモーダル表現学習手法である FactorCL を提案します。
FactorCL は 3 つの新しい貢献から構築されています: (1) タスク関連情報を共有の一意の表現に因数分解する、(2) MI 下限を最大化することでタスク関連情報を取得し、MI 上限を最小化することでタスクに無関係な情報を削除する、(3)
) ラベルなしでタスクの関連性を概算するためのマルチモーダル データ拡張。
大規模な現実世界のデータセット上で、FactorCL は共有情報と固有情報の両方を取得し、6 つのベンチマークで最先端の結果を達成します。

要約(オリジナル)

In a wide range of multimodal tasks, contrastive learning has become a particularly appealing approach since it can successfully learn representations from abundant unlabeled data with only pairing information (e.g., image-caption or video-audio pairs). Underpinning these approaches is the assumption of multi-view redundancy – that shared information between modalities is necessary and sufficient for downstream tasks. However, in many real-world settings, task-relevant information is also contained in modality-unique regions: information that is only present in one modality but still relevant to the task. How can we learn self-supervised multimodal representations to capture both shared and unique information relevant to downstream tasks? This paper proposes FactorCL, a new multimodal representation learning method to go beyond multi-view redundancy. FactorCL is built from three new contributions: (1) factorizing task-relevant information into shared and unique representations, (2) capturing task-relevant information via maximizing MI lower bounds and removing task-irrelevant information via minimizing MI upper bounds, and (3) multimodal data augmentations to approximate task relevance without labels. On large-scale real-world datasets, FactorCL captures both shared and unique information and achieves state-of-the-art results on six benchmarks.

arxiv情報

著者 Paul Pu Liang,Zihao Deng,Martin Ma,James Zou,Louis-Philippe Morency,Ruslan Salakhutdinov
発行日 2023-06-08 15:17:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM パーマリンク