要約
画像テキストペアを使用したマルチモーダルコントラスト学習(MMCL)によって例示されるマルチモーダル表現学習は、モダリティ全体でキューを調整することにより、強力な表現を学ぶことを目的としています。
このアプローチは、模範的な画像テキストペアが同一の概念の2つの表現を構成するというコアの仮定に依存しています。
しかし、最近の研究により、実際のデータセットはしばしば不整合を示すことが明らかになりました。
この問題に対処する方法については、2つの異なる視点があります。1つは不整合を軽減することを示唆しており、もう1つはそれを活用しています。
ここでは、これらの一見反対の視点を調整し、実践者に実践的なガイドを提供しようとしています。
したがって、潜在変数モデルを使用して、2つの特定のメカニズムを導入することにより、ミスアライメントを形式化します。選択バイアスは、いくつかのセマンティック変数が欠落している場合、およびセマンティック変数が歪んでいる摂動バイアス – 両方ともモダリティ全体で共有される潜在変数に影響を与えます。
私たちの理論分析は、穏やかな仮定の下で、MMCLによって学んだ表現は、選択と摂動バイアスに不変のセマンティック変数のサブセットに関連する情報を正確にキャプチャすることを示しています。
これは、不整合を理解するための統一された視点を提供します。
これに基づいて、さらに不整合が実際のMLシステムの設計にどのように通知するかについての実用的な洞察を提供します。
合成データと実際の画像テキストデータセットの両方に関する広範な経験的研究を通じて、理論的な調査結果を検証し、マルチモーダル表現学習に対する不整合の微妙な影響に光を当てます。
要約(オリジナル)
Multimodal representation learning, exemplified by multimodal contrastive learning (MMCL) using image-text pairs, aims to learn powerful representations by aligning cues across modalities. This approach relies on the core assumption that the exemplar image-text pairs constitute two representations of an identical concept. However, recent research has revealed that real-world datasets often exhibit misalignment. There are two distinct viewpoints on how to address this issue: one suggests mitigating the misalignment, and the other leveraging it. We seek here to reconcile these seemingly opposing perspectives, and to provide a practical guide for practitioners. Using latent variable models we thus formalize misalignment by introducing two specific mechanisms: selection bias, where some semantic variables are missing, and perturbation bias, where semantic variables are distorted — both affecting latent variables shared across modalities. Our theoretical analysis demonstrates that, under mild assumptions, the representations learned by MMCL capture exactly the information related to the subset of the semantic variables invariant to selection and perturbation biases. This provides a unified perspective for understanding misalignment. Based on this, we further offer actionable insights into how misalignment should inform the design of real-world ML systems. We validate our theoretical findings through extensive empirical studies on both synthetic data and real image-text datasets, shedding light on the nuanced impact of misalignment on multimodal representation learning.
arxiv情報
著者 | Yichao Cai,Yuhang Liu,Erdun Gao,Tianjiao Jiang,Zhen Zhang,Anton van den Hengel,Javen Qinfeng Shi |
発行日 | 2025-04-29 13:33:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google