On the Importance of Contrastive Loss in Multimodal Learning

要約

タイトル:マルチモーダル学習における対照的損失の重要性について
要約:

– 最近、コントラスティブ学習手法(例えば、CLIP(Radfordら、2021年))がマルチモーダル学習において大きな成功を収めています。この手法では、モデルは異なるビュー(例えば、画像とそのキャプション)の表現の距離を最小化し、異なるデータ点の表現をお互いに遠ざけようとします。
– 理論的な観点からは、データが等方的でない場合、コントラスティブ学習が異なるビューからの表現を効率的に学習する方法は不明です。この研究では、単純なマルチモーダルコントラスティブ学習モデルのトレーニングダイナミクスを分析し、コントラスティブペアが学習された表現を効率的にバランスさせるために重要であることを示します。
– 特に、ポジティブペアは表現を整列させるために条件番号を増加させる一方、ネガティブペアは条件番号を減少させ、学習された表現をバランスさせます。

要約(オリジナル)

Recently, contrastive learning approaches (e.g., CLIP (Radford et al., 2021)) have received huge success in multimodal learning, where the model tries to minimize the distance between the representations of different views (e.g., image and its caption) of the same data point while keeping the representations of different data points away from each other. However, from a theoretical perspective, it is unclear how contrastive learning can learn the representations from different views efficiently, especially when the data is not isotropic. In this work, we analyze the training dynamics of a simple multimodal contrastive learning model and show that contrastive pairs are important for the model to efficiently balance the learned representations. In particular, we show that the positive pairs will drive the model to align the representations at the cost of increasing the condition number, while the negative pairs will reduce the condition number, keeping the learned representations balanced.

arxiv情報

著者 Yunwei Ren,Yuanzhi Li
発行日 2023-04-07 16:25:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク