要約
自己教師ありマルチモーダル対照学習 (SMCL) は、視覚モダリティと言語モダリティを調整することにより、最新の視覚言語事前トレーニング (VLP) モデルを著しく進歩させます。
ただし、Web で収集されたテキストと画像のペアにノイズがあるため、SMCL でトレーニング データの量をスケールアップすると、計算コストとデータの非効率性の点で大きな障害が生じます。
VLP でのデータ効率を向上させるために、ミックスベースのデータ拡張技術を SMCL に統合する Text-aware Image Mixing (TiMix) を提案します。これにより、計算オーバーヘッドを大幅に増加させることなく、パフォーマンスが大幅に向上します。
相互情報量 (MI) の観点から TiMix の理論的分析を提供し、クロスモーダル対比学習用の混合データ サンプルが暗黙的に対比損失の正則化機能として機能することを示します。
実験結果は、既存の手法と比較してベンチマークを行った場合、トレーニング データの量が減り、トレーニング時間が短縮された場合でも、TiMix がダウンストリーム タスクで同等のパフォーマンスを示すことを示しています。
この研究は、データ効率が高く計算的に実行可能な VLP のためのデータ混合の可能性を経験的および理論的に実証し、実際のシナリオでの VLP モデルのより広範な採用に利益をもたらします。
要約(オリジナル)
Self-supervised Multi-modal Contrastive Learning (SMCL) remarkably advances modern Vision-Language Pre-training (VLP) models by aligning visual and linguistic modalities. Due to noises in web-harvested text-image pairs, however, scaling up training data volume in SMCL presents considerable obstacles in terms of computational cost and data inefficiency. To improve data efficiency in VLP, we propose Text-aware Image Mixing (TiMix), which integrates mix-based data augmentation techniques into SMCL, yielding significant performance improvements without significantly increasing computational overhead. We provide a theoretical analysis of TiMixfrom a mutual information (MI) perspective, showing that mixed data samples for cross-modal contrastive learning implicitly serve as a regularizer for the contrastive loss. The experimental results demonstrate that TiMix exhibits a comparable performance on downstream tasks, even with a reduced amount of training data and shorter training time, when benchmarked against existing methods. This work empirically and theoretically demonstrates the potential of data mixing for data-efficient and computationally viable VLP, benefiting broader VLP model adoption in practical scenarios.
arxiv情報
著者 | Chaoya Jiang,Wei ye,Haiyang Xu,Qinghao Ye,Ming Yan,Ji Zhang,Shikun Zhang |
発行日 | 2023-12-14 12:02:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google