Beyond Filtering: Adaptive Image-Text Quality Enhancement for MLLM Pretraining

要約

マルチモーダル大規模言語モデル (MLLM) は、ビジュアル モダリティとテキスト モダリティを統合することによって大幅に進歩しました。
MLLM のトレーニングにおける重要な要素は、マルチモーダル事前トレーニング データセット内の画像とテキストのペアの品質です。
しかし、$\textit {事実上}$ フィルターベースのデータ品質向上パラダイムでは、画像とテキスト間の意味論的な整合性が不十分であるため、高品質の画像データのかなりの部分が破棄されることが多く、データ利用とスケーラビリティの非効率につながります。
この論文では、画像とテキストのペアの品質を動的に評価して向上させるモデルである、Adaptive Image-Text Quality Enhancer (AITQE) を提案します。
AITQE は、低品質のペアに対してテキスト書き換えメカニズムを採用し、トレーニング中に意図的に選択された低品質のサンプルを統合することで評価機能を向上させるネガティブ サンプル学習戦略を組み込んでいます。
テキストの分布を大幅に変更する従来のアプローチとは異なり、私たちの方法では、品質を向上させながらデータ量を維持するためにテキストを最小限に調整します。
実験結果は、AITQE がさまざまなベンチマークで既存の手法を上回り、生データを効果的に活用し、データ量の増加に応じて効率的に拡張できることを示しています。
私たちの作品が将来の作品にインスピレーションを与えることを願っています。
コードとモデルは https://github.com/hanhuang22/AITQE から入手できます。

要約(オリジナル)

Multimodal large language models (MLLMs) have made significant strides by integrating visual and textual modalities. A critical factor in training MLLMs is the quality of image-text pairs within multimodal pretraining datasets. However, $\textit {de facto}$ filter-based data quality enhancement paradigms often discard a substantial portion of high-quality image data due to inadequate semantic alignment between images and texts, leading to inefficiencies in data utilization and scalability. In this paper, we propose the Adaptive Image-Text Quality Enhancer (AITQE), a model that dynamically assesses and enhances the quality of image-text pairs. AITQE employs a text rewriting mechanism for low-quality pairs and incorporates a negative sample learning strategy to improve evaluative capabilities by integrating deliberately selected low-quality samples during training. Unlike prior approaches that significantly alter text distributions, our method minimally adjusts text to preserve data volume while enhancing quality. Experimental results demonstrate that AITQE surpasses existing methods on various benchmark, effectively leveraging raw data and scaling efficiently with increasing data volumes. We hope our work will inspire future works. The code and model are available at: https://github.com/hanhuang22/AITQE.

arxiv情報

著者 Han Huang,Yuqi Huo,Zijia Zhao,Haoyu Lu,Shu Wu,Bingning Wang,Qiang Liu,Weipeng Chen,Liang Wang
発行日 2024-10-21 16:32:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク