C3L: Content Correlated Vision-Language Instruction Tuning Data Generation via Contrastive Learning

要約

視覚言語命令チューニング (VLIT) は、大規模視覚言語モデル (LVLM) の重要なトレーニング フェーズです。
オープンソース LVLM の機能の向上に伴い、研究者はオープンソース LVLM を使用して VLIT データを生成することにますます注目し、大きな進歩を遂げています。
ただし、このようなデータ生成アプローチは、次の課題によってボトルネックになっています。 1) マルチモーダル モデルは事前の言語知識の影響を受ける傾向があるため、LVLM を直接使用して VLIT データを生成すると、生成されたデータと画像の間のコンテンツの関連性が必然的に低くなります。
2) VLIT データを生成するモデルの能力を向上させるために、以前の方法では生成能力を高める追加のトレーニング フェーズが組み込まれていました。
このプロセスは、目に見えない入力に対するモデルの一般化に悪影響を及ぼします (つまり、「露出バイアス」問題)。
この論文では、対照学習 (C3L) による新しいコンテンツ相関 VLIT データ生成を提案します。
具体的には、画像命令対応スコア S(I2C) を計算することにより、VLIT データと画像の間のコンテンツ関連性を強化する新しいコンテンツ関連性モジュールを設計します。
さらに、LVLM の VLIT データ生成機能をさらに強化するために、対照学習モジュールが導入されています。
4 つのベンチマークに関する多数の自動測定は、私たちの手法の有効性を示しています。

要約(オリジナル)

Vision-Language Instruction Tuning (VLIT) is a critical training phase for Large Vision-Language Models (LVLMs). With the improving capabilities of open-source LVLMs, researchers have increasingly turned to generate VLIT data by using open-source LVLMs and achieved significant progress. However, such data generation approaches are bottlenecked by the following challenges: 1) Since multi-modal models tend to be influenced by prior language knowledge, directly using LVLMs to generate VLIT data would inevitably lead to low content relevance between generated data and images. 2) To improve the ability of the models to generate VLIT data, previous methods have incorporated an additional training phase to boost the generative capacity. This process hurts the generalization of the models to unseen inputs (i.e., ‘exposure bias’ problem). In this paper, we propose a new Content Correlated VLIT data generation via Contrastive Learning (C3L). Specifically, we design a new content relevance module which enhances the content relevance between VLIT data and images by computing Image Instruction Correspondence Scores S(I2C). Moreover, a contrastive learning module is introduced to further boost the VLIT data generation capability of the LVLMs. A large number of automatic measures on four benchmarks show the effectiveness of our method.

arxiv情報

著者 Ji Ma,Wei Suo,Peng Wang,Yanning Zhang
発行日 2024-05-21 13:04:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク