要約
視覚言語事前学習(VLP)はマルチモーダル課題において目覚ましい成功を収めているが、その主な要因は大規模な画像-テキストデータセットの利用可能性にある。本研究では、マルチモーダル大規模言語モデル(MLLM)が、データの質を向上させることにより、視覚言語表現学習を強化できることを実証する。我々のアプローチは単純で、各画像の複数のキャプションを拡張するためにMLLMを利用する。MLLMの幻覚や固有のキャプションスタイルによってもたらされるバイアスを防ぐために、拡張キャプションを元のキャプションと同じ長さに維持する「テキストシアリング」を提案する。画像-テキスト検索において、本手法は、微調整とゼロショット設定の下で、R@1に対してそれぞれ5.6〜35.0%、16.8〜46.1%の改善を一貫して得る。特に、ゼロショットの結果は、ターゲットデータセットにおいて、ファインチューニングに匹敵する。
要約(オリジナル)
Visual-language pre-training (VLP) has achieved remarkable success in multi-modal tasks, largely attributed to the availability of large-scale image-text datasets. In this work, we demonstrate that multi-modal large language models (MLLMs) can enhance visual-language representation learning by improving data quality. Our approach is simple, utilizing MLLMs to extend multiple captions for each image. To prevent the bias introduced by MLLMs’ hallucinations and intrinsic caption styles, we propose ‘text shearing’ to maintain the same length for extended captions as that of the original captions. In image-text retrieval, our method consistently obtains 5.6 ~ 35.0% and 16.8 ~ 46.1% improvement on R@1 under the fine-tuning and zero-shot settings, respectively. Notably, we obtain zero-shot results that are comparable to fine-tuning on target datasets, which encourages more exploration of the versatile use of MLLMs.
arxiv情報
著者 | Yanqing Liu,Kai Wang,Wenqi Shao,Ping Luo,Yu Qiao,Mike Zheng Shou,Kaipeng Zhang,Yang You |
発行日 | 2023-12-01 15:38:31+00:00 |
arxivサイト | arxiv_id(pdf) |