Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models

要約

マルチモーダルモデルにおける最近の進歩は、パフォーマンスを向上させるためにキャプションを書き換えることの価値を強調しているが、まだ重要な課題が残っている。例えば、合成キャプションはしばしば優れた品質と画像とテキストの整合を提供するが、AltTextを完全に置き換えることができるかどうかは明らかではない。事前学習における合成キャプションの役割と、ウェブクローリングされたオリジナルのAltTextとの相互作用は、まだよく理解されていない。さらに、異なるマルチモーダル基礎モデルは、特定のキャプション形式に対して独自の嗜好を持つ可能性があるが、各モデルに最適なキャプションを特定する努力はまだ限定的である。本研究では、様々なマルチモーダルモデルに合わせた多様なキャプションフォーマットを生成するように設計された、新規で制御可能かつスケーラブルなキャプションパイプラインを提案する。短い合成キャプション(SSC)と密な合成キャプション(DSC+)をケーススタディとして検討することにより、CLIP、マルチモーダルLLM、拡散モデルなどのモデルを横断して、それらの効果とAltTextsとの相互作用を系統的に探索する。その結果、合成キャプションとAltTextの両方を保持するハイブリッドアプローチが、合成キャプションのみの使用を上回り、アラインメントとパフォーマンスの両方を改善できることが明らかになりました。この包括的な分析は、キャプション戦略を最適化するための貴重な洞察を提供し、それによってマルチモーダル基礎モデルの事前学習を促進する。

要約(オリジナル)

Recent advancements in multimodal models highlight the value of rewritten captions for improving performance, yet key challenges remain. For example, while synthetic captions often provide superior quality and image-text alignment, it is not clear whether they can fully replace AltTexts: the role of synthetic captions and their interaction with original web-crawled AltTexts in pre-training is still not well understood. Moreover, different multimodal foundation models may have unique preferences for specific caption formats, but efforts to identify the optimal captions for each model remain limited. In this work, we propose a novel, controllable, and scalable captioning pipeline designed to generate diverse caption formats tailored to various multimodal models. By examining Short Synthetic Captions (SSC) towards Dense Synthetic Captions (DSC+) as case studies, we systematically explore their effects and interactions with AltTexts across models such as CLIP, multimodal LLMs, and diffusion models. Our findings reveal that a hybrid approach that keeps both synthetic captions and AltTexts can outperform the use of synthetic captions alone, improving both alignment and performance, with each model demonstrating preferences for particular caption formats. This comprehensive analysis provides valuable insights into optimizing captioning strategies, thereby advancing the pre-training of multimodal foundation models.

arxiv情報

著者 Zhengfeng Lai,Vasileios Saveris,Chen Chen,Hong-You Chen,Haotian Zhang,Bowen Zhang,Juan Lao Tebar,Wenze Hu,Zhe Gan,Peter Grasch,Meng Cao,Yinfei Yang
発行日 2024-10-03 17:54:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク