Low-hallucination Synthetic Captions for Large-Scale Vision-Language Model Pre-training

要約

近年、ビジョン言語モデルのプリトレーニングの分野は、主に大規模な言語モデルのテキスト機能の継続的な強化によって駆動される急速な進歩を経験しています。
ただし、マルチモーダルの大手言語モデルの既存のトレーニングパラダイムは、高品質の画像テキストペアに大きく依存しています。
モデルとデータの尺度が指数関数的に成長するにつれて、このような細心の注意を払ってキュレーションされたデータの可用性はますます乏しく飽和状態になり、そのため、このドメインのさらなる進歩を厳しく制限しています。
この研究では、視覚系モデルのトレーニング前のスケーラブルなキャプション生成技術を調査し、大規模な低温ホールチョン化合成キャプションが二重の目的に役立つことを実証します。1)トレーニング前パラダイムの実世界のデータの実行可能な代替として機能し、2)経験的な検証を通じて視力モデルに統合された場合、優れたパフォーマンスモデルを達成することを実証します。
このホワイトペーパーでは、3つの重要な貢献を紹介します。1)高品質の低温、知識が豊富な合成キャプションを生成するための新しいパイプライン。
継続的なDPO方法論は、幻覚を減らすことで顕著な結果をもたらします。
具体的には、7Bサイズのモデルでは、保有テストセットの非ホールチョン化キャプション率は48.2%から77.9%に増加します。
2)包括的な経験的検証により、当社の合成キャプションは、カウンターパートよりも優れたトレーニング前の利点を付与することが明らかになりました。
35のビジョン言語タスクにわたって、データで訓練されたモデルは、Alt-textペアや他の以前の作業と比較して、少なくとも6.2%の大幅なパフォーマンスゲインを達成します。
一方、テキストからイメージまでのドメインでかなりのサポートも提供しています。
データセットを使用すると、FIDスコアは、実際の検証ベンチマークで17.1、MSCOCO検証ベンチマークで13.3に削減されます。
3)Hunyuan-Recap100m、低硬化および知識集約型の合成キャプションデータセットをリリースします。

要約(オリジナル)

In recent years, the field of vision-language model pre-training has experienced rapid advancements, driven primarily by the continuous enhancement of textual capabilities in large language models. However, existing training paradigms for multimodal large language models heavily rely on high-quality image-text pairs. As models and data scales grow exponentially, the availability of such meticulously curated data has become increasingly scarce and saturated, thereby severely limiting further advancements in this domain. This study investigates scalable caption generation techniques for vision-language model pre-training and demonstrates that large-scale low-hallucination synthetic captions can serve dual purposes: 1) acting as a viable alternative to real-world data for pre-training paradigms and 2) achieving superior performance enhancement when integrated into vision-language models through empirical validation. This paper presents three key contributions: 1) a novel pipeline for generating high-quality, low-hallucination, and knowledge-rich synthetic captions. Our continuous DPO methodology yields remarkable results in reducing hallucinations. Specifically, the non-hallucination caption rate on a held-out test set increases from 48.2% to 77.9% for a 7B-size model. 2) Comprehensive empirical validation reveals that our synthetic captions confer superior pre-training advantages over their counterparts. Across 35 vision language tasks, the model trained with our data achieves a significant performance gain of at least 6.2% compared to alt-text pairs and other previous work. Meanwhile, it also offers considerable support in the text-to-image domain. With our dataset, the FID score is reduced by 17.1 on a real-world validation benchmark and 13.3 on the MSCOCO validation benchmark. 3) We will release Hunyuan-Recap100M, a low-hallucination and knowledge-intensive synthetic caption dataset.

arxiv情報

著者 Xinsong Zhang,Yarong Zeng,Xinting Huang,Hu Hu,Runquan Xie,Han Hu,Zhanhui Kang
発行日 2025-04-17 17:40:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク