CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation

要約

インターリーブされた画像テキスト生成は、クエリを与えられたインターリーブ視覚およびテキストコンテンツのシーケンスを作成することを目的とした、重要なマルチモーダルタスクとして浮上しています。
最近のマルチモーダル大手言語モデル(MLLM)での顕著な進歩にもかかわらず、物語の一貫性とエンティティとスタイルの一貫性を示す統合された画像テキストシーケンスを生成することは、トレーニングデータの品質が低いために困難なままです。
このギャップに対処するために、Commを紹介します。これは、生成されたマルチモーダルコンテンツのコヒーレンス、一貫性、およびアライメントを強化するために設計された高品質のコヒーレントインターリーブ画像マルチモーダルデータセットです。
当初、Commはさまざまなソースから生データを利用し、指導コンテンツと視覚的なストーリーテリングに焦点を当て、一貫性と一貫したコンテンツの基盤を確立します。
データ品質をさらに絞り込むために、高度な事前訓練モデルを活用して、文の開発、挿入された画像の一貫性、およびそれらの間のセマンティックアライメントを確保する多面的なフィルター戦略を考案します。
さまざまな品質評価メトリックが、フィルタリングされたデータセットの高品質を証明するように設計されています。
一方、さまざまなダウンストリームタスクでの広範な少ないショット実験は、MLLMSのコンテキスト学習能力を大幅に向上させるCommの有効性を示しています。
さらに、包括的な評価フレームワークによってサポートされているMLLMのインターリーブ生成能力を評価するための4つの新しいタスクを提案します。
Commは、優れたマルチモーダルでのコンテキスト学習と理解能力を備えた高度なMLLMの新しい道を開くと信じています。

要約(オリジナル)

Interleaved image-text generation has emerged as a crucial multimodal task, aiming at creating sequences of interleaved visual and textual content given a query. Despite notable advancements in recent multimodal large language models (MLLMs), generating integrated image-text sequences that exhibit narrative coherence and entity and style consistency remains challenging due to poor training data quality. To address this gap, we introduce CoMM, a high-quality Coherent interleaved image-text MultiModal dataset designed to enhance the coherence, consistency, and alignment of generated multimodal content. Initially, CoMM harnesses raw data from diverse sources, focusing on instructional content and visual storytelling, establishing a foundation for coherent and consistent content. To further refine the data quality, we devise a multi-perspective filter strategy that leverages advanced pre-trained models to ensure the development of sentences, consistency of inserted images, and semantic alignment between them. Various quality evaluation metrics are designed to prove the high quality of the filtered dataset. Meanwhile, extensive few-shot experiments on various downstream tasks demonstrate CoMM’s effectiveness in significantly enhancing the in-context learning capabilities of MLLMs. Moreover, we propose four new tasks to evaluate MLLMs’ interleaved generation abilities, supported by a comprehensive evaluation framework. We believe CoMM opens a new avenue for advanced MLLMs with superior multimodal in-context learning and understanding ability.

arxiv情報

著者 Wei Chen,Lin Li,Yongqi Yang,Bin Wen,Fan Yang,Tingting Gao,Yu Wu,Long Chen
発行日 2025-04-02 13:30:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク