GATE OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation

要約

マルチモーダル大規模言語モデル (MLLM) は、視覚的な理解と生成タスクにおいて大幅な進歩を遂げました。
ただし、インターリーブされた画像とテキストのコンテンツを生成することは依然として課題であり、統合されたマルチモーダルな理解と生成能力が必要です。
統合モデルの進歩により新しいソリューションが提供される一方で、データ サイズと多様性の制限により、既存のベンチマークはこれらの手法を評価するには不十分です。
このギャップを埋めるために、56 の実世界のタスクにわたる 5,400 個の高品質な人間による注釈付きインスタンスで構成される包括的なベンチマークである GATE OpenING (OpenING) を導入します。
OpenING は、旅行ガイド、デザイン、ブレインストーミングなどの日常のさまざまなシナリオをカバーし、困難なインターリーブ生成方法に堅牢なプラットフォームを提供します。
さらに、オープンエンドのマルチモーダル生成方法を評価するための判定モデルである IntJudge を紹介します。
新しいデータ パイプラインでトレーニングされた当社の IntJudge は、人間の判断との一致率 82.42% を達成し、GPT ベースの評価者を 11.34% 上回っています。
OpenING に関する広範な実験により、現在のインターリーブ生成方法にはまだ改善の余地がかなりあることが明らかになりました。
次世代モデルの開発をガイドするために、インターリーブされた画像とテキストの生成に関する重要な発見がさらに提示されます。
OpenING は https://opening.github.io でオープンソース化されています。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have made significant strides in visual understanding and generation tasks. However, generating interleaved image-text content remains a challenge, which requires integrated multimodal understanding and generation abilities. While the progress in unified models offers new solutions, existing benchmarks are insufficient for evaluating these methods due to data size and diversity limitations. To bridge this gap, we introduce GATE OpenING (OpenING), a comprehensive benchmark comprising 5,400 high-quality human-annotated instances across 56 real-world tasks. OpenING covers diverse daily scenarios such as travel guide, design, and brainstorming, offering a robust platform for challenging interleaved generation methods. In addition, we present IntJudge, a judge model for evaluating open-ended multimodal generation methods. Trained with a novel data pipeline, our IntJudge achieves an agreement rate of 82. 42% with human judgments, outperforming GPT-based evaluators by 11.34%. Extensive experiments on OpenING reveal that current interleaved generation methods still have substantial room for improvement. Key findings on interleaved image-text generation are further presented to guide the development of next-generation models. The OpenING is open-sourced at https://opening.github.io.

arxiv情報

著者 Pengfei Zhou,Xiaopeng Peng,Jiajun Song,Chuanhao Li,Zhaopan Xu,Yue Yang,Ziyao Guo,Hao Zhang,Yuqi Lin,Yefei He,Lirui Zhao,Shuo Liu,Tianhua Li,Yuxuan Xie,Xiaojun Chang,Yu Qiao,Wenqi Shao,Kaipeng Zhang
発行日 2024-11-27 16:39:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク