要約
マルチモーダル大手言語モデル(MLLM)は、多様なモダリティの統合に進んでいますが、しばしば幻覚に苦しんでいます。
この問題を軽減する有望な解決策は、引用を含むテキストを生成し、検証のための透明なチェーンを提供することです。
ただし、既存の作業は、主にテキストのみのコンテンツの引用の生成に焦点を当てており、マルチモーダルコンテキストの課題と機会を見落としています。
このギャップに対処するために、MLLMSのマルチモーダル引用テキスト生成能力を評価および分析するために設計された最初のベンチマークであるMcIteBenchを紹介します。
私たちのベンチマークは、アカデミックペーパーとレビューとrebuttalの相互作用から派生したデータで構成され、多様な情報源とマルチモーダルコンテンツを備えています。
引用の品質、ソースの信頼性、回答の精度など、複数の次元からモデルを包括的に評価します。
広範な実験を通じて、MLLMはマルチモーダル引用テキスト生成と闘っていることがわかります。
また、モデルのパフォーマンスの深い分析を実施し、ボトルネックがマルチモーダルコンテンツを理解するのではなく、正しいソースに起因することにあることを明らかにしています。
要約(オリジナル)
Multimodal Large Language Models (MLLMs) have advanced in integrating diverse modalities but frequently suffer from hallucination. A promising solution to mitigate this issue is to generate text with citations, providing a transparent chain for verification. However, existing work primarily focuses on generating citations for text-only content, overlooking the challenges and opportunities of multimodal contexts. To address this gap, we introduce MCiteBench, the first benchmark designed to evaluate and analyze the multimodal citation text generation ability of MLLMs. Our benchmark comprises data derived from academic papers and review-rebuttal interactions, featuring diverse information sources and multimodal content. We comprehensively evaluate models from multiple dimensions, including citation quality, source reliability, and answer accuracy. Through extensive experiments, we observe that MLLMs struggle with multimodal citation text generation. We also conduct deep analyses of models’ performance, revealing that the bottleneck lies in attributing the correct sources rather than understanding the multimodal content.
arxiv情報
著者 | Caiyu Hu,Yikai Zhang,Tinghui Zhu,Yiwei Ye,Yanghua Xiao |
発行日 | 2025-03-05 03:28:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google