要約
チャート質問応答(CQA)ベンチマークは、視覚データを解釈するためのマルチモーダル大手言語モデル(MLLM)の機能を評価するために不可欠です。
ただし、現在のベンチマークは、主に汎用CQAの評価に焦点を当てていますが、ドメイン固有の課題を適切にキャプチャすることができません。
ドメイン固有のCQAベンチマークを構築するための体系的な方法論であるDomainCQAを紹介し、天文学の分野でのCQAベンチマークであるAstrochartを開発することにより、その有効性を実証します。
私たちの評価は、チャートの推論とチャート情報をドメインの知識と組み合わせて、ドメイン固有の知識ではなく、より深い分析と要約が既存のMLLMの主要な課題をもたらし、現在のベンチマークの重要なギャップを強調することを示しています。
スケーラブルで厳密なフレームワークを提供することにより、DomainCQAは、ドメイン固有のアプリケーションのMLLMのより正確な評価と改善を可能にします。
要約(オリジナル)
Chart Question Answering (CQA) benchmarks are essential for evaluating the capability of Multimodal Large Language Models (MLLMs) to interpret visual data. However, current benchmarks focus primarily on the evaluation of general-purpose CQA but fail to adequately capture domain-specific challenges. We introduce DomainCQA, a systematic methodology for constructing domain-specific CQA benchmarks, and demonstrate its effectiveness by developing AstroChart, a CQA benchmark in the field of astronomy. Our evaluation shows that chart reasoning and combining chart information with domain knowledge for deeper analysis and summarization, rather than domain-specific knowledge, pose the primary challenge for existing MLLMs, highlighting a critical gap in current benchmarks. By providing a scalable and rigorous framework, DomainCQA enables more precise assessment and improvement of MLLMs for domain-specific applications.
arxiv情報
著者 | Ling Zhong,Yujing Lu,Jing Yang,Weiming Li,Peng Wei,Yongheng Wang,Manni Duan,Qing Zhang |
発行日 | 2025-03-28 12:24:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google