要約
マルチモーダル大手言語モデル(MLLM)は、多様な問題ドメイン全体で優れた指導に従っている能力と推論機能で有名です。
ただし、既存のベンチマークは、主に、下流タスクの事実および論理的正しさの評価に焦点を当てており、実用的な手がかりとモーダル間の関係を解釈するMLLMの能力の評価に限られています。
このギャップに対処するために、コヒーレンス関係を使用してマルチモーダル談話分析(MDA)の実行におけるMLLMの能力を評価します。
私たちのベンチマーク、肉体的には、さまざまなレベルの粒度で3つの異なる談話ドメインにわたる幅広い一貫性関係を網羅しています。
さまざまなプロンプト戦略を採用している10以上のMLLMに関する実験を通じて、Gemini 1.5 ProやGPT-4Oなどのトップモデルでさえ、単純な分類器ベースのベースラインのパフォーマンスと一致できないことを示しています。
この研究は、類似性に基づいたメトリックを超えて、MLLMを評価するための談話主導のフレームワークを採用する必要性を強調し、能力のより微妙な評価を提供します。
ベンチマークとコードは、https://aashish2000.github.io/cordial/で入手できます。
要約(オリジナル)
Multimodal Large Language Models (MLLMs) are renowned for their superior instruction-following and reasoning capabilities across diverse problem domains. However, existing benchmarks primarily focus on assessing factual and logical correctness in downstream tasks, with limited emphasis on evaluating MLLMs’ ability to interpret pragmatic cues and intermodal relationships. To address this gap, we assess the competency of MLLMs in performing Multimodal Discourse Analysis (MDA) using Coherence Relations. Our benchmark, CORDIAL, encompasses a broad spectrum of Coherence Relations across 3 different discourse domains at varying levels of granularity. Through our experiments on 10+ MLLMs employing different prompting strategies, we show that even top models like Gemini 1.5 Pro and GPT-4o fail to match the performance of simple classifier-based baselines. This study emphasizes the need to move beyond similarity-based metrics and adopt a discourse-driven framework for evaluating MLLMs, providing a more nuanced assessment of their capabilities. The benchmark and code are available at: https://aashish2000.github.io/CORDIAL/
arxiv情報
著者 | Aashish Anantha Ramakrishnan,Aadarsh Anantha Ramakrishnan,Dongwon Lee |
発行日 | 2025-06-09 17:25:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google