要約
視覚的なキャプションベンチマークは、現代のマルチモーダル大手言語モデル(MLLM)の出現に伴い時代遅れになりました。これは、短いグラウンドトゥルースの文と従来のメトリックが詳細なキャプションを効果的に評価できないためです。
最近のベンチマークは、キーワード抽出またはオブジェクト中心の評価に焦点を当てることでこれに対処しようとしますが、それらは曖昧なビューまたはオブジェクトビュー分析と不完全な視覚要素カバレッジに限定されたままです。
このホワイトペーパーでは、6つの重要なビューにまたがる12次元にわたって視覚的なキャプションを評価するための包括的なマルチビューベンチマークである機能を紹介します。
生成されたキャプションを評価するために、視覚的な要素アノテーションを使用して、約11k人の人間に承認された画像とビデオをキュレートします。
機能は、F1スコアを使用してキャプションの正確性と徹底性の両方を安定に評価します。
アノテーションをQAペアに変換することにより、ヒューリスティックメトリック、\ textIT {now but incain}($ k \ bar {t} $)を導入し、QAとキャプション機能の間に大きなパフォーマンスギャップを示します。
私たちの作品は、MLLMのキャプション能力の最初の全体的な分析を提供します。さまざまな次元にわたる長所と短所を特定し、将来の研究を導き、能力の特定の側面を強化します。
要約(オリジナル)
Visual captioning benchmarks have become outdated with the emergence of modern multimodal large language models (MLLMs), as the brief ground-truth sentences and traditional metrics fail to assess detailed captions effectively. While recent benchmarks attempt to address this by focusing on keyword extraction or object-centric evaluation, they remain limited to vague-view or object-view analyses and incomplete visual element coverage. In this paper, we introduce CAPability, a comprehensive multi-view benchmark for evaluating visual captioning across 12 dimensions spanning six critical views. We curate nearly 11K human-annotated images and videos with visual element annotations to evaluate the generated captions. CAPability stably assesses both the correctness and thoroughness of captions using F1-score. By converting annotations to QA pairs, we further introduce a heuristic metric, \textit{know but cannot tell} ($K\bar{T}$), indicating a significant performance gap between QA and caption capabilities. Our work provides the first holistic analysis of MLLMs’ captioning abilities, as we identify their strengths and weaknesses across various dimensions, guiding future research to enhance specific aspects of capabilities.
arxiv情報
著者 | Zhihang Liu,Chen-Wei Xie,Bin Wen,Feiwu Yu,Jixuan Chen,Boqiang Zhang,Nianzu Yang,Pandeng Li,Yinglu Li,Zuan Gao,Yun Zheng,Hongtao Xie |
発行日 | 2025-04-15 12:58:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google