要約
Multimodal Chain of Thound(MCOT)は、複雑な推論タスクの範囲にわたるマルチモーダル大手言語モデル(MLLM)のパフォーマンスを改善するための一般的なプロンプト戦略です。
その人気にもかかわらず、MCOTの推論ステップの品質を評価するための自動化された方法が顕著に欠けています。
このギャップに対処するために、記述と各推論ステップの両方の品質を評価することにより、推論チェーンの正確性を評価するために設計されたフレームワークであるマルチモーダルチェーンオブサボート評価(Micalval)を提案します。
説明コンポーネントの評価は、画像の説明の精度に焦点を当てていますが、推論ステップは、前のステップに基づいて条件付きで生成されるため、各ステップの品質を評価します。
Micevalは、正確性、関連性、および情報性に応じて各ステップを評価する注釈を備えた微粒データセットの上に構築されています。
4つの最先端のMLLMに関する広範な実験は、Micevalを使用した段階的評価が、Cosineの類似性または微調整アプローチに基づいた既存の方法と比較して、人間の判断とより密接に整合することを示しています。
Micevalデータセットとコードは、https://github.com/alenai97/micevalにあります。
要約(オリジナル)
Multimodal Chain of Thought (MCoT) is a popular prompting strategy for improving the performance of multimodal large language models (MLLMs) across a range of complex reasoning tasks. Despite its popularity, there is a notable absence of automated methods for evaluating the quality of reasoning steps in MCoT. To address this gap, we propose Multimodal Chain-of-Thought Evaluation (MiCEval), a framework designed to assess the correctness of reasoning chains by evaluating the quality of both the description and each reasoning step. The evaluation of the description component focuses on the accuracy of the image descriptions, while the reasoning step evaluates the quality of each step as it is conditionally generated based on the preceding steps. MiCEval is built upon a fine-grained dataset with annotations that rate each step according to correctness, relevance, and informativeness. Extensive experiments on four state-of-the-art MLLMs show that step-wise evaluations using MiCEval align more closely with human judgments compared to existing methods based on cosine similarity or fine-tuning approaches. MiCEval datasets and code can be found in https://github.com/alenai97/MiCEval.
arxiv情報
| 著者 | Xiongtao Zhou,Jie He,Lanyu Chen,Jingyu Li,Haojing Chen,Víctor Gutiérrez-Basulto,Jeff Z. Pan,Hanjie Chen |
| 発行日 | 2025-02-28 12:57:03+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google