MR. Judge: Multimodal Reasoner as a Judge

要約

評価審査員としての大規模な言語モデル(LLMS)およびマルチモーダル大手言語モデル(MLLM)を使用するパラダイムは、RLHFおよび推論時間スケーリングの効果的なアプローチとして浮上しています。
この作業では、マルチモーダル推論者を裁判官(裁判官)として提案します。これは、汎用MLLMS裁判官に強力な推論能力を強化するためのパラダイムです。
各応答のスコアを直接割り当てる代わりに、推論にインスパイアされた複数選択問題として判断プロセスを策定します。
具体的には、裁判官モデルは最初に、回答のさまざまな側面をカバーする意図的な推論を実施し、最終的にそれらから最良の応答を選択します。
この推論プロセスは、判断の解釈を改善するだけでなく、MLLM審査員のパフォーマンスを大幅に向上させます。
スコア付き応答の質問の不足に対処するために、自動注釈を達成するための次の戦略を提案します。1)逆応答候補の合成:監視された微調整(SFT)データセットから始まり、元の応答を最良の候補として扱い、MLLMに促進し、もっともらしいが欠陥のあるネガティブ候補を生成します。
2)テキストベースの推論抽出:テキストベースの推論モデルから推論機能を蒸留するためのデータ統合パイプラインを慎重に設計します。これにより、MLLM裁判官は、監視された微調整を介して複雑な推論能力を取り戻すことができます。
実験は、私たちのMRを示しています。
裁判官は、幅広いタスクにわたって効果的です。
具体的には、私たちのMR。
Judge-7Bは、VL-RewardbenchでGPT-4Oを9.9%上回り、推論時間スケーリング中のMM-VETのパフォーマンスを最大7.7%上回ります。

要約(オリジナル)

The paradigm of using Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) as evaluative judges has emerged as an effective approach in RLHF and inference-time scaling. In this work, we propose Multimodal Reasoner as a Judge (MR. Judge), a paradigm for empowering general-purpose MLLMs judges with strong reasoning capabilities. Instead of directly assigning scores for each response, we formulate the judgement process as a reasoning-inspired multiple-choice problem. Specifically, the judge model first conducts deliberate reasoning covering different aspects of the responses and eventually selects the best response from them. This reasoning process not only improves the interpretibility of the judgement, but also greatly enhances the performance of MLLM judges. To cope with the lack of questions with scored responses, we propose the following strategy to achieve automatic annotation: 1) Reverse Response Candidates Synthesis: starting from a supervised fine-tuning (SFT) dataset, we treat the original response as the best candidate and prompt the MLLM to generate plausible but flawed negative candidates. 2) Text-based reasoning extraction: we carefully design a data synthesis pipeline for distilling the reasoning capability from a text-based reasoning model, which is adopted to enable the MLLM judges to regain complex reasoning ability via warm up supervised fine-tuning. Experiments demonstrate that our MR. Judge is effective across a wide range of tasks. Specifically, our MR. Judge-7B surpasses GPT-4o by 9.9% on VL-RewardBench, and improves performance on MM-Vet during inference-time scaling by up to 7.7%.

arxiv情報

著者 Renjie Pi,Felix Bai,Qibin Chen,Simon Wang,Jiulong Shan,Kieran Liu,Meng Cao
発行日 2025-05-19 17:37:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク