要約
大規模な言語モデル(LLM)が多様なドメインとモダリティにわたって専門知識を獲得するにつれて、特にその能力が人間の評価者を上回る場合、スケーラブルな監視がますます困難になります。
議論は、そのような監視を可能にするための有望なメカニズムとして浮上しています。
この作業では、議論のパラダイムをマルチモーダル設定に拡張し、より強力なモデルのパフォーマンスを監督および強化するためのより弱いモデルの可能性を調査します。
視覚的な質問応答(VQA)に焦点を当てています。そこでは、2人の「目撃された」専門家のビジョン言語モデルが答えを議論し、「盲目」(テキストのみの)裁判官は、議論の品質のみに基づいて判断します。
私たちの枠組みでは、専門家は自分の信念に沿った回答のみを擁護し、それにより、専門家の意見の不一致の事例に関する明示的なロールプレイングと議論を集中させる必要性を明らかにします。
いくつかのマルチモーダルタスクでの実験は、議論のフレームワークが個々の専門家モデルを常に上回ることを示しています。
さらに、より弱いLLMからの判断は、視覚モデルに視覚モデルに推論能力を浸透させるのに役立ちます。
要約(オリジナル)
As Large Language Models (LLMs) gain expertise across diverse domains and modalities, scalable oversight becomes increasingly challenging, particularly when their capabilities may surpass human evaluators. Debate has emerged as a promising mechanism for enabling such oversight. In this work, we extend the debate paradigm to a multimodal setting, exploring its potential for weaker models to supervise and enhance the performance of stronger models. We focus on visual question answering (VQA), where two ‘sighted’ expert vision-language models debate an answer, while a ‘blind’ (text-only) judge adjudicates based solely on the quality of the arguments. In our framework, the experts defend only answers aligned with their beliefs, thereby obviating the need for explicit role-playing and concentrating the debate on instances of expert disagreement. Experiments on several multimodal tasks demonstrate that the debate framework consistently outperforms individual expert models. Moreover, judgments from weaker LLMs can help instill reasoning capabilities in vision-language models through finetuning.
arxiv情報
著者 | Ashutosh Adhikari,Mirella Lapata |
発行日 | 2025-05-20 17:18:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google