On scalable oversight with weak LLMs judging strong LLMs

要約

スケーラブルな監視プロトコルは、人間が超人的なAIを正確に監視できるようにすることを目的としている。本論文では、2つのAIが裁判官を説得するために競争するディベート、1つのAIが質問する裁判官を説得しようとするコンサルティング、および裁判官がAIを介さずに直接回答する直接質問回答のベースラインとの比較を研究する。我々は、AIエージェントとしても人間の裁判官の代用としても大規模言語モデル(LLM)を使用し、裁判官モデルはエージェントモデルよりも弱いものとする。情報の非対称性を伴う単一の抽出的QAタスクに関する従来の研究を拡張し、数学、コーディング、ロジック、マルチモーダル推論の非対称性も含めることで、裁判官とエージェント間の多様な非対称性についてベンチマークを行う。我々は、コンサルタントが正解/不正解を主張するようにランダムに割り当てられた場合、全てのタスクにおいてディベートがコンサルタントよりも優れていることを発見した。情報の非対称性がある抽出的なQAタスクではディベートが直接質問応答を上回るが、情報の非対称性がない他のタスクでは結果はまちまちである。しかし、情報の非対称性がない他のタスクでは結果はまちまちである。しかし、情報の非対称性がない他の課題では、ディベートの方が直接質問回答よりも優れている。さらに、より強力なディベーター・モデルは、従来の研究よりも控えめではあるが、ジャッジの精度を高めることがわかった。

要約(オリジナル)

Scalable oversight protocols aim to enable humans to accurately supervise superhuman AI. In this paper we study debate, where two AI’s compete to convince a judge; consultancy, where a single AI tries to convince a judge that asks questions; and compare to a baseline of direct question-answering, where the judge just answers outright without the AI. We use large language models (LLMs) as both AI agents and as stand-ins for human judges, taking the judge models to be weaker than agent models. We benchmark on a diverse range of asymmetries between judges and agents, extending previous work on a single extractive QA task with information asymmetry, to also include mathematics, coding, logic and multimodal reasoning asymmetries. We find that debate outperforms consultancy across all tasks when the consultant is randomly assigned to argue for the correct/incorrect answer. Comparing debate to direct question answering, the results depend on the type of task: in extractive QA tasks with information asymmetry debate outperforms direct question answering, but in other tasks without information asymmetry the results are mixed. Previous work assigned debaters/consultants an answer to argue for. When we allow them to instead choose which answer to argue for, we find judges are less frequently convinced by the wrong answer in debate than in consultancy. Further, we find that stronger debater models increase judge accuracy, though more modestly than in previous studies.

arxiv情報

著者 Zachary Kenton,Noah Y. Siegel,János Kramár,Jonah Brown-Cohen,Samuel Albanie,Jannis Bulian,Rishabh Agarwal,David Lindner,Yunhao Tang,Noah D. Goodman,Rohin Shah
発行日 2024-07-05 16:29:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク