Prover-Verifier Games improve legibility of LLM outputs

要約

大規模言語モデル (LLM) の出力の信頼性を高める 1 つの方法は、明確でチェックしやすい推論 (可読性と呼ばれる特性) で出力をサポートすることです。
私たちは、小学校の算数の問題を解くという文脈で読みやすさを研究し、答えの正しさだけを目的として思考連鎖の解法を最適化すると、問題が読みにくくなる可能性があることを示しました。
可読性の低下を軽減するために、Anil らの Prover-Verifier Game にヒントを得たトレーニング アルゴリズムを提案します。
(2021年)。
私たちのアルゴリズムは、小規模な検証者を繰り返しトレーニングして解の正しさを予測し、「役に立つ」証明者は検証者が受け入れる正しい解を生成し、「卑劣な」証明者は検証者を騙す誤った解を生成します。
トレーニングの過程で、有用な証明者の精度と敵対的攻撃に対する検証者の堅牢性が向上することがわかりました。
さらに、解読性のトレーニングは、時間に制約があり、解決策の正しさを検証する任務を負った人間にも効果があることを示します。
LLM トレーニングの過程で、役に立つ証明者の解決策をチェックするときは人間の精度が向上し、卑劣な証明者の解決策をチェックするときは精度が低下します。
したがって、小規模な検証者によるチェック可能性のトレーニングは、出力の読みやすさを高めるための妥当な手法です。
私たちの結果は、人間にとって大きなLLMの可読性を高めるための実用的な手段として、小さな検証者に対する可読性トレーニングを示唆しており、したがって超人的なモデルの位置合わせに役立つ可能性があります。

要約(オリジナル)

One way to increase confidence in the outputs of Large Language Models (LLMs) is to support them with reasoning that is clear and easy to check — a property we call legibility. We study legibility in the context of solving grade-school math problems and show that optimizing chain-of-thought solutions only for answer correctness can make them less legible. To mitigate the loss in legibility, we propose a training algorithm inspired by Prover-Verifier Game from Anil et al. (2021). Our algorithm iteratively trains small verifiers to predict solution correctness, ‘helpful’ provers to produce correct solutions that the verifier accepts, and ‘sneaky’ provers to produce incorrect solutions that fool the verifier. We find that the helpful prover’s accuracy and the verifier’s robustness to adversarial attacks increase over the course of training. Furthermore, we show that legibility training transfers to time-constrained humans tasked with verifying solution correctness. Over course of LLM training human accuracy increases when checking the helpful prover’s solutions, and decreases when checking the sneaky prover’s solutions. Hence, training for checkability by small verifiers is a plausible technique for increasing output legibility. Our results suggest legibility training against small verifiers as a practical avenue for increasing legibility of large LLMs to humans, and thus could help with alignment of superhuman models.

arxiv情報

著者 Jan Hendrik Kirchner,Yining Chen,Harri Edwards,Jan Leike,Nat McAleese,Yuri Burda
発行日 2024-08-01 17:18:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク