要約
大規模な言語モデル(LLM)の機能は、人間の好みを予測するために訓練された他のLLMによって日常的に評価されます。
このフレームワークは、LLM-As-a-a-judgeとして知られていますが、非常にスケーラブルで比較的低コストです。
ただし、LLMの応答は裁判官の好みを覆すように調整できるため、悪意のある搾取に対しても脆弱です。
以前の研究は、候補者によって生成された回答を事後編集して、裁判官によって割り当てられたスコアを最大化できることを示しています。
この研究では、別のアプローチを採用し、Judge-LLMSが提供する信号を、下流のパフォーマンスを高めるように設計されたテキストプリアンブルを生成する敵対的なチューニングモデルへの報酬として使用します。
これらのモデルでパイプ化されたフローズンLLMSは、既存のフレームワークよりも高いLLM評価スコアを達成することがわかります。
重要なのは、モデルの応答に直接介入する他のフレームワークとは異なり、私たちの方法は実質的に検出できません。
また、候補-LLMと裁判官-LLMがトレーニング中に使用されないモデルに置き換えられたときに、調整された前文発電機の有効性が転送されることを実証します。
これらの調査結果は、より信頼性の高いLLM-A-A-Judge評価設定の設計に関する重要な疑問を提起します。
彼らはまた、補強学習を介して上流の前文を最適化するためにLLMSをパイプ化することにより、人間の好みを効果的にリバースエンジニアリングできることを実証しています。
要約(オリジナル)
The capabilities of Large Language Models (LLMs) are routinely evaluated by other LLMs trained to predict human preferences. This framework–known as LLM-as-a-judge–is highly scalable and relatively low cost. However, it is also vulnerable to malicious exploitation, as LLM responses can be tuned to overfit the preferences of the judge. Previous work shows that the answers generated by a candidate-LLM can be edited post hoc to maximise the score assigned to them by a judge-LLM. In this study, we adopt a different approach and use the signal provided by judge-LLMs as a reward to adversarially tune models that generate text preambles designed to boost downstream performance. We find that frozen LLMs pipelined with these models attain higher LLM-evaluation scores than existing frameworks. Crucially, unlike other frameworks which intervene directly on the model’s response, our method is virtually undetectable. We also demonstrate that the effectiveness of the tuned preamble generator transfers when the candidate-LLM and the judge-LLM are replaced with models that are not used during training. These findings raise important questions about the design of more reliable LLM-as-a-judge evaluation settings. They also demonstrate that human preferences can be reverse engineered effectively, by pipelining LLMs to optimise upstream preambles via reinforcement learning–an approach that could find future applications in diverse tasks and domains beyond adversarial attacks.
arxiv情報
著者 | Lisa Alazraki,Tan Yi-Chern,Jon Ander Campos,Maximilian Mozes,Marek Rei,Max Bartolo |
発行日 | 2025-05-21 17:48:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google