要約
大規模な言語モデル(LLM)は、機械で生成されたテキストの品質を評価するために、評価者(LLM-as-a-judge)としてますます採用されています。
このパラダイムは、人間の注釈と比較して、スケーラビリティと費用対効果を提供します。
ただし、そのようなシステムの信頼性とセキュリティ、特に敵対的な操作に対する堅牢性は、依然として重要な懸念事項です。
このペーパーでは、LLM-as-a-judgeの建築物の脆弱性が迅速な注入攻撃に対する脆弱性を調査します。そこでは、裁判官の意思決定プロセスを妥協するように悪意のある入力が設計されています。
2つの主要な攻撃戦略を正式化します。最終決定出力を直接ターゲットとする比較攻撃(CUA)と、モデルの生成された推論を変更することを目的とする正当化操作攻撃(JMA)です。
貪欲な座標勾配(GCG)最適化法を使用して、比較される応答の1つに追加された敵対的な接尾辞を作成します。
オープンソース命令チューニングLLMS(QWEN2.5-3B-InstructおよびFalcon3-3B-instruct)を使用して、MTベンチヒューマン判断データセットで実施された実験は、有意な感受性を示しています。
CUAは30 \%を超える攻撃成功率(ASR)を達成し、JMAも顕著な有効性を示しています。
これらの調査結果は、現在のLLMとしてのJudgeシステムにおける実質的な脆弱性を強調し、LLMベースの評価フレームワークにおける堅牢な防御メカニズムの必要性と敵対的評価と信頼性に関するさらなる研究を強調しています。
要約(オリジナル)
Large Language Models (LLMs) are increasingly employed as evaluators (LLM-as-a-Judge) for assessing the quality of machine-generated text. This paradigm offers scalability and cost-effectiveness compared to human annotation. However, the reliability and security of such systems, particularly their robustness against adversarial manipulations, remain critical concerns. This paper investigates the vulnerability of LLM-as-a-Judge architectures to prompt-injection attacks, where malicious inputs are designed to compromise the judge’s decision-making process. We formalize two primary attack strategies: Comparative Undermining Attack (CUA), which directly targets the final decision output, and Justification Manipulation Attack (JMA), which aims to alter the model’s generated reasoning. Using the Greedy Coordinate Gradient (GCG) optimization method, we craft adversarial suffixes appended to one of the responses being compared. Experiments conducted on the MT-Bench Human Judgments dataset with open-source instruction-tuned LLMs (Qwen2.5-3B-Instruct and Falcon3-3B-Instruct) demonstrate significant susceptibility. The CUA achieves an Attack Success Rate (ASR) exceeding 30\%, while JMA also shows notable effectiveness. These findings highlight substantial vulnerabilities in current LLM-as-a-Judge systems, underscoring the need for robust defense mechanisms and further research into adversarial evaluation and trustworthiness in LLM-based assessment frameworks.
arxiv情報
著者 | Narek Maloyan,Bislan Ashinov,Dmitry Namiot |
発行日 | 2025-05-19 16:51:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google