Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on Zero-shot LLM Assessment

要約

大規模言語モデル (LLM) は強力なゼロショット評価ツールであり、筆記試験やベンチマーク システムなどの現実の状況で使用されることが増えています。
それにもかかわらず、出力を操作しようとする敵対者に対するジャッジ LLM の脆弱性を分析した既存の研究はありません。
この研究では、評価 LLM の敵対的堅牢性に関する最初の研究を紹介します。そこでは、テキストに追加されると LLM を欺いて高い評価スコアを提供できる短い普遍的なフレーズを検索します。
SummEval と TopicalChat の実験では、LLM スコアリングとペアごとの LLM 比較評価の両方が単純な連結攻撃に対して脆弱であることが実証されており、特に LLM スコアリングは非常に影響を受けやすく、入力テキストの品質に関係なく最大の評価スコアが得られる可能性があります。
興味深いことに、このような攻撃は転送可能であり、小規模なオープンソース LLM で学習されたフレーズは、GPT3.5 などのより大きなクローズド ソース モデルに適用できます。
これは、さまざまなジャッジ LLM のサイズ、ファミリー、メソッドにわたって敵対的脆弱性が蔓延する性質を浮き彫りにしています。
私たちの調査結果は、LLMs-as-a-judge手法の信頼性について重大な懸念を引き起こし、一か八かの現実世界のシナリオに導入する前にLLM評価手法の脆弱性に対処することの重要性を強調しています。

要約(オリジナル)

Large Language Models (LLMs) are powerful zero-shot assessors and are increasingly used in real-world situations such as for written exams or benchmarking systems. Despite this, no existing work has analyzed the vulnerability of judge-LLMs against adversaries attempting to manipulate outputs. This work presents the first study on the adversarial robustness of assessment LLMs, where we search for short universal phrases that when appended to texts can deceive LLMs to provide high assessment scores. Experiments on SummEval and TopicalChat demonstrate that both LLM-scoring and pairwise LLM-comparative assessment are vulnerable to simple concatenation attacks, where in particular LLM-scoring is very susceptible and can yield maximum assessment scores irrespective of the input text quality. Interestingly, such attacks are transferable and phrases learned on smaller open-source LLMs can be applied to larger closed-source models, such as GPT3.5. This highlights the pervasive nature of the adversarial vulnerabilities across different judge-LLM sizes, families and methods. Our findings raise significant concerns on the reliability of LLMs-as-a-judge methods, and underscore the importance of addressing vulnerabilities in LLM assessment methods before deployment in high-stakes real-world scenarios.

arxiv情報

著者 Vyas Raina,Adian Liusie,Mark Gales
発行日 2024-02-21 18:55:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク