Towards Robust LLMs: an Adversarial Robustness Measurement Framework

要約

大規模な言語モデル(LLMS)の台頭は人工知能に革命をもたらしましたが、これらのモデルは敵対的な摂動に対して脆弱なままであり、ハイステークスアプリケーションでの信頼性を損ないます。
視覚ベースのニューラルネットワークにおける敵対的な堅牢性が広範囲に研究されていますが、LLMの堅牢性は引き続き標識されていません。
モデルパラメーターへのアクセスを必要とせずに、LLMレジリエンスを敵対的な入力に対するLLMレジリエンスを定量化するために、堅牢性測定と評価(ROMA)フレームワークを適応させます。
Romaの推定値を正式な検証方法の推定値と比較することにより、計算効率を維持しながら、エラーマージンを最小限に抑えて精度を示します。
私たちの経験的評価は、堅牢性は異なるモデル間だけでなく、同じタスク内のカテゴリ間およびさまざまなタイプの摂動間でも大きく異なることを明らかにしています。
この不均一性は、タスク固有の堅牢性評価の必要性を強調し、実践者がアプリケーション固有の堅牢性要件に基づいてモデルを比較および選択できるようにすることができます。
私たちの仕事は、LLMの堅牢性を評価するための体系的な方法論を提供し、実際の展開のためのより信頼性の高い言語モデルの開発を進めます。

要約(オリジナル)

The rise of Large Language Models (LLMs) has revolutionized artificial intelligence, yet these models remain vulnerable to adversarial perturbations, undermining their reliability in high-stakes applications. While adversarial robustness in vision-based neural networks has been extensively studied, LLM robustness remains under-explored. We adapt the Robustness Measurement and Assessment (RoMA) framework to quantify LLM resilience against adversarial inputs without requiring access to model parameters. By comparing RoMA’s estimates to those of formal verification methods, we demonstrate its accuracy with minimal error margins while maintaining computational efficiency. Our empirical evaluation reveals that robustness varies significantly not only between different models but also across categories within the same task and between various types of perturbations. This non-uniformity underscores the need for task-specific robustness evaluations, enabling practitioners to compare and select models based on application-specific robustness requirements. Our work provides a systematic methodology to assess LLM robustness, advancing the development of more reliable language models for real-world deployment.

arxiv情報

著者 Natan Levy,Adiel Ashrov,Guy Katz
発行日 2025-04-24 16:36:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク