Statistical Hypothesis Testing for Auditing Robustness in Language Models

要約

入力摂動など、任意の介入の下で大規模な言語モデル(LLM)システムの出力が変化するか、モデルバリアントの変更など、テストする問題を検討してください。
システムの確率的性質により異なる可能性があるため、2つのLLM出力を単純に比較することはできません。また、計算上の操作性のために出力分布全体を比較することもできません。
テキストベースの出力を分析するための既存の方法は存在しますが、バイアスや公平性の測定など、根本的に異なる問題に焦点を当てています。
この目的のために、分布ベースの摂動分析を紹介します。これは、頻繁な仮説検査問題としてLLM摂動分析を再編成するフレームワークです。
モンテカルロサンプリングを介して低次元セマンティック類似性空間内で経験的なヌルおよび代替出力分布を構築し、制限的な分布仮定なしで扱いやすい推論を可能にします。
フレームワークは(i)モデルと依存度であり、(ii)ブラックボックスLLMでの任意の入力摂動の評価をサポートします(iii)は解釈可能なp値を生成します。
(iv)制御されたエラー率を介して複数の摂動をサポートします。
(v)スカラー効果サイズを提供します。
複数のケーススタディにわたるフレームワークの有用性を示し、応答の変化を定量化し、真/偽陽性率を測定し、参照モデルとのアライメントを評価する方法を示します。
とりわけ、これはLLM監査のための信頼できる頻繁な仮説テストフレームワークと考えています。

要約(オリジナル)

Consider the problem of testing whether the outputs of a large language model (LLM) system change under an arbitrary intervention, such as an input perturbation or changing the model variant. We cannot simply compare two LLM outputs since they might differ due to the stochastic nature of the system, nor can we compare the entire output distribution due to computational intractability. While existing methods for analyzing text-based outputs exist, they focus on fundamentally different problems, such as measuring bias or fairness. To this end, we introduce distribution-based perturbation analysis, a framework that reformulates LLM perturbation analysis as a frequentist hypothesis testing problem. We construct empirical null and alternative output distributions within a low-dimensional semantic similarity space via Monte Carlo sampling, enabling tractable inference without restrictive distributional assumptions. The framework is (i) model-agnostic, (ii) supports the evaluation of arbitrary input perturbations on any black-box LLM, (iii) yields interpretable p-values; (iv) supports multiple perturbations via controlled error rates; and (v) provides scalar effect sizes. We demonstrate the usefulness of the framework across multiple case studies, showing how we can quantify response changes, measure true/false positive rates, and evaluate alignment with reference models. Above all, we see this as a reliable frequentist hypothesis testing framework for LLM auditing.

arxiv情報

著者 Paulius Rauba,Qiyao Wei,Mihaela van der Schaar
発行日 2025-06-09 17:11:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク