Predicting the Performance of Black-box LLMs through Self-Queries

要約

大規模言語モデル(LLM)がAIシステムでますます利用されるようになるにつれ、LLMがいつミスを犯すかを予測することは非常に重要になっている。この分野での多くの研究は、モデルの振る舞いを解釈するために内部表現を使用しているが、APIを介したブラックボックスアクセスのみを与えられた場合、これらの表現にはアクセスできない。本論文では、フォローアップのプロンプトを使用し、モデルの動作の信頼できる予測因子を訓練するための表現として異なる応答の確率を取ることにより、ブラックボックス方式でLLMの特徴を抽出する。我々は、これらの低次元表現に対して線形モデルを訓練することで、インスタンスレベル(例えば、特定の世代が質問に正しく答えたかどうか)のモデル性能の信頼できる一般化可能な予測因子が得られることを実証する。驚くべきことに、これらのモデルは、モデルの隠れた状態や語彙の完全な分布で動作するホワイトボックス線形予測器を上回ることが多い。さらに、これらの抽出された特徴は、言語モデルの状態のより微妙な側面を評価するために使用できることを示す。例えば、GPT-4o-miniのクリーンバージョンと、敵対的なシステムプロンプトの影響を受けたバージョンを区別するために使用することができます。さらに、異なるモデルアーキテクチャとサイズを確実に区別することができるため、APIを通じて提供される誤ったモデルを検出することができます(たとえば、GPT-4o-miniの代わりにGPT-3.5が提供されているかどうかを識別します)。

要約(オリジナル)

As large language models (LLMs) are increasingly relied on in AI systems, predicting when they make mistakes is crucial. While a great deal of work in the field uses internal representations to interpret model behavior, these representations are inaccessible when given solely black-box access through an API. In this paper, we extract features of LLMs in a black-box manner by using follow-up prompts and taking the probabilities of different responses as representations to train reliable predictors of model behavior. We demonstrate that training a linear model on these low-dimensional representations produces reliable and generalizable predictors of model performance at the instance level (e.g., if a particular generation correctly answers a question). Remarkably, these can often outperform white-box linear predictors that operate over a model’s hidden state or the full distribution over its vocabulary. In addition, we demonstrate that these extracted features can be used to evaluate more nuanced aspects of a language model’s state. For instance, they can be used to distinguish between a clean version of GPT-4o-mini and a version that has been influenced via an adversarial system prompt that answers question-answering tasks incorrectly or introduces bugs into generated code. Furthermore, they can reliably distinguish between different model architectures and sizes, enabling the detection of misrepresented models provided through an API (e.g., identifying if GPT-3.5 is supplied instead of GPT-4o-mini).

arxiv情報

著者 Dylan Sam,Marc Finzi,J. Zico Kolter
発行日 2025-01-02 22:26:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク