要約
大規模言語モデル (LLM) の商用化により、独自モデルへの高レベル API のみのアクセスが一般的になりました。
この研究では、モデル アーキテクチャについて保守的な仮定を置いたとしても、比較的少数の API クエリ (例: 以下のコストなど) から API で保護された LLM に関する驚くほど大量の非公開情報を学習できることを示します。
OpenAI の gpt-3.5-turbo の場合は 1,000 ドル)。
私たちの調査結果は、1 つの重要な観察に焦点を当てています。それは、ほとんどの最新の LLM がソフトマックスのボトルネックに悩まされており、モデルの出力が完全な出力空間の線形部分空間に制限されるということです。
これは、手頃なコストでいくつかの機能を解放するモデル イメージまたはモデル署名に適していることを示します。LLM の隠れたサイズを効率的に検出し、完全な語彙出力を取得し、さまざまなモデル更新を検出して曖昧さを解消し、単一の完全なモデルが与えられた場合のソース LLM を識別します。
LLM 出力、さらには出力層パラメータの推定も行います。
私たちの実証的調査により、私たちの方法の有効性が示され、OpenAI の gpt-3.5-turbo の埋め込みサイズを約 4,096 と推定できるようになりました。
最後に、LLM プロバイダーがこれらの攻撃を防御する方法と、透明性と説明責任を高めることでこれらの機能を (バグではなく) 機能としてどのように見ることができるかについて説明します。
要約(オリジナル)
The commercialization of large language models (LLMs) has led to the common practice of high-level API-only access to proprietary models. In this work, we show that even with a conservative assumption about the model architecture, it is possible to learn a surprisingly large amount of non-public information about an API-protected LLM from a relatively small number of API queries (e.g., costing under $1,000 for OpenAI’s gpt-3.5-turbo). Our findings are centered on one key observation: most modern LLMs suffer from a softmax bottleneck, which restricts the model outputs to a linear subspace of the full output space. We show that this lends itself to a model image or a model signature which unlocks several capabilities with affordable cost: efficiently discovering the LLM’s hidden size, obtaining full-vocabulary outputs, detecting and disambiguating different model updates, identifying the source LLM given a single full LLM output, and even estimating the output layer parameters. Our empirical investigations show the effectiveness of our methods, which allow us to estimate the embedding size of OpenAI’s gpt-3.5-turbo to be about 4,096. Lastly, we discuss ways that LLM providers can guard against these attacks, as well as how these capabilities can be viewed as a feature (rather than a bug) by allowing for greater transparency and accountability.
arxiv情報
著者 | Matthew Finlayson,Swabha Swayamdipta,Xiang Ren |
発行日 | 2024-03-14 16:27:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google