Logits of API-Protected LLMs Leak Proprietary Information

要約

大規模言語モデル (LLM) プロバイダーは、パブリック アクセスを限定された API に制限することで、独自のモデルのアーキテクチャの詳細とパラメーターを隠すことがよくあります。
この研究では、モデル アーキテクチャに関する保守的な仮定のみを使用して、比較的少数の API クエリ (例: 以下のコストなど) から API で保護された LLM に関する驚くほど大量の非公開情報を学習できることを示します。
OpenAI の gpt-3.5-turbo の場合は 1000 米ドル)。
私たちの調査結果は、1 つの重要な観察に焦点を当てています。それは、ほとんどの最新の LLM がソフトマックスのボトルネックに悩まされており、モデルの出力が完全な出力空間の線形部分空間に制限されるということです。
この事実を利用して、安価な完全な語彙出力の取得、特定タイプのモデル更新の監査、単一の完全な LLM 出力からのソース LLM の特定、さらには LLM の隠れたサイズの効率的な検出など、いくつかの機能を解放します。

私たちの実証的調査により、私たちの方法の有効性が示され、OpenAI の gpt-3.5-turbo の埋め込みサイズを約 4096 と推定できるようになりました。最後に、LLM プロバイダーがこれらの攻撃から防御できる方法と、これらの機能をどのように保護するかについて説明します。
透明性と説明責任を高めることで、(バグではなく)機能として見ることができます。

要約(オリジナル)

Large language model (LLM) providers often hide the architectural details and parameters of their proprietary models by restricting public access to a limited API. In this work we show that, with only a conservative assumption about the model architecture, it is possible to learn a surprisingly large amount of non-public information about an API-protected LLM from a relatively small number of API queries (e.g., costing under $1000 USD for OpenAI’s gpt-3.5-turbo). Our findings are centered on one key observation: most modern LLMs suffer from a softmax bottleneck, which restricts the model outputs to a linear subspace of the full output space. We exploit this fact to unlock several capabilities, including (but not limited to) obtaining cheap full-vocabulary outputs, auditing for specific types of model updates, identifying the source LLM given a single full LLM output, and even efficiently discovering the LLM’s hidden size. Our empirical investigations show the effectiveness of our methods, which allow us to estimate the embedding size of OpenAI’s gpt-3.5-turbo to be about 4096. Lastly, we discuss ways that LLM providers can guard against these attacks, as well as how these capabilities can be viewed as a feature (rather than a bug) by allowing for greater transparency and accountability.

arxiv情報

著者 Matthew Finlayson,Xiang Ren,Swabha Swayamdipta
発行日 2024-11-08 18:56:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, cs.CR, cs.LG, I.2.7 パーマリンク