Human-Readable Fingerprint for Large Language Models

要約

大規模言語モデル (LLM) はリソースを大量に消費するトレーニングとそれに付随する慎重に設計されたライセンスのため、その著作権を保護することが重要になっています。
ただし、パラメーターが変更される可能性があるため、LLM の元の基本モデルを特定することは困難です。
この研究では、モデルパラメータを公開したりトレーニングを妨げたりすることなく、ベースモデルを一意に識別する人間が判読可能なLLMのフィンガープリントを導入します。
まず、事前トレーニング中にモデルが収束した後も LLM パラメーターのベクトルの方向が安定していることが観察され、継続的な事前トレーニング、教師あり微調整 (SFT)、および RLHF を含む後続のトレーニング ステップを通じて無視できる摂動が示されており、これが十分な条件となります。
ベースモデルを特定します。
必要性は、モデル パラメーターの方向を追い払うために追加の項を使用して LLM をトレーニングし続けることで検証され、モデルが損傷します。
ただし、この方向は、パフォーマンスに影響を与えることなく大幅に変更される、次元の置換や行列の回転などの単純な攻撃に対して脆弱です。
これに対処するために、Transformer 構造を活用して、潜在的な攻撃を系統的に分析し、LLM の基本モデルを識別する 3 つの不変項を定義します。
これらの不変項を人間が判読できるようにするには、畳み込みエンコーダーを使用してガウス ベクトルにマッピングし、それを StyleGAN2 で自然画像に変換します。
私たちの方法は、LLM のアイデンティティ フィンガープリントとして犬の画像を生成します。犬の外観は、LLM の基本モデルを強く示します。
フィンガープリントは定性的な識別のための直感的な情報を提供し、不変項は定量的かつ正確な検証に使用できます。
さまざまな LLM にわたる実験結果は、私たちの方法の有効性を示しています。

要約(オリジナル)

Protecting the copyright of large language models (LLMs) has become crucial due to their resource-intensive training and accompanying carefully designed licenses. However, identifying the original base model of an LLM is challenging due to potential parameter alterations. In this study, we introduce a human-readable fingerprint for LLMs that uniquely identifies the base model without exposing model parameters or interfering with training. We first observe that the vector direction of LLM parameters remains stable after the model has converged during pretraining, showing negligible perturbations through subsequent training steps, including continued pretraining, supervised fine-tuning (SFT), and RLHF, which makes it a sufficient condition to identify the base model. The necessity is validated by continuing to train an LLM with an extra term to drive away the model parameters’ direction and the model becomes damaged. However, this direction is vulnerable to simple attacks like dimension permutation or matrix rotation, which significantly change it without affecting performance. To address this, leveraging the Transformer structure, we systematically analyze potential attacks and define three invariant terms that identify an LLM’s base model. We make these invariant terms human-readable by mapping them to a Gaussian vector using a convolutional encoder and then converting it into a natural image with StyleGAN2. Our method generates a dog image as an identity fingerprint for an LLM, where the dog’s appearance strongly indicates the LLM’s base model. The fingerprint provides intuitive information for qualitative discrimination, while the invariant terms can be employed for quantitative and precise verification. Experimental results across various LLMs demonstrate the effectiveness of our method.

arxiv情報

著者 Boyi Zeng,Chenghu Zhou,Xinbing Wang,Zhouhan Lin
発行日 2024-02-07 11:01:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク