HuRef: HUman-REadable Fingerprint for Large Language Models

要約

大規模言語モデル (LLM) はリソースを大量に消費するトレーニングとそれに付随する慎重に設計されたライセンスのため、その著作権を保護することが重要になっています。
ただし、微調整や継続的な事前トレーニングによってパラメーターが変更される可能性があるため、LLM の元の基本モデルを特定することは困難です。
この研究では、モデル パラメーターを公開したりトレーニングを妨げたりすることなく、ベース モデルを一意に識別する LLM 用の人が判読可能なフィンガープリントである HuRef を紹介します。
まず、事前トレーニング中にモデルが収束した後も LLM パラメーターのベクトルの方向が安定していることが観察され、継続的な事前トレーニング、教師あり微調整 (SFT)、および RLHF を含む後続のトレーニング ステップを通じて無視できる摂動が示されており、これが十分な条件となります。
ベースモデルを特定します。
必要性は、モデル パラメーターの方向を追い払うために追加の項を使用して LLM をトレーニングし続けることで検証され、モデルが損傷します。
ただし、この方向は、パフォーマンスに影響を与えることなく大幅に変更される、次元の置換や行列の回転などの単純な攻撃に対して脆弱です。
これに対処するために、Transformer 構造を活用して、潜在的な攻撃を系統的に分析し、LLM の基本モデルを識別する 3 つの不変項を定義します。
これらの不変項を人間が判読できるようにするには、畳み込みエンコーダーを使用してガウス ベクトルにマッピングし、それを StyleGAN2 で自然画像に変換します。
私たちの方法は、LLM のアイデンティティ フィンガープリントとして犬の画像を生成します。犬の外観は、LLM の基本モデルを強く示します。
さまざまな LLM にわたる実験結果は、私たちの方法の有効性を示しています。生成された犬の画像は、SFT、RLHF、または新しい言語で強化された語彙を使用した事前トレーニングの継続など、さまざまなトレーニング ステップに対して不変のままです。

要約(オリジナル)

Protecting the copyright of large language models (LLMs) has become crucial due to their resource-intensive training and accompanying carefully designed licenses. However, identifying the original base model of an LLM is challenging due to potential parameter alterations through fine-tuning or continued pretraining. In this study, we introduce HuRef, a human-readable fingerprint for LLMs that uniquely identifies the base model without exposing model parameters or interfering with training. We first observe that the vector direction of LLM parameters remains stable after the model has converged during pretraining, showing negligible perturbations through subsequent training steps, including continued pretraining, supervised fine-tuning (SFT), and RLHF, which makes it a sufficient condition to identify the base model. The necessity is validated by continuing to train an LLM with an extra term to drive away the model parameters’ direction and the model becomes damaged. However, this direction is vulnerable to simple attacks like dimension permutation or matrix rotation, which significantly change it without affecting performance. To address this, leveraging the Transformer structure, we systematically analyze potential attacks and define three invariant terms that identify an LLM’s base model. We make these invariant terms human-readable by mapping them to a Gaussian vector using a convolutional encoder and then converting it into a natural image with StyleGAN2. Our method generates a dog image as an identity fingerprint for an LLM, where the dog’s appearance strongly indicates the LLM’s base model. Experimental results across various LLMs demonstrate the effectiveness of our method, the generated dog image remains invariant to different training steps, including SFT, RLHF, or even continued pretraining with augmented vocabulary in a new language.

arxiv情報

著者 Boyi Zeng,Chenghu Zhou,Xinbing Wang,Zhouhan Lin
発行日 2023-12-08 05:01:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク