Watermarking LLMs with Weight Quantization

要約

大規模な言語モデルは驚くべきスピードでデプロイされているため、大規模な言語モデルの悪用には高いリスクが明らかになります。
オープンソースの大規模言語モデルのライセンスに違反する悪意のある使用を避けるために、モデルの重みを保護することが重要です。
この論文では、推論中に事前定義されたトリガーを使用せずに、大規模言語モデルの量子化プロセスに透かしを埋め込む新しい透かし戦略を提案します。
ウォーターマークは、モデルが fp32 モードで使用される場合に機能し、モデルが int8 に量子化される場合には非表示のままになります。このように、ユーザーはモデルをさらに監視しながら微調整することなくモデルを推論することしかできません。
私たちは、GPT-Neo や LLaMA などのオープンソースの大規模言語モデルの重みにウォーターマークを埋め込むことに成功しました。
私たちの提案した方法が、大規模な言語モデル アプリケーションの時代におけるモデルの重みを保護するための潜在的な方向性を提供できることを願っています。

要約(オリジナル)

Abuse of large language models reveals high risks as large language models are being deployed at an astonishing speed. It is important to protect the model weights to avoid malicious usage that violates licenses of open-source large language models. This paper proposes a novel watermarking strategy that plants watermarks in the quantization process of large language models without pre-defined triggers during inference. The watermark works when the model is used in the fp32 mode and remains hidden when the model is quantized to int8, in this way, the users can only inference the model without further supervised fine-tuning of the model. We successfully plant the watermark into open-source large language model weights including GPT-Neo and LLaMA. We hope our proposed method can provide a potential direction for protecting model weights in the era of large language model applications.

arxiv情報

著者 Linyang Li,Botian Jiang,Pengyu Wang,Ke Ren,Hang Yan,Xipeng Qiu
発行日 2023-10-17 13:06:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク