要約
LLAMA3のようなオープンソースの大手言語モデル(LLM)がより能力が高まるにつれて、潜在的な誤用を検出するための透かし技術を開発することが重要です。
既存の透かしの方法は、LLM推論中に透かしを追加するか、オープンソースLLMには適さないか、主に最近の生成LLMではなくターゲット分類LLMをターゲットにします。
これらの透かしを誤用検出のためにオープンソースLLMSに適応させることは、依然としてオープンな課題です。
この作業では、オープンソースLLMSの2つの誤用シナリオを定義します。知的財産(IP)違反とLLMの使用違反です。
次に、これらのコンテキストでの推論時の透かし蒸留とバックドア透かしの適用を探ります。
透けて、さまざまな現実世界のさらなる微調整シナリオが透かしに与える影響とLLMパフォーマンスに対するこれらの透かしの影響を評価する包括的な評価方法を提案します。
私たちの実験は、バックドアの透かしがIP違反を効果的に検出できることを明らかにしていますが、推論時の透かし蒸留は両方のシナリオに適用できますが、さらに微調整するのに堅牢ではなく、バックドアの透かしと比較してLLMのパフォーマンスにより大きな影響を与えます。
オープンソースLLMSの誤用を検出するためのより高度な透かしの方法を調査することは、重要な将来の方向であるはずです。
要約(オリジナル)
As open-source large language models (LLMs) like Llama3 become more capable, it is crucial to develop watermarking techniques to detect their potential misuse. Existing watermarking methods either add watermarks during LLM inference, which is unsuitable for open-source LLMs, or primarily target classification LLMs rather than recent generative LLMs. Adapting these watermarks to open-source LLMs for misuse detection remains an open challenge. This work defines two misuse scenarios for open-source LLMs: intellectual property (IP) violation and LLM Usage Violation. Then, we explore the application of inference-time watermark distillation and backdoor watermarking in these contexts. We propose comprehensive evaluation methods to assess the impact of various real-world further fine-tuning scenarios on watermarks and the effect of these watermarks on LLM performance. Our experiments reveal that backdoor watermarking could effectively detect IP Violation, while inference-time watermark distillation is applicable in both scenarios but less robust to further fine-tuning and has a more significant impact on LLM performance compared to backdoor watermarking. Exploring more advanced watermarking methods for open-source LLMs to detect their misuse should be an important future direction.
arxiv情報
著者 | Yijie Xu,Aiwei Liu,Xuming Hu,Lijie Wen,Hui Xiong |
発行日 | 2025-03-06 17:24:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google