要約
簡単な微調整を行うことで、隠されたテキストを大規模言語モデル (LLM) に人為的に埋め込むことができます。
このテキストは、LLM への特定のクエリによってトリガーされた場合にのみ公開されます。
2 つの主なアプリケーションは、LLM フィンガープリンティングとステガノグラフィーです。
LLM フィンガープリントのコンテキストでは、ライセンス準拠を検証するために、一意のテキスト識別子 (フィンガープリント) がモデル内に埋め込まれます。
ステガノグラフィーのコンテキストでは、LLM は、指定されたトリガーを通じて公開できる隠しメッセージのキャリアとして機能します。
私たちの研究では、微調整による LLM への隠しテキストの埋め込みは、膨大な数の潜在的なトリガー (文字またはトークンのシーケンスがトリガーとして機能する可能性がある) があるため一見安全であるように見えますが、LLM の出力の分析を通じて抽出されやすいことを示しています。
デコード処理。
私たちは、無条件トークン強制と呼ばれる新しい抽出アプローチを提案します。
これは、LLM の語彙から各トークンをモデルに繰り返し供給することで、潜在的な埋め込みテキスト候補を示す異常に高いトークン確率を持つシーケンスを明らかにするはずであるという仮説を前提としています。
さらに、私たちの実験では、隠されたフィンガープリントの最初のトークンが入力として使用される場合、LLM はトークン確率の高い出力シーケンスを生成するだけでなく、フィンガープリント自体も繰り返し生成することを示しています。
また、無条件トークン強制に耐性のある方法でテキストを非表示にする方法も紹介します。これを「無条件トークン強制混乱」と名付けました。
要約(オリジナル)
With the help of simple fine-tuning, one can artificially embed hidden text into large language models (LLMs). This text is revealed only when triggered by a specific query to the LLM. Two primary applications are LLM fingerprinting and steganography. In the context of LLM fingerprinting, a unique text identifier (fingerprint) is embedded within the model to verify licensing compliance. In the context of steganography, the LLM serves as a carrier for hidden messages that can be disclosed through a designated trigger. Our work demonstrates that embedding hidden text in the LLM via fine-tuning, though seemingly secure due to the vast number of potential triggers (any sequence of characters or tokens could serve as a trigger), is susceptible to extraction through analysis of the LLM’s output decoding process. We propose a novel approach to extraction called Unconditional Token Forcing. It is premised on the hypothesis that iteratively feeding each token from the LLM’s vocabulary into the model should reveal sequences with abnormally high token probabilities, indicating potential embedded text candidates. Additionally, our experiments show that when the first token of a hidden fingerprint is used as an input, the LLM not only produces an output sequence with high token probabilities, but also repetitively generates the fingerprint itself. We also present a method to hide text in such a way that it is resistant to Unconditional Token Forcing, which we named Unconditional Token Forcing Confusion.
arxiv情報
著者 | Jakub Hoscilowicz,Pawel Popiolek,Jan Rudkowski,Jedrzej Bieniasz,Artur Janicki |
発行日 | 2024-06-04 16:49:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google