Large Language Models as Carriers of Hidden Messages

要約

簡単な微調整を行うことで、隠されたテキストを大規模言語モデル (LLM) に人為的に埋め込むことができます。
このテキストは、LLM への特定のクエリによってトリガーされた場合にのみ公開されます。
2 つの主なアプリケーションは、LLM フィンガープリンティングとステガノグラフィーです。
LLM フィンガープリントのコンテキストでは、ライセンス準拠を検証するために、一意のテキスト識別子 (フィンガープリント) がモデル内に埋め込まれます。
ステガノグラフィーのコンテキストでは、LLM は、選択されたトリガー質問を通じて開示できる隠されたメッセージのキャリアとして機能します。
私たちの研究では、微調整による LLM への隠しテキストの埋め込みは、膨大な数の潜在的なトリガー (文字またはトークンのシーケンスがトリガーとして機能する可能性がある) があるため一見安全であるように見えますが、LLM の出力の分析を通じて抽出されやすいことを示しています。
デコード処理。
私たちは、Unconditional Token Forcing (UTF) と呼ばれる抽出攻撃を提案します。
これは、LLM の語彙からモデルに各トークンを繰り返し供給すると、異常に高いトークン確率を持つ出力シーケンスが明らかになり、潜在的な隠しテキストの候補が示されるはずであるという仮説を前提としています。
また、UTF と、無条件トークン強制混乱 (UTFC) と名付けたサンプリング デコード手法に基づく攻撃の両方に耐性のある方法でテキストを非表示にする防御手法も紹介します。
私たちの知る限り、UTFC で隠されたテキストを抽出できる攻撃方法はありません。
UTFC には、良性のアプリケーション (LLM フィンガープリンティングの改善) と悪意のあるアプリケーション (LLM を使用して秘密の通信チャネルを作成する) の両方があります。
コードは github.com/j-hoscilowi​​c/zurek-stegano で入手できます。

要約(オリジナル)

With the help of simple fine-tuning, one can artificially embed hidden text into large language models (LLMs). This text is revealed only when triggered by a specific query to the LLM. Two primary applications are LLM fingerprinting and steganography. In the context of LLM fingerprinting, a unique text identifier (fingerprint) is embedded within the model to verify licensing compliance. In the context of steganography, the LLM serves as a carrier for hidden messages that can be disclosed through a chosen trigger question. Our work demonstrates that embedding hidden text in the LLM via fine-tuning, though seemingly secure due to the vast number of potential triggers (any sequence of characters or tokens could serve as a trigger), is susceptible to extraction through analysis of the LLM’s output decoding process. We propose an extraction attack called Unconditional Token Forcing (UTF). It is premised on the hypothesis that iteratively feeding each token from the LLM’s vocabulary into the model should reveal output sequences with abnormally high token probabilities, indicating potential hidden text candidates. We also present a defense method to hide text in such a way that it is resistant to both UTF and attacks based on sampling decoding methods, which we named Unconditional Token Forcing Confusion (UTFC). To the best of our knowledge, there is no attack method that can extract text hidden with UTFC. UTFC has both benign applications (improving LLM fingerprinting) and malign applications (using LLMs to create covert communication channels). Code is available at github.com/j-hoscilowic/zurek-stegano

arxiv情報

著者 Jakub Hoscilowicz,Pawel Popiolek,Jan Rudkowski,Jedrzej Bieniasz,Artur Janicki
発行日 2024-07-29 16:30:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク