Large Language Models as Carriers of Hidden Messages

要約

単純な微調整は、隠されたテキストを大きな言語モデル(LLM)に埋め込むことができます。これは、特定のクエリによってトリガーされた場合にのみ明らかになります。
アプリケーションには、ライセンスコンプライアンスを確認するために一意の識別子が組み込まれているLLMフィンガープリントと、LLMにトリガークエリを通じて開示された隠されたメッセージが含まれるステガノグラフィが含まれます。
私たちの研究は、微調整を介して隠されたテキストを埋め込むことは、膨大な数の潜在的なトリガーのために一見安全であるように見えますが、LLMの出力デコードプロセスの分析を通じて抽出に対して脆弱であることを示しています。
無条件のトークンForcing(UTF)と呼ばれる抽出攻撃を導入します。これは、LLMの語彙からトークンを繰り返しフィードして、高いトークン確率を持つシーケンスを明らかにし、隠されたテキスト候補を示しています。
また、標準的な微調整と比較してLLMの一般的なパフォーマンスを低下させることなく、すべての既知の抽出攻撃に対して隠されたテキストに耐える防御パラダイムである、無条件のトークン強制混乱(UTFC)を提示します。
UTFCには、良性(LLMフィンガープリントの改善)と悪性アプリケーション(LLMを使用して隠れた通信チャネルを作成)の両方を備えています。

要約(オリジナル)

Simple fine-tuning can embed hidden text into large language models (LLMs), which is revealed only when triggered by a specific query. Applications include LLM fingerprinting, where a unique identifier is embedded to verify licensing compliance, and steganography, where the LLM carries hidden messages disclosed through a trigger query. Our work demonstrates that embedding hidden text via fine-tuning, although seemingly secure due to the vast number of potential triggers, is vulnerable to extraction through analysis of the LLM’s output decoding process. We introduce an extraction attack called Unconditional Token Forcing (UTF), which iteratively feeds tokens from the LLM’s vocabulary to reveal sequences with high token probabilities, indicating hidden text candidates. We also present Unconditional Token Forcing Confusion (UTFC), a defense paradigm that makes hidden text resistant to all known extraction attacks without degrading the general performance of LLMs compared to standard fine-tuning. UTFC has both benign (improving LLM fingerprinting) and malign applications (using LLMs to create covert communication channels).

arxiv情報

著者 Jakub Hoscilowicz,Pawel Popiolek,Jan Rudkowski,Jedrzej Bieniasz,Artur Janicki
発行日 2025-05-05 09:57:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク