Large Language Models as Carriers of Hidden Messages

要約

簡単な微調整により、特定のクエリによってトリガーされた場合にのみ表示される隠されたテキストを大規模言語モデル (LLM) に埋め込むことができます。
アプリケーションには、ライセンス準拠を検証するために一意の識別子が埋め込まれる LLM フィンガープリンティングや、トリガー クエリを通じて開示される隠されたメッセージを LLM が伝送するステガノグラフィーが含まれます。
私たちの研究は、微調整による隠しテキストの埋め込みは、潜在的なトリガーが膨大な数にあるため一見安全であるように見えますが、LLM の出力デコード プロセスの分析による抽出に対して脆弱であることを示しています。
無条件トークン強制 (UTF) と呼ばれる抽出攻撃を導入します。これは、LLM の語彙からトークンを繰り返し供給して、トークンの確率が高いシーケンスを明らかにし、隠しテキストの候補を示します。
また、標準的な微調整と比較して LLM の全体的なパフォーマンスを低下させることなく、隠しテキストをすべての既知の抽出攻撃に耐性を持たせる防御パラダイムである、無条件トークン強制混乱 (UTFC) も紹介します。
UTFC には、良性のアプリケーション (LLM フィンガープリンティングの改善) と悪意のあるアプリケーション (LLM を使用して秘密の通信チャネルを作成する) の両方があります。

要約(オリジナル)

Simple fine-tuning can embed hidden text into large language models (LLMs), which is revealed only when triggered by a specific query. Applications include LLM fingerprinting, where a unique identifier is embedded to verify licensing compliance, and steganography, where the LLM carries hidden messages disclosed through a trigger query. Our work demonstrates that embedding hidden text via fine-tuning, although seemingly secure due to the vast number of potential triggers, is vulnerable to extraction through analysis of the LLM’s output decoding process. We introduce an extraction attack called Unconditional Token Forcing (UTF), which iteratively feeds tokens from the LLM’s vocabulary to reveal sequences with high token probabilities, indicating hidden text candidates. We also present Unconditional Token Forcing Confusion (UTFC), a defense paradigm that makes hidden text resistant to all known extraction attacks without degrading the general performance of LLMs compared to standard fine-tuning. UTFC has both benign (improving LLM fingerprinting) and malign applications (using LLMs to create covert communication channels).

arxiv情報

著者 Jakub Hoscilowicz,Pawel Popiolek,Jan Rudkowski,Jedrzej Bieniasz,Artur Janicki
発行日 2024-09-24 12:00:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク