LLsM: Generative Linguistic Steganography with Large Language Model

要約

言語ステガノグラフィー (LS) タスクは、秘密情報に基づいてステガノグラフィー テキスト (ステゴ) を生成することを目的としています。
許可された受信者のみがテキスト内の秘密の存在を認識し、それを抽出できるため、プライバシーが保護されます。
しかし、既存のスキームで生成されるステゴは制御性が悪く、文体などの特定の談話特性をステゴに含めることが困難である。
その結果、ステゴは簡単に検出され、秘密通信が危険にさらされます。
これらの問題に対処するために、この論文では、大規模言語モデル (LLM) を備えた最初の LS である LLsM を提案します。
豊富な談話特性を網羅する大規模に構築されたデータセットを使用して LLaMA2 を微調整しました。これにより、微調整された LLM が制御可能な方法で特定の談話を含むテキストを生成できるようになります。
次に、談話はガイド情報として使用され、シークレットとともにプロンプ​​トの形式で微調整された LLM に入力されます。
これに基づいて、構築された候補プールは範囲エンコードされ、秘密を使用して間隔を決定します。
この区間の始まりと終わりの同じ接頭辞が、この時点で埋め込まれている秘密です。
実験の結果、LLsM は、テキスト品質、統計分析、談話マッチング、アンチステガナリシスに関して、一般的な LS タスクおよび関連タスクのベースラインよりも優れたパフォーマンスを発揮することが示されています。
特に、LLsM の MAUVE マトリックスは一部のベースラインを 70% ~ 80% 上回っており、その抗ステガ分析性能は 30% ~ 40% 優れています。
特に、LLsM によって生成されたより長いステゴの例も示し、長い LS タスクにおける潜在的な優位性を示しています。

要約(オリジナル)

Linguistic Steganography (LS) tasks aim to generate steganographic text (stego) based on secret information. Only authorized recipients can perceive the existence of secrets in the texts and extract them, thereby preserving privacy. However, the controllability of the stego generated by existing schemes is poor, and the stego is difficult to contain specific discourse characteristics such as style. As a result, the stego is easily detectable, compromising covert communication. To address these problems, this paper proposes LLsM, the first LS with the Large Language Model (LLM). We fine-tuned the LLaMA2 with a large-scale constructed dataset encompassing rich discourse characteristics, which enables the fine-tuned LLM to generate texts with specific discourse in a controllable manner. Then the discourse is used as guiding information and inputted into the fine-tuned LLM in the form of the Prompt together with secret. On this basis, the constructed candidate pool will be range encoded and use secret to determine the interval. The same prefix of this interval’s beginning and ending is the secret embedded at this moment. Experiments show that LLsM performs superior to prevalent LS-task and related-task baselines regarding text quality, statistical analysis, discourse matching, and anti-steganalysis. In particular, LLsM’s MAUVE matric surpasses some baselines by 70%-80%, and its anti-steganalysis performance is 30%-40% higher. Notably, we also present examples of longer stegos generated by LLsM, showing its potential superiority in long LS tasks.

arxiv情報

著者 Yihao Wang,Ruiqi Song,Ru Zhang,Jianyi Liu,Lingxiao Li
発行日 2024-02-06 14:55:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク