要約
高品質のステガノグラフィテキストを生成することは、生成的言語ステガノグラフィの分野における基本的な課題である。この課題は主に2つの側面から生じる:第一に、テキスト生成における既存のモデルの能力は限られている;第二に、埋め込みアルゴリズムは、意味内容やランダム性のような、機密情報の特性の悪影響を効果的に緩和することができない。具体的には、受信者が隠された情報を正確に抽出できるようにするために、埋め込みアルゴリズムはしばしば、比較的低い確率で候補となる単語を選択することを考慮しなければならない。この現象は、高確率の候補単語の数の減少と低確率の候補単語の増加をもたらし、それによってステガノグラフィテキストの意味的一貫性と論理的流暢性を損ない、生成されたステガノグラフィ材料の全体的な品質を低下させる。この問題に対処するために、本論文は新しい埋め込みアルゴリズム、文字ベースの拡散埋め込みアルゴリズム(CDEA)を提案する。既存の埋め込みアルゴリズムが、生成プロセスにおける機密情報の特性の影響を排除しようと努力するのとは異なり、CDEAは機密情報の特性を活用する。文字レベルの一般的な統計的性質とべき乗分布に基づくグルーピング手法に基づき、候補プールに含まれる高確率候補単語の選択頻度を高める一方、候補プールに含まれる低確率候補単語の選択頻度を下げる。さらに、長いシーケンス中の機密情報を効果的に変換するために、XLNetモデルも導入する。実験結果は、CDEAとXLNetの組み合わせが、生成されたステガノグラフィテキストの品質を、特に知覚的不感受性の点で大幅に向上させることを示している。
要約(オリジナル)
Generating high-quality steganographic text is a fundamental challenge in the field of generative linguistic steganography. This challenge arises primarily from two aspects: firstly, the capabilities of existing models in text generation are limited; secondly, embedding algorithms fail to effectively mitigate the negative impacts of sensitive information’s properties, such as semantic content or randomness. Specifically, to ensure that the recipient can accurately extract hidden information, embedding algorithms often have to consider selecting candidate words with relatively low probabilities. This phenomenon leads to a decrease in the number of high-probability candidate words and an increase in low-probability candidate words, thereby compromising the semantic coherence and logical fluency of the steganographic text and diminishing the overall quality of the generated steganographic material. To address this issue, this paper proposes a novel embedding algorithm, character-based diffusion embedding algorithm (CDEA). Unlike existing embedding algorithms that strive to eliminate the impact of sensitive information’s properties on the generation process, CDEA leverages sensitive information’s properties. It enhances the selection frequency of high-probability candidate words in the candidate pool based on general statistical properties at the character level and grouping methods based on power-law distributions, while reducing the selection frequency of low-probability candidate words in the candidate pool. Furthermore, to ensure the effective transformation of sensitive information in long sequences, we also introduce the XLNet model. Experimental results demonstrate that the combination of CDEA and XLNet significantly improves the quality of generated steganographic text, particularly in terms of perceptual-imperceptibility.
arxiv情報
| 著者 | Yingquan Chen,Qianmu Li,Xiaocong Wu,Huifeng Li,Qing Chang |
| 発行日 | 2025-05-02 03:39:49+00:00 |
| arxivサイト | arxiv_id(pdf) |