A Character-based Diffusion Embedding Algorithm for Enhancing the Generation Quality of Generative Linguistic Steganographic Texts

要約

高品質のステガノグラフィテキストを生成することは、生成的言語ステガノグラフィの分野での基本的な課題です。
この課題は主に2つの側面から生じます。まず、テキスト生成における既存のモデルの機能は限られています。
第二に、アルゴリズムの埋め込みは、セマンティックコンテンツやランダム性などの機密情報のプロパティのマイナスの影響を効果的に軽減することができません。
具体的には、受信者が隠された情報を正確に抽出できるようにするために、アルゴリズムの埋め込みは、しばしば比較的低い確率で候補の単語を選択することを検討する必要があります。
この現象は、高パロビーズ候補の単語の数の減少と低確率候補の単語の増加につながり、それにより、ステガノグラフィテキストのセマンティックコヒーレンスと論理的流encyさを損ない、生成されたステガノグラフィ材料の全体的な品質を低下させます。
この問題に対処するために、このペーパーでは、新しい埋め込みアルゴリズム、文字ベースの拡散埋め込みアルゴリズム(CDEA)を提案します。
生成プロセスに対する機密情報のプロパティの影響を排除するように努める既存の埋め込みアルゴリズムとは異なり、CDEAは機密情報のプロパティを活用します。
候補レベルの一般的な統計的特性とパワーローの分布に基づいてグループ化方法に基づいて、候補プール内の高装備候補の単語の選択頻度を強化し、候補プールの低確率候補ワードの選択頻度を減らします。
さらに、長いシーケンスで機密情報の効果的な変換を確保するために、XLNETモデルも導入します。
実験結果は、CDEAとXLNETの組み合わせにより、特に知覚想像力の観点から生成されたステガノグラフィテキストの品質が大幅に向上することを示しています。

要約(オリジナル)

Generating high-quality steganographic text is a fundamental challenge in the field of generative linguistic steganography. This challenge arises primarily from two aspects: firstly, the capabilities of existing models in text generation are limited; secondly, embedding algorithms fail to effectively mitigate the negative impacts of sensitive information’s properties, such as semantic content or randomness. Specifically, to ensure that the recipient can accurately extract hidden information, embedding algorithms often have to consider selecting candidate words with relatively low probabilities. This phenomenon leads to a decrease in the number of high-probability candidate words and an increase in low-probability candidate words, thereby compromising the semantic coherence and logical fluency of the steganographic text and diminishing the overall quality of the generated steganographic material. To address this issue, this paper proposes a novel embedding algorithm, character-based diffusion embedding algorithm (CDEA). Unlike existing embedding algorithms that strive to eliminate the impact of sensitive information’s properties on the generation process, CDEA leverages sensitive information’s properties. It enhances the selection frequency of high-probability candidate words in the candidate pool based on general statistical properties at the character level and grouping methods based on power-law distributions, while reducing the selection frequency of low-probability candidate words in the candidate pool. Furthermore, to ensure the effective transformation of sensitive information in long sequences, we also introduce the XLNet model. Experimental results demonstrate that the combination of CDEA and XLNet significantly improves the quality of generated steganographic text, particularly in terms of perceptual-imperceptibility.

arxiv情報

著者 Yingquan Chen,Qianmu Li,Xiaocong Wu,Huifeng Li,Qing Chang
発行日 2025-05-07 17:00:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク