Hiding in Plain Sight: Towards the Science of Linguistic Steganography

要約

秘密通信 (ステガノグラフィーとも呼ばれる) は、無害に見える公開オブジェクト (カバー) の中に秘密を隠し、変更された公開オブジェクト (秘密コード) が誰にとっても意味をなすが、コードを知っている人だけが秘密を抽出できるようにする実践です。
(メッセージ)。
言語ステガノグラフィーとは、口頭での会話やツイートなどの短い公開コミュニケーションなどの自然言語テキストに秘密のメッセージをエンコードする実践です。特定の領域で秘密のコミュニケーションを行うためのアドホックな方法 (JPEG 画像、漢詩など) が存在しますが、
特に言語ステガノグラフィーの一般的なモデルはありません。
我々は、言語ステガノグラフィー コードを作成するための新しい数学的形式主義を提示します。次の 3 つのパラメータを使用します。デコード可能性 (コード化されたメッセージの受信者がカバーを正しくデコードする確率)、密度 (カバー コード内のコードワードの頻度)、および検出可能性 (カバー コード内のコード ワードの頻度) です。
攻撃者は、改ざんされていないカバーとステガナイズされたバージョンの違いを見分けることができます)。
口頭または言語ステガノグラフィーは、秘密のメッセージを隠すアーティファクトが欠如しているため、最も困難です。N グラム周波数歪みを尺度として使用しながら、挿入された単語を使用して隠された数字をエンコードする、ツイート用のステガノグラフィー コードの Python での実際的な構築について詳しく説明します。
挿入の検出可能性。
公的にアクセス可能なスタンフォードセンチメント分析データセットを使用して、ツイート ステガナイゼーション スキームを実装しました。これは、n グラム歪みが最も少ないツイートを見つけるために、ランダムな既存のツイート内のランダムな位置にコードワード (データ セット内の既存の単語) を挿入するスキームです。
これにより、低コストで局所的な方法で KL 距離が近似され、形式的かつ実用的で、コードワード密度と秘密メッセージの検出可能性の間のトレードオフを可能にする言語ステガノグラフィー スキームが得られると我々は主張します。

要約(オリジナル)

Covert communication (also known as steganography) is the practice of concealing a secret inside an innocuous-looking public object (cover) so that the modified public object (covert code) makes sense to everyone but only someone who knows the code can extract the secret (message). Linguistic steganography is the practice of encoding a secret message in natural language text such as spoken conversation or short public communications such as tweets.. While ad hoc methods for covert communications in specific domains exist ( JPEG images, Chinese poetry, etc), there is no general model for linguistic steganography specifically. We present a novel mathematical formalism for creating linguistic steganographic codes, with three parameters: Decodability (probability that the receiver of the coded message will decode the cover correctly), density (frequency of code words in a cover code), and detectability (probability that an attacker can tell the difference between an untampered cover compared to its steganized version). Verbal or linguistic steganography is most challenging because of its lack of artifacts to hide the secret message in. We detail a practical construction in Python of a steganographic code for Tweets using inserted words to encode hidden digits while using n-gram frequency distortion as the measure of detectability of the insertions. Using the publicly accessible Stanford Sentiment Analysis dataset we implemented the tweet steganization scheme — a codeword (an existing word in the data set) inserted in random positions in random existing tweets to find the tweet that has the least possible n-gram distortion. We argue that this approximates KL distance in a localized manner at low cost and thus we get a linguistic steganography scheme that is both formal and practical and permits a tradeoff between codeword density and detectability of the covert message.

arxiv情報

著者 Leela Raj-Sankar,S. Raj Rajagopalan
発行日 2023-12-28 06:00:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク