Efficiently and Effectively: A Two-stage Approach to Balance Plaintext and Encrypted Text for Traffic Classification

要約

暗号化トラフィックの分類は、暗号化されたネットワーク トラフィックに関連付けられたアプリケーションまたはサービスを識別するタスクです。
このタスクに対する効果的なアプローチの 1 つは、深層学習手法を使用して生のトラフィック バイトを直接エンコードし、分類用の特徴 (バイトベースのモデル) を自動的に抽出することです。
ただし、現在のバイトベースのモデルは、平文か暗号化テキストかに関係なく、自動特徴抽出のために生のトラフィック バイトを入力し、下流のタスクに対する平文と暗号化テキストの明確な影響を無視しています。
さらに、これらのモデルは主に分類精度の向上に焦点を当てており、モデルの効率性はほとんど重視されていません。
この論文では、モデルの有効性と効率に対する平文と暗号化されたテキストの影響を初めて分析します。
私たちの観察と発見に基づいて、トラフィック分類における平文と暗号化テキストの間のトレードオフのバランスをとるための 2 段階のアプローチを提案します。
具体的には、ステージ 1 は、提案された DPC セレクターを使用して、プレーン テキストが正確に分類 (DPC) されるのに十分であるかどうかを判断することです。
この段階では、平文を使用して分類できるサンプルを迅速に特定し、平文の明示的なバイト特徴を活用してモデルの効率を高めます。
ステージ 2 は、ステージ 1 の結果を使用して適応的に分類を行うことを目的としています。
この段階では、平文だけでは分類できないサンプルの暗号化されたテキスト情報が組み込まれ、トラフィック分類タスクにおけるモデルの有効性が保証されます。
2 つのデータセットでの実験により、私たちが提案したモデルが有効性と効率の両方において最先端の結果を達成することが実証されました。

要約(オリジナル)

Encrypted traffic classification is the task of identifying the application or service associated with encrypted network traffic. One effective approach for this task is to use deep learning methods to encode the raw traffic bytes directly and automatically extract features for classification (byte-based models). However, current byte-based models input raw traffic bytes, whether plaintext or encrypted text, for automated feature extraction, neglecting the distinct impacts of plaintext and encrypted text on downstream tasks. Additionally, these models primarily focus on improving classification accuracy, with little emphasis on the efficiency of models. In this paper, for the first time, we analyze the impact of plaintext and encrypted text on the model’s effectiveness and efficiency. Based on our observations and findings, we propose a two-phase approach to balance the trade-off between plaintext and encrypted text in traffic classification. Specifically, Stage one is to Determine whether the Plain text is enough to be accurately Classified (DPC) using the proposed DPC Selector. This stage quickly identifies samples that can be classified using plaintext, leveraging explicit byte features in plaintext to enhance model’s efficiency. Stage two aims to adaptively make a classification with the result from stage one. This stage incorporates encrypted text information for samples that cannot be classified using plaintext alone, ensuring the model’s effectiveness on traffic classification tasks. Experiments on two datasets demonstrate that our proposed model achieves state-of-the-art results in both effectiveness and efficiency.

arxiv情報

著者 Wei Peng
発行日 2024-07-29 04:10:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク