要約
データ拡張 (DA) は、合成サンプルを追加してトレーニング データを強化するもので、モデルのパフォーマンスを向上させるためにコンピューター ビジョン (CV) や自然言語処理 (NLP) タスクで広く採用されている手法です。
しかし、DA はネットワークのコンテキスト、特にトラフィック分類 (TC) タスクにおいて牽引力を得るのに苦労しています。
この研究では、パケット時系列を入力表現として使用し、さまざまなトレーニング条件を考慮して、3 つの TC データセットに適用された 18 の拡張関数をベンチマークすることで、このギャップを満たしています。
我々の結果は、(i) DA は、(ii) 時系列シーケンスの順序に作用する拡張と TC に適したマスキングにより、これまで知られていない利点を享受できること、および (iii) 単純な潜在空間分析が、拡張が肯定的または否定的である理由についてのヒントを提供できることを示しています。
効果。
要約(オリジナル)
Data Augmentation (DA) — enriching training data by adding synthetic samples — is a technique widely adopted in Computer Vision (CV) and Natural Language Processing (NLP) tasks to improve models performance. Yet, DA has struggled to gain traction in networking contexts, particularly in Traffic Classification (TC) tasks. In this work, we fulfill this gap by benchmarking 18 augmentation functions applied to 3 TC datasets using packet time series as input representation and considering a variety of training conditions. Our results show that (i) DA can reap benefits previously unexplored with (ii) augmentations acting on time series sequence order and masking being a better suit for TC and (iii) simple latent space analysis can provide hints about why augmentations have positive or negative effects.
arxiv情報
著者 | Chao Wang,Alessandro Finamore,Pietro Michiardi,Massimo Gallo,Dario Rossi |
発行日 | 2024-01-19 15:25:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google