要約
データセット圧縮は、ディープ ニューラル ネットワークのトレーニングに使用できる小さなデータセットを生成し、トレーニング コストを削減する新しい技術です。
データセット圧縮の目的は、合成データセットでトレーニングされたモデルが、完全なデータセットでトレーニングされたモデルと同等のパフォーマンスを発揮できるようにすることです。
ただし、既存の方法は主に分類タスクに集中しているため、時系列予測 (TS 予測) への適応に課題が生じています。
この課題は、合成データの評価の差異から生じます。
分類では、出力ロジット分布の変動に関係なく、完全なデータセットでトレーニングされたモデルと合成データセットでトレーニングされたモデルが同じ入力に対して同一のラベルを生成する場合、合成データはよく抽出されていると見なされます。
逆に、TS 予測では、合成データ抽出の有効性は 2 つのモデルの予測間の距離によって決まります。
合成データは、予測内のすべてのデータ ポイントが類似している場合にのみ、よく抽出されているとみなされます。
したがって、TS 予測には、分類と比較してより厳密な評価方法があります。
このギャップを軽減するために、TS 予測のためのデータセット圧縮の最適化目標を理論的に分析し、その分析に基づいて時系列予測のためのデータセット圧縮 (CondTSF) として指定されるデータセット圧縮の新しい 1 行プラグインを提案します。
CondTSF を以前のデータセット圧縮手法に組み込むと、完全なデータセットでトレーニングされたモデルの予測と合成データセットでトレーニングされたモデルの予測の間の距離が短縮され、パフォーマンスが向上します。
私たちは、一般的に使用される 8 つの時系列データセットに対して広範な実験を行っています。
CondTSF は、すべてのデータセットにわたって、特に低い圧縮率で、以前のすべてのデータセット圧縮メソッドのパフォーマンスを一貫して向上させます。
要約(オリジナル)
Dataset condensation is a newborn technique that generates a small dataset that can be used in training deep neural networks to lower training costs. The objective of dataset condensation is to ensure that the model trained with the synthetic dataset can perform comparably to the model trained with full datasets. However, existing methods predominantly concentrate on classification tasks, posing challenges in their adaptation to time series forecasting (TS-forecasting). This challenge arises from disparities in the evaluation of synthetic data. In classification, the synthetic data is considered well-distilled if the model trained with the full dataset and the model trained with the synthetic dataset yield identical labels for the same input, regardless of variations in output logits distribution. Conversely, in TS-forecasting, the effectiveness of synthetic data distillation is determined by the distance between predictions of the two models. The synthetic data is deemed well-distilled only when all data points within the predictions are similar. Consequently, TS-forecasting has a more rigorous evaluation methodology compared to classification. To mitigate this gap, we theoretically analyze the optimization objective of dataset condensation for TS-forecasting and propose a new one-line plugin of dataset condensation designated as Dataset Condensation for Time Series Forecasting (CondTSF) based on our analysis. Plugging CondTSF into previous dataset condensation methods facilitates a reduction in the distance between the predictions of the model trained with the full dataset and the model trained with the synthetic dataset, thereby enhancing performance. We conduct extensive experiments on eight commonly used time series datasets. CondTSF consistently improves the performance of all previous dataset condensation methods across all datasets, particularly at low condensing ratios.
arxiv情報
著者 | Jianrong Ding,Zhanyu Liu,Guanjie Zheng,Haiming Jin,Linghe Kong |
発行日 | 2024-10-23 16:05:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google