要約
多次元時系列データセットにおける欠損値補完のための深層学習手法である DeepMVI を紹介します。
欠損値は、異種ソースから長期間にわたるデータを集約する意思決定支援プラットフォームではよくあることであり、信頼性の高いデータ分析には欠損データの慎重な取り扱いが必要です。
1 つの戦略は欠損値の代入であり、単純な内挿、SVD などの行列因数分解法、カルマン フィルターなどの統計モデル、および最近のディープ ラーニング手法に至るまで、多種多様なアルゴリズムが存在します。
これらは、欠損データを単に除外する場合と比較して、集計分析で悪い結果が得られることが多いことを示しています。
DeepMVI は、ニューラル ネットワークを使用して、時系列に沿ったきめの細かいパターンと粗いパターン、およびカテゴリ次元全体にわたる関連する系列の傾向を組み合わせます。
既製のニューラル アーキテクチャで失敗した後、私たちは新しい畳み込みウィンドウ機能を備えた時間変換器と、学習された埋め込みを備えたカーネル回帰を含む独自のネットワークを設計しました。
パラメーターとそのトレーニングは、欠落ブロックのさまざまな配置とデータ特性を一般化するように慎重に設計されています。
9 つの実際のデータセット、4 つの異なる欠損シナリオ、7 つの既存の手法を比較した実験では、既存の最良の手法と比較して、DeepMVI の精度が大幅に向上し、半数以上のケースで誤差が 50% 以上減少することがわかりました。
単純な行列因数分解法よりも遅いとはいえ、DeepMVI が欠損値を削除するより全体的により正確な分析を提供する唯一のオプションであることを示すことで、時間のオーバーヘッドの増加を正当化します。
要約(オリジナル)
We present DeepMVI, a deep learning method for missing value imputation in multidimensional time-series datasets. Missing values are commonplace in decision support platforms that aggregate data over long time stretches from disparate sources, and reliable data analytics calls for careful handling of missing data. One strategy is imputing the missing values, and a wide variety of algorithms exist spanning simple interpolation, matrix factorization methods like SVD, statistical models like Kalman filters, and recent deep learning methods. We show that often these provide worse results on aggregate analytics compared to just excluding the missing data. DeepMVI uses a neural network to combine fine-grained and coarse-grained patterns along a time series, and trends from related series across categorical dimensions. After failing with off-the-shelf neural architectures, we design our own network that includes a temporal transformer with a novel convolutional window feature, and kernel regression with learned embeddings. The parameters and their training are designed carefully to generalize across different placements of missing blocks and data characteristics. Experiments across nine real datasets, four different missing scenarios, comparing seven existing methods show that DeepMVI is significantly more accurate, reducing error by more than 50% in more than half the cases, compared to the best existing method. Although slower than simpler matrix factorization methods, we justify the increased time overheads by showing that DeepMVI is the only option that provided overall more accurate analytics than dropping missing values.
arxiv情報
著者 | Parikshit Bansal,Prathamesh Deshpande,Sunita Sarawagi |
発行日 | 2023-06-21 07:13:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google