要約
データ量と速度の継続的な急増は、アルゴリズムレベルに存在する機械学習の課題を抽象化し、データオーケストレーションと分散処理アプローチを使用して対処することが多い。学習ループの自動化への関心が高まる中、古典的なインメモリ学習データ形式ではなく、連続的に到着するデータを用いた学習は、学習データのバッチ間で特徴分布が進化し、交差検証ステップにバイアスがかかるため、機械学習の課題に直面することになる( \cite{sugiyama2012machine})。本研究では、データが時間的に分散している問題に対して、分散密度推定という切り口をとる。データをバッチ処理し、ニューラルネットワークがバッチを学習データとして扱えるようにする。この方法は、バッチに対する局所最適化勾配に関する情報を含むフィッシャー情報行列を用いた事後確率吸収により、データ密度に関する知識を蓄積する。これは次のバッチにおける損失の正則化として使用されるため、データセット全体の密度推定は非同一分布シフトに対してよりロバストになる。このためには、一度に一組のバッチがメモリ上に存在する必要があり、空間コストは完全な分散データセットのサイズの関数ではない。我々は、フィッシャー情報とカルバック・ライブラー発散を活用し、データセットの断片化による自然な共変量シフトと逐次的な共変量シフトの両方に適応する、新しい正則化に基づくアプローチCovariate Shift Correction $C^{2}A$を提案した。C^{2}A$は、最新の手法に対して、最大で$19%$の精度を達成する。
要約(オリジナル)
The continuous surge in data volume and velocity is often dealt with using data orchestration and distributed processing approaches, abstracting away the machine learning challenges that exist at the algorithmic level. With growing interest in automating the learning loop, training with data that arrive in a sequence rather than in the classical in-memory training data form will face a machine learning challenge because of evolving feature distributions across batches of training data biasing the cross-validation step (\cite{sugiyama2012machine}). This work takes a distributed density estimation angle to the problem where data are temporally distributed. It processes data in batches and allows a neural network to treat a batch as training data. The method accumulates knowledge about the data density via posterior probability absorption using the Fisher Information Matrix, which contains information about the local optimization gradients for the batch. This is then used as a regularizer for the loss in the following batch, and therefore the density estimate for the entire dataset constructively gets more robust to the non-iid distribution shift. This needs the presence of a pair of batches in memory at a time, so the space cost is not a function of the size of the complete, distributed dataset. We proposed a novel regularization-based approach Covariate Shift Correction $C^{2}A$ that leverages Fisher information and Kullback-Leibler divergence to adapt to both natural and sequential covariate shift caused by dataset fragmentation. $C^{2}A$ achieves $19\%$ accuracy at maximum against state-of-the-art methods.
arxiv情報
著者 | Behraj Khan,Behroz Mirza,Nouman Durrani,Tahir Syed |
発行日 | 2025-03-03 06:42:17+00:00 |
arxivサイト | arxiv_id(pdf) |