Online Tensor Inference

要約

最近の技術の進歩により、逐次到着するテンソル データのリアルタイム処理と分析が必要な現代のアプリケーションが登場しました。
各計算反復ですべてのデータを保存して利用する従来のオフライン学習は、高次元テンソル データの場合、そのサイズが膨大であるため非現実的になります。
さらに、既存の低ランク テンソル手法には、リアルタイムの予測や情報に基づいた意思決定に不可欠なオンライン形式での統計的推論の機能が欠けています。
この論文では、低ランクのテンソル学習のための新しいオンライン推論フレームワークを導入することで、これらの課題に対処します。
私たちのアプローチでは確率的勾配降下法 (SGD) を採用し、大規模なメモリを必要とせずに効率的なリアルタイム データ処理を可能にし、それによって計算需要を大幅に削減します。
オンラインの低ランク SGD 推定器の非漸近収束結果を確立します。これは、すべての履歴データを保存するオフライン モデルの最小最適推定誤差率にほぼ一致します。
この基盤に基づいて、低ランクのテンソル学習における逐次統計的推論のための、シンプルかつ強力なオンラインバイアス除去アプローチを提案します。
推定と推論の両方をカバーするオンライン手順全体により、データの分割や履歴データの保存が不要になり、オンザフライの仮説テストに適しています。
データ収集の逐次的性質を考慮すると、オフライン手法やサンプル分割に依存した従来の分析では不十分です。
私たちの分析では、構築されたスーパーマルチンゲールの合計を制御して、解パス全体に沿った推定値が良性領域内に収まるようにします。
さらに、新しいスペクトル表現ツールを使用して反復推定間の統計的依存性に対処し、望ましい漸近正規性を確立します。

要約(オリジナル)

Recent technological advances have led to contemporary applications that demand real-time processing and analysis of sequentially arriving tensor data. Traditional offline learning, involving the storage and utilization of all data in each computational iteration, becomes impractical for high-dimensional tensor data due to its voluminous size. Furthermore, existing low-rank tensor methods lack the capability for statistical inference in an online fashion, which is essential for real-time predictions and informed decision-making. This paper addresses these challenges by introducing a novel online inference framework for low-rank tensor learning. Our approach employs Stochastic Gradient Descent (SGD) to enable efficient real-time data processing without extensive memory requirements, thereby significantly reducing computational demands. We establish a non-asymptotic convergence result for the online low-rank SGD estimator, nearly matches the minimax optimal rate of estimation error in offline models that store all historical data. Building upon this foundation, we propose a simple yet powerful online debiasing approach for sequential statistical inference in low-rank tensor learning. The entire online procedure, covering both estimation and inference, eliminates the need for data splitting or storing historical data, making it suitable for on-the-fly hypothesis testing. Given the sequential nature of our data collection, traditional analyses relying on offline methods and sample splitting are inadequate. In our analysis, we control the sum of constructed super-martingales to ensure estimates along the entire solution path remain within the benign region. Additionally, a novel spectral representation tool is employed to address statistical dependencies among iterative estimates, establishing the desired asymptotic normality.

arxiv情報

著者 Xin Wen,Will Wei Sun,Yichen Zhang
発行日 2023-12-28 16:37:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML パーマリンク