Understanding the Limits of Deep Tabular Methods with Temporal Shift

要約

深い層のモデルは、I.I.D。で顕著な成功を示しています。
さまざまな構造化されたデータタスクで優れているデータ。
ただし、時間の経過とともに進化するデータ分布に傾向と定期的なパターンが存在する、時間の分布シフト下ではパフォーマンスが悪化することがよくあります。
この論文では、時間的依存関係をキャプチャする際のこの失敗の根本的な理由を探ります。
まず、トレーニングプロトコルを調査し、モデルの選択の実行方法に関する重要な問題を明らかにします。
既存のアプローチでは、検証セットを分割するために時間的順序付けを使用していますが、ランダム分割でさえモデルのパフォーマンスを大幅に改善できることを示します。
トレーニングデータとテスト時間の間の時間遅れを最小化することにより、検証のバイアスを減らしながら、提案されたトレーニングプロトコルは、さまざまな方法で一般化を大幅に改善します。
さらに、一時的なデータが深い層の表現にどのように影響するかを分析し、これらのモデルがしばしば重要な周期的情報とトレンド情報をキャプチャできないことを明らかにします。
このギャップに対処するために、フーリエシリーズの拡張に基づいてプラグアンドプレイの時間埋め込み方法を導入し、時間的パターンを学習および組み込み、時間的シフトを処理するための適応アプローチを提供します。
私たちの実験は、この時間的埋め込みと改善されたトレーニングプロトコルと組み合わされており、時間的表形式データから学習するためのより効果的で堅牢なフレームワークを提供することを示しています。

要約(オリジナル)

Deep tabular models have demonstrated remarkable success on i.i.d. data, excelling in a variety of structured data tasks. However, their performance often deteriorates under temporal distribution shifts, where trends and periodic patterns are present in the evolving data distribution over time. In this paper, we explore the underlying reasons for this failure in capturing temporal dependencies. We begin by investigating the training protocol, revealing a key issue in how model selection perform. While existing approaches use temporal ordering for splitting validation set, we show that even a random split can significantly improve model performance. By minimizing the time lag between training data and test time, while reducing the bias in validation, our proposed training protocol significantly improves generalization across various methods. Furthermore, we analyze how temporal data affects deep tabular representations, uncovering that these models often fail to capture crucial periodic and trend information. To address this gap, we introduce a plug-and-play temporal embedding method based on Fourier series expansion to learn and incorporate temporal patterns, offering an adaptive approach to handle temporal shifts. Our experiments demonstrate that this temporal embedding, combined with the improved training protocol, provides a more effective and robust framework for learning from temporal tabular data.

arxiv情報

著者 Hao-Run Cai,Han-Jia Ye
発行日 2025-02-27 16:48:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T05, cs.LG, I.2.6 パーマリンク