要約
実際の機械学習の問題では、ある時間から別の時間、またはある場所から別の場所へのデータの分布の変化が見られます。
この動作は、i.i.d. を前提とする従来の経験的リスク最小化パラダイムの範囲を超えています。
時間の経過や場所を越えたデータの分散。
流通外 (OOD) 一般化という新興分野は、環境情報や時代情報をアルゴリズムに組み込んだ新しい理論とアルゴリズムでこの現実に対処しています。
これまでのところ、ほとんどの研究は線形モデルやニューラル ネットワークに焦点を当ててきました。
この研究では、デシジョン ツリーの 2 つの新しい分割基準を開発します。これにより、OOD 一般化研究からのアイデアをデシジョン ツリー モデル、つまり勾配ブースティング デシジョン ツリー (GBDT) に適用できるようになります。
新しい分割基準は、データに関連付けられた時代ごとの情報を使用して、一緒にプールされたデータ セット全体にわたって最適な (デフォルト設定) のではなく、データ内のすべてのばらばらの時代にわたって最適なツリー ベースのモデルを成長させます。
この論文では、2 つの新しい分割基準が定義され、理論的に分析されます。
有効性は、単純な合成アプリケーションから複雑な現実世界のアプリケーションまで、4 つの実験でテストされます。
特に、金融市場のコンテキストで OOD ドメイン適応の問題を提起しました。そこでは、新しいモデルが Numerai データセット上で最先端の GBDT モデルを上回っています。
新しい基準は Scikit-Learn コード ベースに組み込まれ、オンラインで自由に利用できるようになります。
要約(オリジナル)
Real-life machine learning problems exhibit distributional shifts in the data from one time to another or from one place to another. This behavior is beyond the scope of the traditional empirical risk minimization paradigm, which assumes i.i.d. distribution of data over time and across locations. The emerging field of out-of-distribution (OOD) generalization addresses this reality with new theory and algorithms which incorporate environmental, or era-wise information into the algorithms. So far, most research has been focused on linear models and/or neural networks. In this research we develop two new splitting criteria for decision trees, which allow us to apply ideas from OOD generalization research to decision tree models, namely, gradient boosting decision trees (GBDT). The new splitting criteria use era-wise information associated with the data to grow tree-based models that are optimal across all disjoint eras in the data, instead of optimal over the entire data set pooled together, which is the default setting. In this paper, two new splitting criteria are defined and analyzed theoretically. Effectiveness is tested on four experiments, ranging from simple, synthetic to complex, real-world applications. In particular we cast the OOD domain-adaptation problem in the context of financial markets, where the new models out-perform state-of-the-art GBDT models on the Numerai data set. The new criteria are incorporated into the Scikit-Learn code base and made freely available online.
arxiv情報
著者 | Timothy DeLise |
発行日 | 2024-03-14 17:31:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google