Era Splitting — Invariant Learning for Decision Trees

要約

実際の機械学習の問題では、ある時点から別の時点へ、またはある場所から別の場所へのデータの分布シフトが見られます。
この動作は、i.i.d. を前提とする従来の経験的リスク最小化パラダイムの範囲を超えています。
時間の経過や場所を越えたデータの分散。
流通外 (OOD) 一般化という新興分​​野は、環境情報や時代情報をアルゴリズムに組み込んだ新しい理論とアルゴリズムでこの現実に対処しています。
これまでのところ、ほとんどの研究は線形モデルやニューラル ネットワークに焦点を当ててきました。
この研究では、デシジョン ツリーの 2 つの新しい分割基準を開発しました。これにより、OOD 一般化研究からのアイデアを、ランダム フォレストや勾配ブースティング デシジョン ツリーなどのデシジョン ツリー モデルに適用できるようになります。
新しい分割基準では、各データ ポイントに関連付けられた時代ごとの情報を使用して、ツリー ベースのモデルが、デフォルトである一緒にプールされたデータ セット全体にわたって最適ではなく、データ内のすべてのばらばらの時代にわたって最適な分割ポイントを見つけることができるようにします。
設定。
この論文では、金融市場の文脈における問題設定について説明します。
新しい分割基準を詳細に説明し、これらの新しい基準の利点を示す独自の実験を開発します。これにより、サンプル外の実験の指標が向上します。
新しい基準は、自由に利用できる Scikit-Learn コード ベースの最先端の勾配ブースト デシジョン ツリー モデルに組み込まれています。

要約(オリジナル)

Real-life machine learning problems exhibit distributional shifts in the data from one time to another or from on place to another. This behavior is beyond the scope of the traditional empirical risk minimization paradigm, which assumes i.i.d. distribution of data over time and across locations. The emerging field of out-of-distribution (OOD) generalization addresses this reality with new theory and algorithms which incorporate environmental, or era-wise information into the algorithms. So far, most research has been focused on linear models and/or neural networks. In this research we develop two new splitting criteria for decision trees, which allow us to apply ideas from OOD generalization research to decision tree models, including random forest and gradient-boosting decision trees. The new splitting criteria use era-wise information associated with each data point to allow tree-based models to find split points that are optimal across all disjoint eras in the data, instead of optimal over the entire data set pooled together, which is the default setting. In this paper we describe the problem setup in the context of financial markets. We describe the new splitting criteria in detail and develop unique experiments to showcase the benefits of these new criteria, which improve metrics in our experiments out-of-sample. The new criteria are incorporated into the a state-of-the-art gradient boosted decision tree model in the Scikit-Learn code base, which is made freely available.

arxiv情報

著者 Timothy DeLise
発行日 2024-01-02 14:35:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.LG パーマリンク