要約
特徴の選択は、統計学習モデルを作成する方法論の中で最も関連性の高いプロセスの 1 つです。
一般に、既存のアルゴリズムは、最も影響力のある変数を選択するための何らかの基準を確立し、モデルに関連する情報を提供しない変数を破棄します。
この方法論は、データの結合分布が時間の経過とともに変化しない古典的な静的な状況では意味があります。
しかし、実際のデータを扱う場合、データセットのシフト、特に変数間の関係の変化 (概念のシフト) の問題に遭遇するのが一般的です。
この場合、トレーニング段階で学習した関係が現在の状況に対応していない可能性があるため、変数の影響だけがモデルの回帰変数としての品質を示す唯一の指標になることはできません。
したがって、我々は、シャプレー値を使用して各変数が予測に及ぼす影響を研究する、この事実を考慮した回帰問題用の新しい特徴選択方法論を提案します。
5 つの例が分析されます。4 つは、この方法が最先端技術に適合する典型的な状況に対応し、1 つの例は、イベリア市場で概念の転換現象が発生した電力価格予測に関連しています。
この場合、提案されたアルゴリズムにより結果が大幅に改善されます。
要約(オリジナル)
Feature selection is one of the most relevant processes in any methodology for creating a statistical learning model. Generally, existing algorithms establish some criterion to select the most influential variables, discarding those that do not contribute any relevant information to the model. This methodology makes sense in a classical static situation where the joint distribution of the data does not vary over time. However, when dealing with real data, it is common to encounter the problem of the dataset shift and, specifically, changes in the relationships between variables (concept shift). In this case, the influence of a variable cannot be the only indicator of its quality as a regressor of the model, since the relationship learned in the traning phase may not correspond to the current situation. Thus, we propose a new feature selection methodology for regression problems that takes this fact into account, using Shapley values to study the effect that each variable has on the predictions. Five examples are analysed: four correspond to typical situations where the method matches the state of the art and one example related to electricity price forecasting where a concept shift phenomenon has occurred in the Iberian market. In this case the proposed algorithm improves the results significantly.
arxiv情報
著者 | Carlos Sebastián,Carlos E. González-Guillén |
発行日 | 2023-05-24 16:43:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google