要約
入力データの分布が進化するにつれて、機械学習モデルの予測パフォーマンスは低下する傾向があります。
実際には、新しい入力データはターゲット ラベルなしで来る傾向があります。
次に、最先端の手法で入力データ分布またはモデル予測分布をモデル化し、学習済みモデルとシフト分布の間の相互作用に関する問題を理解しようとします。
分布シフトの影響を受けたときに説明特性がどのように変化するかをモデル化する新しいアプローチを提案します。
説明シフトのモデリングは、最先端の手法よりも分布外モデルの動作を検出するための優れた指標になり得ることがわかりました。
合成例と実際のデータセットを使用して、さまざまなタイプの分布シフトを分析します。
データセットの特徴と学習したモデルの間の相互作用を検査し、それらを最先端のものと比較できるようにするアルゴリズム手法を提供します。
オープンソースの Python パッケージでメソッドをリリースし、実験を再現するために使用したコードもリリースします。
要約(オリジナル)
As input data distributions evolve, the predictive performance of machine learning models tends to deteriorate. In practice, new input data tend to come without target labels. Then, state-of-the-art techniques model input data distributions or model prediction distributions and try to understand issues regarding the interactions between learned models and shifting distributions. We suggest a novel approach that models how explanation characteristics shift when affected by distribution shifts. We find that the modeling of explanation shifts can be a better indicator for detecting out-of-distribution model behaviour than state-of-the-art techniques. We analyze different types of distribution shifts using synthetic examples and real-world data sets. We provide an algorithmic method that allows us to inspect the interaction between data set features and learned models and compare them to the state-of-the-art. We release our methods in an open-source Python package, as well as the code used to reproduce our experiments.
arxiv情報
著者 | Carlos Mougan,Klaus Broelemann,David Masip,Gjergji Kasneci,Thanassis Thiropanis,Steffen Staab |
発行日 | 2023-03-14 17:13:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google