要約
統計と機械学習では、利用可能なデータで適合モデルをトレーニングするとき、通常、少なくとも1つの正確なモデルを含むモデルクラス内で検索していることを確認する必要があります。つまり、上限を確保したいと思います。
モデルクラスのリスク(クラスの任意のモデルで達成できる可能性が最も低いリスク)。
ただし、たとえば、モデルクラスのリスクに下限を確立することも興味深いので、適合モデルがクラス内で少なくともほぼ最適かどうか、またはモデルクラスが不適切であるかどうかを判断できるようにすることも興味深いです。
手元の特定のタスクの場合。
特に、機械学習モデルがトレーニングデータでゼロエラーに達するようにトレーニングされている補間学習の設定では、少なくともモデルクラスのリスクの正の下限が可能かどうか、または私たちはできないかどうかを尋ねるかもしれません。
「すべてのモデルが間違っている」ことを検出しますか?
この作業では、モデルクラスで達成可能な最良のテストエラーで下限を構築する問題のためにモデルに依存しない基本的な硬度の結果を確立することにより、これらの質問に分布のない設定で答え、特定のモデルへの影響を調べます
ツリーベースの方法や線形回帰などのクラス。
要約(オリジナル)
In statistics and machine learning, when we train a fitted model on available data, we typically want to ensure that we are searching within a model class that contains at least one accurate model — that is, we would like to ensure an upper bound on the model class risk (the lowest possible risk that can be attained by any model in the class). However, it is also of interest to establish lower bounds on the model class risk, for instance so that we can determine whether our fitted model is at least approximately optimal within the class, or, so that we can decide whether the model class is unsuitable for the particular task at hand. Particularly in the setting of interpolation learning where machine learning models are trained to reach zero error on the training data, we might ask if, at the very least, a positive lower bound on the model class risk is possible — or are we unable to detect that ‘all models are wrong’? In this work, we answer these questions in a distribution-free setting by establishing a model-agnostic, fundamental hardness result for the problem of constructing a lower bound on the best test error achievable over a model class, and examine its implications on specific model classes such as tree-based methods and linear regression.
arxiv情報
著者 | Manuel M. Müller,Yuetian Luo,Rina Foygel Barber |
発行日 | 2025-02-10 18:44:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google