Five reasons against assuming a data-generating distribution in Machine Learning

要約

機械学習の研究は、ほとんどの統計と同様、データ生成の確率分布の概念に大きく依存しています。
データ ポイントはこのような分布からサンプリングされていると考えられるため、この分布に関する観察データから学習し、そこから抽出される将来のデータ ポイントを (ある程度の確率で) 予測することができます。
私たちはここで、分野を超えた学問に基づいて、この枠組みが必ずしも良いモデルであるとは限らないと主張します。
そのような真の確率分布は存在しないだけではありません。
また、フレームワークは誤解を招き、機械学習の実践において行われた選択と追求される目標の両方を曖昧にする可能性があります。
私たちは、抽象的な分布ではなく有限の母集団に焦点を当てた代替フレームワークを提案します。
古典的な学習理論はほとんど変更せずにそのままにしておくことができますが、特にモデルのサンプリングに対して新たな機会が開かれます。
これらの考慮事項を、より忠実に実践できるようにするためと、新しい理論的洞察を提供するために、一部の設定では生成分布ではなく有限分布を使用して機械学習をモデル化する 5 つの理由にまとめます。

要約(オリジナル)

Machine Learning research, as most of Statistics, heavily relies on the concept of a data-generating probability distribution. As data points are thought to be sampled from such a distribution, we can learn from observed data about this distribution and, thus, predict future data points drawn from it (with some probability of success). Drawing on scholarship across disciplines, we here argue that this framework is not always a good model. Not only do such true probability distributions not exist; the framework can also be misleading and obscure both the choices made and the goals pursued in machine learning practice. We suggest an alternative framework that focuses on finite populations rather than abstract distributions; while classical learning theory can be left almost unchanged, it opens new opportunities, especially to model sampling. We compile these considerations into five reasons for modelling machine learning — in some settings — with finite distributions rather than generative distributions, both to be more faithful to practice and to provide novel theoretical insights.

arxiv情報

著者 Benedikt Höltgen,Robert C. Williamson
発行日 2024-07-24 16:17:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク