Practical machine learning is learning on small samples

要約

限られた観察に基づき、機械学習は将来も続くと予想される依存関係を見分ける。何がそれを可能にするのか?統計的学習理論では、そのアプローチを正当化するために、学習サンプルが無限に増えることを想像する。現実には、学習に無限の時間や無限の一般母集団は存在しない。ここでは、実用的な機械学習は、根底にある依存関係が比較的「滑らか」であるという暗黙の仮定に基づいていると主張する。この観点から、学習は訓練セットに「滑らかに」近似する仮説を選択することになる。私はこれを実践的学習パラダイムとして定式化する。このパラダイムには、学習者を記述するための用語と規則が含まれる。一般的な学習者(局所平滑化、k-NN、決定木、ナイーブ・ベイズ、分類と回帰のためのSVM)は、このパラダイムの実装である。

要約(オリジナル)

Based on limited observations, machine learning discerns a dependence which is expected to hold in the future. What makes it possible? Statistical learning theory imagines indefinitely increasing training sample to justify its approach. In reality, there is no infinite time or even infinite general population for learning. Here I argue that practical machine learning is based on an implicit assumption that underlying dependence is relatively “smooth’ : likely, there are no abrupt differences in feedback between cases with close data points. From this point of view learning shall involve selection of the hypothesis “smoothly’ approximating the training set. I formalize this as Practical learning paradigm. The paradigm includes terminology and rules for description of learners. Popular learners (local smoothing, k-NN, decision trees, Naive Bayes, SVM for classification and for regression) are shown here to be implementations of this paradigm.

arxiv情報

著者 Marina Sapir
発行日 2025-01-03 14:38:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク