Information-Theoretic Foundations for Machine Learning

要約

過去 10 年間における機械学習の驚異的な進歩には目を見張るものがあります。
振り返ってみると、実験を導くための厳密な理論がほとんど、あるいはまったくない状態でこれらのマイルストーンが達成可能だったということは、注目に値すると同時に不安でもあります。
この事実にもかかわらず、実践者は、これまでの大規模な実証的調査の観察に基づいて、今後の実験を導くことができました。
しかし、プラトンの洞窟の寓話に言及すると、フィールドの現実概念を形成する観察は、その現実の断片を表す影にすぎない可能性があります。
この研究では、洞窟の外に何が存在するのかを解明しようとする理論的枠組みを提案します。
理論家には、数学的に厳密で、将来の探求のために多くの興味深いアイデアを残したフレームワークを提供します。
私たちは実務家に、結果が非​​常に直感的で一般的で、将来の調査を導くための原則を形成するのに役立つフレームワークを提供します。
具体的には、機械学習における多くの現象の分析を統合するのに十分一般的な、ベイズ統計とシャノンの情報理論に根ざした理論的フレームワークを提供します。
私たちのフレームワークは、情報の基本的な制限を考慮した最適なベイズ学習器のパフォーマンスを特徴付けます。
この作業を通じて、私たちは非常に一般的な理論的結果を導き出し、それらを適用して、未知の分布の下で独立して同一に分布しているデータから、連続的なデータ、メタ学習に適した階層構造を示すデータに至るまでの設定に特有の洞察を導き出します。

最後に、誤って指定されたアルゴリズムのパフォーマンスの特徴を説明するセクションを紹介します。
これらの結果は刺激的であり、この果てしなく複雑な世界においてますます困難になる機械学習の課題を克服しようと努めている私たちにとって特に重要です。

要約(オリジナル)

The staggering progress of machine learning in the past decade has been a sight to behold. In retrospect, it is both remarkable and unsettling that these milestones were achievable with little to no rigorous theory to guide experimentation. Despite this fact, practitioners have been able to guide their future experimentation via observations from previous large-scale empirical investigations. However, alluding to Plato’s Allegory of the cave, it is likely that the observations which form the field’s notion of reality are but shadows representing fragments of that reality. In this work, we propose a theoretical framework which attempts to answer what exists outside of the cave. To the theorist, we provide a framework which is mathematically rigorous and leaves open many interesting ideas for future exploration. To the practitioner, we provide a framework whose results are very intuitive, general, and which will help form principles to guide future investigations. Concretely, we provide a theoretical framework rooted in Bayesian statistics and Shannon’s information theory which is general enough to unify the analysis of many phenomena in machine learning. Our framework characterizes the performance of an optimal Bayesian learner, which considers the fundamental limits of information. Throughout this work, we derive very general theoretical results and apply them to derive insights specific to settings ranging from data which is independently and identically distributed under an unknown distribution, to data which is sequential, to data which exhibits hierarchical structure amenable to meta-learning. We conclude with a section dedicated to characterizing the performance of misspecified algorithms. These results are exciting and particularly relevant as we strive to overcome increasingly difficult machine learning challenges in this endlessly complex world.

arxiv情報

著者 Hong Jun Jeon,Benjamin Van Roy
発行日 2024-07-18 14:35:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク