要約
高次元データを学習可能にするものを理解することは、機械学習における基本的な問題です。
一方で、ディープラーニングの成功は、エッジのような単純な特徴からより複雑な概念に至るまで、深さとともにますます抽象化される表現の階層を構築できる能力にあると考えられています。
一方で、画像データセットのスムーズな変換などのタスクの不変性に対して鈍感になることを学習することはディープネットワークにとって重要であり、パフォーマンスと強く相関すると主張されています。
この研究では、この相関関係を説明し、これら 2 つの観点を統合することを目的としています。
データの生成階層モデルにスパース性を導入することにより、タスクは滑らかな変換の離散バージョンである空間変換に対して鈍感になることを示します。
特に、スパースランダム階層モデル(SRHM)を導入します。そこでは、そのような鈍感さが学習されたときに、階層モデルを反映する階層表現が正確に学習されることを観察および合理化し、それによって後者とパフォーマンスの間の強い相関関係を説明します。
さらに、SRHM を学習する CNN のサンプルの複雑さがタスクのスパース性と階層構造の両方にどのように依存するかを定量化します。
要約(オリジナル)
Understanding what makes high-dimensional data learnable is a fundamental question in machine learning. On the one hand, it is believed that the success of deep learning lies in its ability to build a hierarchy of representations that become increasingly more abstract with depth, going from simple features like edges to more complex concepts. On the other hand, learning to be insensitive to invariances of the task, such as smooth transformations for image datasets, has been argued to be important for deep networks and it strongly correlates with their performance. In this work, we aim to explain this correlation and unify these two viewpoints. We show that by introducing sparsity to generative hierarchical models of data, the task acquires insensitivity to spatial transformations that are discrete versions of smooth transformations. In particular, we introduce the Sparse Random Hierarchy Model (SRHM), where we observe and rationalize that a hierarchical representation mirroring the hierarchical model is learnt precisely when such insensitivity is learnt, thereby explaining the strong correlation between the latter and performance. Moreover, we quantify how the sample complexity of CNNs learning the SRHM depends on both the sparsity and hierarchical structure of the task.
arxiv情報
著者 | Umberto Tomasini,Matthieu Wyart |
発行日 | 2024-04-16 17:01:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google