要約
大規模データに対して損失を最小化することで学習させるニューラルネットワークは、特にコンピュータビジョン、画像処理、自然言語処理などのデータサイエンス問題を解決するための最先端のアプローチとなっています。しかし、ニューラルネットワークがどのように機能するかについての理論的な理解は限られています。特に、学習されたニューラルネットワークの補間能力はどのようなものなのだろうか?本論文では、「連続勾配降下法で学習した機械は、近似的にカーネル機械である」とするDomingosの定理を議論する。Domingosによれば、この事実は、データに対して学習された全ての機械は単なるカーネル機械であると結論付けることになる。我々はまず、Domingoの結果を離散的な場合、および、ベクトル値出力を持つネットワークに拡張する。そして、その妥当性と重要性を簡単な例で研究する。その結果、単純なケースでは、ドミンゴの定理で生じる「ニューラルタンジェントカーネル」が、ネットワークの予測を理解することができることがわかった。さらに、ネットワークに与えるタスクが複雑になると、ネットワークの補間能力はドミンゴスの定理で効果的に説明できるようになり、その結果、限界が生じる。この事実を、古典的な知覚理論問題である、境界から形状を復元する問題で説明する。
要約(オリジナル)
Neural networks trained on large datasets by minimizing a loss have become the state-of-the-art approach for resolving data science problems, particularly in computer vision, image processing and natural language processing. In spite of their striking results, our theoretical understanding about how neural networks operate is limited. In particular, what are the interpolation capabilities of trained neural networks? In this paper we discuss a theorem of Domingos stating that ‘every machine learned by continuous gradient descent is approximately a kernel machine’. According to Domingos, this fact leads to conclude that all machines trained on data are mere kernel machines. We first extend Domingo’s result in the discrete case and to networks with vector-valued output. We then study its relevance and significance on simple examples. We find that in simple cases, the ‘neural tangent kernel’ arising in Domingos’ theorem does provide understanding of the networks’ predictions. Furthermore, when the task given to the network grows in complexity, the interpolation capability of the network can be effectively explained by Domingos’ theorem, and therefore is limited. We illustrate this fact on a classic perception theory problem: recovering a shape from its boundary.
arxiv情報
著者 | Adrien Courtois,Jean-Michel Morel,Pablo Arias |
発行日 | 2022-11-07 13:59:28+00:00 |
arxivサイト | arxiv_id(pdf) |