要約
タイトル:サンプル複雑性に基づくチューリングマシンの変換器による代替の有効性に関するケーススタディ
要約:ニューラルネットワークのアーキテクチャを理論的に研究するための共通のアプローチは、そのネットワークが近似することができる関数を分析することです。しかし、近似理論からの構成は非現実的な場合があり、そのために少なくとも意味がある可能性があります。例えば、ターゲット関数値を無限精度でエンコードするのは非現実的なトリックです。この問題を解決するために、この論文では、近似ネットワークが良好な統計学習性を発揮することを要求する「統計的に意味のある(SM)近似」の形式的な定義を提案しています。私たちは2つの関数クラス、ブール回路とチューリングマシンについてSM近似を研究しています。我々は、過剰パラメーター化された順方向ニューラルネットが、回路のサイズにのみ依存するサンプル複雑度によりブール回路をSM近似できることを示しています。さらに、私たちは変換器が、計算時間が $T$で制限されたチューリングマシンを、アルファベットサイズ、状態空間サイズ、および$log (T)$に関する多項式サンプル複雑度でSM近似できることを示しています。我々はまた、VC次元またはノルムベースのバウンドよりもはるかにタイトなサンプル複雑度を提供する一般化分析のための新しいツールを導入します。
要約(オリジナル)
A common lens to theoretically study neural net architectures is to analyze the functions they can approximate. However, constructions from approximation theory may be unrealistic and therefore less meaningful. For example, a common unrealistic trick is to encode target function values using infinite precision. To address these issues, this work proposes a formal definition of statistically meaningful (SM) approximation which requires the approximating network to exhibit good statistical learnability. We study SM approximation for two function classes: boolean circuits and Turing machines. We show that overparameterized feedforward neural nets can SM approximate boolean circuits with sample complexity depending only polynomially on the circuit size, not the size of the network. In addition, we show that transformers can SM approximate Turing machines with computation time bounded by $T$ with sample complexity polynomial in the alphabet size, state space size, and $\log (T)$. We also introduce new tools for analyzing generalization which provide much tighter sample complexities than the typical VC-dimension or norm-based bounds, which may be of independent interest.
arxiv情報
著者 | Colin Wei,Yining Chen,Tengyu Ma |
発行日 | 2023-03-30 06:31:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI