Non-Asymptotic Length Generalization

要約

長さの汎化とは、学習アルゴリズムが、学習セットの入力よりも長い入力に対して汎化する仮説を学習する能力のことである。本論文では、理想化された設定において、様々なクラスの関数に対する長さ汎化の証明可能な保証を提供する。まず、非漸近的長さ汎化の枠組みを定式化し、長さ汎化を保証する最小入力長の計算可能な上界を、ある与えられた複雑さ尺度の下での基底真理関数の複雑さの関数として求める。この長さ汎化を保証する最小入力長を、長さ複雑度と呼ぶ。最小複雑度補間学習アルゴリズムが最適な長さの複雑度を達成することを示す。さらに、ある関数クラスが非漸近的な長さの汎化を認めるかどうかは、その言語同値問題の決定可能性と等価であることを示し、これは文脈自由文法の長さの複雑さには計算可能な上限がないことを意味する。一方、決定論的有限オートマトンの長さの複雑さは$2n – 2$である。我々の主な結果は、C-RASP(Yang & Chiang, 2024)と呼ばれる変換器関連の関数クラスの部分集合の長さの複雑さの上界である。基底真理関数の精度が$T$のとき、1層C-RASP関数の長さの複雑さは$O(T^2)$であること、基底真理関数の精度が$T$で頭数が$K$のとき、2層C-RASP関数の長さの複雑さは$O(T^{O(K)})$であることを示す。

要約(オリジナル)

Length generalization is the ability of a learning algorithm to learn a hypothesis which generalizes to longer inputs than the inputs in the training set. In this paper, we provide provable guarantees of length generalization for various classes of functions in an idealized setting. First, we formalize the framework of non-asymptotic length generalization, which requires a computable upper bound for the minimum input length that guarantees length generalization, as a function of the complexity of ground-truth function under some given complexity measure. We refer to this minimum input length to length generalize as length complexity. We show the Minimum-Complexity Interpolator learning algorithm achieves optimal length complexity. We further show that whether a function class admits non-asymptotic length generalization is equivalent to the decidability of its language equivalence problem, which implies that there is no computable upper bound for the length complexity of Context-Free Grammars. On the positive side, we show that the length complexity of Deterministic Finite Automata is $2n – 2$ where $n$ is the number of states of the ground-truth automaton. Our main results are upper bounds of length complexity for a subset of a transformer-related function class called C-RASP (Yang & Chiang, 2024). We show that the length complexity of 1-layer C-RASP functions is $O(T^2)$ when the ground-truth function has precision $T$, and that the length complexity of 2-layer C-RASP functions is $O(T^{O(K)})$ when the ground-truth function has precision $T$ and $K$ heads.

arxiv情報

著者 Thomas Chen,Tengyu Ma,Zhiyuan Li
発行日 2025-06-03 17:09:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク