Understanding In-Context Learning on Structured Manifolds: Bridging Attention to Kernel Methods

要約

コンテキスト学習(ICL)は自然言語と視覚の領域で顕著な成功を収めていますが、その理論的理解 – 特に構造化された幾何学データのコンテキストでは、解放されていません。
この作業では、マニホールド上のh \ ‘より古い関数の回帰のためのICLの理論的研究を開始します。
注意メカニズムと古典的なカーネル法との間に新しいつながりを確立することにより、迅速な長さとトレーニングタスクの数の観点から一般化エラー境界を導き出します。
十分な数のトレーニングタスクが観察されると、変圧器はマニホールド上のh \ ‘古い関数のミニマックス回帰速度を引き起こします。これは、周囲空間の次元ではなく、マニホールドの本質的な次元で指数関数的に拡大します。
また、私たちの結果は、一般化エラーがトレーニングタスクの数とどのようにスケーリングされ、コンテキスト内のアルゴリズム学習者としての変圧器の複雑さに光を当てていることを特徴づけています。
私たちの調査結果は、非線形モデルのICLを研究するためのICLおよび小説ツールにおけるジオメトリの役割に関する基礎的な洞察を提供します。

要約(オリジナル)

While in-context learning (ICL) has achieved remarkable success in natural language and vision domains, its theoretical understanding–particularly in the context of structured geometric data–remains unexplored. In this work, we initiate a theoretical study of ICL for regression of H\’older functions on manifolds. By establishing a novel connection between the attention mechanism and classical kernel methods, we derive generalization error bounds in terms of the prompt length and the number of training tasks. When a sufficient number of training tasks are observed, transformers give rise to the minimax regression rate of H\’older functions on manifolds, which scales exponentially with the intrinsic dimension of the manifold, rather than the ambient space dimension. Our result also characterizes how the generalization error scales with the number of training tasks, shedding light on the complexity of transformers as in-context algorithm learners. Our findings provide foundational insights into the role of geometry in ICL and novels tools to study ICL of nonlinear models.

arxiv情報

著者 Zhaiming Shen,Alexander Hsu,Rongjie Lai,Wenjing Liao
発行日 2025-06-12 17:56:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.ST, stat.TH パーマリンク