要約
トランスの成功は、多くの場合、コンテキスト内学習を実行する能力にリンクされています。
最近の研究は、変圧器がコンテキストが普遍的であり、コンテキストの実質値の連続関数を近似できることを示しています($ \ mathcal {x} \ subseteq \ mathbb {r}^d $を超える確率測定)およびクエリ$ x \
in \ mathcal {x} $。
これは疑問を提起します:コンテキスト内の普遍性は古典的なモデルよりも彼らの利点を説明していますか?
トレーニング可能なアクティベーション関数を備えたMLPも普遍的なコンテキストであることを証明することにより、ネガティブでこれに答えます。
これは、変圧器の成功は、帰納的バイアスやトレーニングの安定性などの他の要因による可能性が高いことを示唆しています。
要約(オリジナル)
The success of transformers is often linked to their ability to perform in-context learning. Recent work shows that transformers are universal in context, capable of approximating any real-valued continuous function of a context (a probability measure over $\mathcal{X}\subseteq \mathbb{R}^d$) and a query $x\in \mathcal{X}$. This raises the question: Does in-context universality explain their advantage over classical models? We answer this in the negative by proving that MLPs with trainable activation functions are also universal in-context. This suggests the transformer’s success is likely due to other factors like inductive bias or training stability.
arxiv情報
著者 | Anastasis Kratsios,Takashi Furuya |
発行日 | 2025-02-05 16:22:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google