要約
ゼロショット学習とコンテキスト内学習により、モデルの微調整を行わずにタスクを解決できるため、生成モデル ソリューションの開発には不可欠です。
したがって、事前トレーニングされたモデルが任意の関数を近似できるかどうか、つまり、汎用のコンテキスト内近似器であるかどうかを理解することが重要です。
最近、変圧器モデルがこの特性を持っていることが示されましたが、これらの結果はその注意メカニズムに依存しています。
したがって、これらの発見は、RNN、LSTM、およびますます人気が高まっている SSM などの完全反復アーキテクチャには当てはまりません。
RNN、LSTM、GRU、線形 RNN、および Mamba や Hawk/Griffin などの線形ゲート アーキテクチャも、汎用のインコンテキスト近似器として機能できることを示します。
私たちの議論を合理化するために、これらの完全再帰アーキテクチャにコンパイルできる LSRL と呼ばれるプログラミング言語を導入します。
LSRL は、解釈可能性ベンチマークの構築など、完全リカレント モデルのさらなる研究に独立して役立つ可能性があります。
また、乗算ゲーティングの役割についても研究し、そのようなゲーティングを組み込んだアーキテクチャ (LSTM、GRU、Hawk/Griffin など) が特定の演算をより安定して実装でき、実用的なコンテキスト内汎用近似のより有力な候補となることを観察しました。
要約(オリジナル)
Zero-shot and in-context learning enable solving tasks without model fine-tuning, making them essential for developing generative model solutions. Therefore, it is crucial to understand whether a pretrained model can be prompted to approximate any function, i.e., whether it is a universal in-context approximator. While it was recently shown that transformer models do possess this property, these results rely on their attention mechanism. Hence, these findings do not apply to fully recurrent architectures like RNNs, LSTMs, and the increasingly popular SSMs. We demonstrate that RNNs, LSTMs, GRUs, Linear RNNs, and linear gated architectures such as Mamba and Hawk/Griffin can also serve as universal in-context approximators. To streamline our argument, we introduce a programming language called LSRL that compiles to these fully recurrent architectures. LSRL may be of independent interest for further studies of fully recurrent models, such as constructing interpretability benchmarks. We also study the role of multiplicative gating and observe that architectures incorporating such gating (e.g., LSTMs, GRUs, Hawk/Griffin) can implement certain operations more stably, making them more viable candidates for practical in-context universal approximation.
arxiv情報
著者 | Aleksandar Petrov,Tom A. Lamb,Alasdair Paren,Philip H. S. Torr,Adel Bibi |
発行日 | 2024-10-10 16:39:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google