要約
この研究では、単純な 1 次テイラー展開を適用して汎用関数 $F: R^{n \times m} \to R^{n \times m}$ を近似し、それを言語モデリングで利用する方法を示します。
基本的なテイラー展開を強化するために、反復と区分的モデリングを導入し、このアルゴリズムを反復区分的アフィン (IPA) 近似と名付けました。
最終的なアルゴリズムは、Transformers デコーダ アーキテクチャと興味深い類似点を示しています。
IPA と Transformers のパラメーター配置を比較すると、驚くほど類似したパフォーマンスが観察されます。次のトークン予測タスクでは、シーケンス長が短い場合のクロスエントロピー損失で IPA が Transformers を 1.5\% 上回っています。
要約(オリジナル)
In this work, we demonstrate the application of a simple first-order Taylor expansion to approximate a generic function $F: R^{n \times m} \to R^{n \times m}$ and utilize it in language modeling. To enhance the basic Taylor expansion, we introduce iteration and piecewise modeling, leading us to name the algorithm the Iterative Piecewise Affine (IPA) approximation. The final algorithm exhibits interesting resemblances to the Transformers decoder architecture. By comparing parameter arrangements in IPA and Transformers, we observe a strikingly similar performance, with IPA outperforming Transformers by 1.5\% in the next token prediction task with cross-entropy loss for smaller sequence lengths.
arxiv情報
著者 | Davood Shamsi,Wen-yu Hua,Brian Williams |
発行日 | 2023-06-21 14:58:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google