Explicit Foundation Model Optimization with Self-Attentive Feed-Forward Neural Units

要約

バックプロパゲーションを使用した反復近似法はニューラル ネットワークの最適化を可能にしますが、特に大規模に使用する場合、依然として計算コストが高くなります。
このペーパーでは、ニューラル ネットワークのスケーリングのコストを削減し、低リソースのアプリケーションに高効率の最適化を提供する、ニューラル ネットワークを最適化するための効率的な代替案を紹介します。
フィードフォワード ニューラル ネットワークに関する一般的な結果について説明し、次にこのソリューションを合成 (多層) ネットワークに拡張します。これは、フィードフォワード層とセルフ アテンション層を含む単純化されたトランスフォーマー ブロックに適用されます。
これらのモデルは、自己注意型フィードフォワード ユニット (SAFFU) 層と呼ばれる、高度に仕様化された複雑な多層ニューラル アーキテクチャをトレーニングするために使用されます。これを使用して、小規模で認知的に一般化されると思われるトランスフォーマーを開発します。
実現可能な、大量のデータ。
テストでは、陽的解法がバックプロパゲーションのみで最適化されたモデルよりも優れたパフォーマンスを発揮することが実証されています。
さらに、陽的解法の後にバックプロパゲーションをさらに適用すると、より小規模なデータからより良い最適化が得られ、陽的解法のウォームスタートによってはるかに少ないデータから効果的なモデルをトレーニングすることが可能になります。
次に、理想的な設定を決定するために、100 万トークンを超える約 250 の変圧器モデルのロードマップをトレーニングするアブレーション実験を実行します。
私たちは、複数の異なるアーキテクチャのバリアントが高パフォーマンスのモデルを生成することを発見し、このアブレーションから、最良のものの一部が最もパラメータ化されていないことを発見しました。
これは、陽的解法を使用することでより少ないデータを使用してよく一般化されたモデルに到達できること、および陽的解法を使用したアーキテクチャの探索が、より少ないパラメーターで効率的なバリアントの探索を導く上で利益をもたらし、低リソースのハードウェアに組み込むことができることを示しているようです。
AIが具現化されるかもしれない。

要約(オリジナル)

Iterative approximation methods using backpropagation enable the optimization of neural networks, but they remain computationally expensive, especially when used at scale. This paper presents an efficient alternative for optimizing neural networks that reduces the costs of scaling neural networks and provides high-efficiency optimizations for low-resource applications. We will discuss a general result about feed-forward neural networks and then extend this solution to compositional (mult-layer) networks, which are applied to a simplified transformer block containing feed-forward and self-attention layers. These models are used to train highly-specified and complex multi-layer neural architectures that we refer to as self-attentive feed-forward unit (SAFFU) layers, which we use to develop a transformer that appears to generalize well over small, cognitively-feasible, volumes of data. Testing demonstrates explicit solutions outperform models optimized by backpropagation alone. Moreover, further application of backpropagation after explicit solutions leads to better optima from smaller scales of data, training effective models from much less data is enabled by explicit solution warm starts. We then carry out ablation experiments training a roadmap of about 250 transformer models over 1-million tokens to determine ideal settings. We find that multiple different architectural variants produce highly-performant models, and discover from this ablation that some of the best are not the most parameterized. This appears to indicate well-generalized models could be reached using less data by using explicit solutions, and that architectural exploration using explicit solutions pays dividends in guiding the search for efficient variants with fewer parameters, and which could be incorporated into low-resource hardware where AI might be embodied.

arxiv情報

著者 Jake Ryland Williams,Haoran Zhao
発行日 2023-11-13 17:55:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.PR, physics.data-an, stat.ML パーマリンク