Mechanistic Design and Scaling of Hybrid Architectures

要約

深層学習アーキテクチャの開発は、広大な設計スペース、長いプロトタイピング時間、大規模なモデルのトレーニングと評価に伴う高い計算コストのため、リソースを多く必要とするプロセスです。
私たちは、スケーリング則を予測する小規模な能力単体テストを含む、エンドツーエンドの機構アーキテクチャ設計 (MAD) パイプラインに基づいてこのプロセスを簡素化することに着手しました。
機能を調査するために設計された、圧縮やリコールなどの一連の合成トークン操作タスクを通じて、さまざまな計算プリミティブから構築された新しいハイブリッド アーキテクチャを特定してテストします。
私たちは、広範なコンピューティング最適化および新しい状態最適化スケーリング則分析を通じて、結果として得られるアーキテクチャを実験的に検証し、70M から 7B パラメーターの間で 500 以上の言語モデルをトレーニングします。
驚くべきことに、MAD 合成はコンピューティング最適化の複雑さと相関関係があり、分離されたプロキシ タスクを介して新しいアーキテクチャを正確に評価できることがわかりました。
ハイブリッド化やスパース性などの単純なアイデアに基づいた MAD 経由で見つかった新しいアーキテクチャは、最適なコンピューティング予算とパフォーマンスの両方で、スケーリングの点で最先端の Transformer、畳み込み、リカレント アーキテクチャ (Transformer++、Hyena、Mamba) を上回ります。
過剰訓練された政権。
全体として、これらの結果は、厳選された合成タスクのパフォーマンスがスケーリングの法則を予測できること、および最適なアーキテクチャではハイブリッド トポロジを介して特殊なレイヤーを活用する必要があることの証拠を提供します。

要約(オリジナル)

The development of deep learning architectures is a resource-demanding process, due to a vast design space, long prototyping times, and high compute costs associated with at-scale model training and evaluation. We set out to simplify this process by grounding it in an end-to-end mechanistic architecture design (MAD) pipeline, encompassing small-scale capability unit tests predictive of scaling laws. Through a suite of synthetic token manipulation tasks such as compression and recall, designed to probe capabilities, we identify and test new hybrid architectures constructed from a variety of computational primitives. We experimentally validate the resulting architectures via an extensive compute-optimal and a new state-optimal scaling law analysis, training over 500 language models between 70M to 7B parameters. Surprisingly, we find MAD synthetics to correlate with compute-optimal perplexity, enabling accurate evaluation of new architectures via isolated proxy tasks. The new architectures found via MAD, based on simple ideas such as hybridization and sparsity, outperform state-of-the-art Transformer, convolutional, and recurrent architectures (Transformer++, Hyena, Mamba) in scaling, both at compute-optimal budgets and in overtrained regimes. Overall, these results provide evidence that performance on curated synthetic tasks can be predictive of scaling laws, and that an optimal architecture should leverage specialized layers via a hybrid topology.

arxiv情報

著者 Michael Poli,Armin W Thomas,Eric Nguyen,Pragaash Ponnusamy,Björn Deiseroth,Kristian Kersting,Taiji Suzuki,Brian Hie,Stefano Ermon,Christopher Ré,Ce Zhang,Stefano Massaroli
発行日 2024-03-26 16:33:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク