Composable Function-preserving Expansions for Transformer Architectures

要約

最先端のニューラル ネットワークをトレーニングするには、コンピューティングと時間の点で高いコストが必要です。
モデルのスケールは、最先端の技術を達成し、改善するための重要な要素であることが認識されています。
ニューラル ネットワークの規模を拡大するには、通常、モデルのすべてのパラメーターをランダムに初期化して最初からやり直す必要があります。これは、アーキテクチャのパラメーターが変更されることを意味し、より小さいサイズのモデルからの知識の直接的な伝達が不可能になるためです。
この研究では、機能を維持しながらトランスフォーマー ベースのニューラル ネットワークのサイズを段階的に拡大し、必要に応じてモデルの容量を拡張できるようにする 6 つの構成可能な変換を提案します。
各変換に対する最小限の初期化制約の下で、正確な関数保持の証明を提供します。
提案された方法は、トレーニング全体を通じてアーキテクチャを段階的に拡張することで、より大規模で強力なモデルの効率的なトレーニング パイプラインを可能にする可能性があります。

要約(オリジナル)

Training state-of-the-art neural networks requires a high cost in terms of compute and time. Model scale is recognized to be a critical factor to achieve and improve the state-of-the-art. Increasing the scale of a neural network normally requires restarting from scratch by randomly initializing all the parameters of the model, as this implies a change of architecture’s parameters that does not allow for a straightforward transfer of knowledge from smaller size models. In this work, we propose six composable transformations to incrementally increase the size of transformer-based neural networks while preserving functionality, allowing to expand the capacity of the model as needed. We provide proof of exact function preservation under minimal initialization constraints for each transformation. The proposed methods may enable efficient training pipelines for larger and more powerful models by progressively expanding the architecture throughout training.

arxiv情報

著者 Andrea Gesmundo,Kaitlin Maile
発行日 2023-08-11 12:27:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク