MatFormer: Nested Transformer for Elastic Inference

要約

トランス モデルは、マルチ アクセラレータ クラスタからスタンドアロンの携帯電話に至るまで、幅広い設定に導入されています。
これらのシナリオでは推論制約が多様であるため、実践者は PaLM 2、Llama、ViT などの基礎モデルをさまざまなサイズの一連のモデルとしてトレーニングする必要があります。
トレーニングに多額のコストがかかるため、選ばれた少数のモデル サイズのみがトレーニングおよびサポートされており、レイテンシー、コスト、精度などの関連するトレードオフに対するよりきめ細かい制御が制限されています。
この作業では、さまざまな展開上の制約において弾力性を提供するように設計されたネストされた Transformer アーキテクチャである MatFormer を紹介します。
MatFormer モデルの各フィード フォワード ネットワーク (FFN) ブロックは、いくつかのネストされた小さな FFN ブロックと共同で最適化されます。
このトレーニング手順により、レイヤー全体にわたるモデルの粒度のミックスアンドマッチが可能になります。つまり、トレーニングされたユニバーサル MatFormer モデルにより、明示的に最適化されたことのない、何百もの正確な小さなモデルの抽出が可能になります。
私たちは、さまざまなモデル クラス (デコーダーとエンコーダー)、モダリティ (言語と視覚)、およびスケール (最大 2.6B パラメーター) にわたる MatFormer の有効性を経験的に実証します。
2.6B デコーダー専用の MatFormer 言語モデル (MatLM) を使用すると、1.5B から 2.6B にわたるより小さなモデルを抽出でき、それぞれが独立してトレーニングされた対応物と同等の検証損失とワンショットのダウンストリーム評価を示すことがわかりました。
さらに、ユニバーサル MatFormer ベースの ViT (MatViT) エンコーダから抽出されたより小さなエンコーダが、適応的な大規模検索のために計量空間構造を保存していることを観察しました。
最後に、MatFormer から抽出された正確で一貫性のあるサブモデルを使用した投機的デコードにより、推論レイテンシがさらに削減できることを紹介します。

要約(オリジナル)

Transformer models are deployed in a wide range of settings, from multi-accelerator clusters to standalone mobile phones. The diverse inference constraints in these scenarios necessitate practitioners to train foundation models such as PaLM 2, Llama, & ViTs as a series of models of varying sizes. Due to significant training costs, only a select few model sizes are trained and supported, limiting more fine-grained control over relevant tradeoffs, including latency, cost, and accuracy. This work introduces MatFormer, a nested Transformer architecture designed to offer elasticity in a variety of deployment constraints. Each Feed Forward Network (FFN) block of a MatFormer model is jointly optimized with a few nested smaller FFN blocks. This training procedure allows for the Mix’n’Match of model granularities across layers — i.e., a trained universal MatFormer model enables extraction of hundreds of accurate smaller models, which were never explicitly optimized. We empirically demonstrate MatFormer’s effectiveness across different model classes (decoders & encoders), modalities (language & vision), and scales (up to 2.6B parameters). We find that a 2.6B decoder-only MatFormer language model (MatLM) allows us to extract smaller models spanning from 1.5B to 2.6B, each exhibiting comparable validation loss and one-shot downstream evaluations to their independently trained counterparts. Furthermore, we observe that smaller encoders extracted from a universal MatFormer-based ViT (MatViT) encoder preserve the metric-space structure for adaptive large-scale retrieval. Finally, we showcase that speculative decoding with the accurate and consistent submodels extracted from MatFormer can further reduce inference latency.

arxiv情報

著者 Devvrit,Sneha Kudugunta,Aditya Kusupati,Tim Dettmers,Kaifeng Chen,Inderjit Dhillon,Yulia Tsvetkov,Hannaneh Hajishirzi,Sham Kakade,Ali Farhadi,Prateek Jain
発行日 2023-10-11 17:57:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク