Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture

要約

タイトル:「パラメータ効率のアーキテクチャによる事前学習言語モデルの深層化」
要約:

– 本論文では、パラメータの共有や追加ブロックを使用する従来の手法とは異なり、MPO(行列積演算子)に基づくより能力が高くパラメータ効率のよいアーキテクチャを提案する。
– MPOは、パラメータ行列の情報を大まかな情報(中央テンソル)と少数のパラメータしか持たない補助テンソルに分割し再構成することができる。
– この分解に基づいて、提案されたアーキテクチャは中央テンソルをすべてのレイヤーで共有し、モデルサイズを縮小すると同時に、レイヤー特有の補助テンソル(アダプターも使用)を保持して適応性を高める。
– モデルトレーニングの改善のために、MPOベースのアーキテクチャに適した安定した初期化アルゴリズムを提案する。
– 広範囲な実験により、提案されたモデルは、モデルサイズの削減と高い競争力のあるパフォーマンスの達成において効果的であることが示された。

要約(オリジナル)

In this paper, we propose a highly parameter-efficient approach to scaling pre-trained language models (PLMs) to a deeper model depth. Unlike prior work that shares all parameters or uses extra blocks, we design a more capable parameter-sharing architecture based on matrix product operator (MPO). MPO decomposition can reorganize and factorize the information of a parameter matrix into two parts: the major part that contains the major information (central tensor) and the supplementary part that only has a small proportion of parameters (auxiliary tensors). Based on such a decomposition, our architecture shares the central tensor across all layers for reducing the model size and meanwhile keeps layer-specific auxiliary tensors (also using adapters) for enhancing the adaptation flexibility. To improve the model training, we further propose a stable initialization algorithm tailored for the MPO-based architecture. Extensive experiments have demonstrated the effectiveness of our proposed model in reducing the model size and achieving highly competitive performance.

arxiv情報

著者 Peiyu Liu,Ze-Feng Gao,Yushuo Chen,Wayne Xin Zhao,Ji-Rong Wen
発行日 2023-04-11 02:45:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク