Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models

要約

変圧器は、強力なフィッティング機能により、さまざまな分野で広範な用途に使用されています。
この成功の一部は、その固有の非線形性に起因すると考えられます。
したがって、研究者らは、元のトランスフォーマ アーキテクチャで採用されている ReLU 関数に加えて、GeLU や SwishGLU などの代替モジュールを検討して、非線形性を強化し、それによって表現能力を強化しました。
この論文では、変圧器のダイナミクスを最適化するように設計された、新しいカテゴリの多項式合成アクティベーション (PolyCom) を提案します。
理論的には、PolyCom の包括的な数学的分析を提供し、他のアクティベーション関数と比較してその表現力と有効性が強化されていることを強調します。
特に、PolyCom を組み込んだネットワークが $\textbf{最適な近似レート}$ を達成することを実証しました。これは、PolyCom ネットワークがソボレフ空間の一般的な滑らかな関数を近似するために最小限のパラメーターを必要とすることを示しています。
私たちは、高密度アーキテクチャと疎アーキテクチャの両方を含む大規模言語モデル (LLM) の事前トレーニング構成に関する実証実験を実施します。
従来の活性化関数を PolyCom で置き換えることにより、LLM がデータ内の高次の相互作用をキャプチャできるようになり、精度と収束率の点でパフォーマンス メトリクスが向上します。
広範な実験結果は私たちの方法の有効性を実証しており、他の活性化関数に比べて大幅な改善が見られます。
コードは https://github.com/BryceZhuo/PolyCom で入手できます。

要約(オリジナル)

Transformers have found extensive applications across various domains due to the powerful fitting capabilities. This success can be partially attributed to their inherent nonlinearity. Thus, in addition to the ReLU function employed in the original transformer architecture, researchers have explored alternative modules such as GeLU and SwishGLU to enhance nonlinearity and thereby augment representational capacity. In this paper, we propose a novel category of polynomial composition activations (PolyCom), designed to optimize the dynamics of transformers. Theoretically, we provide a comprehensive mathematical analysis of PolyCom, highlighting its enhanced expressivity and efficacy relative to other activation functions. Notably, we demonstrate that networks incorporating PolyCom achieve the $\textbf{optimal approximation rate}$, indicating that PolyCom networks require minimal parameters to approximate general smooth functions in Sobolev spaces. We conduct empirical experiments on the pre-training configurations of large language models (LLMs), including both dense and sparse architectures. By substituting conventional activation functions with PolyCom, we enable LLMs to capture higher-order interactions within the data, thus improving performance metrics in terms of accuracy and convergence rates. Extensive experimental results demonstrate the effectiveness of our method, showing substantial improvements over other activation functions. Code is available at https://github.com/BryceZhuo/PolyCom.

arxiv情報

著者 Zhijian Zhuo,Ya Wang,Yutao Zeng,Xiaoqing Li,Xun Zhou,Jinwen Ma
発行日 2024-11-06 13:00:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク