Bitformer: An efficient Transformer with bitwise operation-based attention for Big Data Analytics at low-cost low-precision devices

要約

現在の大型モデルの状況において、トランスフォーマーは礎石として立っており、現代のモデルの軌道を形作る上で極めて重要な役割を果たしています。
ただし、そのアプリケーションは、そのアテンション メカニズムに固有のかなりの計算の複雑さに起因する課題に直面します。
さらに、高精度の浮動小数点演算への依存は特定の障害をもたらし、特にエッジ コンピューティング環境などの計算集約型のシナリオでは顕著です。
これらの環境は、リソースに制約のあるデバイスと低精度を好む特徴があり、革新的なソリューションが必要です。
エッジ デバイスによってもたらされる厳しいデータ処理要求に取り組むために、Transformer パラダイムの独創的な拡張である Bitformer モデルを導入します。
この革新の中心となるのは、従来の浮動小数点行列の乗算をビット単位の演算に適切に置き換える新しいアテンション メカニズムです。
この戦略的な代替により、二重の利点がもたらされます。
これは、複雑な長距離情報依存関係を捕捉する際のアテンション メカニズムの優れた能力を維持するだけでなく、アテンション操作に固有の計算の複雑さを大幅に削減することも調整します。
浮動小数点演算に典型的な $O(n^2d)$ の複雑さから、ビットごとの演算の特徴である $O(n^2T)$ の複雑さへの移行が、この利点を実証しています。
注目すべきことに、この文脈では、パラメータ $T$ は従来の次元パラメータ $d$ よりも著しく小さいままです。
Bitformer モデルは本質的に、現代のコンピューティング環境の不屈の要件とエッジ コンピューティング シナリオによってもたらされる制約を調和させるよう努めます。
この革新的な道を切り開くことで、当社は高性能モデルとリソースが不足している環境との間のギャップを埋め、この分野のさらなる進歩に向けた有望な軌道を明らかにします。

要約(オリジナル)

In the current landscape of large models, the Transformer stands as a cornerstone, playing a pivotal role in shaping the trajectory of modern models. However, its application encounters challenges attributed to the substantial computational intricacies intrinsic to its attention mechanism. Moreover, its reliance on high-precision floating-point operations presents specific hurdles, particularly evident in computation-intensive scenarios such as edge computing environments. These environments, characterized by resource-constrained devices and a preference for lower precision, necessitate innovative solutions. To tackle the exacting data processing demands posed by edge devices, we introduce the Bitformer model, an inventive extension of the Transformer paradigm. Central to this innovation is a novel attention mechanism that adeptly replaces conventional floating-point matrix multiplication with bitwise operations. This strategic substitution yields dual advantages. Not only does it maintain the attention mechanism’s prowess in capturing intricate long-range information dependencies, but it also orchestrates a profound reduction in the computational complexity inherent in the attention operation. The transition from an $O(n^2d)$ complexity, typical of floating-point operations, to an $O(n^2T)$ complexity characterizing bitwise operations, substantiates this advantage. Notably, in this context, the parameter $T$ remains markedly smaller than the conventional dimensionality parameter $d$. The Bitformer model in essence endeavors to reconcile the indomitable requirements of modern computing landscapes with the constraints posed by edge computing scenarios. By forging this innovative path, we bridge the gap between high-performing models and resource-scarce environments, thus unveiling a promising trajectory for further advancements in the field.

arxiv情報

著者 Gaoxiang Duan,Junkai Zhang,Xiaoying Zheng,Yongxin Zhu
発行日 2023-11-22 16:20:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク