You Only Scan Once: Efficient Multi-dimension Sequential Modeling with LightNet

要約

線形注意メカニズムは、線形計算の複雑さと速度の向上により、因果言語モデルで注目を集めています。
ただし、線形アテンションに固有の減衰メカニズムは、画像処理やマルチモーダル学習などの多次元シーケンス モデリング タスクに適用すると課題が生じます。
これらのシナリオでは、グローバルな受容野を確立するために連続スキャンを利用すると、多次元データに対して複数回のスキャンが必要となり、非効率につながります。
この論文では、乗法線形漸化によって引き起こされる非効率性を特定し、単一のスキャン内で多次元データを処理できるため、問題を回避するための効率的な代替の加法線形漸化法を提案します。
私たちはさらに、新しい反復に基づいて、LightNet と呼ばれる効率的な多次元逐次モデリング フレームワークを開発します。
さらに、多次元シナリオで位置情報を識別するモデルの能力を強化するために、2 つの新しい多次元線形相対位置エンコード法、MD-TPE と MD-LRPE を紹介します。
画像分類、画像生成、双方向言語モデリング、自己回帰言語モデリングを含むさまざまなタスクにわたる当社の経験的評価は、LightNet の有効性を実証し、多次元逐次モデリングの多用途かつ効率的なソリューションとしての可能性を示しています。

要約(オリジナル)

Linear attention mechanisms have gained prominence in causal language models due to their linear computational complexity and enhanced speed. However, the inherent decay mechanism in linear attention presents challenges when applied to multi-dimensional sequence modeling tasks, such as image processing and multi-modal learning. In these scenarios, the utilization of sequential scanning to establish a global receptive field necessitates multiple scans for multi-dimensional data, thereby leading to inefficiencies. This paper identifies the inefficiency caused by a multiplicative linear recurrence and proposes an efficient alternative additive linear recurrence to avoid the issue, as it can handle multi-dimensional data within a single scan. We further develop an efficient multi-dimensional sequential modeling framework called LightNet based on the new recurrence. Moreover, we present two new multi-dimensional linear relative positional encoding methods, MD-TPE and MD-LRPE to enhance the model’s ability to discern positional information in multi-dimensional scenarios. Our empirical evaluations across various tasks, including image classification, image generation, bidirectional language modeling, and autoregressive language modeling, demonstrate the efficacy of LightNet, showcasing its potential as a versatile and efficient solution for multi-dimensional sequential modeling.

arxiv情報

著者 Zhen Qin,Yuxin Mao,Xuyang Shen,Dong Li,Jing Zhang,Yuchao Dai,Yiran Zhong
発行日 2024-05-31 17:09:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク