Treeformer: Dense Gradient Trees for Efficient Attention Computation

要約

トランスフォーマー ベースのアーキテクチャを使用した標準的な推論とトレーニングは、入力シーケンスの長さに応じて 2 次的にスケーリングします。
これは、さまざまなアプリケーション、特に Web ページの翻訳、クエリ応答などでは法外に大きくなります。したがって、最近、スパース性、低ランク、カーネルを使用したアテンションの近似など、さまざまなアテンション構造を強制することによってアテンション計算を高速化するいくつかのアプローチが開発されました。
.
この作業では、アテンション計算を最近傍検索の計算と見なし、決定木ベースの階層ナビゲーションを使用して、クエリ トークンあたりの検索コストをシーケンス長の線形からほぼ対数に減らします。
このような階層的なナビゲーションに基づいて、TF-Attention と TC-Attention の 2 つの効率的な注意層のいずれかを使用できる Treeformer を設計します。
TF-Attention はきめの細かいスタイルで注意を計算しますが、TC-Attention は勾配が「密」であることも保証する粗い注意レイヤーです。
このような困難な離散層を最適化するために、2 レベルのブートストラップ トレーニング方法を提案します。
標準的な NLP ベンチマーク、特にロング シーケンスの広範な実験を使用して、アテンション レイヤーで 30 倍少ない FLOP を使用しながら、Treeformer アーキテクチャがベースライン Transformer とほぼ同じくらい正確であることを示します。
Linformer と比較すると、注意層で同様の FLOP を使用している場合、精度は 12% も高くなる可能性があります。

要約(オリジナル)

Standard inference and training with transformer based architectures scale quadratically with input sequence length. This is prohibitively large for a variety of applications especially in web-page translation, query-answering etc. Consequently, several approaches have been developed recently to speedup attention computation by enforcing different attention structures such as sparsity, low-rank, approximating attention using kernels. In this work, we view attention computation as that of nearest neighbor retrieval, and use decision tree based hierarchical navigation to reduce the retrieval cost per query token from linear in sequence length to nearly logarithmic. Based on such hierarchical navigation, we design Treeformer which can use one of two efficient attention layers — TF-Attention and TC-Attention. TF-Attention computes the attention in a fine-grained style, while TC-Attention is a coarse attention layer which also ensures that the gradients are ‘dense’. To optimize such challenging discrete layers, we propose a two-level bootstrapped training method. Using extensive experiments on standard NLP benchmarks, especially for long-sequences, we demonstrate that our Treeformer architecture can be almost as accurate as baseline Transformer while using 30x lesser FLOPs in the attention layer. Compared to Linformer, the accuracy can be as much as 12% higher while using similar FLOPs in the attention layer.

arxiv情報

著者 Lovish Madaan,Srinadh Bhojanapalli,Himanshu Jain,Prateek Jain
発行日 2023-03-17 14:25:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク