CoLT5: Faster Long-Range Transformers with Conditional Computation

要約

タイトル:CoLT5:条件付き計算を使用した高速な長距離トランスフォーマー
要約:

– 一部の自然言語処理タスクには長い入力が必要ですが、トランスフォーマーを使用して長いドキュメントを処理することは、2次関数的なアテンションの複雑さだけでなく、すべてのトークンにフィードフォワードおよびプロジェクションレイヤーが適用されることによってもコストがかかります。
– ただし、長いドキュメントの場合、すべてのトークンが同じ重要度ではありません。
– それゆえ、より多くのリソースを重要なトークンに割り当てることによって、CoLT5は、フィードフォワードおよびアテンションレイヤーの両方で重要なトークンを使用する、長い入力のトランスフォーマーモデルです。
– CoLT5は、LongT5よりもはるかに高速なトレーニングと推論を実現しながら、長い入力のSCROLLSベンチマークでSOTAを達成していることを示しています。
– さらに、CoLT5は、非常に長い入力を効果的かつ容易に使用することができ、64kの入力長にわたる強力な利益を示します。

要約(オリジナル)

Many natural language processing tasks benefit from long inputs, but processing long documents with Transformers is expensive — not only due to quadratic attention complexity but also from applying feedforward and projection layers to every token. However, not all tokens are equally important, especially for longer documents. We propose CoLT5, a long-input Transformer model that builds on this intuition by employing conditional computation, devoting more resources to important tokens in both feedforward and attention layers. We show that CoLT5 achieves stronger performance than LongT5 with much faster training and inference, achieving SOTA on the long-input SCROLLS benchmark. Moreover, CoLT5 can effectively and tractably make use of extremely long inputs, showing strong gains up to 64k input length.

arxiv情報

著者 Joshua Ainslie,Tao Lei,Michiel de Jong,Santiago Ontañón,Siddhartha Brahma,Yury Zemlyanskiy,David Uthus,Mandy Guo,James Lee-Thorp,Yi Tay,Yun-Hsuan Sung,Sumit Sanghai
発行日 2023-04-14 03:22:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG パーマリンク