Fovea Transformer: Efficient Long-Context Modeling with Structured Fine-to-Coarse Attention

要約

トランスフォーマーにおける自己注意の二次的な複雑さは、長いテキストの処理を妨げてきました。
この問題を軽減するために、これまでの研究では、トークンに関する重要な情報がその近傍から得られるという観察を利用して、アテンション マトリックスをスパース化することが提案されてきました。
これらの方法は通常、ローカルな注目とグローバルな注目の 1 つまたは別の形式を組み合わせたものです。
このような組み合わせでは、ローカルからグローバルに移行するときにコンテキストの粒度が突然変化するため、望ましくない可能性があります。
私たちは、よりスムーズな移行により、長いコンテキストの依存関係を捕捉するモデルの能力が向上する可能性があると考えています。
この研究では、計算効率を維持しながらグローバルな依存関係を取得するという課題に対処する、ロングコンテキストに焦点を当てたトランスフォーマーである Fovea Transformer を紹介します。
これを達成するために、入力シーケンスからマルチスケール ツリーを構築し、クエリ トークンまでの距離が増加するにつれて、ツリー内で徐々に粒度が粗くなるコンテキスト トークンの表現を使用します。
3 つの長いコンテキストの要約タスクでモデルを評価します\footnote{私たちのコードは \textit{https://github.com/ZiweiHe/Fovea-Transformer}} で公開されています。
そのうちの 2 つでは最先端のパフォーマンスを達成し、3 つ目では評価指標の改善と後退が混在しながらも競争力のある結果を達成しました。

要約(オリジナル)

The quadratic complexity of self-attention in Transformers has hindered the processing of long text. To alleviate this problem, previous works have proposed to sparsify the attention matrix, taking advantage of the observation that crucial information about a token can be derived from its neighbors. These methods typically combine one or another form of local attention and global attention. Such combinations introduce abrupt changes in contextual granularity when going from local to global, which may be undesirable. We believe that a smoother transition could potentially enhance model’s ability to capture long-context dependencies. In this study, we introduce Fovea Transformer, a long-context focused transformer that addresses the challenges of capturing global dependencies while maintaining computational efficiency. To achieve this, we construct a multi-scale tree from the input sequence, and use representations of context tokens with a progressively coarser granularity in the tree, as their distance to the query token increases. We evaluate our model on three long-context summarization tasks\footnote{Our code is publicly available at: \textit{https://github.com/ZiweiHe/Fovea-Transformer}}. It achieves state-of-the-art performance on two of them, and competitive results on the third with mixed improvement and setback of the evaluation metrics.

arxiv情報

著者 Ziwei He,Jian Yuan,Le Zhou,Jingwen Leng,Bo Jiang
発行日 2024-01-11 14:24:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク