Only 5\% Attention Is All You Need: Efficient Long-range Document-level Neural Machine Translation

要約

文書レベルのニューラル機械翻訳 (DocNMT) は、文書レベルのコンテキスト情報を導入することで談話現象を処理するために重要であることが証明されています。
最も重要な方向の 1 つは、ドキュメント全体を標準の Transformer モデルに直接入力することです。
この場合、アテンションモジュールの二次的な複雑さのため、効率が重大な懸念事項になります。
既存の研究はエンコーダ部分に焦点を当てており、機械翻訳 (MT) などのシーケンスからシーケンスの生成タスクに導入できないか、大幅なパフォーマンスの低下に悩まされています。
この作業では、注目すべきトークンのごく一部を選択する軽量の注意に基づく追加の選択レイヤーを導入することで、翻訳パフォーマンスを維持しながら 20% の速度向上を実現します。
本来のこだわりを活かしてパフォーマンスを確保し、次元を削減して推論を高速化します。
実験結果は、私たちの方法がパフォーマンスを維持しながら、最大約 95\% のスパース性 (5\% のトークンのみが参加) を達成でき、元の Transformer と比較してアテンション モジュールの計算コストを 93\% 節約できることを示しています。

要約(オリジナル)

Document-level Neural Machine Translation (DocNMT) has been proven crucial for handling discourse phenomena by introducing document-level context information. One of the most important directions is to input the whole document directly to the standard Transformer model. In this case, efficiency becomes a critical concern due to the quadratic complexity of the attention module. Existing studies either focus on the encoder part, which cannot be deployed on sequence-to-sequence generation tasks, e.g., Machine Translation (MT), or suffer from a significant performance drop. In this work, we keep the translation performance while gaining 20\% speed up by introducing extra selection layer based on lightweight attention that selects a small portion of tokens to be attended. It takes advantage of the original attention to ensure performance and dimension reduction to accelerate inference. Experimental results show that our method could achieve up to 95\% sparsity (only 5\% tokens attended) approximately, and save 93\% computation cost on the attention module compared with the original Transformer, while maintaining the performance.

arxiv情報

著者 Zihan Liu,Zewei Sun,Shanbo Cheng,Shujian Huang,Mingxuan Wang
発行日 2023-09-25 14:33:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク