Differential Transformer

要約

Transformer は、無関係なコンテキストに注意を過剰に割り当てる傾向があります。
この作業では、ノイズをキャンセルしながら関連するコンテキストへの注意を増幅する Diff Transformer を導入します。
具体的には、差分注意メカニズムは、2 つの別々のソフトマックス注意マップ間の差として注意スコアを計算します。
減算によりノイズが打ち消され、まばらな注意パターンの出現が促進されます。
言語モデリングに関する実験結果は、モデル サイズとトレーニング トークンをスケールアップするさまざまな設定において Diff Transformer が Transformer よりも優れていることを示しています。
さらに興味深いことに、これは、ロングコンテキストモデリング、重要な情報の検索、幻覚軽減、コンテキスト内学習、活性化外れ値の削減など、実用的なアプリケーションにおいて顕著な利点を提供します。
Diff Transformer は、無関係なコンテキストによって気を散らされることが少なくなるため、質問への応答やテキストの要約における幻覚を軽減できます。
インコンテキスト学習の場合、Diff Transformer は精度を向上させるだけでなく、慢性的な堅牢性の問題と考えられていた順序順列に対してより堅牢になります。
その結果、Diff Transformer は、大規模な言語モデルを進歩させるための非常に効果的で有望なアーキテクチャとして位置づけられています。

要約(オリジナル)

Transformer tends to overallocate attention to irrelevant context. In this work, we introduce Diff Transformer, which amplifies attention to the relevant context while canceling noise. Specifically, the differential attention mechanism calculates attention scores as the difference between two separate softmax attention maps. The subtraction cancels noise, promoting the emergence of sparse attention patterns. Experimental results on language modeling show that Diff Transformer outperforms Transformer in various settings of scaling up model size and training tokens. More intriguingly, it offers notable advantages in practical applications, such as long-context modeling, key information retrieval, hallucination mitigation, in-context learning, and reduction of activation outliers. By being less distracted by irrelevant context, Diff Transformer can mitigate hallucination in question answering and text summarization. For in-context learning, Diff Transformer not only enhances accuracy but is also more robust to order permutation, which was considered as a chronic robustness issue. The results position Diff Transformer as a highly effective and promising architecture to advance large language models.

arxiv情報

著者 Tianzhu Ye,Li Dong,Yuqing Xia,Yutao Sun,Yi Zhu,Gao Huang,Furu Wei
発行日 2024-10-07 17:57:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク