要約
トランスは、無関係なコンテキストに全体的に注意を向ける傾向があります。
この作業では、diffトランスを導入します。これは、ノイズをキャンセルしながら、関連するコンテキストへの注意を増幅します。
具体的には、差動注意メカニズムは、2つの個別のSoftMax注意マップの違いとして注意スコアを計算します。
減算はノイズをキャンセルし、まばらな注意パターンの出現を促進します。
言語モデリングの実験結果は、DIFFトランスがモデルサイズのスケーリングとトレーニングトークンのスケーリングのさまざまな設定でトランスを上回ることを示しています。
さらに興味深いことに、長いコンテキストモデリング、主要な情報検索、幻覚緩和、コンテキスト学習、活性化外れ値の削減など、実際のアプリケーションで顕著な利点を提供します。
無関係なコンテキストに気を取られることにより、DIFFトランスは問題の回答とテキストの要約の幻覚を軽減できます。
コンテキスト内学習の場合、DIFFトランスは精度を向上させるだけでなく、慢性的な堅牢性の問題と見なされた順序性の順序方をより堅牢にします。
結果は、大規模な言語モデルを進めるための非常に効果的で有望なアーキテクチャとしてDiff Transformerを位置付けています。
要約(オリジナル)
Transformer tends to overallocate attention to irrelevant context. In this work, we introduce Diff Transformer, which amplifies attention to the relevant context while canceling noise. Specifically, the differential attention mechanism calculates attention scores as the difference between two separate softmax attention maps. The subtraction cancels noise, promoting the emergence of sparse attention patterns. Experimental results on language modeling show that Diff Transformer outperforms Transformer in various settings of scaling up model size and training tokens. More intriguingly, it offers notable advantages in practical applications, such as long-context modeling, key information retrieval, hallucination mitigation, in-context learning, and reduction of activation outliers. By being less distracted by irrelevant context, Diff Transformer can mitigate hallucination in question answering and text summarization. For in-context learning, Diff Transformer not only enhances accuracy but is also more robust to order permutation, which was considered as a chronic robustness issue. The results position Diff Transformer as a highly effective and promising architecture to advance large language models.
arxiv情報
著者 | Tianzhu Ye,Li Dong,Yuqing Xia,Yutao Sun,Yi Zhu,Gao Huang,Furu Wei |
発行日 | 2025-04-07 12:04:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google