DINT Transformer

要約

DIFFトランスは、局所的な注意の堅牢性を高める差別的な注意メカニズムを導入することにより、無関係なコンテキスト干渉の問題に対処します。
ただし、2つの重要な制限があります。グローバルなコンテキストモデリングの欠如は、グローバルに重要なトークンを識別するために不可欠であり、注意マトリックスに厳密な行正規化がないために数値的不安定性です。
これらの課題を克服するために、微分統合メカニズムを組み込むことによりDIFFトランスを拡張するDINTトランスを提案します。
グローバルな重要性スコアを計算し、それらを注意マトリックスに統合することにより、Dint Transformerはグローバル依存関係をキャプチャする能力を向上させます。
さらに、統一されたパラメーター設計により、行定体の注意マトリックスが強制され、数値の安定性が向上します。
実験結果は、DINTトランスが、長いコンテキスト言語モデリングや主要な情報検索など、さまざまな実用的なアプリケーションで精度と堅牢性に優れていることを示しています。
これらの結果は、DINTトランスを非常に効果的で有望なアーキテクチャとして位置付けています。

要約(オリジナル)

DIFF Transformer addresses the issue of irrelevant context interference by introducing a differential attention mechanism that enhances the robustness of local attention. However, it has two critical limitations: the lack of global context modeling, which is essential for identifying globally significant tokens, and numerical instability due to the absence of strict row normalization in the attention matrix. To overcome these challenges, we propose DINT Transformer, which extends DIFF Transformer by incorporating a differential-integral mechanism. By computing global importance scores and integrating them into the attention matrix, DINT Transformer improves its ability to capture global dependencies. Moreover, the unified parameter design enforces row-normalized attention matrices, improving numerical stability. Experimental results demonstrate that DINT Transformer excels in accuracy and robustness across various practical applications, such as long-context language modeling and key information retrieval. These results position DINT Transformer as a highly effective and promising architecture.

arxiv情報

著者 Yueyang Cang,Yuhang Liu,Xiaoteng Zhang,Erlu Zhao,Li Shi
発行日 2025-01-29 08:53:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク