RRWKV: Capturing Long-range Dependencies in RWKV

要約

内積に対する印象的な注目のおかげで、Transformers はさまざまな自然言語処理 (NLP) タスクにおいて主要なアーキテクチャとなってきました。
最近、Receptance Weighted Key Value (RWKV) アーキテクチャは非変換アーキテクチャに従っており、メモリと計算の複雑さがシーケンス長に応じて 2 次スケーリングを示すドット積アテンションの欠点を解消しています。
RWKV は線形テンソル積アテンション メカニズムを活用し、時系列モードを展開することで並列計算を実現しましたが、直接の相互作用によって取得される完全な情報と比較して、以前の情報を振り返ることに制限があるため、長距離の依存関係を捉えることができません。
標準トランスの場合。
したがって、この論文では、レトロスペクティング機能を RWKV に組み込んで情報を効果的に吸収し、メモリと計算効率も維持するレトロスペクテッド レセプタンス加重キー値 (RRWKV) アーキテクチャを考案しています。

要約(オリジナル)

Owing to the impressive dot-product attention, the Transformers have been the dominant architectures in various natural language processing (NLP) tasks. Recently, the Receptance Weighted Key Value (RWKV) architecture follows a non-transformer architecture to eliminate the drawbacks of dot-product attention, where memory and computational complexity exhibits quadratic scaling with sequence length. Although RWKV has exploited a linearly tensor-product attention mechanism and achieved parallelized computations by deploying the time-sequential mode, it fails to capture long-range dependencies because of its limitation on looking back at previous information, compared with full information obtained by direct interactions in the standard transformer. Therefore, the paper devises the Retrospected Receptance Weighted Key Value (RRWKV) architecture via incorporating the retrospecting ability into the RWKV to effectively absorb information, which maintains memory and computational efficiency as well.

arxiv情報

著者 Leilei Wang
発行日 2024-09-11 05:31:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク