要約
この論文では、\ textBf {rwkv-x}を紹介します。これは、短距離モデリングのRWKVの効率を組み合わせた新しいハイブリッドアーキテクチャと、長距離コンテキストをキャプチャするように設計されたまばらな注意メカニズムを紹介します。
完全な注意層に依存し、二次の複雑さを保持する以前のハイブリッドアプローチとは異なり、RWKV-Xは、トレーニングで直線的な時間の複雑さを実現し、推論デコードに一定の時間の複雑さを実現します。
RWKV-Xは、64Kトークンシーケンスで継続的に前提としている場合、64K PassKey検索ベンチマークでほぼ完璧な精度を達成することを実証します。
ショートテキストタスクの強力なパフォーマンスを維持しながら、長いコンテキストベンチマークで以前のRWKV-7モデルを常に上回ります。
これらの結果は、RWKV-Xが一般的な段階的な言語モデリングのスケーラブルで効率的なバックボーンとして強調し、安定した速度とメモリ使用量を備えた最大100万トークンまでシーケンスを解読できることを強調しています。
さらなる研究と分析を促進するために、チェックポイントと関連するコードにhttps://github.com/howard-hou/rwkv-xで公開されました。
要約(オリジナル)
In this paper, we introduce \textbf{RWKV-X}, a novel hybrid architecture that combines the efficiency of RWKV for short-range modeling with a sparse attention mechanism designed to capture long-range context. Unlike previous hybrid approaches that rely on full attention layers and retain quadratic complexity, RWKV-X achieves linear-time complexity in training and constant-time complexity in inference decoding. We demonstrate that RWKV-X, when continually pretrained on 64K-token sequences, achieves near-perfect accuracy on the 64K passkey retrieval benchmark. It consistently outperforms prior RWKV-7 models on long-context benchmarks, while maintaining strong performance on short-context tasks. These results highlight RWKV-X as a scalable and efficient backbone for general-purpose language modeling, capable of decoding sequences up to 1 million tokens with stable speed and memory usage. To facilitate further research and analysis, we have made the checkpoints and the associated code publicly accessible at: https://github.com/howard-hou/RWKV-X.
arxiv情報
著者 | Haowen Hou,Zhiyi Huang,Kaifeng Tan,Rongchang Lu,Fei Richard Yu |
発行日 | 2025-04-30 09:38:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google