RWKV-7 ‘Goose’ with Expressive Dynamic State Evolution

要約

新しいシーケンスモデリングアーキテクチャであるRWKV-7「Goose」と、多言語タスクの30億パラメータースケールで下流のパフォーマンスで新しい最先端のパフォーマンスを確立し、他のトップ3Bモデルよりも劇的に少ないトークンでトレーニングされているにもかかわらず、現在のSOTA英語のパフォーマンスを一致させます。
それにもかかわらず、RWKV-7モデルでは、トークンあたりの一定のメモリ使用と一定の推論時間のみが必要です。
RWKV-7は、ベクトル値のゲーティングおよびコンテキスト内学習率を備えたデルタルールの新たに一般化された定式化、およびリラックスした価値交換ルールを導入します。
RWKV-7が状態追跡を実行し、すべての通常の言語を認識しながら、トレーニングの並列性を保持できることを示します。
これは、標準の複雑さの推測下での変圧器の機能を超えており、$ \ mathsf {tc}^0 $に制限されています。
RWKV-7の言語モデリング機能を実証するために、拡張オープンソース3.1兆トークン多言語コーパスも紹介し、このデータセットで0.190億から29億パラメーターの範囲の4つのRWKV-7モデルを訓練します。
オープン性、複製、および採用を促進するために、https://huggingface.co/rwkvでモデルとデータセットコンポーネントのリストをリリースし、https://github.com/rwkv/rwkv-lmでトレーニングと推論コードをすべてApache 2.0ライセンスの下でリリースします。

要約(オリジナル)

We present RWKV-7 ‘Goose’, a new sequence modeling architecture, along with pre-trained language models that establish a new state-of-the-art in downstream performance at the 3 billion parameter scale on multilingual tasks, and match current SoTA English language performance despite being trained on dramatically fewer tokens than other top 3B models. Nevertheless, RWKV-7 models require only constant memory usage and constant inference time per token. RWKV-7 introduces a newly generalized formulation of the delta rule with vector-valued gating and in-context learning rates, as well as a relaxed value replacement rule. We show that RWKV-7 can perform state tracking and recognize all regular languages, while retaining parallelizability of training. This exceeds the capabilities of Transformers under standard complexity conjectures, which are limited to $\mathsf{TC}^0$. To demonstrate RWKV-7’s language modeling capability, we also present an extended open source 3.1 trillion token multilingual corpus, and train four RWKV-7 models ranging from 0.19 billion to 2.9 billion parameters on this dataset. To foster openness, reproduction, and adoption, we release our models and dataset component listing at https://huggingface.co/RWKV, and our training and inference code at https://github.com/RWKV/RWKV-LM all under the Apache 2.0 License.

arxiv情報

著者 Bo Peng,Ruichong Zhang,Daniel Goldstein,Eric Alcaide,Haowen Hou,Janna Lu,William Merrill,Guangyu Song,Kaifeng Tan,Saiteja Utpala,Nathan Wilce,Johan S. Wind,Tianyi Wu,Daniel Wuttke,Christian Zhou-Zheng
発行日 2025-03-18 17:31:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.0 パーマリンク