MambaByte: Token-free Selective State Space Model

要約

トークンフリー言語モデルは、生のバイトから直接学習し、サブワードのトークン化のバイアスを除去します。
ただし、バイトで操作するとシーケンスが大幅に長くなり、標準の自己回帰トランスフォーマーはそのような設定ではスケーリングが不十分になります。
私たちは、Mamba 状態空間モデルをトークンフリーで適応させた MambaByte を実験し、バイト シーケンスで自己回帰的にトレーニングしました。
私たちの実験は、他のバイトレベルのモデルと比較した MambaByte の計算効率を示しています。
また、MambaByte は最先端のサブワード Transformers と競争力があり、それを上回るパフォーマンスを示していることもわかりました。
さらに、長さの線形スケーリングにより、MambaByte は Transformers と比較して高速推論の恩恵を受けます。
私たちの調査結果は、トークンフリーの言語モデリングを可能にする MambaByte の実行可能性を証明しています。

要約(オリジナル)

Token-free language models learn directly from raw bytes and remove the bias of subword tokenization. Operating on bytes, however, results in significantly longer sequences, and standard autoregressive Transformers scale poorly in such settings. We experiment with MambaByte, a token-free adaptation of the Mamba state space model, trained autoregressively on byte sequences. Our experiments indicate the computational efficiency of MambaByte compared to other byte-level models. We also find MambaByte to be competitive with and even outperform state-of-the-art subword Transformers. Furthermore, owing to linear scaling in length, MambaByte benefits from fast inference compared to Transformers. Our findings establish the viability of MambaByte in enabling token-free language modeling.

arxiv情報

著者 Junxiong Wang,Tushaar Gangavarapu,Jing Nathan Yan,Alexander M Rush
発行日 2024-01-24 18:53:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク