要約
Mamba アーキテクチャは、短いコンテキストの自然言語処理 (NLP) タスクで優れた推論効率と競争力のあるパフォーマンスを実証しますが、経験的な証拠は、トランスフォーマー ベースのモデルと比較して、長いコンテキストを理解する能力が制限されていることを示唆しています。
この研究では、Mamba モデルの長いコンテキストの効率性の問題を調査し、Mamba の長いコンテキストを理解する能力を強化する ReMamba を提案します。
ReMamba は、2 段階の再転送プロセス内に選択的圧縮および適応技術を組み込んでおり、追加の推論コストのオーバーヘッドは最小限に抑えられます。
LongBench ベンチマークと L-Eval ベンチマークの実験結果は、ReMamba の有効性を実証し、ベースラインをそれぞれ 3.2 ポイントと 1.6 ポイント改善し、同じサイズのトランス モデルとほぼ同等のパフォーマンスを達成しました。
要約(オリジナル)
While the Mamba architecture demonstrates superior inference efficiency and competitive performance on short-context natural language processing (NLP) tasks, empirical evidence suggests its capacity to comprehend long contexts is limited compared to transformer-based models. In this study, we investigate the long-context efficiency issues of the Mamba models and propose ReMamba, which enhances Mamba’s ability to comprehend long contexts. ReMamba incorporates selective compression and adaptation techniques within a two-stage re-forward process, incurring minimal additional inference costs overhead. Experimental results on the LongBench and L-Eval benchmarks demonstrate ReMamba’s efficacy, improving over the baselines by 3.2 and 1.6 points, respectively, and attaining performance almost on par with same-size transformer models.
arxiv情報
著者 | Danlong Yuan,Jiahao Liu,Bei Li,Huishuai Zhang,Jingang Wang,Xunliang Cai,Dongyan Zhao |
発行日 | 2024-08-29 10:35:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google