要約
トランスがNLPとIRを支配しています。
しかし、より長いコンテキストに外挿する際のそれらの推論の非効率性と課題は、代替モデルアーキテクチャへの関心を引き起こしました。
これらの中で、MAMBAのような状態空間モデル(SSM)は、特に$ O(1)$の推論の複雑さを有望な利点を提供します。
その可能性にもかかわらず、テキスト再ランキングでのSSMの有効性(きめ細かいクエリドキュメントの相互作用と長い文書の理解を必要とするタスク)は、採用不足のままです。
この調査では、さまざまなスケール、アーキテクチャ、およびテキストリランキングタスクのパフォーマンスと効率に焦点を当てたさまざまなスケール、アーキテクチャ、およびトレーニング前の目標にわたるトランスベースのモデルに対して、SSMベースのアーキテクチャ(具体的にはMAMBA-1およびMAMBA-2)をベンチマークします。
(1)Mambaアーキテクチャは、同様のサイズの変圧器ベースのモデルに匹敵する競争力のあるテキストランキングパフォーマンスを実現していることがわかります。
(2)フラッシュの注意を払ったトランスと比較して、トレーニングと推論が効率的ではありません。
(3)Mamba-2は、パフォーマンスと効率の両方でMamba-1を上回ります。
これらの結果は、変圧器の代替としての状態空間モデルの可能性を強調し、将来のIRアプリケーションの改善のための領域を強調しています。
要約(オリジナル)
Transformers dominate NLP and IR; but their inference inefficiencies and challenges in extrapolating to longer contexts have sparked interest in alternative model architectures. Among these, state space models (SSMs) like Mamba offer promising advantages, particularly $O(1)$ time complexity in inference. Despite their potential, SSMs’ effectiveness at text reranking — a task requiring fine-grained query-document interaction and long-context understanding — remains underexplored. This study benchmarks SSM-based architectures (specifically, Mamba-1 and Mamba-2) against transformer-based models across various scales, architectures, and pre-training objectives, focusing on performance and efficiency in text reranking tasks. We find that (1) Mamba architectures achieve competitive text ranking performance, comparable to transformer-based models of similar size; (2) they are less efficient in training and inference compared to transformers with flash attention; and (3) Mamba-2 outperforms Mamba-1 in both performance and efficiency. These results underscore the potential of state space models as a transformer alternative and highlight areas for improvement in future IR applications.
arxiv情報
著者 | Zhichao Xu,Jinghua Yan,Ashim Gupta,Vivek Srikumar |
発行日 | 2025-04-22 17:44:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google