Venturing into Uncharted Waters: The Navigation Compass from Transformer to Mamba

要約

ディープ ニューラル ネットワーク アーキテクチャである Transformer は、自然言語処理およびその他の分野で長い間支配されてきました。
それにもかかわらず、Mamba の最近の導入はその優位性に疑問を投げかけ、研究者の間で大きな関心を呼び起こし、注目すべき可能性を示した一連の Mamba ベースのモデルを生み出しました。
この調査報告書は、重要な研究の側面にまで踏み込んだ包括的な議論を組織しており、次の内容をカバーしています。(i) Mamba メカニズムの機能と、構造化状態空間モデルの原理に基づくその基礎。
(ii) 提案された改善と Mamba のさまざまなネットワークとの統合。トランスフォーマーの代替としての可能性を探ります。
(iii) トランスフォーマーとマンバを組み合わせて互いの欠点を補う。
また、カーネル関数のフレームワークで Mamba と Transformer を解釈し、統一されたコンテキスト内でそれらの数学的性質を比較できるようにする努力もしてきました。
私たちの文書には、これまでの Mamba に関連する改善点の大部分が含まれています。

要約(オリジナル)

Transformer, a deep neural network architecture, has long dominated the field of natural language processing and beyond. Nevertheless, the recent introduction of Mamba challenges its supremacy, sparks considerable interest among researchers, and gives rise to a series of Mamba-based models that have exhibited notable potential. This survey paper orchestrates a comprehensive discussion, diving into essential research dimensions, covering: (i) the functioning of the Mamba mechanism and its foundation on the principles of structured state space models; (ii) the proposed improvements and the integration of Mamba with various networks, exploring its potential as a substitute for Transformers; (iii) the combination of Transformers and Mamba to compensate for each other’s shortcomings. We have also made efforts to interpret Mamba and Transformer in the framework of kernel functions, allowing for a comparison of their mathematical nature within a unified context. Our paper encompasses the vast majority of improvements related to Mamba to date.

arxiv情報

著者 Yuchen Zou,Yineng Chen,Zuchao Li,Lefei Zhang,Hai Zhao
発行日 2024-06-24 15:27:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク