要約
S4、S5、Mamba などの最近の状態空間モデル (SSM) は、長距離の時間依存性モデリングにおいて顕著な計算上の利点を示しています。
ただし、多くのシーケンス モデリング問題では、基礎となるプロセスが本質的にモジュール化されており、このモジュール構造を模倣する誘導バイアスを持つことが興味深いです。
このペーパーでは、情報の分離を保存または促進するために独立したメカニズムを SSM に組み込むための新しいフレームワークである SlotSSM を紹介します。
モノリシックな状態ベクトルを維持する従来の SSM とは異なり、SlotSSM はスロットと呼ばれる複数のベクトルの集合として状態を維持します。
重要なのは、状態遷移はスロットごとに独立して実行され、セルフ アテンションのボトルネックを介してスロット間での疎な相互作用が実装されることです。
実験では、オブジェクト中心のビデオ理解、3D 視覚的推論、およびビデオ予測タスクでモデルを評価します。これには、複数のオブジェクトとその長距離の時間依存関係のモデル化が含まれます。
私たちが提案した設計は、既存のシーケンス モデリング手法に比べて大幅なパフォーマンス向上をもたらすことがわかりました。
要約(オリジナル)
Recent State Space Models (SSMs) such as S4, S5, and Mamba have shown remarkable computational benefits in long-range temporal dependency modeling. However, in many sequence modeling problems, the underlying process is inherently modular and it is of interest to have inductive biases that mimic this modular structure. In this paper, we introduce SlotSSMs, a novel framework for incorporating independent mechanisms into SSMs to preserve or encourage separation of information. Unlike conventional SSMs that maintain a monolithic state vector, SlotSSMs maintains the state as a collection of multiple vectors called slots. Crucially, the state transitions are performed independently per slot with sparse interactions across slots implemented via the bottleneck of self-attention. In experiments, we evaluate our model in object-centric video understanding, 3D visual reasoning, and video prediction tasks, which involve modeling multiple objects and their long-range temporal dependencies. We find that our proposed design offers substantial performance gains over existing sequence modeling methods.
arxiv情報
著者 | Jindong Jiang,Fei Deng,Gautam Singh,Minseung Lee,Sungjin Ahn |
発行日 | 2024-06-30 22:25:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google