GrootVL: Tree Topology is All You Need in State Space Model

要約

状態空間モデルは、再帰的に伝播される特徴を採用しており、Transformer モデルに匹敵する強力な表現機能と優れた効率を実証します。
ただし、シーケンス固有の幾何学的制約によって制約されるため、長距離の依存関係をモデル化するにはまだ不十分です。
この問題に対処するために、最初に空間関係と入力フィーチャに基づいてツリー トポロジを動的に生成する GrootVL ネットワークを提案します。
次に、このグラフに基づいて特徴の伝播が実行され、それによって元のシーケンス制約が破られ、より強力な表現機能が実現されます。
さらに、計算コストを増加させることなく長距離インタラクションを強化するために、線形複雑度動的プログラミング アルゴリズムを導入します。
GrootVL は、ビジュアル タスクとテキスト タスクの両方に適用できる多用途のマルチモーダル フレームワークです。
広範な実験により、画像分類、物体検出、およびセグメンテーションに関して、私たちの方法が既存の構造化状態空間モデルよりも大幅に優れていることが実証されました。
さらに、大規模な言語モデルを微調整することにより、私たちのアプローチは、少ないトレーニングコストで複数のテキストタスクで一貫した改善を達成します。

要約(オリジナル)

The state space models, employing recursively propagated features, demonstrate strong representation capabilities comparable to Transformer models and superior efficiency. However, constrained by the inherent geometric constraints of sequences, it still falls short in modeling long-range dependencies. To address this issue, we propose the GrootVL network, which first dynamically generates a tree topology based on spatial relationships and input features. Then, feature propagation is performed based on this graph, thereby breaking the original sequence constraints to achieve stronger representation capabilities. Additionally, we introduce a linear complexity dynamic programming algorithm to enhance long-range interactions without increasing computational cost. GrootVL is a versatile multimodal framework that can be applied to both visual and textual tasks. Extensive experiments demonstrate that our method significantly outperforms existing structured state space models on image classification, object detection and segmentation. Besides, by fine-tuning large language models, our approach achieves consistent improvements in multiple textual tasks at minor training cost.

arxiv情報

著者 Yicheng Xiao,Lin Song,Shaoli Huang,Jiangshan Wang,Siyu Song,Yixiao Ge,Xiu Li,Ying Shan
発行日 2024-06-04 15:09:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク