要約
点群やイベントベースのビジョンなど、まばらで非構造化された幾何学データの処理は、マシン ビジョンの分野における差し迫った課題です。
最近、Transformer や状態空間モデルなどのシーケンス モデルが幾何学的データの領域に参入しました。
これらの方法では、一連の点の連続ビューを作成するための特殊な前処理が必要です。
さらに、シーケンス モデルを含む従来の研究では、均一なステップ サイズまたは学習されたステップ サイズで幾何学的データを反復し、暗黙的にモデルに依存して基礎となる幾何学的構造を推測していました。
この研究では、幾何学的構造を状態空間モデルのパラメータ化に明示的にエンコードすることを提案します。
状態空間モデルは、時間や空間座標などの 1 次元変数によって支配される線形ダイナミクスに基づいています。
この動的変数を利用して、座標の相対的な差を状態空間モデルのステップ サイズに注入します。
結果として得られる幾何学的演算では、N 点のすべてのペア間の相互作用が O(N) ステップで計算されます。
私たちのモデルは、修正された CUDA カーネルを使用して Mamba 選択的状態空間モデルをデプロイし、疎な幾何学的データを最新のハードウェアに効率的にマッピングします。
結果として得られるシーケンス モデル (STREAM と呼ばれます) は、点群分類からイベントベースのビジョンおよびオーディオ分類まで、さまざまなベンチマークで競争力のある結果を達成します。
STREAM は、ModelNet40 および ScanObjectNN 点群解析データセットで最初からトレーニングした場合に PointMamba ベースラインを改善することにより、疎な幾何学的データに対する強力な帰納的バイアスを実証します。
さらに、DVS128 ジェスチャー データセットの 11 クラスすべてで 100% のテスト精度を初めて達成しました。
要約(オリジナル)
Handling sparse and unstructured geometric data, such as point clouds or event-based vision, is a pressing challenge in the field of machine vision. Recently, sequence models such as Transformers and state-space models entered the domain of geometric data. These methods require specialized preprocessing to create a sequential view of a set of points. Furthermore, prior works involving sequence models iterate geometric data with either uniform or learned step sizes, implicitly relying on the model to infer the underlying geometric structure. In this work, we propose to encode geometric structure explicitly into the parameterization of a state-space model. State-space models are based on linear dynamics governed by a one-dimensional variable such as time or a spatial coordinate. We exploit this dynamic variable to inject relative differences of coordinates into the step size of the state-space model. The resulting geometric operation computes interactions between all pairs of N points in O(N) steps. Our model deploys the Mamba selective state-space model with a modified CUDA kernel to efficiently map sparse geometric data to modern hardware. The resulting sequence model, which we call STREAM, achieves competitive results on a range of benchmarks from point-cloud classification to event-based vision and audio classification. STREAM demonstrates a powerful inductive bias for sparse geometric data by improving the PointMamba baseline when trained from scratch on the ModelNet40 and ScanObjectNN point cloud analysis datasets. It further achieves, for the first time, 100% test accuracy on all 11 classes of the DVS128 Gestures dataset.
arxiv情報
著者 | Mark Schöne,Yash Bhisikar,Karan Bania,Khaleelulla Khan Nazeer,Christian Mayr,Anand Subramoney,David Kappel |
発行日 | 2024-11-19 16:06:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google