A Novel Spike Transformer Network for Depth Estimation from Event Cameras via Cross-modality Knowledge Distillation

要約

深さの推定は、特に自動車両ナビゲーションやロボット工学などの分野で、複雑な環境を解釈するために重要です。
それにもかかわらず、イベント カメラ データから正確な深度の読み取り値を取得することは依然として困難な課題です。
イベント カメラは従来のデジタル カメラとは異なる動作をし、継続的にデータをキャプチャし、時間、場所、光の強度をエンコードする非同期バイナリ スパイクを生成します。
しかし、イベント カメラの独自のサンプリング メカニズムにより、標準的な画像ベースのアルゴリズムはスパイク データの処理には不十分です。
これには、イベント カメラ向けに調整された革新的なスパイク対応アルゴリズムの開発が必要です。このタスクは、スパイク データに固有の不規則性、連続性、ノイズ、時空間特性によって複雑になります。時空間データに対するトランスフォーマー ニューラル ネットワークの強力な一般化機能を利用して、
私たちは、スパイクカメラデータから深度を推定するための、純粋にスパイク駆動のスパイク変圧器ネットワークを提案します。
スパイキング ニューラル ネットワーク (SNN) のパフォーマンス制限に対処するために、人工ニューラル ネットワーク (ANN) の大規模ビジョン基礎モデル (DINOv2) からの知識を活用して、SNN のパフォーマンスを強化する新しい単一ステージのクロスモダリティ知識伝達フレームワークを導入します。
限られたデータ。
合成データセットと実際のデータセットの両方に関する実験結果では、絶対相対誤差と二乗相対誤差が顕著に増加しており、既存のモデルと比較して大幅な改善が見られます (ベンチマーク モデル Spike-T と比較して、それぞれ 49% と 39.77% の改善)。
提案されたモデルは、精度に加えて、実際のアプリケーションにとって重要な要素である消費電力の削減も実証しています。

要約(オリジナル)

Depth estimation is crucial for interpreting complex environments, especially in areas such as autonomous vehicle navigation and robotics. Nonetheless, obtaining accurate depth readings from event camera data remains a formidable challenge. Event cameras operate differently from traditional digital cameras, continuously capturing data and generating asynchronous binary spikes that encode time, location, and light intensity. Yet, the unique sampling mechanisms of event cameras render standard image based algorithms inadequate for processing spike data. This necessitates the development of innovative, spike-aware algorithms tailored for event cameras, a task compounded by the irregularity, continuity, noise, and spatial and temporal characteristics inherent in spiking data.Harnessing the strong generalization capabilities of transformer neural networks for spatiotemporal data, we propose a purely spike-driven spike transformer network for depth estimation from spiking camera data. To address performance limitations with Spiking Neural Networks (SNN), we introduce a novel single-stage cross-modality knowledge transfer framework leveraging knowledge from a large vision foundational model of artificial neural networks (ANN) (DINOv2) to enhance the performance of SNNs with limited data. Our experimental results on both synthetic and real datasets show substantial improvements over existing models, with notable gains in Absolute Relative and Square Relative errors (49% and 39.77% improvements over the benchmark model Spike-T, respectively). Besides accuracy, the proposed model also demonstrates reduced power consumptions, a critical factor for practical applications.

arxiv情報

著者 Xin Zhang,Liangxiu Han,Tam Sobeih,Lianghao Han,Darren Dancey
発行日 2024-04-26 11:32:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク