Unsupervised Spike Depth Estimation via Cross-modality Cross-domain Knowledge Transfer

要約

高い時間分解能を備えた今後のモダリティであるニューロモーフィック スパイク データは、高速モーション ブラーによってもたらされる課題を軽減することで、自動運転における有望な可能性を示しています。
ただし、スパイク深度推定ネットワークのトレーニングには、ピクセル単位のタスクの空間情報がまばらであること、および時間的に集中的なスパイク ストリームのペアの深度ラベルを取得することが難しいという 2 つの側面で重大な課題があります。
したがって、オープンソースの RGB データを導入して、注釈と空間情報を活用してスパイクの深さの推定をサポートします。
モダリティとデータ分散に固有の違いがあるため、オープンソース RGB からの転移学習をターゲットのスパイク データに直接適用することが困難になります。
この目的を達成するために、シミュレートされた媒介ソーススパイクデータを導入することによって教師なしスパイク深さ推定を実現するクロスモダリティクロスドメイン(BiCross)フレームワークを提案します。
具体的には、スパイク指向の不確実性スキームを利用して、両方のモダリティの独自の強みを維持しながら、包括的なクロスモダリティの知識伝達を促進する、粗い知識から細かい知識への蒸留(CFKD)アプローチを設計します。
次に、信頼できるピクセル単位の疑似ラベルを選別し、生徒モデルのドメイン シフトを容易にする自己修正教師生徒 (SCTS) メカニズムを提案します。これにより、ターゲット スパイク データへのエラーの蓄積が回避されます。
BiCross の有効性を検証するために、合成から現実、異常気象、シーン変更、およびリアル スパイクを含む 4 つのシナリオで広範な実験を実施しました。
私たちの方法は、RGB 指向の教師なし深度推定方法と比較して、最先端 (SOTA) のパフォーマンスを実現します。
コードとデータセット: https://github.com/Theia-4869/BiCross

要約(オリジナル)

Neuromorphic spike data, an upcoming modality with high temporal resolution, has shown promising potential in autonomous driving by mitigating the challenges posed by high-velocity motion blur. However, training the spike depth estimation network holds significant challenges in two aspects: sparse spatial information for pixel-wise tasks and difficulties in achieving paired depth labels for temporally intensive spike streams. Therefore, we introduce open-source RGB data to support spike depth estimation, leveraging its annotations and spatial information. The inherent differences in modalities and data distribution make it challenging to directly apply transfer learning from open-source RGB to target spike data. To this end, we propose a cross-modality cross-domain (BiCross) framework to realize unsupervised spike depth estimation by introducing simulated mediate source spike data. Specifically, we design a Coarse-to-Fine Knowledge Distillation (CFKD) approach to facilitate comprehensive cross-modality knowledge transfer while preserving the unique strengths of both modalities, utilizing a spike-oriented uncertainty scheme. Then, we propose a Self-Correcting Teacher-Student (SCTS) mechanism to screen out reliable pixel-wise pseudo labels and ease the domain shift of the student model, which avoids error accumulation in target spike data. To verify the effectiveness of BiCross, we conduct extensive experiments on four scenarios, including Synthetic to Real, Extreme Weather, Scene Changing, and Real Spike. Our method achieves state-of-the-art (SOTA) performances, compared with RGB-oriented unsupervised depth estimation methods. Code and dataset: https://github.com/Theia-4869/BiCross

arxiv情報

著者 Jiaming Liu,Qizhe Zhang,Xiaoqi Li,Jianing Li,Guanqun Wang,Ming Lu,Tiejun Huang,Shanghang Zhang
発行日 2024-07-19 15:05:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク