要約
移動するオブジェクトのセグメンテーションは、複数の移動オブジェクトを含む動的なシーンを理解する上で重要な役割を果たしますが、困難は空間テクスチャ構造と時間的運動の合図の両方を考慮することにあります。
ビデオフレームに基づく既存の方法は、正確な画像ベースのモーションモデリングの複雑さのために、オブジェクトのピクセル変位がカメラの動きまたはオブジェクトの動きによって引き起こされるかどうかを区別する際に困難に遭遇します。
最近の進歩は、新しいイベントカメラのモーション感度を活用して、従来の画像「不十分なモーションモデリング能力に対抗するが、イベントに密なテクスチャ構造がないためにピクセルレベルのオブジェクトマスクをセグメント化する際の課題につながります。
単峰性設定によって課されるこれら2つの制限に対処するために、補完的なテクスチャとモーションキューを統合する最初のインスタンスレベルの移動オブジェクトセグメンテーションフレームワークを提案します。
私たちのモデルには、暗黙のクロスモーダルマスクされた注意強化、明示的な対照的な特徴学習、および単一の画像からの密なテクスチャ情報とイベントからそれぞれ豊富なモーション情報を活用するためのフロー誘導運動強化が組み込まれています。
拡張されたテクスチャとモーション機能を活用することにより、マスクセグメンテーションをモーション分類から分離して、独立して移動するオブジェクトのさまざまな数を処理します。
複数のデータセットでの広範な評価、およびさまざまな入力設定と提案されたフレームワークのリアルタイム効率分析を使用したアブレーション実験を通じて、実用的な展開のための画像とイベントデータを組み込む最初の試みは、将来の作業のための新しい洞察を提供できると考えています。
イベントベースのモーション関連作業。
モデルトレーニングと事前訓練を受けたウェイトを備えたソースコードは、https://npucvr.github.io/evinsmosでリリースされます
要約(オリジナル)
Moving object segmentation plays a crucial role in understanding dynamic scenes involving multiple moving objects, while the difficulties lie in taking into account both spatial texture structures and temporal motion cues. Existing methods based on video frames encounter difficulties in distinguishing whether pixel displacements of an object are caused by camera motion or object motion due to the complexities of accurate image-based motion modeling. Recent advances exploit the motion sensitivity of novel event cameras to counter conventional images’ inadequate motion modeling capabilities, but instead lead to challenges in segmenting pixel-level object masks due to the lack of dense texture structures in events. To address these two limitations imposed by unimodal settings, we propose the first instance-level moving object segmentation framework that integrates complementary texture and motion cues. Our model incorporates implicit cross-modal masked attention augmentation, explicit contrastive feature learning, and flow-guided motion enhancement to exploit dense texture information from a single image and rich motion information from events, respectively. By leveraging the augmented texture and motion features, we separate mask segmentation from motion classification to handle varying numbers of independently moving objects. Through extensive evaluations on multiple datasets, as well as ablation experiments with different input settings and real-time efficiency analysis of the proposed framework, we believe that our first attempt to incorporate image and event data for practical deployment can provide new insights for future work in event-based motion related works. The source code with model training and pre-trained weights is released at https://npucvr.github.io/EvInsMOS
arxiv情報
著者 | Zhexiong Wan,Bin Fan,Le Hui,Yuchao Dai,Gim Hee Lee |
発行日 | 2025-02-18 15:56:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google