要約
標準的な特徴ベースまたは深層学習手法が視覚的手がかりが乏しい場合には、雑然とした背景の中で小さなターゲット (わずか数十ピクセル) の動きを認識することは依然として根本的な課題です。
我々は、低サンプリング周波数シナリオ下で可変速度の小さなターゲットの動きを認識するためのモデルベースの計算フレームワークである STMDNet を提案します。
STMDNet は、新しい二重ダイナミクスと相関メカニズムを設計し、同側の励起を利用してターゲットの手がかりを統合し、漏洩増強型の対側の抑制を利用して大型オブジェクトと背景の動きの干渉を抑制します。
さらに、空間位置ごとに 1 つの相関関係のみから動きの方向を決定する初の協調的な方向性符号化/復号化戦略を開発し、計算コストを従来の方法の 8 分の 1 に削減します。
さらに、強力な STMD モデルのバックボーンを STMDNet に置き換えるだけで、AUC が 24% 向上し、強化された STMDNet-F が得られます。
現実世界の低サンプリング周波数データセットの評価では、深層学習のベースラインを超える最先端の結果が示されています。
STMDNet-F は、さまざまな速度にわたって、240Hz、120Hz、60Hz でそれぞれ mF1 が 19%、16%、8% 向上し、STMDNet は単一の CPU スレッドで 87 FPS を達成します。
これらの進歩は、STMDNet が小さなターゲットの動きパターン認識のための次世代のバックボーンであることを強調し、動き検出におけるモデルベースの視覚的アプローチを活性化するその幅広い可能性を強調します。
要約(オリジナル)
Recognizing motions of tiny targets – only few dozen pixels – in cluttered backgrounds remains a fundamental challenge when standard feature-based or deep learning methods fail under scarce visual cues. We propose STMDNet, a model-based computational framework to Recognize motions of tiny targets at variable velocities under low-sampling frequency scenarios. STMDNet designs a novel dual-dynamics-and-correlation mechanism, harnessing ipsilateral excitation to integrate target cues and leakage-enhancing-type contralateral inhibition to suppress large-object and background motion interference. Moreover, we develop the first collaborative directional encoding-decoding strategy that determines the motion direction from only one correlation per spatial location, cutting computational costs to one-eighth of prior methods. Further, simply substituting the backbone of a strong STMD model with STMDNet raises AUC by 24%, yielding an enhanced STMDNet-F. Evaluations on real-world low sampling frequency datasets show state-of-the-art results, surpassing the deep learning baseline. Across diverse speeds, STMDNet-F improves mF1 by 19%, 16%, and 8% at 240Hz, 120Hz, and 60Hz, respectively, while STMDNet achieves 87 FPS on a single CPU thread. These advances highlight STMDNet as a next-generation backbone for tiny target motion pattern recognition and underscore its broader potential to revitalize model-based visual approaches in motion detection.
arxiv情報
著者 | Mingshuo Xu,Hao Luan,Zhou Daniel Hao,Jigen Peng,Shigang Yue |
発行日 | 2025-01-22 18:06:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google