Tracking Any Point with Frame-Event Fusion Network at High Frame Rate


画像フレームに基づく任意のポイントの追跡はフレーム レートによって制限されるため、高速シナリオでは不安定になり、現実世界のアプリケーションでは一般化が制限されます。
具体的には、イベントによって導かれる画像生成プロセスをモデル化するために、Evolution Fusion モジュール (EvoFusion) を設計しました。
広範な実験により、私たちの方法が最先端のアプローチより優れていることが実証され、特に EDS データセットで予想される特徴の年齢が 24$\%$ 改善されました。
ソースコードは で公開されます。


Tracking any point based on image frames is constrained by frame rates, leading to instability in high-speed scenarios and limited generalization in real-world applications. To overcome these limitations, we propose an image-event fusion point tracker, FE-TAP, which combines the contextual information from image frames with the high temporal resolution of events, achieving high frame rate and robust point tracking under various challenging conditions. Specifically, we designed an Evolution Fusion module (EvoFusion) to model the image generation process guided by events. This module can effectively integrate valuable information from both modalities operating at different frequencies. To achieve smoother point trajectories, we employed a transformer-based refinement strategy that updates the point’s trajectories and features iteratively. Extensive experiments demonstrate that our method outperforms state-of-the-art approaches, particularly improving expected feature age by 24$\%$ on EDS datasets. Finally, we qualitatively validated the robustness of our algorithm in real driving scenarios using our custom-designed high-resolution image-event synchronization device. Our source code will be released at


著者 Jiaxiong Liu,Bo Wang,Zhen Tan,Jinpu Zhang,Hui Shen,Dewen Hu
発行日 2024-09-18 13:07:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク