要約
この研究では、ビデオ シーケンスにおけるポイントレベルの視覚追跡の課題に対処するために、マルチフロー トラッカー (MFT) フレームワークを進歩させる新しい高密度長期追跡モデル MFTIQ を紹介します。
MFTIQ は、MFT のフロー チェーン概念に基づいて構築されており、対応品質推定をオプティカル フロー計算から分離する独立品質 (IQ) モジュールを統合しています。
この分離により、追跡プロセスの精度と柔軟性が大幅に向上し、長期にわたる閉塞や複雑なダイナミクスのシナリオでも MFTIQ が信頼性の高い軌道予測を維持できるようになります。
「プラグ アンド プレイ」になるように設計された MFTIQ は、微調整やアーキテクチャの変更を必要とせずに、既製のオプティカル フロー メソッドと併用できます。
TAP-Vid Davis データセットの実験検証では、RoMa オプティカル フローを備えた MFTIQ が MFT を上回るだけでなく、大幅に高速な処理速度を持ちながら最先端のトラッカーと同等のパフォーマンスを発揮することが示されています。
コードとモデルは https://github.com/serycjon/MFTIQ で入手できます。
要約(オリジナル)
In this work, we present MFTIQ, a novel dense long-term tracking model that advances the Multi-Flow Tracker (MFT) framework to address challenges in point-level visual tracking in video sequences. MFTIQ builds upon the flow-chaining concepts of MFT, integrating an Independent Quality (IQ) module that separates correspondence quality estimation from optical flow computations. This decoupling significantly enhances the accuracy and flexibility of the tracking process, allowing MFTIQ to maintain reliable trajectory predictions even in scenarios of prolonged occlusions and complex dynamics. Designed to be ‘plug-and-play’, MFTIQ can be employed with any off-the-shelf optical flow method without the need for fine-tuning or architectural modifications. Experimental validations on the TAP-Vid Davis dataset show that MFTIQ with RoMa optical flow not only surpasses MFT but also performs comparably to state-of-the-art trackers while having substantially faster processing speed. Code and models available at https://github.com/serycjon/MFTIQ .
arxiv情報
| 著者 | Jonas Serych,Michal Neoral,Jiri Matas | 
| 発行日 | 2024-11-14 16:06:10+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
