MFT: Long-Term Tracking of Every Pixel

要約

私たちは、高密度、ピクセルレベル、長期追跡のための新しい方法である MFT (マルチフロー高密度トラッカー) を提案します。
このアプローチでは、連続するフレーム間だけでなく、対数的に間隔をあけたフレームのペアについても推定されたオプティカル フローを利用します。
次に、事前トレーニングされた CNN によって提供される幾何学的精度とオクルージョンの確率の推定に基づいて、最も信頼できるフロー シーケンスを選択します。
MFT が TAP-Vid-DAVIS ベンチマークで最先端の結果を達成し、ベースライン、その組み合わせ、公開された手法を大幅に上回り、平均位置精度 70.8%、平均 Jaccard 56.1 を達成したことを示します。
%、平均オクルージョン精度は 86.9% でした。
この方法は中程度の長さのオクルージョンの影響を受けず、基準フレームを基準にしてフローを推定することで強化され、ドリフトが減少します。

要約(オリジナル)

We propose MFT — Multi-Flow dense Tracker — a novel method for dense, pixel-level, long-term tracking. The approach exploits optical flows estimated not only between consecutive frames, but also for pairs of frames at logarithmically spaced intervals. It then selects the most reliable sequence of flows on the basis of estimates of its geometric accuracy and the probability of occlusion, both provided by a pre-trained CNN. We show that MFT achieves state-of-the-art results on the TAP-Vid-DAVIS benchmark, outperforming the baselines, their combination, and published methods by a significant margin, achieving an average position accuracy of 70.8%, average Jaccard of 56.1% and average occlusion accuracy of 86.9%. The method is insensitive to medium-length occlusions and it is robustified by estimating flow with respect to the reference frame, which reduces drift.

arxiv情報

著者 Michal Neoral,Jonáš Šerých,Jiří Matas
発行日 2023-05-22 13:02:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク