Enhancing Self-Supervised Fine-Grained Video Object Tracking with Dynamic Memory Prediction

要約

成功したビデオ分析は、フレーム全体のピクセルの正確な認識に依存しており、ビデオ通信学習に基づくフレームの再構築方法が効率のために一般的です。
既存のフレーム再構築方法は、効率的ですが、特に閉塞や高速の動きなどの複雑な状況で、再構築と意思決定の側面のための複数の参照フレームの直接関与の価値を無視します。
このペーパーでは、複数の参照フレームを革新的に利用してフレームの再構築を直接強化する動的メモリ予測(DMP)フレームワークを紹介します。
そのコアコンポーネントは、オブジェクトピクセル機能に基づいてフレームを動的に選択して追跡精度を向上させる参照フレームメモリエンジンです。
さらに、複数の参照フレームを利用してモデルの堅牢性を向上させるために、双方向ターゲット予測ネットワークが構築されています。
実験を通じて、私たちのアルゴリズムは、オブジェクトセグメンテーションとキーポイントトラッキングの2つの微調整されたビデオオブジェクト追跡タスクの最先端の自己監視技術を上回ります。

要約(オリジナル)

Successful video analysis relies on accurate recognition of pixels across frames, and frame reconstruction methods based on video correspondence learning are popular due to their efficiency. Existing frame reconstruction methods, while efficient, neglect the value of direct involvement of multiple reference frames for reconstruction and decision-making aspects, especially in complex situations such as occlusion or fast movement. In this paper, we introduce a Dynamic Memory Prediction (DMP) framework that innovatively utilizes multiple reference frames to concisely and directly enhance frame reconstruction. Its core component is a Reference Frame Memory Engine that dynamically selects frames based on object pixel features to improve tracking accuracy. In addition, a Bidirectional Target Prediction Network is built to utilize multiple reference frames to improve the robustness of the model. Through experiments, our algorithm outperforms the state-of-the-art self-supervised techniques on two fine-grained video object tracking tasks: object segmentation and keypoint tracking.

arxiv情報

著者 Zihan Zhou,Changrui Dai,Aibo Song,Xiaolin Fang
発行日 2025-04-30 14:29:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク