要約
自己教師のビデオ通信学習は、同じ視覚オブジェクトに対応するビデオフレーム間でピクセルを正確に関連付ける能力に依存します。
ただし、監督なしで信頼できるピクセルマッチングを達成することは、依然として大きな課題です。
この問題に対処するために、最近の研究では、一致するための一意のピクセル表現をエンコードすることを目的とする機能学習技術に焦点を当てています。
これらの進歩にもかかわらず、既存の方法は依然として正確なピクセルの対応を達成するのに苦労しており、しばしば誤った一致に悩まされ、自己教師の設定での有効性を制限しています。
この目的のために、無効なビデオからオブジェクトの詳細を正確に抽出することを目的とする効率的な自己監視ビデオ通信学習フレームワーク(MER)を探ります。
まず、ビデオでオブジェクトの動的な動きをキャプチャすることを強調する専用のモーションエンハンスメントエンジンを設計します。
さらに、モデルが動きの重要なオブジェクトのピクセルの変更により多くの注意を払うことができるように、ピクセル間対応情報(マルチクラスターサンプラー)の柔軟なサンプリング戦略を導入します。
実験を通じて、当社のアルゴリズムは、ビデオオブジェクトセグメンテーションやビデオオブジェクトキーポイント追跡などのビデオ通信学習タスクで最先端の競合他社を上回ります。
要約(オリジナル)
Self-supervised video correspondence learning depends on the ability to accurately associate pixels between video frames that correspond to the same visual object. However, achieving reliable pixel matching without supervision remains a major challenge. To address this issue, recent research has focused on feature learning techniques that aim to encode unique pixel representations for matching. Despite these advances, existing methods still struggle to achieve exact pixel correspondences and often suffer from false matches, limiting their effectiveness in self-supervised settings. To this end, we explore an efficient self-supervised Video Correspondence Learning framework (MER) that aims to accurately extract object details from unlabeled videos. First, we design a dedicated Motion Enhancement Engine that emphasizes capturing the dynamic motion of objects in videos. In addition, we introduce a flexible sampling strategy for inter-pixel correspondence information (Multi-Cluster Sampler) that enables the model to pay more attention to the pixel changes of important objects in motion. Through experiments, our algorithm outperforms the state-of-the-art competitors on video correspondence learning tasks such as video object segmentation and video object keypoint tracking.
arxiv情報
著者 | Zihan Zhou,Changrui Dai,Aibo Song,Xiaolin Fang |
発行日 | 2025-04-30 14:58:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google