要約
本論文では、様々な時間マッチングに基づく下流タスク、すなわち、ビデオオブジェクトトラッキング(VOT)やビデオオブジェクトセグメンテーション(VOS)を含むオブジェクトレベルトラッキングタスク、自己教師あり視覚対応学習、オプティカルフロー推定や長期点追跡を含む高密度追跡タスク、3D点群追跡のためのマスクオートエンコーダ(MAE)ビデオ事前学習について研究する。具体的には、我々の研究は、様々な下流トラッキングタスクにおいて、時間的マッチング能力を向上させる一般的な表現を提供することを探求している。これを達成するために、我々はまず、動画中のフレームパッチをランダムにマスクし、フレームピクセルを再構成するMAEの単純な拡張が、フレーム再構成のための時間的関係を無視する一方で、空間的な手がかりに大きく依存しており、その結果、最適な時間的マッチング表現ではないことを発見する。これを緩和するために、我々はDropMAEを提案する。DropMAEは適応的にフレーム再構成において空間的注意のドロップアウトを行い、動画における時間的対応学習を促進する。1)DropMAEは強く効率的な時間マッチング学習器であり、マッチングベースのタスクにおいて、ImageNetベースのMAEよりも2倍速い事前学習速度で、より良い微調整結果を達成する。2) DropMAEは様々なトラッキングタスク、すなわち、VOTやVOSを含むオブジェクトレベルのマッチングタスク、オプティカルフロー推定やTAP(Tracking Any Point)を含む高密度トラッキングタスク、さらには点群データの異なるモダリティにおける3Dトラッキングに有効である。そして、我々の事前学習されたDropMAEモデルは、これらのViTベースのトラッカーに直接ロードすることができ、更なる修正を加えることなく、微調整を行うことができます。6つの下流追跡タスクに対する実験により、多様な追跡タスクに対する一般的な事前学習済み表現としてのDropMAEの有効性が実証されました。
要約(オリジナル)
This paper studies masked autoencoder (MAE) video pre-training for various temporal matching-based downstream tasks, i.e., object-level tracking tasks including video object tracking (VOT) and video object segmentation (VOS), self-supervised visual correspondence learning, dense tracking tasks including optical flow estimation and long-term point tracking, and 3D point cloud tracking. Specifically, our work explores to provide a general representation to boost the temporal matching ability in various downstream tracking tasks. To achieve this, we firstly find that a simple extension of MAE, which randomly masks out frame patches in videos and reconstruct the frame pixels, heavily relies on spatial cues while ignoring temporal relations for frame reconstruction, thus leading to sub-optimal temporal matching representations. To alleviate this, we propose DropMAE, which adaptively performs spatial-attention dropout in the frame reconstruction to facilitate temporal correspondence learning in videos. We obtain several important findings with DropMAE: 1) DropMAE is a strong and efficient temporal matching learner, which achieves better fine-tuning results on matching-based tasks than the ImageNet-based MAE with 2x faster pre-training speed. 2) DropMAE is effective for different tracking tasks, i.e., object-level matching tasks including VOT and VOS, dense tracking tasks including optical flow estimation and tracking any point (TAP), and even 3D tracking in the different modality of point cloud data. Since none exists, we build ViT-based trackers for different downstream tracking tasks, and our pre-trained DropMAE model can be directly loaded in these ViT-based trackers for fine-tuning without further modifications. Experiments on 6 downstream tracking tasks demonstrate the effectiveness of DropMAE as a general pre-trained representation for diverse tracking tasks.
arxiv情報
著者 | Qiangqiang Wu,Tianyu Yang,Ziquan Liu,Wei Lin,Baoyuan Wu,Antoni B. Chan |
発行日 | 2025-04-04 15:53:08+00:00 |
arxivサイト | arxiv_id(pdf) |