要約
このタスクのために実際のビデオに注釈を付けるのは難しいため、ほとんどの最先端のポイント トラッカーは合成データでトレーニングされます。
ただし、合成ビデオと実際のビデオの間の統計的なギャップにより、最適なパフォーマンスが得られない可能性があります。
これらの問題をよりよく理解するために、新しい追跡モデルと新しい半教師ありトレーニング レシピで構成される CoTracker3 を紹介します。
これにより、既製の教師を使用して疑似ラベルを生成することで、トレーニング中に注釈のない実際のビデオを使用できるようになります。
新しいモデルでは、以前のトラッカーからコンポーネントが削除または簡素化され、その結果、アーキテクチャがよりシンプルになり、多くの場合、より小型になりました。
このトレーニング スキームは以前の作業よりもはるかに単純で、1,000 分の 1 のデータを使用してより良い結果が得られます。
ポイント追跡でより実際の教師なしデータを使用することの影響を理解するために、スケーリング動作をさらに研究します。
このモデルはオンラインとオフラインのバージョンで利用でき、可視ポイントと遮蔽ポイントを確実に追跡します。
要約(オリジナル)
Most state-of-the-art point trackers are trained on synthetic data due to the difficulty of annotating real videos for this task. However, this can result in suboptimal performance due to the statistical gap between synthetic and real videos. In order to understand these issues better, we introduce CoTracker3, comprising a new tracking model and a new semi-supervised training recipe. This allows real videos without annotations to be used during training by generating pseudo-labels using off-the-shelf teachers. The new model eliminates or simplifies components from previous trackers, resulting in a simpler and often smaller architecture. This training scheme is much simpler than prior work and achieves better results using 1,000 times less data. We further study the scaling behaviour to understand the impact of using more real unsupervised data in point tracking. The model is available in online and offline variants and reliably tracks visible and occluded points.
arxiv情報
著者 | Nikita Karaev,Iurii Makarov,Jianyuan Wang,Natalia Neverova,Andrea Vedaldi,Christian Rupprecht |
発行日 | 2024-10-15 17:56:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google