要約
動画予測では、出力が一貫性があり、アーティファクトがないことを確認するための時間的な一貫性が重要です。
一時的な注意や3D畳み込みなどの従来の方法は、重要なオブジェクトの動きに苦労する可能性があり、動的シーンで長距離の時間的依存関係をキャプチャしない場合があります。
このギャップに対処するために、ポイントトラックを使用してモーション情報を明示的に統合する新しいアーキテクチャコンポーネント、つまりフレーム間の対応するポイントのシーケンスを明示的に統合するトラックテンションレイヤーを提案します。
これらのモーションキューを組み込むことにより、トラックテンションレイヤーは時間的アライメントを強化し、複雑なオブジェクトモーションを効果的に処理し、時間の経過とともに一貫した特徴表現を維持します。
私たちのアプローチは計算上効率的であり、最小限の変更を加えて、Vision Transformersなどの既存のモデルにシームレスに統合できます。
画像のみのモデルを最先端のビデオのモデルにアップグレードするために使用できます。これは、ビデオ予測のためにネイティブに設計されたモデルを上回ることがあります。
これをビデオの深さの予測とビデオの色付けで示します。ここでは、トラッキングレイヤーで増強されたモデルがベースラインと比較して時間的一貫性を大幅に改善しました。
要約(オリジナル)
Temporal consistency is critical in video prediction to ensure that outputs are coherent and free of artifacts. Traditional methods, such as temporal attention and 3D convolution, may struggle with significant object motion and may not capture long-range temporal dependencies in dynamic scenes. To address this gap, we propose the Tracktention Layer, a novel architectural component that explicitly integrates motion information using point tracks, i.e., sequences of corresponding points across frames. By incorporating these motion cues, the Tracktention Layer enhances temporal alignment and effectively handles complex object motions, maintaining consistent feature representations over time. Our approach is computationally efficient and can be seamlessly integrated into existing models, such as Vision Transformers, with minimal modification. It can be used to upgrade image-only models to state-of-the-art video ones, sometimes outperforming models natively designed for video prediction. We demonstrate this on video depth prediction and video colorization, where models augmented with the Tracktention Layer exhibit significantly improved temporal consistency compared to baselines.
arxiv情報
著者 | Zihang Lai,Andrea Vedaldi |
発行日 | 2025-03-25 17:58:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google