TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models

要約

ビデオ合成における目覚ましい成果にもかかわらず、相互作用する複数のオブジェクト間の微妙な動きなど、複雑なダイナミクスをきめ細かく制御することは、依然として、出現と消滅、大幅なスケールの変更を管理し、一貫性を確保する必要性により、動的ワールドモデリングにとって大きなハードルとなっています。
たとえばフレーム間で。
これらの課題は、現実世界の複雑さを忠実に模倣できるビデオ生成の開発を妨げ、高度なシーンのシミュレーションや知覚システムのトレーニングなど、高レベルのリアリズムと制御性を必要とするアプリケーションの実用性を制限します。
これに対処するために、我々は、拡散モデルを介してきめ細かい軌道条件付きモーション制御を可能にする新しいビデオ生成フレームワークである TrackDiffusion を提案します。これにより、オブジェクトの軌道と相互作用の正確な操作が容易になり、スケールと連続性の中断という一般的な制限を克服できます。
TrackDiffusion の重要なコンポーネントはインスタンス エンハンサーであり、これは複数のオブジェクトのフレーム間の一貫性を明示的に保証しますが、これは現在の文献では見落とされている重要な要素です。
さらに、TrackDiffusion によって生成されたビデオ シーケンスが視覚認識モデルのトレーニング データとして使用できることを実証します。
私たちの知る限り、これはトラックレット条件を備えたビデオ拡散モデルを適用し、生成されたフレームがオブジェクト トラッカーのパフォーマンス向上に有益であることを実証した最初の研究です。

要約(オリジナル)

Despite remarkable achievements in video synthesis, achieving granular control over complex dynamics, such as nuanced movement among multiple interacting objects, still presents a significant hurdle for dynamic world modeling, compounded by the necessity to manage appearance and disappearance, drastic scale changes, and ensure consistency for instances across frames. These challenges hinder the development of video generation that can faithfully mimic real-world complexity, limiting utility for applications requiring high-level realism and controllability, including advanced scene simulation and training of perception systems. To address that, we propose TrackDiffusion, a novel video generation framework affording fine-grained trajectory-conditioned motion control via diffusion models, which facilitates the precise manipulation of the object trajectories and interactions, overcoming the prevalent limitation of scale and continuity disruptions. A pivotal component of TrackDiffusion is the instance enhancer, which explicitly ensures inter-frame consistency of multiple objects, a critical factor overlooked in the current literature. Moreover, we demonstrate that generated video sequences by our TrackDiffusion can be used as training data for visual perception models. To the best of our knowledge, this is the first work to apply video diffusion models with tracklet conditions and demonstrate that generated frames can be beneficial for improving the performance of object trackers.

arxiv情報

著者 Pengxiang Li,Kai Chen,Zhili Liu,Ruiyuan Gao,Lanqing Hong,Guo Zhou,Hua Yao,Dit-Yan Yeung,Huchuan Lu,Xu Jia
発行日 2024-03-20 17:28:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク