要約
近年、拡散ベースの制御可能なビデオ生成において大きな進歩が見られます。
ただし、きめの細かいオブジェクトの部分、洗練された動きの軌跡、一貫した背景の動きなど、複雑なシナリオで正確な制御を実現することは依然として課題です。
このペーパーでは、条件付きビデオ生成に自由形式のマスクと矢印を活用する新しいアプローチである TrackGo を紹介します。
この方法は、ビデオ コンテンツを操作するための柔軟かつ正確なメカニズムをユーザーに提供します。
また、制御実装用の TrackAdapter も提案します。これは、事前トレーニングされたビデオ生成モデルの時間的セルフアテンション層にシームレスに統合されるように設計された効率的で軽量なアダプターです。
この設計は、これらのレイヤーのアテンション マップがビデオ内の動きに対応する領域を正確にアクティブ化できるという私たちの観察を活用しています。
私たちの実験結果は、TrackAdapter によって強化された新しいアプローチが、FVD、FID、ObjMC スコアなどの主要な指標で最先端のパフォーマンスを達成することを示しています。
要約(オリジナル)
Recent years have seen substantial progress in diffusion-based controllable video generation. However, achieving precise control in complex scenarios, including fine-grained object parts, sophisticated motion trajectories, and coherent background movement, remains a challenge. In this paper, we introduce TrackGo, a novel approach that leverages free-form masks and arrows for conditional video generation. This method offers users with a flexible and precise mechanism for manipulating video content. We also propose the TrackAdapter for control implementation, an efficient and lightweight adapter designed to be seamlessly integrated into the temporal self-attention layers of a pretrained video generation model. This design leverages our observation that the attention map of these layers can accurately activate regions corresponding to motion in videos. Our experimental results demonstrate that our new approach, enhanced by the TrackAdapter, achieves state-of-the-art performance on key metrics such as FVD, FID, and ObjMC scores.
arxiv情報
著者 | Haitao Zhou,Chuang Wang,Rui Nie,Jinlin Liu,Dongdong Yu,Qian Yu,Changhu Wang |
発行日 | 2024-12-24 14:46:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google