要約
ユーザー指定のテキストプロンプトに従って、直感的でセマンティックな方法でビデオオブジェクトをスタイル設定するタスクに取り組みます。
結果として得られるビデオは複数のプロパティを満たす必要があるため、これは困難な作業です。(1)時間的に一貫性があり、ジッターや同様のアーティファクトを回避する必要があります。(2)結果として得られるスタイル設定は、オブジェクトのグローバルセマンティクスとそのきめ細かいものの両方を保持する必要があります。
詳細、および(3)ユーザー指定のテキストプロンプトに準拠する必要があります。
この目的のために、このメソッドは、グローバルセマンティクスを説明するグローバルターゲットテキストプロンプトとローカルセマンティクスを説明するローカルターゲットテキストプロンプトに従って、ビデオ内のオブジェクトをスタイル設定します。
オブジェクトのスタイルを変更するには、CLIPの表現力を利用して、(1)ローカルターゲットテキストとローカルの定型化されたビューのセット、および(2)グローバルターゲットテキストと定型化されたグローバルのセットの間の類似性スコアを取得します。
ビュー。
事前にトレーニングされたアトラス分解ネットワークを使用して、時間的に一貫した方法で編集を伝播します。
私たちの方法は、ターゲットテキストの仕様に準拠したさまざまなオブジェクトやビデオに対して、時間内に一貫したスタイルの変更を生成できることを示しています。
また、ターゲットテキストの特異性を変化させ、一連のプレフィックスを使用してテキストを拡張すると、さまざまな詳細レベルのスタイルが作成されることも示します。
完全な結果は、プロジェクトのWebページに記載されています:https://sloeschcke.github.io/Text-Driven-Stylization-of-Video-Objects/
要約(オリジナル)
We tackle the task of stylizing video objects in an intuitive and semantic manner following a user-specified text prompt. This is a challenging task as the resulting video must satisfy multiple properties: (1) it has to be temporally consistent and avoid jittering or similar artifacts, (2) the resulting stylization must preserve both the global semantics of the object and its fine-grained details, and (3) it must adhere to the user-specified text prompt. To this end, our method stylizes an object in a video according to a global target text prompt that describes the global semantics and a local target text prompt that describes the local semantics. To modify the style of an object, we harness the representational power of CLIP to get a similarity score between (1) the local target text and a set of local stylized views, and (2) a global target text and a set of stylized global views. We use a pretrained atlas decomposition network to propagate the edits in a temporally consistent manner. We demonstrate that our method can generate consistent style changes in time for a variety of objects and videos, that adhere to the specification of the target texts. We also show how varying the specificity of the target texts, and augmenting the texts with a set of prefixes results in stylizations with different levels of detail. Full results are given on our project webpage: https://sloeschcke.github.io/Text-Driven-Stylization-of-Video-Objects/
arxiv情報
著者 | Sebastian Loeschcke,Serge Belongie,Sagie Benaim |
発行日 | 2022-06-24 17:53:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google