要約
Text2Cinemagraph は、テキストの説明からシネマグラフを作成するための完全に自動化された方法です。これは、プロンプトに想像上の要素や芸術的なスタイルが含まれている場合、これらの画像のセマンティクスとモーションの解釈が複雑であるため、特に困難なタスクです。
既存の単一画像アニメーション手法では芸術的な入力が不足しており、最近のテキストベースのビデオ手法では時間的な不一致が頻繁に発生し、特定の領域を静的に保つのに苦労しています。
これらの課題に対処するために、単一のテキスト プロンプトから画像ツイン、つまり芸術的な画像とそのピクセル位置が調整された対応する自然な外観のツインのペアを合成するというアイデアを提案します。
芸術的な画像はテキスト プロンプトで詳しく説明されているスタイルと外観を表していますが、現実的な画像ではレイアウトと動作の分析が大幅に簡素化されます。
既存の自然画像およびビデオ データセットを活用することで、現実的な画像を正確にセグメント化し、セマンティック情報を考慮して妥当な動きを予測できます。
予測された動きは芸術的なイメージに転送され、最終的なシネマグラフを作成できます。
私たちの方法は、自動化されたメトリクスとユーザー調査によって検証されているように、自然風景だけでなく芸術的シーンや異世界のシーンのシネマグラフの作成において、既存のアプローチよりも優れています。
最後に、既存の絵画のアニメーション化とテキストを使用した動きの方向の制御という 2 つの拡張機能を示します。
要約(オリジナル)
We introduce Text2Cinemagraph, a fully automated method for creating cinemagraphs from text descriptions – an especially challenging task when prompts feature imaginary elements and artistic styles, given the complexity of interpreting the semantics and motions of these images. Existing single-image animation methods fall short on artistic inputs, and recent text-based video methods frequently introduce temporal inconsistencies, struggling to keep certain regions static. To address these challenges, we propose an idea of synthesizing image twins from a single text prompt – a pair of an artistic image and its pixel-aligned corresponding natural-looking twin. While the artistic image depicts the style and appearance detailed in our text prompt, the realistic counterpart greatly simplifies layout and motion analysis. Leveraging existing natural image and video datasets, we can accurately segment the realistic image and predict plausible motion given the semantic information. The predicted motion can then be transferred to the artistic image to create the final cinemagraph. Our method outperforms existing approaches in creating cinemagraphs for natural landscapes as well as artistic and other-worldly scenes, as validated by automated metrics and user studies. Finally, we demonstrate two extensions: animating existing paintings and controlling motion directions using text.
arxiv情報
著者 | Aniruddha Mahapatra,Aliaksandr Siarohin,Hsin-Ying Lee,Sergey Tulyakov,Jun-Yan Zhu |
発行日 | 2023-07-12 17:45:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google