要約
最近のビデオ生成モデルは主に、修復やスタイル編集などの特定のタスクについて注意深く書かれたテキスト プロンプトに依存しています。
入力ビデオに対して多大な労力を要するテキストによる説明が必要となり、個人/生のビデオをユーザーの仕様に適応させる柔軟性が妨げられます。
この論文では、統一されたパイプラインを通じて、削除、追加、変更などの複数のビデオ編集機能をサポートする、多用途でユーザーフレンドリーなビデオから段落からビデオへの生成フレームワークである RACCooN を提案します。
RACCooN は、ビデオから段落へ (V2P) と段落からビデオへ (P2V) という 2 つの主要なステージで構成されます。
V2P 段階では、ビデオ シーンを適切に構造化された自然言語で自動的に記述し、全体的なコンテキストと焦点を絞ったオブジェクトの詳細の両方をキャプチャします。
その後、P2V 段階で、ユーザーは必要に応じてこれらの記述を調整してビデオ拡散モデルをガイドし、主題の削除、変更、および/または新しいオブジェクトの追加など、入力ビデオに対するさまざまな変更を可能にすることができます。
提案されたアプローチは、いくつかの重要な貢献を通じて他の方法よりも際立っています。 (1) RACCooN は、適切に構造化されたビデオ記述を生成するための多粒度の時空間プーリング戦略を提案し、人間による複雑な注釈を必要とせずに広範なコンテキストとオブジェクトの詳細の両方をキャプチャし、正確なビデオを簡素化します。
ユーザー向けのテキストに基づいたコンテンツ編集。
(2) 当社のビデオ生成モデルには、生成されたコンテンツの品質と正確性を高めるために、自動生成されたナラティブまたは指示が組み込まれています。
統一されたフレームワーク内でビデオ オブジェクトの追加、修復、および属性の変更をサポートし、既存のビデオ編集および修復ベンチマークを上回ります。
提案されたフレームワークは、ビデオから段落への生成、ビデオコンテンツ編集において優れた多用途機能を実証しており、さらなる機能強化のために他の SoTA ビデオ生成モデルに組み込むことができます。
要約(オリジナル)
Recent video generative models primarily rely on carefully written text prompts for specific tasks, like inpainting or style editing. They require labor-intensive textual descriptions for input videos, hindering their flexibility to adapt personal/raw videos to user specifications. This paper proposes RACCooN, a versatile and user-friendly video-to-paragraph-to-video generative framework that supports multiple video editing capabilities such as removal, addition, and modification, through a unified pipeline. RACCooN consists of two principal stages: Video-to-Paragraph (V2P) and Paragraph-to-Video (P2V). In the V2P stage, we automatically describe video scenes in well-structured natural language, capturing both the holistic context and focused object details. Subsequently, in the P2V stage, users can optionally refine these descriptions to guide the video diffusion model, enabling various modifications to the input video, such as removing, changing subjects, and/or adding new objects. The proposed approach stands out from other methods through several significant contributions: (1) RACCooN suggests a multi-granular spatiotemporal pooling strategy to generate well-structured video descriptions, capturing both the broad context and object details without requiring complex human annotations, simplifying precise video content editing based on text for users. (2) Our video generative model incorporates auto-generated narratives or instructions to enhance the quality and accuracy of the generated content. It supports the addition of video objects, inpainting, and attribute modification within a unified framework, surpassing existing video editing and inpainting benchmarks. The proposed framework demonstrates impressive versatile capabilities in video-to-paragraph generation, video content editing, and can be incorporated into other SoTA video generative models for further enhancement.
arxiv情報
著者 | Jaehong Yoon,Shoubin Yu,Mohit Bansal |
発行日 | 2024-05-28 17:46:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google