Instructional Video Generation

要約

最近のビデオ生成の進歩にも関わらず、最先端の手法では依然として視覚的な詳細の要素に苦労しています。
特に困難なケースの 1 つは、適切な視覚動作の指示を伝えるために、手の複雑な動きとほぼ安定した気を散らさない環境が必要な、自己中心的な教育ビデオのクラスです。
これらの課題に対処するために、私たちは教育ビデオを生成するための新しい方法を導入しました。
当社の拡散ベースの手法には、2 つの異なる革新が組み込まれています。
まず、視覚的なコンテキストとアクション テキストの両方に基づいて、予想される動きの領域を生成する自動方法を提案します。
次に、拡散モデルが滑らかで一貫した手のポーズに焦点を当てるように導くために、重要な手の構造損失を導入します。
私たちは、EpicKitchens と Ego4D に基づいた強化された指導データセットに基づいてメソッドを評価し、多様な環境やアクションにわたる指導の明確さ、特にターゲット領域での手の動きの点で、最先端のメソッドに比べて大幅な改善を示しています。
ビデオ結果はプロジェクトの Web ページでご覧いただけます: https://excitedbutter.github.io/structional-video-generation/

要約(オリジナル)

Despite the recent strides in video generation, state-of-the-art methods still struggle with elements of visual detail. One particularly challenging case is the class of egocentric instructional videos in which the intricate motion of the hand coupled with a mostly stable and non-distracting environment is necessary to convey the appropriate visual action instruction. To address these challenges, we introduce a new method for instructional video generation. Our diffusion-based method incorporates two distinct innovations. First, we propose an automatic method to generate the expected region of motion, guided by both the visual context and the action text. Second, we introduce a critical hand structure loss to guide the diffusion model to focus on smooth and consistent hand poses. We evaluate our method on augmented instructional datasets based on EpicKitchens and Ego4D, demonstrating significant improvements over state-of-the-art methods in terms of instructional clarity, especially of the hand motion in the target region, across diverse environments and actions. Video results can be found on the project webpage: https://excitedbutter.github.io/Instructional-Video-Generation/

arxiv情報

著者 Yayuan Li,Zhi Cao,Jason J. Corso
発行日 2024-12-09 16:45:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク