要約
テキスト間(T2V)の生成は、変圧器ベースの拡散モデルによって最近有効になっていますが、現在のT2Vモデルは、時間モデリングにおける物理的リアリズムと欠乏の理解が限られているため、現実世界の共通知識と物理的ルールを順守する能力を欠いています。
既存のソリューションはデータ駆動型か、追加のモデル入力を必要としますが、分散型ドメインに一般化できません。
このホワイトペーパーでは、T2Vプロンプトのチェーンとステップバックの推論を可能にすることにより、現在のT2Vモデルのビデオ生成の機能を拡張する新しいデータに依存しないT2V手法であるPHYT2Vを提示します。
私たちの実験は、PHYT2Vが既存のT2Vモデルの実際の物理的ルールへの順守を2.3倍改善し、T2Vプロンプトエンハンサーと比較して35%の改善を達成することを示しています。
ソースコードは、https://github.com/pittisl/phyt2vで入手できます。
要約(オリジナル)
Text-to-video (T2V) generation has been recently enabled by transformer-based diffusion models, but current T2V models lack capabilities in adhering to the real-world common knowledge and physical rules, due to their limited understanding of physical realism and deficiency in temporal modeling. Existing solutions are either data-driven or require extra model inputs, but cannot be generalizable to out-of-distribution domains. In this paper, we present PhyT2V, a new data-independent T2V technique that expands the current T2V model’s capability of video generation to out-of-distribution domains, by enabling chain-of-thought and step-back reasoning in T2V prompting. Our experiments show that PhyT2V improves existing T2V models’ adherence to real-world physical rules by 2.3x, and achieves 35% improvement compared to T2V prompt enhancers. The source codes are available at: https://github.com/pittisl/PhyT2V.
arxiv情報
著者 | Qiyao Xue,Xiangyu Yin,Boyuan Yang,Wei Gao |
発行日 | 2025-04-01 09:33:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google