要約
ビデオ生成の最近の進歩にもかかわらず、物理的法則を順守するビデオの制作は依然として大きな課題です。
従来の拡散ベースの方法は、データ駆動型の近似に依存しているため、目に見えない物理的条件(速度)に外挿するのに苦労しています。
これに対処するために、ビデオ生成における物理的な一貫性を実施するために、象徴的な推論と強化学習を統合することを提案します。
最初に、拡散プロセス中に失われた視覚属性を回復することにより、離散的で再帰的な視覚トークンを学習する拡散タイムステップトークン剤(DDT)を紹介します。
再帰的な視覚トークンは、大規模な言語モデルによる象徴的な推論を可能にします。
それに基づいて、2つの段階で構成されるPhys-ARフレームワークを提案します。最初の段階では、監視された微調整を使用して象徴的な知識を転送しますが、第2段階では、物理的条件に基づいた報酬機能を通じてモデルの推論能力を最適化するために強化学習を適用します。
私たちのアプローチにより、モデルは生成されたビデオの物理的特性を動的に調整および改善し、物理法則を順守することができます。
実験結果は、物理学が物理的に一貫性のあるビデオを生成できることを示しています。
要約(オリジナル)
Despite recent progress in video generation, producing videos that adhere to physical laws remains a significant challenge. Traditional diffusion-based methods struggle to extrapolate to unseen physical conditions (eg, velocity) due to their reliance on data-driven approximations. To address this, we propose to integrate symbolic reasoning and reinforcement learning to enforce physical consistency in video generation. We first introduce the Diffusion Timestep Tokenizer (DDT), which learns discrete, recursive visual tokens by recovering visual attributes lost during the diffusion process. The recursive visual tokens enable symbolic reasoning by a large language model. Based on it, we propose the Phys-AR framework, which consists of two stages: The first stage uses supervised fine-tuning to transfer symbolic knowledge, while the second stage applies reinforcement learning to optimize the model’s reasoning abilities through reward functions based on physical conditions. Our approach allows the model to dynamically adjust and improve the physical properties of generated videos, ensuring adherence to physical laws. Experimental results demonstrate that PhysAR can generate videos that are physically consistent.
arxiv情報
著者 | Wang Lin,Liyu Jia,Wentao Hu,Kaihang Pan,Zhongqi Yue,Wei Zhao,Jingyuan Chen,Fei Wu,Hanwang Zhang |
発行日 | 2025-04-22 14:20:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google