Neuro-Symbolic Evaluation of Text-to-Video Models using Formal Verification

要約

Sora、Gen-3、MovieGen、CogVideoXなど、テキストから動画への変換モデルの最近の進歩は、ロボット工学、自律走行、エンターテイメントなどの分野で採用され、合成動画生成の限界を押し広げつつある。これらのモデルが普及するにつれて、生成された動画の品質を評価するためのさまざまなメトリクスやベンチマークが登場している。しかし、これらの指標は、視覚的品質と滑らかさを強調し、安全性が重要なアプリケーションにとって重要な時間的忠実性とテキストと映像の整合を軽視している。このギャップに対処するため、我々はニューロシンボリック形式検証技術を用いてテキストと映像のアライメントを厳密に評価する新しい合成映像評価指標NeuS-Vを紹介する。我々のアプローチは、まずプロンプトを正式に定義された時間論理(TL)仕様に変換し、生成されたビデオをオートマトン表現に変換する。次に、ビデオのオートマトンをTL仕様と形式的に照合することで、テキストからビデオへのアライメントを評価する。さらに、時間的に拡張されたプロンプトのデータセットを提示し、我々のベンチマークに対する最新のビデオ生成モデルを評価する。その結果、NeuS-Vは既存の評価指標と比較して、人間の評価と5倍以上の高い相関を示すことがわかった。さらに、我々の評価により、現在のビデオ生成モデルは、このような時間的に複雑なプロンプトに対して性能が低いことが明らかになり、テキストからビデオへの生成能力を向上させるための今後の研究の必要性が浮き彫りになった。

要約(オリジナル)

Recent advancements in text-to-video models such as Sora, Gen-3, MovieGen, and CogVideoX are pushing the boundaries of synthetic video generation, with adoption seen in fields like robotics, autonomous driving, and entertainment. As these models become prevalent, various metrics and benchmarks have emerged to evaluate the quality of the generated videos. However, these metrics emphasize visual quality and smoothness, neglecting temporal fidelity and text-to-video alignment, which are crucial for safety-critical applications. To address this gap, we introduce NeuS-V, a novel synthetic video evaluation metric that rigorously assesses text-to-video alignment using neuro-symbolic formal verification techniques. Our approach first converts the prompt into a formally defined Temporal Logic (TL) specification and translates the generated video into an automaton representation. Then, it evaluates the text-to-video alignment by formally checking the video automaton against the TL specification. Furthermore, we present a dataset of temporally extended prompts to evaluate state-of-the-art video generation models against our benchmark. We find that NeuS-V demonstrates a higher correlation by over 5x with human evaluations when compared to existing metrics. Our evaluation further reveals that current video generation models perform poorly on these temporally complex prompts, highlighting the need for future work in improving text-to-video generation capabilities.

arxiv情報

著者 S. P. Sharan,Minkyu Choi,Sahil Shah,Harsh Goel,Mohammad Omama,Sandeep Chinchali
発行日 2024-12-03 18:56:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク