要約
ビデオ生成における最近の進歩は、特にますます洗練されたモデルの出現により、AIに生成されたコンテンツの評価に大きな課題をもたらしました。
そのようなビデオで観察されるさまざまな矛盾と欠陥は本質的に複雑であり、全体的な得点を困難にしています。
このホワイトペーパーでは、微調整された推論をビデオ評価に統合することの重要な重要性を強調し、$ \ textbf {f} $ ing $ \ textbf {er} $を提案します。
$ \ textbf {r} $スコアを備えたイーソンモデル。これは、その後、さまざまなアプリケーションの全体的なスコアに重み付けされる可能性があります。
具体的には、LLMSを活用して、5つの異なる視点にわたってエンティティレベルの質問を導き出します。これは、(i)コンテンツの特定のエンティティに焦点を当てているため、MLLMSが回答またはスコアリングをより簡単にし、(ii)がより解釈可能になります。
次に、約3.3kのビデオとそれぞれに対応する60kのファイングレインのQAアノテーションで構成される指データセットを作成します。それぞれに詳細な理由があります。
それに基づいて、様々なトレーニングプロトコルをさらに調査して、正解予測のためにMLLMSの推論能力を最大限に活用します。
広範な実験は、コールドスタート戦略を使用してグループ相対ポリシー最適化(GRPO)を使用して訓練された推論モデルが最高のパフォーマンスを達成することを示しています。
特に、私たちのモデルは、既存の方法を、Genai-Benchで$ 11.8 \%$、Monetbenchで5.5 \%$の相対マージンで上回ります。これは、他の方法で使用されるトレーニングサンプルの最大10分の1です。
コードとデータセットはまもなくリリースされます。
要約(オリジナル)
Recent advances in video generation have posed great challenges in the assessment of AI-generated content, particularly with the emergence of increasingly sophisticated models. The various inconsistencies and defects observed in such videos are inherently complex, making overall scoring notoriously difficult. In this paper, we emphasize the critical importance of integrating fine-grained reasoning into video evaluation, and we propose $\textbf{F}$ing$\textbf{ER}$, a novel entity-level reasoning evaluation framework that first automatically generates $\textbf{F}$ine-grained $\textbf{E}$ntity-level questions, and then answers those questions by a $\textbf{R}$easoning model with scores, which can be subsequently weighted summed to an overall score for different applications. Specifically, we leverage LLMs to derive entity-level questions across five distinct perspectives, which (i) often focus on some specific entities of the content, thereby making answering or scoring much easier by MLLMs, and (ii) are more interpretable. Then we construct a FingER dataset, consisting of approximately 3.3k videos and corresponding 60k fine-grained QA annotations, each with detailed reasons. Based on that, we further investigate various training protocols to best incentivize the reasoning capability of MLLMs for correct answer prediction. Extensive experiments demonstrate that a reasoning model trained using Group Relative Policy Optimization (GRPO) with a cold-start strategy achieves the best performance. Notably, our model surpasses existing methods by a relative margin of $11.8\%$ on GenAI-Bench and $5.5\%$ on MonetBench with only 3.3k training videos, which is at most one-tenth of the training samples utilized by other methods. Our code and dataset will be released soon.
arxiv情報
著者 | Rui Chen,Lei Sun,Jing Tang,Geng Li,Xiangxiang Chu |
発行日 | 2025-04-14 16:07:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google