要約
ビデオ編集モデルは大幅に進歩しましたが、そのパフォーマンスを評価することは依然として困難です。
CLIP テキストや画像スコアなどの従来の指標では、不十分なことがよくあります。テキスト スコアは不適切なトレーニング データと階層的な依存関係によって制限されますが、画像スコアは時間的一貫性を評価できません。
我々は、最新の視覚言語モデル (VLM)、オブジェクト検出、および時間的一貫性チェックを活用する新しい評価フレームワークである SST-EM (意味的、空間的、および時間的評価メトリクス) を紹介します。
SST-EM は 4 つのコンポーネントで構成されます: (1) VLM を使用したフレームからのセマンティック抽出、(2) オブジェクト検出による主要オブジェクト追跡、(3) LLM エージェントによる焦点を絞ったオブジェクトの洗練、および (4) Vision Transformer を使用した時間的一貫性評価
(ViT)。
これらのコンポーネントは、人間の評価と回帰分析から導出された重みを備えた統一指標に統合されます。
SST-EM という名前は、ビデオ評価の意味的、空間的、時間的側面に焦点を当てていることを反映しています。
SST-EM は、ビデオ編集における意味の忠実性と時間的な滑らかさを包括的に評価します。
ソース コードは \textbf{\href{https://github.com/custommetrics-sst/SST_CustomEvaluationMetrics.git}{GitHub リポジトリ}} で入手できます。
要約(オリジナル)
Video editing models have advanced significantly, but evaluating their performance remains challenging. Traditional metrics, such as CLIP text and image scores, often fall short: text scores are limited by inadequate training data and hierarchical dependencies, while image scores fail to assess temporal consistency. We present SST-EM (Semantic, Spatial, and Temporal Evaluation Metric), a novel evaluation framework that leverages modern Vision-Language Models (VLMs), Object Detection, and Temporal Consistency checks. SST-EM comprises four components: (1) semantic extraction from frames using a VLM, (2) primary object tracking with Object Detection, (3) focused object refinement via an LLM agent, and (4) temporal consistency assessment using a Vision Transformer (ViT). These components are integrated into a unified metric with weights derived from human evaluations and regression analysis. The name SST-EM reflects its focus on Semantic, Spatial, and Temporal aspects of video evaluation. SST-EM provides a comprehensive evaluation of semantic fidelity and temporal smoothness in video editing. The source code is available in the \textbf{\href{https://github.com/custommetrics-sst/SST_CustomEvaluationMetrics.git}{GitHub Repository}}.
arxiv情報
著者 | Varun Biyyala,Bharat Chanderprakash Kathuria,Jialu Li,Youshan Zhang |
発行日 | 2025-01-13 18:37:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google