要約
Kwai や TikTok などの短編 UGC ビデオ プラットフォームは、新興のかけがえのない主流メディア形式であり、ユーザー フレンドリーなエンゲージメントや万華鏡の作成などで繁栄しています。しかし、特殊効果や特殊効果などのコンテンツ生成モードの進歩により、
アーティファクト除去などの高度な処理ワークフローにより、最近の UGC ビデオ品質評価に重大な課題が生じています。(i) あいまいなコンテンツにより、品質が決定された領域の特定が妨げられます。
(ii) 多様で複雑なハイブリッド歪みを区別するのは困難です。
上記の課題に取り組み、短編ビデオの開発を支援するために、私たちは、KVQ と呼ばれる品質評価用の初の大規模カレイドスコープ短編ビデオ データベースを構築しました。このデータベースは、ユーザーがアップロードした 600 の短編ビデオと、さまざまな実践的なプロセスを通じて処理された 3,600 のビデオで構成されています。
前処理、トランスコーディング、拡張などの処理ワークフロー。
その中で、各ビデオの絶対的な品質スコアと、区別できないサンプル間の部分的なランキング スコアは、画像処理を専門とする専門の研究者チームによって提供されます。
このデータベースに基づいて、最初の短い形式のビデオ品質評価器、つまり KSVQE を提案します。これにより、品質評価器は、ラージ ビジョン言語モデル (つまり、CLIP) のコンテンツ理解により品質で決定されたセマンティクスを識別し、歪みを区別できます。
歪み理解モジュールを使用します。
実験結果は、当社の KVQ データベースおよび一般的な VQA データベースに対する KSVQE の有効性を示しています。
要約(オリジナル)
Short-form UGC video platforms, like Kwai and TikTok, have been an emerging and irreplaceable mainstream media form, thriving on user-friendly engagement, and kaleidoscope creation, etc. However, the advancing content-generation modes, e.g., special effects, and sophisticated processing workflows, e.g., de-artifacts, have introduced significant challenges to recent UGC video quality assessment: (i) the ambiguous contents hinder the identification of quality-determined regions. (ii) the diverse and complicated hybrid distortions are hard to distinguish. To tackle the above challenges and assist in the development of short-form videos, we establish the first large-scale Kaleidoscope short Video database for Quality assessment, termed KVQ, which comprises 600 user-uploaded short videos and 3600 processed videos through the diverse practical processing workflows, including pre-processing, transcoding, and enhancement. Among them, the absolute quality score of each video and partial ranking score among indistinguishable samples are provided by a team of professional researchers specializing in image processing. Based on this database, we propose the first short-form video quality evaluator, i.e., KSVQE, which enables the quality evaluator to identify the quality-determined semantics with the content understanding of large vision language models (i.e., CLIP) and distinguish the distortions with the distortion understanding module. Experimental results have shown the effectiveness of KSVQE on our KVQ database and popular VQA databases.
arxiv情報
| 著者 | Yiting Lu,Xin Li,Yajing Pei,Kun Yuan,Qizhi Xie,Yunpeng Qu,Ming Sun,Chao Zhou,Zhibo Chen | 
| 発行日 | 2024-02-20 12:56:34+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
