要約
最近、ユーザー生成コンテンツ (UGC) ビデオが私たちの日常生活に浸透しています。
ただし、撮影機材や技術の制限により、UGC ビデオにはさまざまな劣化が含まれることが多く、視覚的に最も好ましくない影響の 1 つは露出不足です。
したがって、特定の劣化に対処するために、低照度ビデオ強化 (LLVE) などの対応するビデオ強化アルゴリズムが提案されています。
ただし、ビデオ強化アルゴリズムとは異なり、既存のほぼすべてのビデオ品質評価 (VQA) モデルは、包括的な観点からビデオの品質を測定する、具体的ではなく一般的に構築されています。
私たちの知る限り、LLVE アルゴリズムによって強化されたビデオ用に特別に設計された VQA モデルはありません。
この目的を達成するために、まず低照度ビデオ強化品質評価 (LLVE-QA) データセットを構築します。このデータセットでは、254 のオリジナルの低照度ビデオが収集され、8 つの LLVE アルゴリズムを活用して強化され、合計 2,060 のビデオが取得されます。
さらに、LLVEに特化した品質評価モデルLight-VQAを提案します。
より具体的には、低照度強化 VQA では明るさとノイズが最も大きな影響を与えるため、対応する特徴を手作りし、全体の空間情報として深層学習ベースの意味論的特徴と統合します。
時間情報に関しては、ディープラーニングベースの動きの特徴に加えて、ビデオフレーム間の手作りの明るさの一貫性も調査しており、全体の時間情報はそれらの連結です。
その後、空間情報と時間情報が融合されて、品質を意識したビデオ表現が得られます。
広範な実験結果は、当社の Light-VQA が、LLVE-QA および公開データセット上の現在の最先端 (SOTA) に対して最高のパフォーマンスを達成することを示しています。
データセットとコードは https://github.com/wenzhouyidu/Light-VQA でご覧いただけます。
要約(オリジナル)
Recently, Users Generated Content (UGC) videos becomes ubiquitous in our daily lives. However, due to the limitations of photographic equipments and techniques, UGC videos often contain various degradations, in which one of the most visually unfavorable effects is the underexposure. Therefore, corresponding video enhancement algorithms such as Low-Light Video Enhancement (LLVE) have been proposed to deal with the specific degradation. However, different from video enhancement algorithms, almost all existing Video Quality Assessment (VQA) models are built generally rather than specifically, which measure the quality of a video from a comprehensive perspective. To the best of our knowledge, there is no VQA model specially designed for videos enhanced by LLVE algorithms. To this end, we first construct a Low-Light Video Enhancement Quality Assessment (LLVE-QA) dataset in which 254 original low-light videos are collected and then enhanced by leveraging 8 LLVE algorithms to obtain 2,060 videos in total. Moreover, we propose a quality assessment model specialized in LLVE, named Light-VQA. More concretely, since the brightness and noise have the most impact on low-light enhanced VQA, we handcraft corresponding features and integrate them with deep-learning-based semantic features as the overall spatial information. As for temporal information, in addition to deep-learning-based motion features, we also investigate the handcrafted brightness consistency among video frames, and the overall temporal information is their concatenation. Subsequently, spatial and temporal information is fused to obtain the quality-aware representation of a video. Extensive experimental results show that our Light-VQA achieves the best performance against the current State-Of-The-Art (SOTA) on LLVE-QA and public dataset. Dataset and Codes can be found at https://github.com/wenzhouyidu/Light-VQA.
arxiv情報
著者 | Yunlong Dong,Xiaohong Liu,Yixuan Gao,Xunchu Zhou,Tao Tan,Guangtao Zhai |
発行日 | 2023-05-16 15:04:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google