Dual-Branch Network for Portrait Image Quality Assessment

要約

ポートレート画像は通常、さまざまな背景を背景にした際立った人物で構成されます。
モバイルデバイスと画像処理技術の発展により、ユーザーはいつでもどこでも簡単にポートレート画像を撮影できるようになりました。
ただし、これらのポートレートの品質は、不利な環境条件、標準以下の撮影技術、および劣悪な撮影デバイスによって引き起こされる劣化の影響を受ける可能性があります。
この論文では、ポートレート画像の顕著な人物と背景がその視覚的な品質にどのように影響するかを効果的に対処できる、ポートレート画像品質評価 (PIQA) のためのデュアルブランチ ネットワークを紹介します。
具体的には、2 つのバックボーン ネットワーク (\textit{つまり、} Swin Transformer-B) を利用して、ポートレート画像全体とそこから切り取られた顔画像から品質を意識した特徴を抽出します。
バックボーンの品質を意識した特徴表現を強化するために、大規模なビデオ品質評価データセット LSVQ と大規模な顔画像品質評価データセット GFIQA でバックボーンを事前トレーニングします。
さらに、画像シーン分類および品質評価モデルである LIQE を利用して、品質を意識したシーン固有の機能を補助機能としてキャプチャします。
最後に、これらの特徴を連結し、多重認識層 (MLP) を介して品質スコアに回帰します。
ポートレート画質評価データセット PIQ の品質スコアの不一致を軽減するために、忠実度損失を使用してランク付け学習方式でモデルをトレーニングします。
実験結果は、提案されたモデルが PIQ データセットで優れたパフォーマンスを達成することを実証し、その有効性を検証します。
コードは \url{https://github.com/sunwei925/DN-PIQA.git} で入手できます。

要約(オリジナル)

Portrait images typically consist of a salient person against diverse backgrounds. With the development of mobile devices and image processing techniques, users can conveniently capture portrait images anytime and anywhere. However, the quality of these portraits may suffer from the degradation caused by unfavorable environmental conditions, subpar photography techniques, and inferior capturing devices. In this paper, we introduce a dual-branch network for portrait image quality assessment (PIQA), which can effectively address how the salient person and the background of a portrait image influence its visual quality. Specifically, we utilize two backbone networks (\textit{i.e.,} Swin Transformer-B) to extract the quality-aware features from the entire portrait image and the facial image cropped from it. To enhance the quality-aware feature representation of the backbones, we pre-train them on the large-scale video quality assessment dataset LSVQ and the large-scale facial image quality assessment dataset GFIQA. Additionally, we leverage LIQE, an image scene classification and quality assessment model, to capture the quality-aware and scene-specific features as the auxiliary features. Finally, we concatenate these features and regress them into quality scores via a multi-perception layer (MLP). We employ the fidelity loss to train the model via a learning-to-rank manner to mitigate inconsistencies in quality scores in the portrait image quality assessment dataset PIQ. Experimental results demonstrate that the proposed model achieves superior performance in the PIQ dataset, validating its effectiveness. The code is available at \url{https://github.com/sunwei925/DN-PIQA.git}.

arxiv情報

著者 Wei Sun,Weixia Zhang,Yanwei Jiang,Haoning Wu,Zicheng Zhang,Jun Jia,Yingjie Zhou,Zhongpeng Ji,Xiongkuo Min,Weisi Lin,Guangtao Zhai
発行日 2024-05-14 12:43:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク