Descriptive Image Quality Assessment in the Wild

要約

ビジョン言語モデル (VLM) の急速な進歩に伴い、VLM ベースの画質評価 (IQA) は、人間の表現に合わせて画質を言語的に記述し、IQA タスクの多面的な性質を捉えることを目指しています。
しかし、現状の手法は実用化には程遠い。
第一に、これまでの研究は特定のサブタスクや設定に焦点を絞っており、現実世界の多様なアプリケーションと一致していません。
第 2 に、データセットの適用範囲、規模、品質に制限があるため、パフォーマンスが最適とは言えません。
これらの課題を克服するために、Depicted image Quality Assessment in the Wild (DepictQA-Wild) を導入します。
私たちの方法には、評価タスクと比較タスク、簡潔な応答と詳細な応答、完全な参照シナリオと非参照シナリオの両方を含む多機能 IQA タスク パラダイムが含まれています。
データ品質を向上させるために、グラウンドトゥルースに基づいたデータセット構築アプローチを導入し、ブリーフ詳細結合フレームワークの下でデータセットを 495K までスケールアップします。
その結果、私たちは DQ-495K と名付けられた、包括的で大規模かつ高品質なデータセットを構築しました。
また、解像度関連の品質問題をより適切に処理するために、トレーニング中に画像の解像度を維持し、低品質の応答を除外するのに役立つ信頼スコアを推定します。
実験結果は、DepictQA-Wild が、歪みの特定、即時評価、および推論タスクにおいて、従来のスコアベースの方法、以前の VLM ベースの IQA モデル、および独自の GPT-4V よりも大幅に優れていることを示しています。
私たちの利点は、Web からダウンロードした画像の評価やモデル処理された画像のランク付けなど、実際のアプリケーションによってさらに確認されます。
データセットとコードは https://depictqa.github.io/depictqa-wild/ でリリースされます。

要約(オリジナル)

With the rapid advancement of Vision Language Models (VLMs), VLM-based Image Quality Assessment (IQA) seeks to describe image quality linguistically to align with human expression and capture the multifaceted nature of IQA tasks. However, current methods are still far from practical usage. First, prior works focus narrowly on specific sub-tasks or settings, which do not align with diverse real-world applications. Second, their performance is sub-optimal due to limitations in dataset coverage, scale, and quality. To overcome these challenges, we introduce Depicted image Quality Assessment in the Wild (DepictQA-Wild). Our method includes a multi-functional IQA task paradigm that encompasses both assessment and comparison tasks, brief and detailed responses, full-reference and non-reference scenarios. We introduce a ground-truth-informed dataset construction approach to enhance data quality, and scale up the dataset to 495K under the brief-detail joint framework. Consequently, we construct a comprehensive, large-scale, and high-quality dataset, named DQ-495K. We also retain image resolution during training to better handle resolution-related quality issues, and estimate a confidence score that is helpful to filter out low-quality responses. Experimental results demonstrate that DepictQA-Wild significantly outperforms traditional score-based methods, prior VLM-based IQA models, and proprietary GPT-4V in distortion identification, instant rating, and reasoning tasks. Our advantages are further confirmed by real-world applications including assessing the web-downloaded images and ranking model-processed images. Datasets and codes will be released in https://depictqa.github.io/depictqa-wild/.

arxiv情報

著者 Zhiyuan You,Jinjin Gu,Zheyuan Li,Xin Cai,Kaiwen Zhu,Chao Dong,Tianfan Xue
発行日 2024-06-12 16:42:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク