Adaptive Image Quality Assessment via Teaching Large Multimodal Model to Compare

要約

大規模マルチモーダル モデル (LMM) の最近の進歩により、絶対品質評価に基づいた画質評価 (IQA) の能力が大幅に向上しましたが、信頼性の高い相対品質比較出力を連続的な知覚品質スコアに変換する方法はほとんど解明されていません。
このギャップに対処するために、Compare2Score を導入します。これは、LMM ベースの包括的な非参照 IQA (NR-IQA) モデルであり、定性的な比較応答を生成し、これらの離散的な比較レベルを連続的な品質スコアに効果的に変換することができます。
具体的には、トレーニング中に、同じ IQA データセットからの画像を比較することでスケールアップされた比較命令を生成し、多様な IQA データセットをより柔軟に統合できるようにします。
確立された大規模学習コーパスを活用して、人間のような視覚品質比較器を開発します。
推論中に、二者択一を超えて、複数の事前定義されたアンカー画像よりもテスト画像が優先される可能性を計算するソフト比較方法を提案します。
品質スコアは、結果の確率行列を使用した最大事後推定によってさらに最適化されます。
9 つの IQA データセットに対する広範な実験により、Compare2Score が、トレーニング中にテキストで定義された比較レベルを、推論用に変換された単一の画質スコアで効果的に橋渡しし、さまざまなシナリオにわたって最先端の IQA モデルを上回ることが検証されました。
さらに、確率行列ベースの推論変換が Compare2Score の評価精度を向上させるだけでなく、ゼロショット汎用 LMM も向上させることを検証し、その本質的な有効性を示唆しています。

要約(オリジナル)

While recent advancements in large multimodal models (LMMs) have significantly improved their abilities in image quality assessment (IQA) relying on absolute quality rating, how to transfer reliable relative quality comparison outputs to continuous perceptual quality scores remains largely unexplored. To address this gap, we introduce Compare2Score-an all-around LMM-based no-reference IQA (NR-IQA) model, which is capable of producing qualitatively comparative responses and effectively translating these discrete comparative levels into a continuous quality score. Specifically, during training, we present to generate scaled-up comparative instructions by comparing images from the same IQA dataset, allowing for more flexible integration of diverse IQA datasets. Utilizing the established large-scale training corpus, we develop a human-like visual quality comparator. During inference, moving beyond binary choices, we propose a soft comparison method that calculates the likelihood of the test image being preferred over multiple predefined anchor images. The quality score is further optimized by maximum a posteriori estimation with the resulting probability matrix. Extensive experiments on nine IQA datasets validate that the Compare2Score effectively bridges text-defined comparative levels during training with converted single image quality score for inference, surpassing state-of-the-art IQA models across diverse scenarios. Moreover, we verify that the probability-matrix-based inference conversion not only improves the rating accuracy of Compare2Score but also zero-shot general-purpose LMMs, suggesting its intrinsic effectiveness.

arxiv情報

著者 Hanwei Zhu,Haoning Wu,Yixuan Li,Zicheng Zhang,Baoliang Chen,Lingyu Zhu,Yuming Fang,Guangtao Zhai,Weisi Lin,Shiqi Wang
発行日 2024-05-29 17:26:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク