要約
画像品質評価(IQA)は、画像の知覚的な視覚品質に焦点を当て、画像の再構築、圧縮、生成などの下流タスクで重要な役割を果たします。
マルチモーダル大手言語モデル(MLLMS)の急速な進歩は、IQAの範囲を大幅に広げ、コンテンツ分析、分解知覚、および数値スコアリングを超えた比較の推論を組み込んだ包括的な画像品質理解に向かって移動しています。
以前のMLLMベースの方法は、通常、解釈可能性を欠く数値スコアを生成するか、大規模な注釈付きデータセットを使用して監視付き微調整(SFT)に大きく依存して記述的評価を提供し、柔軟性と適用性を制限します。
この論文では、グループ相対ポリシー最適化(GRPO)に基づいて構築された強化学習ベースのモデルであるQインサイトを提案します。これは、限られた量の評価スコアと劣化ラベルのみを必要としながら、画質理解のための強力な視覚的推論能力を示しています。
慎重に設計された報酬機能を備えたスコア回帰と分解の知覚タスクを共同で最適化することにより、私たちのアプローチは、パフォーマンスの向上のために相互利益を効果的に活用します。
広範な実験は、Qインサイトが、スコア回帰と分解の知覚タスクの両方で既存の最先端の方法を大幅に上回ることを示していることを示していますが、比較推論タスクに印象的なゼロショット一般化を示します。
コードはhttps://github.com/lwq20020127/q-insightで入手できます。
要約(オリジナル)
Image quality assessment (IQA) focuses on the perceptual visual quality of images, playing a crucial role in downstream tasks such as image reconstruction, compression, and generation. The rapid advancement of multi-modal large language models (MLLMs) has significantly broadened the scope of IQA, moving toward comprehensive image quality understanding that incorporates content analysis, degradation perception, and comparison reasoning beyond mere numerical scoring. Previous MLLM-based methods typically either generate numerical scores lacking interpretability or heavily rely on supervised fine-tuning (SFT) using large-scale annotated datasets to provide descriptive assessments, limiting their flexibility and applicability. In this paper, we propose Q-Insight, a reinforcement learning-based model built upon group relative policy optimization (GRPO), which demonstrates strong visual reasoning capability for image quality understanding while requiring only a limited amount of rating scores and degradation labels. By jointly optimizing score regression and degradation perception tasks with carefully designed reward functions, our approach effectively exploits their mutual benefits for enhanced performance. Extensive experiments demonstrate that Q-Insight substantially outperforms existing state-of-the-art methods in both score regression and degradation perception tasks, while exhibiting impressive zero-shot generalization to comparison reasoning tasks. Code will be available at https://github.com/lwq20020127/Q-Insight.
arxiv情報
著者 | Weiqi Li,Xuanyu Zhang,Shijie Zhao,Yabin Zhang,Junlin Li,Li Zhang,Jian Zhang |
発行日 | 2025-03-28 17:59:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google