要約
DeepSeek-R1は、強化学習を通じて、大きな言語モデル(LLMS)の推論と一般化能力を奨励する際に顕著な有効性を実証しています。
それにもかかわらず、推論による計算モデリングの可能性は、視覚的推論に大きく依存するタスクである画質評価(IQA)のコンテキストでは徹底的に調査されていません。
このホワイトペーパーでは、推論誘発された非参照IQA(NR-IQA)モデルであるVisualQuality-R1を紹介し、視覚的品質の本質的に相対的な性質に合わせた学習アルゴリズムであるランク付けの補強学習で訓練します。
具体的には、画像のペアについては、グループの相対的なポリシーの最適化を採用して、各画像の複数の品質スコアを生成します。
これらの推定値は、サーストーンモデルの下で他の画像よりも高い品質を持つ1つの画像の比較確率を計算するために使用されます。
各品質推定に対する報酬は、離散化されたバイナリラベルではなく、連続忠実度の測定を使用して定義されます。
広範な実験は、提案された視覚品質R1が差別的な深い学習ベースのNR-IQAモデルと最近の推論誘発性品質回帰法を常に上回ることを示しています。
さらに、視覚品質R1は、文脈的に豊富で人間に整合した品質の説明を生成することができ、知覚スケールの再編成を必要とせずにマルチダタセットトレーニングをサポートします。
これらの機能により、Super-ResolutionやImage Generationなどの幅広い画像処理タスクの進捗状況を確実に測定するのに特に適しています。
要約(オリジナル)
DeepSeek-R1 has demonstrated remarkable effectiveness in incentivizing reasoning and generalization capabilities of large language models (LLMs) through reinforcement learning. Nevertheless, the potential of reasoning-induced computational modeling has not been thoroughly explored in the context of image quality assessment (IQA), a task critically dependent on visual reasoning. In this paper, we introduce VisualQuality-R1, a reasoning-induced no-reference IQA (NR-IQA) model, and we train it with reinforcement learning to rank, a learning algorithm tailored to the intrinsically relative nature of visual quality. Specifically, for a pair of images, we employ group relative policy optimization to generate multiple quality scores for each image. These estimates are then used to compute comparative probabilities of one image having higher quality than the other under the Thurstone model. Rewards for each quality estimate are defined using continuous fidelity measures rather than discretized binary labels. Extensive experiments show that the proposed VisualQuality-R1 consistently outperforms discriminative deep learning-based NR-IQA models as well as a recent reasoning-induced quality regression method. Moreover, VisualQuality-R1 is capable of generating contextually rich, human-aligned quality descriptions, and supports multi-dataset training without requiring perceptual scale realignment. These features make VisualQuality-R1 especially well-suited for reliably measuring progress in a wide range of image processing tasks like super-resolution and image generation.
arxiv情報
著者 | Tianhe Wu,Jian Zou,Jie Liang,Lei Zhang,Kede Ma |
発行日 | 2025-05-20 14:56:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google