Q-Ponder: A Unified Training Pipeline for Reasoning-based Visual Quality Assessment

要約

最近の研究では、マルチモーダルの大手言語モデル(MLLM)が解釈可能な評価を通じて視覚品質を熟練して評価できることが示されています。
ただし、既存のアプローチは通常、品質のスコアリングと推論の説明を、相手最適化目標を持つ個別のタスクとして扱い、トレードオフにつながります。品質の推論の説明に熟達したモデルは、正確なスコア回帰と闘っていますが、スコアに焦点を当てたモデルは解釈性を欠いています。
この制限は、精度と解釈可能性が相互に強化されるべきである視覚的な品質評価におけるMLLMの完全な可能性を妨げます。
これに対処するために、コールドスタートステージと強化学習ベースの微調整段階を含む統一された2段階トレーニングフレームワークを提案します。
具体的には、最初の段階では、エキスパートが設計したプロンプトを介して教師モデルから高品質のデータを蒸留し、エントロピー損失の監督を介して推論機能を初期化します。
第2段階では、スコアリングの精度と推論の一貫性を共同で最適化するために、グループ相対政策最適化(GRPO)を含む新しい報酬を導入します。
これら2つの段階から派生したモデルをQポンダーCIおよびQポンダーとして指定します。
広範な実験では、Qポンダーが品質スコア回帰ベンチマークで最先端(SOTA)パフォーマンスを達成し、クロスドメインデータセットで最大6.5%高いSRCCを提供することが示されています。
さらに、Qポンダーは、教師モデルQWEN-2.5-VL-72Bを含む説明ベースのSOTAモデルを大幅に上回り、特に説明の精度と妥当性において、多様なタスクに対する一般化の可能性を示しています。

要約(オリジナル)

Recent studies demonstrate that multimodal large language models (MLLMs) can proficiently evaluate visual quality through interpretable assessments. However, existing approaches typically treat quality scoring and reasoning descriptions as separate tasks with disjoint optimization objectives, leading to a trade-off: models adept at quality reasoning descriptions struggle with precise score regression, while score-focused models lack interpretability. This limitation hinders the full potential of MLLMs in visual quality assessment, where accuracy and interpretability should be mutually reinforcing. To address this, we propose a unified two-stage training framework comprising a cold-start stage and a reinforcement learning-based fine-tuning stage. Specifically, in the first stage, we distill high-quality data from a teacher model through expert-designed prompts, initializing reasoning capabilities via cross-entropy loss supervision. In the second stage, we introduce a novel reward with Group Relative Policy Optimization (GRPO) to jointly optimize scoring accuracy and reasoning consistency. We designate the models derived from these two stages as Q-Ponder-CI and Q-Ponder. Extensive experiments show that Q-Ponder achieves state-of-the-art (SOTA) performance on quality score regression benchmarks, delivering up to 6.5% higher SRCC on cross-domain datasets. Furthermore, Q-Ponder significantly outperforms description-based SOTA models, including its teacher model Qwen-2.5-VL-72B, particularly in description accuracy and reasonableness, demonstrating the generalization potential over diverse tasks.

arxiv情報

著者 Zhuoxuan Cai,Jian Zhang,Xinbin Yuan,Peng-Tao Jiang,Wenxiang Chen,Bowen Tang,Lujian Yao,Qiyuan Wang,Jinwen Chen,Bo Li
発行日 2025-06-12 16:38:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク