DSPO: Direct Semantic Preference Optimization for Real-World Image Super-Resolution

要約

拡散モデルの最近の進歩により、実際の画像の超​​解像度(Real-ISR)が改善されましたが、既存の方法には人間のフィードバック統合がなく、人間の好みとの不整合の危険性があり、アーティファクト、幻覚、有害なコンテンツ生成につながる可能性があります。
この目的のために、私たちは、人間の好みのアラインメントをReal-ISRに導入する最初の人です。これは、生成された出力と人間の好みのアラインメントを効果的に強化するために、大規模な言語モデルとテキストから画像のタスクで成功裏に適用された手法です。
具体的には、直接選好最適化(DPO)をReal-ISRに導入してアライメントを実現します。DPOは、人間の好みデータセットから直接学習する一般的なアライメント手法として機能します。
それにもかかわらず、高レベルのタスクとは異なり、Real-ISRのピクセルレベルの再構築目標は、DPOの画像レベルの好みと調整することが困難であり、DPOが局所的な異常に過度に敏感であり、発電の品質の低下につながる可能性があります。
この二分法を解決するために、セマンティックガイダンスを組み込むことによりインスタンスレベルの人間の好みを調整するための直接的なセマンティック優先最適化(DSPO)を提案します。これは、2つの戦略を通じてです。
インスタンスレベルの画像。
プラグアンドプレイソリューションとして、DSPOはワンステップとマルチステップの両方のSRフレームワークに非常に効果的であることが証明されています。

要約(オリジナル)

Recent advances in diffusion models have improved Real-World Image Super-Resolution (Real-ISR), but existing methods lack human feedback integration, risking misalignment with human preference and may leading to artifacts, hallucinations and harmful content generation. To this end, we are the first to introduce human preference alignment into Real-ISR, a technique that has been successfully applied in Large Language Models and Text-to-Image tasks to effectively enhance the alignment of generated outputs with human preferences. Specifically, we introduce Direct Preference Optimization (DPO) into Real-ISR to achieve alignment, where DPO serves as a general alignment technique that directly learns from the human preference dataset. Nevertheless, unlike high-level tasks, the pixel-level reconstruction objectives of Real-ISR are difficult to reconcile with the image-level preferences of DPO, which can lead to the DPO being overly sensitive to local anomalies, leading to reduced generation quality. To resolve this dichotomy, we propose Direct Semantic Preference Optimization (DSPO) to align instance-level human preferences by incorporating semantic guidance, which is through two strategies: (a) semantic instance alignment strategy, implementing instance-level alignment to ensure fine-grained perceptual consistency, and (b) user description feedback strategy, mitigating hallucinations through semantic textual feedback on instance-level images. As a plug-and-play solution, DSPO proves highly effective in both one-step and multi-step SR frameworks.

arxiv情報

著者 Miaomiao Cai,Simiao Li,Wei Li,Xudong Huang,Hanting Chen,Jie Hu,Yunhe Wang
発行日 2025-04-21 15:35:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク