要約
この論文では、ユーザーの指示に従って画像が合成される条件付き画像生成のタスクに焦点を当てています。
このタスクを支える重要な課題は、生成された画像の忠実度と、提供された条件とのセマンティックアライメントの両方を確保することです。
この問題に取り組むために、以前の研究では、事前に訓練されたモデルから派生した監督された知覚損失、つまり報酬モデルを採用して、条件と生成された結果の間の調整を実施しています。
ただし、1つの固有の欠点が観察されます。合成画像の多様性を考慮すると、報酬モデルは通常、トレーニングプロセスを損なう可能性のある新しく生成されたデータに遭遇したときに不正確なフィードバックを提供します。
この制限に対処するために、CTRL-Uと呼ばれる不確実な報酬モデリングを提案します。これには、不確実性の推定と不確実性を意識した正規化を含み、報酬モデルからの不正確なフィードバックの悪影響を減らすように設計されています。
報酬モデル内の固有の認知的不確実性を考えると、同一の条件下で生成された画像でさえ、報酬の損失に比較的大きな矛盾をもたらすことがよくあります。
観察に触発されて、私たちはそのような予測の差異を不確実性指標として明示的に活用します。
不確実性の推定に基づいて、報酬を適応的に修正することにより、モデルトレーニングを正規化します。
特に、不確実性が低い報酬は、より高い損失の重みを受け取りますが、不確実性が高い人は、より大きな変動を可能にするために減少した重みを与えられます。
提案された不確実性の正則化は、一貫性の構築を通じて報酬の微調整を促進します。
広範な実験では、制御性と生成の品質を改善するための方法論の有効性、および多様な条件付きシナリオ全体のスケーラビリティを検証します。
コードはhttps://grenoble-zhang.github.io/ctrl-u-page/で公開されています。
要約(オリジナル)
In this paper, we focus on the task of conditional image generation, where an image is synthesized according to user instructions. The critical challenge underpinning this task is ensuring both the fidelity of the generated images and their semantic alignment with the provided conditions. To tackle this issue, previous studies have employed supervised perceptual losses derived from pre-trained models, i.e., reward models, to enforce alignment between the condition and the generated result. However, we observe one inherent shortcoming: considering the diversity of synthesized images, the reward model usually provides inaccurate feedback when encountering newly generated data, which can undermine the training process. To address this limitation, we propose an uncertainty-aware reward modeling, called Ctrl-U, including uncertainty estimation and uncertainty-aware regularization, designed to reduce the adverse effects of imprecise feedback from the reward model. Given the inherent cognitive uncertainty within reward models, even images generated under identical conditions often result in a relatively large discrepancy in reward loss. Inspired by the observation, we explicitly leverage such prediction variance as an uncertainty indicator. Based on the uncertainty estimation, we regularize the model training by adaptively rectifying the reward. In particular, rewards with lower uncertainty receive higher loss weights, while those with higher uncertainty are given reduced weights to allow for larger variability. The proposed uncertainty regularization facilitates reward fine-tuning through consistency construction. Extensive experiments validate the effectiveness of our methodology in improving the controllability and generation quality, as well as its scalability across diverse conditional scenarios. Codes are publicly available at https://grenoble-zhang.github.io/Ctrl-U-Page/.
arxiv情報
著者 | Guiyu Zhang,Huan-ang Gao,Zijian Jiang,Hao Zhao,Zhedong Zheng |
発行日 | 2025-02-18 17:41:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google