要約
微調整されたメディア生成モデルの希望の結果に向けて、生成最適化(Dragon)の分布報酬(Dragon)を提示します。
人間のフィードバック(RLHF)を使用した従来の強化学習または直接選好最適化(DPO)などのペアワイズ優先アプローチと比較して、ドラゴンはより柔軟です。
個々の例またはそれらの分布のいずれかを評価する報酬関数を最適化でき、インスタンスの幅広いスペクトル、インスタンスへの分布、分布への分布の報酬と互換性があります。
この汎用性を活用して、エンコーダーと一連の参照例を選択して、模範的な分布を作成することにより、新しい報酬関数を構築します。
CLAPなどのクロスモダリティエンコーダーが使用される場合、参照例は異なるモダリティ(テキストとオーディオなど)の場合があります。
その後、ドラゴンはオンラインとポリシーの世代を収集し、スコアを獲得して肯定的なデモンストレーションセットとネガティブセットを構築し、2つのセット間のコントラストを活用して報酬を最大化します。
評価のために、カスタムミュージックの美学モデル、CLAPスコア、Vendi Diversity、Frechet Audio Distance(FAD)など、20の異なる報酬関数を使用して、オーディオドメインテキストから音楽への拡散モデルを微調整します。
さらに、複数のFADエンコーダーと参照セットをアブレーションしながら、インスタンスごと(ソングあたり)とフルデータセットのFAD設定を比較します。
20の対象報酬すべてにわたって、ドラゴンは81.45%の平均勝利を達成しています。
さらに、模範セットに基づく報酬機能は、実際に世代を強化し、モデルベースの報酬に匹敵します。
適切な模範セットを使用して、ドラゴンは、人間の好みの注釈をトレーニングすることなく、60.95%の人間が投票した音楽品質の勝利率を達成します。
そのため、ドラゴンは、人間が知覚する品質を向上させるための報酬機能を設計および最適化するための新しいアプローチを示します。
https://ml-dragon.github.io/webのサウンド例。
要約(オリジナル)
We present Distributional RewArds for Generative OptimizatioN (DRAGON), a versatile framework for fine-tuning media generation models towards a desired outcome. Compared with traditional reinforcement learning with human feedback (RLHF) or pairwise preference approaches such as direct preference optimization (DPO), DRAGON is more flexible. It can optimize reward functions that evaluate either individual examples or distributions of them, making it compatible with a broad spectrum of instance-wise, instance-to-distribution, and distribution-to-distribution rewards. Leveraging this versatility, we construct novel reward functions by selecting an encoder and a set of reference examples to create an exemplar distribution. When cross-modality encoders such as CLAP are used, the reference examples may be of a different modality (e.g., text versus audio). Then, DRAGON gathers online and on-policy generations, scores them to construct a positive demonstration set and a negative set, and leverages the contrast between the two sets to maximize the reward. For evaluation, we fine-tune an audio-domain text-to-music diffusion model with 20 different reward functions, including a custom music aesthetics model, CLAP score, Vendi diversity, and Frechet audio distance (FAD). We further compare instance-wise (per-song) and full-dataset FAD settings while ablating multiple FAD encoders and reference sets. Over all 20 target rewards, DRAGON achieves an 81.45% average win rate. Moreover, reward functions based on exemplar sets indeed enhance generations and are comparable to model-based rewards. With an appropriate exemplar set, DRAGON achieves a 60.95% human-voted music quality win rate without training on human preference annotations. As such, DRAGON exhibits a new approach to designing and optimizing reward functions for improving human-perceived quality. Sound examples at https://ml-dragon.github.io/web.
arxiv情報
著者 | Yatong Bai,Jonah Casebeer,Somayeh Sojoudi,Nicholas J. Bryan |
発行日 | 2025-04-21 16:41:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google