要約
拡散モデルは、複数のドメインで最先端のパフォーマンスを達成しており、最近の進歩により個別のデータへの適用性が拡大されています。
ただし、特に明示的な報酬機能が利用できないシナリオでは、タスク固有の好みを持つ離散拡散モデルを調整することは依然として困難です。
この作業では、連続時間マルコフチェーンとして定式化された離散拡散モデルへの直接選好最適化(DPO)の最初の適応である離散拡散DPO(D2-DPO)を紹介します。
私たちのアプローチは、参照分布に忠実度を維持しながら、優先データを使用して生成プロセスを直接微調整する新しい損失関数を導き出します。
構造化されたバイナリシーケンス生成タスクでD2-DPOを検証し、構造の妥当性を維持しながら、メソッドがモデル出力を好みに効果的に整列させることを実証します。
私たちの結果は、D2-DPOが明示的な報酬モデルを必要とせずに制御された微調整を可能にし、補強学習ベースのアプローチの実用的な代替手段とすることを強調しています。
将来の研究では、言語モデリングやタンパク質シーケンス生成など、D2-DPOをより複雑な生成タスクに拡張すること、および均一なノイズなどの代替ノイズスケジュールを調査して、さまざまなアプリケーションの柔軟性を高めることを調査します。
要約(オリジナル)
Diffusion models have achieved state-of-the-art performance across multiple domains, with recent advancements extending their applicability to discrete data. However, aligning discrete diffusion models with task-specific preferences remains challenging, particularly in scenarios where explicit reward functions are unavailable. In this work, we introduce Discrete Diffusion DPO (D2-DPO), the first adaptation of Direct Preference Optimization (DPO) to discrete diffusion models formulated as continuous-time Markov chains. Our approach derives a novel loss function that directly fine-tunes the generative process using preference data while preserving fidelity to a reference distribution. We validate D2-DPO on a structured binary sequence generation task, demonstrating that the method effectively aligns model outputs with preferences while maintaining structural validity. Our results highlight that D2-DPO enables controlled fine-tuning without requiring explicit reward models, making it a practical alternative to reinforcement learning-based approaches. Future research will explore extending D2-DPO to more complex generative tasks, including language modeling and protein sequence generation, as well as investigating alternative noise schedules, such as uniform noising, to enhance flexibility across different applications.
arxiv情報
著者 | Umberto Borso,Davide Paglieri,Jude Wells,Tim Rocktäschel |
発行日 | 2025-04-09 14:34:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google