2D-Curri-DPO: Two-Dimensional Curriculum Learning for Direct Preference Optimization

要約

大規模な言語モデルを人間の好みに合わせることは、安全な展開に不可欠です。
直接選好最適化(DPO)は、人間のフィードバックからの強化学習の効率的な代替手段を提供しますが、従来のDPO方法は、単一の優先ペアに依存することによって制限されます。
カリキュラムDPOのような最近の研究は、ペアワイズの識別性(PD)に基づいて1次元難易度カリキュラムを使用して複数のペアを統合しますが、入力プロンプト自体の複雑さを見落としています。
これに対処するために、迅速な複雑さ(PC)とペアワイズの区別可能性を共同でモデル化する2次元カリキュラムを採用する新しいフレームワークである2D-Curri-DPOを提案します。
このフレームワークは、迅速なセマンティックの複雑さと応答の好みの明確さを定量化するための二重難易度メトリックを導入し、タスク適応のための複数の選択可能な戦略を含むカリキュラム戦略スペースを定義し、トレーニングの安定性を高めるための動的参照モデル更新のためのKLダイバージェンスベースの適応メカニズムを組み込みます。
包括的な実験は、2D-CURRI-DPOが、MTベンチ、Vicuna Bench、Wizardlmを含む複数のベンチマークにわたって標準のDPOおよび以前のカリキュラム方法を大幅に上回ることを示しています。
私たちのアプローチは、Ultrafeedbackのような挑戦的なテストセットで最先端のパフォーマンスを達成しています。
アブレーション研究は、2D構造と適応メカニズムの利点を確認し、分析は戦略選択のガイダンスを提供します。
これらの調査結果は、効果的なアライメントには、迅速な複雑さとペアワイズの区別可能性の両方をモデリングする必要があることを示しており、適応性のある多次元カリキュラム学習を、好みベースの言語モデルの最適化のための強力で解釈可能な新しいパラダイムとして確立します。

要約(オリジナル)

Aligning large language models with human preferences is crucial for their safe deployment. While Direct Preference Optimization (DPO) offers an efficient alternative to reinforcement learning from human feedback, traditional DPO methods are limited by their reliance on single preference pairs. Recent work like Curriculum-DPO integrates multiple pairs using a one-dimensional difficulty curriculum based on pairwise distinguishability (PD), but overlooks the complexity of the input prompt itself. To address this, we propose 2D-Curri-DPO, a novel framework employing a two-dimensional curriculum that jointly models Prompt Complexity (PC) and Pairwise Distinguishability. This framework introduces dual difficulty metrics to quantify prompt semantic complexity and response preference clarity, defines a curriculum strategy space encompassing multiple selectable strategies for task adaptation, and incorporates a KL-divergence-based adaptive mechanism for dynamic reference model updates to enhance training stability. Comprehensive experiments demonstrate that 2D-Curri-DPO significantly outperforms standard DPO and prior curriculum methods across multiple benchmarks, including MT-Bench, Vicuna Bench, and WizardLM. Our approach achieves state-of-the-art performance on challenging test sets like UltraFeedback. Ablation studies confirm the benefits of the 2D structure and adaptive mechanisms, while analysis provides guidance for strategy selection. These findings demonstrate that effective alignment requires modeling both prompt complexity and pairwise distinguishability, establishing adaptive, multi-dimensional curriculum learning as a powerful and interpretable new paradigm for preference-based language model optimization.

arxiv情報

著者 Mengyang Li,Zhong Zhang
発行日 2025-04-10 15:32:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク