2D-DPO: Scaling Direct Preference Optimization with 2-Dimensional Supervision

要約

Direct Preference Optimization (DPO) の最近の進歩により、そのシンプルさと有効性により、Large Language Model (LLM) と人間の好みとの整合性が大幅に強化されました。
しかし、既存の方法は通常、スカラー スコアやランキング報酬を最適化するため、人間の好みの多次元的な性質を見落としています。
この研究では、DPO の優先順位をセグメントとアスペクトの 2 つの次元に拡張することを提案します。
まず、HelpSteer-2D と呼ばれる 2D 監視データセットを紹介します。
セグメントの次元では、応答を文に分割し、各セグメントにスコアを割り当てます。
アスペクトの次元については、応答品質のルーブリックをカバーするいくつかの基準を綿密に設計しています。
2 次元信号をフィードバックとして使用して、全体の目標をマルチセグメントおよびマルチアスペクトの目標に分解する 2D-DPO フレームワークを開発します。
一般的なベンチマークに関する広範な実験により、2D-DPO がスカラーまたは 1 次元の設定に合わせて最適化する方法よりも優れたパフォーマンスを発揮することが実証されました。

要約(オリジナル)

Recent advancements in Direct Preference Optimization (DPO) have significantly enhanced the alignment of Large Language Models (LLMs) with human preferences, owing to its simplicity and effectiveness. However, existing methods typically optimize a scalar score or ranking reward, thereby overlooking the multi-dimensional nature of human preferences. In this work, we propose to extend the preference of DPO to two dimensions: segments and aspects. We first introduce a 2D supervision dataset called HelpSteer-2D. For the segment dimension, we divide the response into sentences and assign scores to each segment. For the aspect dimension, we meticulously design several criteria covering the response quality rubrics. With the 2-dimensional signals as feedback, we develop a 2D-DPO framework, decomposing the overall objective into multi-segment and multi-aspect objectives. Extensive experiments on popular benchmarks demonstrate that 2D-DPO performs better than methods that optimize for scalar or 1-dimensional preferences.

arxiv情報

著者 Shilong Li,Yancheng He,Hui Huang,Xingyuan Bu,Jiaheng Liu,Hangyu Guo,Weixun Wang,Jihao Gu,Wenbo Su,Bo Zheng
発行日 2024-10-25 17:47:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク