SIMPLEMIX: Frustratingly Simple Mixing of Off- and On-policy Data in Language Model Preference Learning

要約

言語モデルを人間の好みに合わせて調整することは、ペアワイズ優先データセットに依存しています。
一部の研究では、オンポリティデータは一貫して優先学習のためにポリティデータを上回ることを示唆していますが、他の研究は、オンポリシーデータの利点がタスク依存性である可能性があることを示しており、相互作用の体系的な調査の必要性を強調しています。
この作業では、onポリティおよびポリシーのデータが好みの最適化に補完的な強みを提供することを示します。オンポリシーデータは、数学やコーディングなどのタスクの推論に特に効果的であり、オフポリシーデータは、創造的な執筆や個人的な推奨事項などのオープンエンドのタスクで優れたパフォーマンスを発揮します。
これらの調査結果に導かれて、Simplemixを紹介します。これは、これら2つのデータソースを混合するだけで、オンポリティとポリティのオフポリシー選好学習の補完的な強さを組み合わせるアプローチです。
多様なタスクとベンチマークにわたる経験的な結果は、Simplemixが言語モデルの調整を大幅に改善することを示しています。
具体的には、SimpleMixは、ALPACA Eval 2.0で平均6.03%増加して、ポリシーDPOおよびオフポリティDPOを改善します。
さらに、HYPOやDPO-MIX-Pなどのオンポリティデータとオフポリティデータを平均3.05%組み合わせるのがはるかに複雑な以前のアプローチよりも優れています。

要約(オリジナル)

Aligning language models with human preferences relies on pairwise preference datasets. While some studies suggest that on-policy data consistently outperforms off -policy data for preference learning, others indicate that the advantages of on-policy data may be task-dependent, highlighting the need for a systematic exploration of their interplay. In this work, we show that on-policy and off-policy data offer complementary strengths in preference optimization: on-policy data is particularly effective for reasoning tasks like math and coding, while off-policy data performs better on open-ended tasks such as creative writing and making personal recommendations. Guided by these findings, we introduce SIMPLEMIX, an approach to combine the complementary strengths of on-policy and off-policy preference learning by simply mixing these two data sources. Our empirical results across diverse tasks and benchmarks demonstrate that SIMPLEMIX substantially improves language model alignment. Specifically, SIMPLEMIX improves upon on-policy DPO and off-policy DPO by an average of 6.03% on Alpaca Eval 2.0. Moreover, it outperforms prior approaches that are much more complex in combining on- and off-policy data, such as HyPO and DPO-Mix-P, by an average of 3.05%.

arxiv情報

著者 Tianjian Li,Daniel Khashabi
発行日 2025-05-05 04:54:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク