Principled Data Selection for Alignment: The Hidden Risks of Difficult Examples

要約

大規模な言語モデル(LLMS)の整合性は、よりきれいなデータを使用すると、モデル容量と例の難易度との一致を見落とすことがより良い結果が得られることを想定しています。
これに挑戦すると、新しい原則を提案します。優先データの難易度はさまざまであり、モデルの容量を超えることにより、アラインメントを妨げる非常に困難な例です。
体系的な実験を通じて、この原則を3つの重要な調査結果で検証します。(1)アライメント実行全体の一貫した学習順序によって証明されるように、好みの例は難易度が異なります。
(2)4つのLLMと2つのデータセットで、過度に困難な例がパフォーマンスを大幅に低下させます。
(3)モデルの能力は、データ選択とモデル容量の間の重要な関係を強調し、難しい例を処理するためのしきい値を決定します。
この原則に基づいて、選択的なDPOを導入します。これは、非常に難しい例を除去します。
この単純な調整により、Alpacaeval 2ベンチマークのWINベースラインと比較して、Alignment PerformanceがAlpacaeval 2ベンチマークで9〜16%向上し、異なるアルゴリズム調整を伴う一連のDPOバリアントを抑制します。
一緒に、これらの結果は、データの難易度をモデル容量に合わせることの重要性を明らかにし、LLMSのアライメント戦略を改善するための変革的視点を提供します。
コードはhttps://github.com/glorgao/selectivedpoで入手できます。

要約(オリジナル)

The alignment of large language models (LLMs) often assumes that using more clean data yields better outcomes, overlooking the match between model capacity and example difficulty. Challenging this, we propose a new principle: Preference data vary in difficulty, and overly difficult examples hinder alignment, by exceeding the model’s capacity. Through systematic experimentation, we validate this principle with three key findings: (1) preference examples vary in difficulty, as evidenced by consistent learning orders across alignment runs; (2) overly difficult examples significantly degrade performance across four LLMs and two datasets; and (3) the capacity of a model dictates its threshold for handling difficult examples, underscoring a critical relationship between data selection and model capacity. Building on this principle, we introduce Selective DPO, which filters out overly difficult examples. This simple adjustment improves alignment performance by 9-16% in win rates on the AlpacaEval 2 benchmark compared to the DPO baseline, suppressing a series of DPO variants with different algorithmic adjustments. Together, these results illuminate the importance of aligning data difficulty with model capacity, offering a transformative perspective for improving alignment strategies in LLMs. Code is available at https://github.com/glorgao/SelectiveDPO.

arxiv情報

著者 Chengqian Gao,Haonan Li,Liu Liu,Zeke Xie,Peilin Zhao,Zhiqiang Xu
発行日 2025-05-13 18:54:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク