AIR: A Systematic Analysis of Annotations, Instructions, and Response Pairs in Preference Dataset

要約

プリファレンス学習は、大規模言語モデル(LLM)を人間の価値観に合わせるために重要であるが、その成功は3つのコアコンポーネントからなる高品質なデータセットにかかっている:Preference(嗜好) 〙注釈、〙指示、〙応答ペア。現在のアプローチはこれらの構成要素を混同しているため、個々の影響が不明瞭になり、体系的な最適化を妨げている。そこで本研究では、各構成要素を系統的に分離・最適化し、その相乗効果を評価する構成要素別分析フレームワーク「AIR」を提案する。厳密な実験を通して、AIRは実用的な原則を明らかにした:アノテーションの単純さ(ポイント単位の生成スコアリング)、命令推論の安定性(LLM間の分散ベースのフィルタリング)、応答ペアの品質(適度なマージン+高い絶対スコア)。これらの原則を組み合わせることで、14k組の高品質なペアを使用した場合でも、ベースライン手法と比較して平均5.3%の改善が得られた。我々の研究は、プリファレンスデータセットの設計をアドホックなスケーリングからコンポーネントを考慮した最適化へとシフトさせ、効率的で再現可能なアライメントの青写真を提供する。

要約(オリジナル)

Preference learning is critical for aligning large language models (LLMs) with human values, yet its success hinges on high-quality datasets comprising three core components: Preference \textbf{A}nnotations, \textbf{I}nstructions, and \textbf{R}esponse Pairs. Current approaches conflate these components, obscuring their individual impacts and hindering systematic optimization. In this work, we propose \textbf{AIR}, a component-wise analysis framework that systematically isolates and optimizes each component while evaluating their synergistic effects. Through rigorous experimentation, AIR reveals actionable principles: annotation simplicity (point-wise generative scoring), instruction inference stability (variance-based filtering across LLMs), and response pair quality (moderate margins + high absolute scores). When combined, these principles yield +5.3 average gains over baseline method, even with only 14k high-quality pairs. Our work shifts preference dataset design from ad hoc scaling to component-aware optimization, offering a blueprint for efficient, reproducible alignment.

arxiv情報

著者 Bingxiang He,Wenbin Zhang,Jiaxi Song,Cheng Qian,Zixuan Fu,Bowen Sun,Ning Ding,Haiwen Hong,Longtao Huang,Hui Xue,Ganqu Cui,Wanxiang Che,Zhiyuan Liu,Maosong Sun
発行日 2025-04-04 17:33:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク