要約
大規模な言語モデル(LLM)を人間の好みに合わせることは、通常、監視されたデータセットでのトレーニングを含む、役立つ安全なAIツールを構築する上で重要なステップです。
直接選好最適化(DPO)などの一般的なアルゴリズムは、人間の注釈に従ってランク付けされたAI生成された応答のペアに依存しています。
応答ペアの注釈プロセスは、人間のバイアスをもたらす可能性があります。
正しい選好データセットを構築することは、アライメントパイプラインの費用のかかる部分です。
LLMSアラインメントの注釈効率と品質を改善するために、REAL:Response EmbeddingベースのLLMSのアラインメントを提案します。LLMSは、応答候補のセットからラベルを付けるためのあまり曖昧な選好ペアを取得することに焦点を当てた高品質のトレーニングデータセットを構築するための戦略です。
私たちの選択プロセスは、プロンプトとは独立して埋め込み応答の類似性に基づいています。これは、オフポリシー設定で選択プロセスを保証し、トレーニング中の類似性を適応的に測定することを避けます。
実世界のデータセットSHP2および合成HH-RLHFベンチマークの実験結果は、異なる応答ペアを選択すると、LLMSの直接アラインメントが強化され、遺伝性標識エラーが減少することが示されています。
異なる応答ペアに合わせたモデルは、対話タスクのより良いマージンと勝利率を取得しました。
私たちの調査結果は、異なるペアに焦点を当てることで、ラベルエラーを減らし、LLMアライメント効率を改善し、アノテーターの作業の最大65ドル\%$を節約できることを示唆しています。
要約(オリジナル)
Aligning large language models (LLMs) to human preferences is a crucial step in building helpful and safe AI tools, which usually involve training on supervised datasets. Popular algorithms such as Direct Preference Optimization (DPO) rely on pairs of AI-generated responses ranked according to human annotation. The response pair annotation process might bring human bias. Building a correct preference dataset is the costly part of the alignment pipeline. To improve annotation efficiency and quality in the LLMs alignment, we propose REAL: Response Embedding-based Alignment for LLMs, a strategy for constructing a high-quality training dataset that focuses on acquiring the less ambiguous preference pairs for labeling out of a set of response candidates. Our selection process is based on the similarity of embedding responses independently of prompts, which guarantees the selection process in an off-policy setting, avoiding adaptively measuring the similarity during the training. Experimental results on real-world dataset SHP2 and synthetic HH-RLHF benchmarks indicate that choosing dissimilar response pairs enhances the direct alignment of LLMs while reducing inherited labeling errors. The model aligned with dissimilar response pairs obtained a better margin and win rate on the dialogue task. Our findings suggest that focusing on distinct pairs can reduce the label error and improve LLM alignment efficiency, saving up to $65\%$ of annotators’ work.
arxiv情報
著者 | Honggen Zhang,Xufeng Zhao,Igor Molybog,June Zhang |
発行日 | 2025-06-04 15:32:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google