Preference-grounded Token-level Guidance for Language Model Fine-tuning

要約

言語モデル (LM) を好みに合わせて調整することは、自然言語生成における重要な問題です。
主な課題は、プリファレンスが通常シーケンス レベルで提供されるのに対し、LM トレーニングと生成は両方ともトークン レベルで行われることです。
したがって、好みと LM トレーニング損失の間に粒度の不一致があり、学習の問題が複雑になる可能性があります。
この論文では、代替トレーニング プロセスを開発することでこの問題に対処します。このプロセスでは、シーケンス レベルの優先順位をトークン レベルのトレーニング ガイダンスに根付かせることと、学習したガイダンスを使用して LM を改善することを繰り返します。
ガイダンス学習については、模倣学習におけるペアワイズ優先学習を可変長LM生成と複数世代間の優先利用の両方に拡張するフレームワークを設計します。
LM トレーニングでは、教師付きデータの量に基づいて、学習したガイダンスを利用する 2 つの最小限の学習目標を提示します。
実験では、私たちの方法は、離散プロンプト生成とテキスト要約という 2 つの異なる代表的な LM タスクで競合的に実行されます。

要約(オリジナル)

Aligning language models (LMs) with preferences is an important problem in natural language generation. A key challenge is that preferences are typically provided at the sequence level while LM training and generation both occur at the token level. There is, therefore, a granularity mismatch between the preference and the LM training losses, which may complicate the learning problem. In this paper, we address this issue by developing an alternate training process, where we iterate between grounding the sequence-level preference into token-level training guidance, and improving the LM with the learned guidance. For guidance learning, we design a framework that extends the pairwise-preference learning in imitation learning to both variable-length LM generation and the utilization of the preference among multiple generations. For LM training, based on the amount of supervised data, we present two minimalist learning objectives that utilize the learned guidance. In experiments, our method performs competitively on two distinct representative LM tasks — discrete-prompt generation and text summarization.

arxiv情報

著者 Shentao Yang,Shujian Zhang,Congying Xia,Yihao Feng,Caiming Xiong,Mingyuan Zhou
発行日 2025-01-08 06:35:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク