Enable Language Models to Implicitly Learn Self-Improvement From Data

要約

大規模言語モデル (LLM) は、オープンエンドのテキスト生成タスクにおいて優れた機能を実証しています。
ただし、これらのタスクの本質的な制限のない性質は、モデル応答の品質には常に改善の余地があることを意味します。
この課題に対処するために、LLM のパフォーマンスを向上させるさまざまなアプローチが提案されています。
LLM が応答品質を自己改善できるようにすることへの注目が高まっており、それによって多様で高品質のトレーニング データを収集するための大規模な人によるアノテーションへの依存を軽減できます。
最近、プロンプトベースの方法は、その有効性、効率性、利便性により、自己改善方法の中で広く検討されています。
ただし、これらの方法では通常、LLM への入力として明示的かつ徹底的に書かれたルーブリックが必要です。
現実世界の複雑な改善目標(たとえば、より有益で有害性が低いもの)を備えた必要なルーブリックをすべて手動で導出して提供するのは、費用がかかり、困難です。
この目的を達成するために、人間の嗜好データから改善目標を暗黙的に学習する ImPlicit Self- Improvementment (PIT) フレームワークを提案します。
PIT に必要なのは、人間による余分な労力を必要とせずに報酬モデルをトレーニングするために使用される嗜好データのみです。
具体的には、ヒューマン フィードバックからの強化学習 (RLHF) のトレーニング目標を再定式化します。特定の入力に対する応答品質を最大化するのではなく、参照応答を条件とした応答の品質ギャップを最大化します。
このようにして、PIT は人間の好みに合わせて調整するという改善目標を持って暗黙的にトレーニングされます。
2 つの現実世界のデータセットと 1 つの合成データセットでの実験では、私たちの方法がプロンプトベースの方法よりも大幅に優れていることがわかりました。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable capabilities in open-ended text generation tasks. However, the inherent open-ended nature of these tasks implies that there is always room for improvement in the quality of model responses. To address this challenge, various approaches have been proposed to enhance the performance of LLMs. There has been a growing focus on enabling LLMs to self-improve their response quality, thereby reducing the reliance on extensive human annotation efforts for collecting diverse and high-quality training data. Recently, prompting-based methods have been widely explored among self-improvement methods owing to their effectiveness, efficiency, and convenience. However, those methods usually require explicitly and thoroughly written rubrics as inputs to LLMs. It is expensive and challenging to manually derive and provide all necessary rubrics with a real-world complex goal for improvement (e.g., being more helpful and less harmful). To this end, we propose an ImPlicit Self-ImprovemenT (PIT) framework that implicitly learns the improvement goal from human preference data. PIT only requires preference data that are used to train reward models without extra human efforts. Specifically, we reformulate the training objective of reinforcement learning from human feedback (RLHF) — instead of maximizing response quality for a given input, we maximize the quality gap of the response conditioned on a reference response. In this way, PIT is implicitly trained with the improvement goal of better aligning with human preferences. Experiments on two real-world datasets and one synthetic dataset show that our method significantly outperforms prompting-based methods.

arxiv情報

著者 Ziqi Wang,Le Hou,Tianjian Lu,Yuexin Wu,Yunxuan Li,Hongkun Yu,Heng Ji
発行日 2023-10-05 22:34:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク