Reasons to Reject? Aligning Language Models with Judgments

要約

人間として、私たちは常に仲間と対話し、自然言語の形でフィードバックを受け取ります。
この言語フィードバックにより、適切な動作を維持し、潜在的なエラーを修正することができます。
「言語フィードバックを使用して大規模言語モデル (LLM) を調整できるか?」という疑問が自然に生じます。
LLM をスカラー報酬と整合させる以前の研究とは対照的に、我々は、言語フィードバック (つまり、判断) のレンズを通した整合の最初の体系的な探求を提示します。
私たちは、LLM と判断を一致させるために適用できる可能性のある方法の詳細な調査から開始し、これらの方法では判断を完全に活用できないことを明らかにします。
判断のより効果的な活用を促進するために、判断に基づいてきめ細かい不適切なコンテンツの検出と修正を可能にする新しいフレームワークである Contrastive Likelihood Training (CUT) を提案します。
私たちの結果は、わずか 1317 の既製の判定データで、CUT (LLaMA2-13b) が 175B DaVinci003 を破り、AlpacaEval の最高のベースラインを 48.51 ポイント上回ることができることを示しています。
CUT (LLaMA2-chat-13b) は、最新のモデル固有の判断を使用して反復的に LLM を調整することもでき、AlpacaEval でのパフォーマンスが 81.09 ポイントから 91.68 ポイントに向上します。
さらに分析を進めると、LLM の調整においては、判断が報酬よりも大きな可能性を秘めていることが示唆されています。

要約(オリジナル)

As humans, we consistently interact with our peers and receive feedback in the form of natural language. This language feedback allows us to maintain appropriate behavior, and rectify potential errors. The question arises naturally: can we use language feedback to align large language models (LLMs)? In contrast to previous research that aligns LLMs with scalar rewards, we present the first systematic exploration of alignment through the lens of language feedback (i.e., judgment). We start with an in-depth investigation of potential methods that can be adapted for aligning LLMs with judgments, revealing that these methods cannot fully capitalize on judgments. To facilitate more effective utilization of judgments, we propose a novel framework, Contrastive Unlikelihood Training (CUT), that allows for fine-grained inappropriate content detection and correction based on judgments. Our results show that, with merely 1317 off-the-shelf judgment data, CUT (LLaMA2-13b) can beat the 175B DaVinci003 and surpass the best baseline by 48.51 points on AlpacaEval. CUT (LLaMA2-chat-13b) can also align LLMs in an iterative fashion using up-to-date model-specific judgments, improving performance from 81.09 to 91.68 points on AlpacaEval. Further analysis suggests that judgments hold greater potential than rewards in LLM alignment.

arxiv情報

著者 Weiwen Xu,Deng Cai,Zhisong Zhang,Wai Lam,Shuming Shi
発行日 2024-05-27 12:22:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク