Reasons to Reject? Aligning Language Models with Judgments

要約

人間として、私たちは常に仲間と対話し、自然言語の形でフィードバックを受け取ります。
この言語フィードバックにより、私たちは自分の行動を振り返り、適切な行動を維持し、間違いを修正することができます。
「言語フィードバックを使用して大規模言語モデル (LLM) を調整できるか?」という疑問が自然に生じます。
LLM を報酬や好みのデータと整合させる以前の研究とは対照的に、我々は言語フィードバック (つまり、判断) のレンズを通して整合性を系統的に探求した最初の研究を紹介します。
私たちは、LLM と判決を一致させるために適用できる可能性のある方法の詳細な調査から開始し、これらの方法では判決を完全に活用できないことを明らかにします。
判断のより効果的な活用を促進するために、判断に基づいてきめ細かい不適切なコンテンツの検出と修正を可能にする新しいフレームワークである Contrastive Likelihood Training (CUT) を提案します。
私たちのオフライン アライメントの結果は、わずか 1317 個の既製の判定データで、CUT (LLaMA2-13b) が 175B DaVinci003 を上回り、AlpacaEval の最高のベースラインを 52.34 ポイント上回ることができることを示しています。
オンライン アライメントの結果は、CUT がモデル固有の判定データを使用して反復方式で LLM (LLaMA2-chat-13b) をアライメントできることを示しており、AlpacaEval で 81.09 ポイントから 91.36 ポイントに着実にパフォーマンスが向上しています。
私たちの分析はさらに、判決が LLM 調整に対する報酬よりも大きな可能性を示しており、今後の研究が正当であることを示唆しています。

要約(オリジナル)

As humans, we consistently engage in interactions with our peers and receive feedback in the form of natural language. This language feedback allows us to reflect on our actions, maintain appropriate behavior, and rectify our errors. The question arises naturally: can we use language feedback to align large language models (LLMs)? In contrast to previous research that aligns LLMs with reward or preference data, we present the first systematic exploration of alignment through the lens of language feedback (i.e., judgment). We commence with an in-depth investigation of potential methods that can be adapted for aligning LLMs with judgments, revealing that these methods are unable to fully capitalize on the judgments. To facilitate more effective utilization of judgments, we propose a novel framework, Contrastive Unlikelihood Training (CUT), that allows for fine-grained inappropriate content detection and correction based on judgments. Our offline alignment results show that, with merely 1317 off-the-shelf judgment data, CUT (LLaMA2-13b) can beat the 175B DaVinci003 and surpass the best baseline by 52.34 points on AlpacaEval. The online alignment results demonstrate that CUT can align LLMs (LLaMA2-chat-13b) in an iterative fashion using model-specific judgment data, with a steady performance improvement from 81.09 to 91.36 points on AlpacaEval. Our analysis further suggests that judgments exhibit greater potential than rewards for LLM alignment and warrant future research.

arxiv情報

著者 Weiwen Xu,Deng Cai,Zhisong Zhang,Wai Lam,Shuming Shi
発行日 2023-12-22 10:29:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク