Direct Large Language Model Alignment Through Self-Rewarding Contrastive Prompt Distillation

要約

人間が注釈を付けた嗜好データを使用せずに、大規模言語モデル (LLM) を人間の期待に合わせることは重要な問題です。
この論文では、対照的なプロンプトペアの下での応答ペアの出力確率を使用して応答の好みを評価する方法を提案します。これにより、LLaMA2-7BおよびLLaMA2-13BでRLAIFと比較してより良いパフォーマンスを達成できます。
これに基づいて、自動アライメント手法である Direct Large Model Alignment (DLMA) を提案します。
まず、対照的なプロンプトのペアを使用して、嗜好データを自動的に生成します。
次に、対照的なプロンプトのペアを使用して、生成された嗜好データの評価を続け、自己報酬スコアを計算します。
最後に、DPO アルゴリズムを使用して、この自己報酬スコアを組み合わせて LLM を効果的に調整します。
実験段階では、私たちの DLMA メソッドは、人間が注釈を付けた嗜好データに依存せずに \texttt{RLHF} メソッドを超える可能性があります。

要約(オリジナル)

Aligning large language models (LLMs) with human expectations without human-annotated preference data is an important problem. In this paper, we propose a method to evaluate the response preference by using the output probabilities of response pairs under contrastive prompt pairs, which could achieve better performance on LLaMA2-7B and LLaMA2-13B compared to RLAIF. Based on this, we propose an automatic alignment method, Direct Large Model Alignment (DLMA). First, we use contrastive prompt pairs to automatically generate preference data. Then, we continue to evaluate the generated preference data using contrastive prompt pairs and calculate a self-rewarding score. Finally, we use the DPO algorithm to effectively align LLMs by combining this self-rewarding score. In the experimental stage, our DLMA method could surpass the \texttt{RLHF} method without relying on human-annotated preference data.

arxiv情報

著者 Aiwei Liu,Haoping Bai,Zhiyun Lu,Xiang Kong,Simon Wang,Jiulong Shan,Meng Cao,Lijie Wen
発行日 2024-08-15 17:37:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, I.2.7 パーマリンク