SALMON: Self-Alignment with Principle-Following Reward Models

要約

応答デモンストレーションにおける教師あり微調整 (SFT) とヒューマン フィードバックからの強化学習 (RLHF) の組み合わせは、LLM ベースの AI エージェントを調整するための強力なパラダイムを構成します。
ただし、このようなアプローチの重大な制限は、高品質の人による注釈に依存していることであり、一貫した応答のデモンストレーションや配布中の応答の好みを取得することが難しいため、複雑なタスクへの適用が困難になります。
この論文では、人間が定義した少数の原則のみを使用し、優れたパフォーマンスを達成しながら、人間による最小限の監督で基本言語モデルを調整するための新しいアプローチ、すなわち SALMON (Self-ALignMent with priority-followiNg報酬モデル) を紹介します。
私たちのアプローチの中心となるのは、原則に従う報酬モデルです。
合成嗜好データに基づいてトレーニングされたこのモデルは、人間が定義した任意の原則に基づいて報酬スコアを生成できます。
RL トレーニング段階でこれらの原則を調整するだけで、報酬モデルを使用して好みを完全に制御できるようになり、その後、RL でトレーニングされたポリシーの動作に影響を与え、オンラインの人間の好みの収集への依存が排除されます。
私たちの手法を LLaMA-2-70b 基本言語モデルに適用して、Dromedary-2 という名前の AI アシスタントを開発しました。
Dromedary-2 は、コンテキスト内学習用のサンプルが 6 つだけで、人間が定義した 31 の原則を備えており、さまざまなベンチマーク データセット上で、LLaMA-2-Chat-70b を含むいくつかの最先端 AI システムのパフォーマンスを大幅に上回っています。
私たちは、LLM ベースの AI エージェントを監視効率の向上、制御性の向上、スケーラブルな監視と調整するためのさらなる研究を促進するために、コードとモデルの重みをオープンソース化しました。

要約(オリジナル)

Supervised Fine-Tuning (SFT) on response demonstrations combined with Reinforcement Learning from Human Feedback (RLHF) constitutes a powerful paradigm for aligning LLM-based AI agents. However, a significant limitation of such an approach is its dependency on high-quality human annotations, making its application to intricate tasks challenging due to difficulties in obtaining consistent response demonstrations and in-distribution response preferences. This paper presents a novel approach, namely SALMON (Self-ALignMent with principle-fOllowiNg reward models), to align base language models with minimal human supervision, using only a small set of human-defined principles, yet achieving superior performance. Central to our approach is a principle-following reward model. Trained on synthetic preference data, this model can generate reward scores based on arbitrary human-defined principles. By merely adjusting these principles during the RL training phase, we gain full control over the preferences with the reward model, subsequently influencing the behavior of the RL-trained policies, and eliminating the reliance on the collection of online human preferences. Applying our method to the LLaMA-2-70b base language model, we developed an AI assistant named Dromedary-2. With only 6 exemplars for in-context learning and 31 human-defined principles, Dromedary-2 significantly surpasses the performance of several state-of-the-art AI systems, including LLaMA-2-Chat-70b, on various benchmark datasets. We have open-sourced the code and model weights to encourage further research into aligning LLM-based AI agents with enhanced supervision efficiency, improved controllability, and scalable oversight.

arxiv情報

著者 Zhiqing Sun,Yikang Shen,Hongxin Zhang,Qinhong Zhou,Zhenfang Chen,David Cox,Yiming Yang,Chuang Gan
発行日 2023-10-09 17:56:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク