Aligning Large Language Models with Human Preferences through Representation Engineering

要約

大規模言語モデル (LLM) を人間の好みに合わせることが、有用性、真実性、安全性、無害性、面白さの点で実用性を高めるために重要です。
この調整を達成するための既存の方法では、多くの場合、モデル応答の相対的な品質を評価する人間のラベルに基づいて LLM を微調整するために、ヒューマン フィードバックからの強化学習 (RLHF) を採用することが含まれます。
それにもかかわらず、RLHF は微調整中に不安定になりやすく、実装に課題があります。表現工学 (RepE) の新興分野からインスピレーションを得たこの研究は、環境内の活動パターンに埋め込まれた高レベルの人間の好みに関連する表現を特定することを目的としています。
LLM を使用し、その表現を変換することでモデルの動作を正確に制御します。
Representation Alignment from Human Feedback (RAHF) と呼ばれるこの新しいアプローチは、効果的で、計算効率が高く、実装が簡単であることが証明されています。広範な実験により、表現をキャプチャするだけでなく、幅広いスペクトルに合わせて表現を操作する際の RAHF の有効性が実証されています。
単一の概念や機能 (誠実さや偏見など) に限定されるのではなく、人間の好みや価値観を重視します。
人間の多様な好みに対応する RAHF の多用途性は、LLM のパフォーマンスを向上させる可能性を示しています。

要約(オリジナル)

Aligning large language models (LLMs) with human preferences is crucial for enhancing their utility in terms of helpfulness, truthfulness, safety, harmlessness, and interestingness. Existing methods for achieving this alignment often involves employing reinforcement learning from human feedback (RLHF) to fine-tune LLMs based on human labels assessing the relative quality of model responses. Nevertheless, RLHF is susceptible to instability during fine-tuning and presents challenges in implementation.Drawing inspiration from the emerging field of representation engineering (RepE), this study aims to identify relevant representations for high-level human preferences embedded in patterns of activity within an LLM, and achieve precise control of model behavior by transforming its representations. This novel approach, denoted as Representation Alignment from Human Feedback (RAHF), proves to be effective, computationally efficient, and easy to implement.Extensive experiments demonstrate the efficacy of RAHF in not only capturing but also manipulating representations to align with a broad spectrum of human preferences or values, rather than being confined to a singular concept or function (e.g. honesty or bias). RAHF’s versatility in accommodating diverse human preferences shows its potential for advancing LLM performance.

arxiv情報

著者 Wenhao Liu,Xiaohua Wang,Muling Wu,Tianlong Li,Changze Lv,Zixuan Ling,Jianhao Zhu,Cenyuan Zhang,Xiaoqing Zheng,Xuanjing Huang
発行日 2023-12-26 11:01:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク