Align on the Fly: Adapting Chatbot Behavior to Established Norms

要約

この論文では、大規模な言語モデルを、時間と場所を超えて常に変化し、複雑で多様な人間の価値観 (社会規範など) と整合させることを目的としています。
これは、モデルパラメータ内の値を内部化する教師あり微調整などの既存の位置合わせ手法にとって課題となります。
これを克服するために、ストリーミング方式で機能するリアルタイムの調整である On-the-fly Preference Optimization (OPO) 手法を提案します。
外部メモリを使用してアラインメントのための確立されたルールを保存します。これにより、追加のトレーニングなしで LLM の動作を制限でき、人間の価値観の便利な更新とカスタマイズが可能になります。
また、提案された方法をより効果的に評価するためのスケーラブルな評価も紹介します。
人間が注釈を付けた質問と法的および道徳的領域からの自動生成された質問の両方に関する実験結果は、提案された OPO 手法の有効性を示しています。
コードとデータは https://github.com/GAIR-NLP/OPO で公開されています。

要約(オリジナル)

In this paper, we aim to align large language models with the ever-changing, complex, and diverse human values (e.g., social norms) across time and locations. This presents a challenge to existing alignment techniques, such as supervised fine-tuning, which internalize values within model parameters. To overcome this, we propose an On-the-fly Preference Optimization (OPO) method, which is a real-time alignment that works in a streaming way. It employs an external memory to store established rules for alignment, which can constrain LLMs’ behaviors without further training, allowing for convenient updates and customization of human values. We also introduce a scalable evaluation to assess the proposed method more effectively. Experimental results on both human-annotated and auto-generated questions from legal and moral domains indicate the effectiveness of the proposed OPO method. Our code and data are released at https://github.com/GAIR-NLP/OPO.

arxiv情報

著者 Chunpu Xu,Steffi Chern,Ethan Chern,Ge Zhang,Zekun Wang,Ruibo Liu,Jing Li,Jie Fu,Pengfei Liu
発行日 2023-12-26 06:51:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク