Self-Alignment of Large Language Models via Monopolylogue-based Social Scene Simulation

要約

大規模言語モデル (LLM) を人間の価値観に合わせることが、その誤用による潜在的な悪影響を軽減するために不可欠です。
この論文は、すべての当事者の懸念を認識することが人間の価値観を形作る重要な要素であるという社会学的洞察に基づいて、LLM を独自に調整するための新しい方向性、つまり社会シーンのシミュレーションを提案します。
これを達成するために、ユーザーの入力クエリ周辺の現実的なシーンをエミュレートする新しいソーシャル シーン シミュレーターである MATRIX を紹介します。これにより、LLM は応答する前に社会的影響を考慮できるようになります。
MATRIX は、Monopolylogue に似た仮想リハーサル スペースとして機能し、LLM がクエリと練習に関連するさまざまな役割を単独で実行します。
この調整を導入するために、MATRIX でシミュレートされたデータを使用して LLM を微調整し、推論速度を損なうことなく人間の価値観を確実に遵守します。
我々は理論的に、MATRIX を使用した LLM が穏やかな仮定の下で憲法上の AI よりも優れていることを示します。
最後に、広範な実験により、私たちの手法が 4 つのベンチマーク全体で 10 のベースラインを上回るパフォーマンスを示していることが検証されました。
875 件のユーザー評価によって証明されているように、当社の調整された 13B サイズ LLM は、人間の価値観に合わせて GPT-4 を上回っています。
コードは https://github.com/pangxianghe/MATRIX で入手できます。

要約(オリジナル)

Aligning large language models (LLMs) with human values is imperative to mitigate potential adverse effects resulting from their misuse. Drawing from the sociological insight that acknowledging all parties’ concerns is a key factor in shaping human values, this paper proposes a novel direction to align LLMs by themselves: social scene simulation. To achieve this, we present MATRIX, a novel social scene simulator that emulates realistic scenes around a user’s input query, enabling the LLM to take social consequences into account before responding. MATRIX serves as a virtual rehearsal space, akin to a Monopolylogue, where the LLM performs diverse roles related to the query and practice by itself. To inject this alignment, we fine-tune the LLM with MATRIX-simulated data, ensuring adherence to human values without compromising inference speed. We theoretically show that the LLM with MATRIX outperforms Constitutional AI under mild assumptions. Finally, extensive experiments validate that our method outperforms over 10 baselines across 4 benchmarks. As evidenced by 875 user ratings, our tuned 13B-size LLM exceeds GPT-4 in aligning with human values. Code is available at https://github.com/pangxianghe/MATRIX.

arxiv情報

著者 Xianghe Pang,Shuo Tang,Rui Ye,Yuxin Xiong,Bolun Zhang,Yanfeng Wang,Siheng Chen
発行日 2024-02-08 14:21:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク