Training Socially Aligned Language Models in Simulated Human Society

要約

AI システムにおける社会的調整は、これらのモデルが確立された社会的価値観に従って動作することを保証することを目的としています。
しかし、社会的相互作用を通じて価値判断についての合意を導き出す人間とは異なり、現在の言語モデル (LM) は、トレーニング コーパスを単独で厳密に複製するようにトレーニングされているため、不慣れなシナリオでは一般化が水準以下になり、敵対的な攻撃に対して脆弱になります。
この研究は、LM が模擬的な社会的相互作用から学習できるようにする新しいトレーニング パラダイムを提示します。
既存の方法論と比較して、私たちのアプローチは拡張性と効率性が大幅に向上しており、アライメントベンチマークと人間による評価において優れたパフォーマンスを示しています。
LM のトレーニングにおけるこのパラダイム シフトにより、社会規範と価値観を堅牢かつ正確に反映できる AI システムの開発に一歩近づくことができます。

要約(オリジナル)

Social alignment in AI systems aims to ensure that these models behave according to established societal values. However, unlike humans, who derive consensus on value judgments through social interaction, current language models (LMs) are trained to rigidly replicate their training corpus in isolation, leading to subpar generalization in unfamiliar scenarios and vulnerability to adversarial attacks. This work presents a novel training paradigm that permits LMs to learn from simulated social interactions. In comparison to existing methodologies, our approach is considerably more scalable and efficient, demonstrating superior performance in alignment benchmarks and human evaluations. This paradigm shift in the training of LMs brings us a step closer to developing AI systems that can robustly and accurately reflect societal norms and values.

arxiv情報

著者 Ruibo Liu,Ruixin Yang,Chenyan Jia,Ge Zhang,Denny Zhou,Andrew M. Dai,Diyi Yang,Soroush Vosoughi
発行日 2023-07-16 20:56:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC パーマリンク