SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents

要約

人間は模倣と社会的交流の両方を通じて社会的スキルを学びます。
この社会学習プロセスは、言語エージェントの構築に関する既存の研究ではほとんど研究されていません。
このギャップを動機として、我々は言語エージェントの社会的知性を向上させる対話型学習方法 SOTOPIA-$\pi$ を提案します。
この方法では、大規模言語モデル (LLM) 評価に従ってフィルタリングされた社会的相互作用データに対する行動クローニングと自己強化トレーニングを利用します。
私たちのトレーニング方法により、言語エージェントの安全性を向上させ、MMLUベンチマークでの一般的なQA能力を維持しながら、7B LLMがエキスパートモデル(GPT-4ベースのエージェント)の社会的目標完了能力に到達できることを示します。
また、この訓練パラダイムは、社会的知性の LLM ベースの評価におけるいくつかの困難を明らかにしていることもわかりました。LLM ベースの評価者は、社会的相互作用のために特別に訓練された言語エージェントの能力を過大評価しています。

要約(オリジナル)

Humans learn social skills through both imitation and social interaction. This social learning process is largely understudied by existing research on building language agents. Motivated by this gap, we propose an interactive learning method, SOTOPIA-$\pi$, improving the social intelligence of language agents. This method leverages behavior cloning and self-reinforcement training on filtered social interaction data according to large language model (LLM) ratings. We show that our training method allows a 7B LLM to reach the social goal completion ability of an expert model (GPT-4-based agent), while improving the safety of language agents and maintaining general QA ability on the MMLU benchmark. We also find that this training paradigm uncovers some difficulties in LLM-based evaluation of social intelligence: LLM-based evaluators overestimate the abilities of the language agents trained specifically for social interaction.

arxiv情報

著者 Ruiyi Wang,Haofei Yu,Wenxin Zhang,Zhengyang Qi,Maarten Sap,Graham Neubig,Yonatan Bisk,Hao Zhu
発行日 2024-03-13 17:17:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク