Large Language Models are Superpositions of All Characters: Attaining Arbitrary Role-play via Self-Alignment

要約

独自の大規模言語モデル (LLM) をエミュレートすることで、オープンソースの大規模言語モデル (LLM) のロールプレイング能力を強化するために、多大な努力が費やされてきました。
それにも関わらず、LLM はキャラクターに関する広範な知識と、膨大なトレーニング コーパスに根付いた潜在的な対話のおかげで、本質的にロールプレイ能力を備えていると我々は考えています。
そこで、この研究では、ロールプレイのための自己調整方法である同上を紹介します。
同上、登場人物の知識を活用し、指示に従う LLM が読解の一種としてロールプレイの対話をシミュレートすることを奨励しています。
この方法では、4,000 人のキャラクターからなるロールプレイ トレーニング セットが作成されます。これは、ロールの数に関して現在利用可能なデータセットの規模を 10 倍上回ります。
その後、この自己生成データセットを使用して LLM を微調整し、ロールプレイング機能を強化します。
細心の注意を払って構築され、再現可能なロールプレイ ベンチマークと MT-Bench のロールプレイ サブセットを評価すると、同上、さまざまなパラメーター スケールで、一貫したロール アイデンティティを一貫して維持し、複数ターンのロールプレイ会話で正確なロール固有の知識を提供します。
特に、すべてのオープンソース ロールプレイ ベースラインを上回り、高度な独自のチャットボットに匹敵するパフォーマンス レベルを示しています。
さらに、ロールプレイ領域における最初の包括的な相互監視調整実験を提示し、LLM の固有の機能がロールプレイ内に知識を閉じ込めていることを明らかにしました。
一方、ロールプレイのスタイルは、小さなモデルの指導によって簡単に習得できます。
関連リソースを https://github.com/OFA-Sys/Ditto でオープンソース化しています。

要約(オリジナル)

Considerable efforts have been invested in augmenting the role-playing proficiency of open-source large language models (LLMs) by emulating proprietary counterparts. Nevertheless, we posit that LLMs inherently harbor role-play capabilities, owing to the extensive knowledge of characters and potential dialogues ingrained in their vast training corpora. Thus, in this study, we introduce Ditto, a self-alignment method for role-play. Ditto capitalizes on character knowledge, encouraging an instruction-following LLM to simulate role-play dialogues as a variant of reading comprehension. This method creates a role-play training set comprising 4,000 characters, surpassing the scale of currently available datasets by tenfold regarding the number of roles. Subsequently, we fine-tune the LLM using this self-generated dataset to augment its role-playing capabilities. Upon evaluating our meticulously constructed and reproducible role-play benchmark and the roleplay subset of MT-Bench, Ditto, in various parameter scales, consistently maintains a consistent role identity and provides accurate role-specific knowledge in multi-turn role-play conversations. Notably, it outperforms all open-source role-play baselines, showcasing performance levels comparable to advanced proprietary chatbots. Furthermore, we present the first comprehensive cross-supervision alignment experiment in the role-play domain, revealing that the intrinsic capabilities of LLMs confine the knowledge within role-play. Meanwhile, the role-play styles can be easily acquired with the guidance of smaller models. We open-source related resources at https://github.com/OFA-Sys/Ditto.

arxiv情報

著者 Keming Lu,Bowen Yu,Chang Zhou,Jingren Zhou
発行日 2024-01-23 03:56:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク