要約
大規模言語モデル (LLM) の急速な進歩により、ロールプレイングに革命が起こり、一般的なロールプレイング モデルの開発が可能になりました。
しかし、現在のロールプレイング トレーニングには 2 つの重大な問題があります。 (I) 事前に定義されたロール プロファイルを使用して、特定のシナリオの対話トレーニングを促すと、通常、対話とプロファイルの間に不一致や矛盾さえ生じ、トレーニングのバイアスが生じます。
(II) モデルは、文レベルでのプロファイルと対話の調整を無視して、プロファイルのみに基づいて役割を模倣することを学習します。
この研究では、これらのハードルを克服するために設計された、BEYOND DIALOGUE と呼ばれるシンプルかつ効果的なフレームワークを提案します。
このフレームワークは、「対話を超えた」タスクを革新的に導入し、それぞれの特定のシナリオに基づいて対話をプロフィール特性に合わせることで、トレーニング中のバイアスを排除します。
さらに、トレーニング用の推論結果を生成する革新的なプロンプト メカニズムを採用することにより、このフレームワークにより、モデルは文レベルでプロフィールと対話の間のきめ細かい調整を実現できます。
前述の方法は完全に自動化されており、低コストです。
さらに、自動化された対話と客観的な評価方法の統合により、包括的なフレームワークが形成され、一般的なロールプレイングへの道が開かれます。
実験結果は、私たちのモデルが役割プロファイルのさまざまな側面を遵守および反映する点で優れており、ほとんどの独自の一般的および特殊な役割演奏ベースラインを上回っていることを示しています。
すべてのコードとデータセットは https://github.com/yuyouyu32/BeyondDialogue で入手できます。
要約(オリジナル)
The rapid advancement of large language models (LLMs) has revolutionized role-playing, enabling the development of general role-playing models. However, current role-playing training has two significant issues: (I) Using a predefined role profile to prompt dialogue training for specific scenarios usually leads to inconsistencies and even conflicts between the dialogue and the profile, resulting in training biases. (II) The model learns to imitate the role based solely on the profile, neglecting profile-dialogue alignment at the sentence level. In this work, we propose a simple yet effective framework called BEYOND DIALOGUE, designed to overcome these hurdles. This framework innovatively introduces ‘beyond dialogue’ tasks to align dialogue with profile traits based on each specific scenario, thereby eliminating biases during training. Furthermore, by adopting an innovative prompting mechanism that generates reasoning outcomes for training, the framework allows the model to achieve fine-grained alignment between profile and dialogue at the sentence level. The aforementioned methods are fully automated and low-cost. Additionally, the integration of automated dialogue and objective evaluation methods forms a comprehensive framework, paving the way for general role-playing. Experimental results demonstrate that our model excels in adhering to and reflecting various dimensions of role profiles, outperforming most proprietary general and specialized role-playing baselines. All code and datasets are available at https://github.com/yuyouyu32/BeyondDialogue.
arxiv情報
著者 | Yeyong Yu,Rusheng Yu,Haojie Wei,Zhanqiu Zhang,Quan Qian |
発行日 | 2024-08-20 14:47:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google