Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk

要約

大規模言語モデル (LLM) は強力な対話エージェントですが、特定の機能を果たすためにこれを特化するのは困難な場合があります。
チューニングの指示、つまり人間が生成した指示とサンプル応答に関するモデルのチューニング (Ouyang et al., 2022) は、そのための効果的な方法であることが証明されていますが、a) 利用できない可能性がある、または b) 多数のデータ サンプルが必要です。
生成にコストがかかる。
さらに、LLM を単一の指示ではなくダイアログ内の特定のワークフローに従わせることが目標の場合、このコストは増加します。
強化学習におけるセルフプレイ手法と人間のエージェントをシミュレートするための LLM の使用に触発され、さまざまな役割で会話に参加する LLM を通じてデータを収集するためのより効果的な方法を提案します。
このアプローチでは、LLM の「セルフトーク」を介してトレーニング データが生成され、これを改良して教師付き微調整に利用できます。
対話の(部分的な)成功を測定する自動化された方法を紹介します。
このメトリクスは、トレーニングのために LLM にフィードバックされる、生成された会話データをフィルタリングするために使用されます。
会話品質の自動評価と人間による評価に基づいて、このようなセルフトークデータが結果を向上させることを実証しました。
さらに、生成された対話の品質を示すさまざまな特性と、それらをトレーニング データとしての潜在的な有用性にどのように結び付けることができるかを調べます。

要約(オリジナル)

Large language models (LLMs) are powerful dialogue agents, but specializing them towards fulfilling a specific function can be challenging. Instructing tuning, i.e. tuning models on instruction and sample responses generated by humans (Ouyang et al., 2022), has proven as an effective method to do so, yet requires a number of data samples that a) might not be available or b) costly to generate. Furthermore, this cost increases when the goal is to make the LLM follow a specific workflow within a dialogue instead of single instructions. Inspired by the self-play technique in reinforcement learning and the use of LLMs to simulate human agents, we propose a more effective method for data collection through LLMs engaging in a conversation in various roles. This approach generates a training data via ‘self-talk’ of LLMs that can be refined and utilized for supervised fine-tuning. We introduce an automated way to measure the (partial) success of a dialogue. This metric is used to filter the generated conversational data that is fed back in LLM for training. Based on our automated and human evaluations of conversation quality, we demonstrate that such self-talk data improves results. In addition, we examine the various characteristics that showcase the quality of generated dialogues and how they can be connected to their potential utility as training data.

arxiv情報

著者 Dennis Ulmer,Elman Mansimov,Kaixiang Lin,Justin Sun,Xibin Gao,Yi Zhang
発行日 2024-01-10 09:49:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク