CONSCENDI: A Contrastive and Scenario-Guided Distillation Approach to Guardrail Models for Virtual Assistants

要約

【タイトル】CONSCENDI:仮想アシスタントのガードレールモデルの対照的かつシナリオに基づく蒸留手法

【要約】

– GPT-4などの大規模な言語モデルの台頭により、新しいタスクベースの仮想アシスタントの波が生まれています。
– これらの会話エージェントは、顧客固有のユースケースにカスタマイズできますが、エージェントが生成するテキストが、単にプロンプト指示に含まれる設計者指定ルールに合致するように確認することは困難です。
– そのため、チャットボット設計者は、エージェントの出力が彼らのルールと制約に一致していることを検証するために、ガードレールモデルと呼ばれる別のモデルを使用することがあります。
– 我々は、GPT-4のトレーニングデータを使用して、蒸留手法を使用することでガードレールモデルを監視する方法を探求しています。
– CONSCENDIプロセスには、シナリオ拡張生成と対照的なトレーニング例の2つの重要なステップがあります。
– 会話データを生成する際に、ルール違反のシナリオを列挙する一連のシナリオを生成します。
– このシナリオに基づくアプローチは、ルール違反の会話の多様なトレーニングセットを生成し、チャットボット設計者に分類プロセスのより大きな制御を提供します。
– また、GPT-4に促して、違反の会話を許容可能な会話に変更することで、対照的な例も生成します。
– このボーダーライン、対照的な例のセットにより、蒸留モデルは、何が許容できるか、何が許容されないかのより細かい区別を学習します。
– CONSCENDIによるガードレールモデルは、ベースラインよりも改善されます。

要約(オリジナル)

A wave of new task-based virtual assistants has been fueled by increasingly powerful large language models, such as GPT-4. These conversational agents can be customized to serve customer-specific use cases, but ensuring that agent-generated text conforms to designer-specified rules included in prompt instructions alone is challenging. Therefore, chatbot designers often use another model, called a guardrail model, to verify that the agent output aligns with their rules and constraints. We explore using a distillation approach to guardrail models to monitor the output of the first model using training data from GPT-4. We find two crucial steps to our CONSCENDI process: scenario-augmented generation and contrastive training examples. When generating conversational data, we generate a set of rule-breaking scenarios, which enumerate a diverse set of high-level ways a rule can be violated. This scenario-guided approach produces a diverse training set of rule-violating conversations, and it provides chatbot designers greater control over the classification process. We also prompt GPT-4 to also generate contrastive examples by altering conversations with violations into acceptable conversations. This set of borderline, contrastive examples enables the distilled model to learn finer-grained distinctions between what is acceptable and what is not. We find that CONSCENDI results in guardrail models that improve over baselines.

arxiv情報

著者 Albert Yu Sun,Varun Nair,Elliot Schumacher,Anitha Kannan
発行日 2023-04-27 17:39:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク