要約
タイトル:Promptingを用いたソーシャルチャットボットの人間による評価の近似
要約:
– 会話モデルの技術が広く普及すると、ユーザーはこの技術と積極的に社交的なやりとりをするようになった。
– そのためには、適切にコントロールされない限り、この前例のない相互作用体験はユーザーにとって相当な社会的・心理的なリスクをもたらす可能性がある。
– この課題に対応するために、会話型チャットボットの評価指標が必要である。
– 既存の自動評価指標は、客観的な品質測定に焦点を当て、社会的次元の主観的な認識を無視する傾向がある。
– また、これらのアプローチの多くは、利用可能なベンチマークコーパスから事前に製造されたダイアログを対象にし、評価のための材料を準備するために人間の関与を必要とするため、評価基準の拡大が阻まれる。
– この制限に対処するために、GPTファミリーの新興大規模言語モデル(LLMs)を利用することを提案し、Promptingを用いた対話システム評価のための新しいフレームワークを記述する。
– このフレームワークを用いることで、評価パイプラインの完全自動化を実現し、人間の判断と驚異的な相関(システムレベルでのPearson r=0.95まで)を実現できる。
– この基本的なコンセプトは、LLMを他者とプレイするシナリオに従うように注意深く条件付けて評価対象のボットの合成チャットログを収集することである。
– さらに、同じLLMを用いて評価スコアを生成するために、さまざまなPROMPTINGアプローチを探索する。
– 最も優れたパフォーマンスを発揮するPROMPTには、少数のデモンストレーションと指示が含まれており、テストされたデータセットでは驚異的なパフォーマンスを発揮し、他の対話コーパスにも汎用性を示す。
要約(オリジナル)
Once powerful conversational models have become available for a wide audience, users started actively engaging in social interactions with this technology. Such unprecedented interaction experiences may pose considerable social and psychological risks to the users unless the technology is properly controlled. This creates an urgent need for scalable and robust evaluation metrics for conversational chatbots. Existing automatic evaluation metrics usually focus on objective quality measures and disregard subjective perceptions of social dimensions. Moreover, most of these approaches operate on pre-produced dialogs from available benchmark corpora, which implies human involvement for preparing the material for evaluation and, thus, impeded scalability of the metrics. To address this limitation, we propose to make use of the emerging large language models (LLMs) from the GPT-family and describe a new framework allowing to conduct dialog system evaluation with prompting. With this framework, we are able to achieve full automation of the evaluation pipeline and reach impressive correlation with the human judgement (up to Pearson r=0.95 on system level). The underlying concept is to collect synthetic chat logs of evaluated bots with a LLM in the other-play setting, where LLM is carefully conditioned to follow a specific scenario. We further explore different prompting approaches to produce evaluation scores with the same LLM. The best-performing prompts, containing few-show demonstrations and instructions, show outstanding performance on the tested dataset and demonstrate the ability to generalize to other dialog corpora.
arxiv情報
著者 | Ekaterina Svikhnushina,Pearl Pu |
発行日 | 2023-04-11 14:45:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI