Approximating Online Human Evaluation of Social Chatbots with Prompting

要約

会話モデルが一般の人々にますます利用可能になるにつれて、ユーザーは社会的なやりとりの中でこのテクノロジーを利用するようになりました。
このような前例のないインタラクション体験は、テクノロジーが適切に制御されない限り、ユーザーに多大な社会的および心理的リスクをもたらす可能性があります。
これは、会話型チャットボットのスケーラブルで堅牢な評価指標の必要性を浮き彫りにしています。
既存の評価指標は、オフラインのユーザー評価を自動化し、事前に精選されたダイアログを人間による判断に近づけることを目的としています。
ただし、実際にボットと対話するユーザーの主観的な認識をキャプチャする能力には限界があり、現実世界の設定に一般化できない可能性があります。
この制限に対処するために、GPT ファミリの大規模言語モデル (LLM) を活用して、オンラインで人間による評価を近似するアプローチを提案します。
プロンプティング (DEP) に基づく新しいダイアログ システム評価フレームワークを導入します。これにより、ライブ ユーザー調査を再現し、人間の判断との優れた相関関係 (システム レベルでピアソン r=0.95 まで) を達成する完全自動評価パイプラインが可能になります。
DEP アプローチには、他のプレイ設定で LLM を使用して評価されたボットの合成チャット ログを収集することが含まれます。LLM は特定のシナリオに従うように慎重に調整されます。
同じ LLM で評価スコアを生成するためのさまざまなプロンプト アプローチをさらに検討します。
数ショットのデモンストレーションと指示を含む最高のパフォーマンスのプロンプトは、テストされたデータセットで優れたパフォーマンスを示し、他のダイアログ コーパスに一般化できる能力を実証します。

要約(オリジナル)

As conversational models become increasingly available to the general public, users are engaging with this technology in social interactions. Such unprecedented interaction experiences may pose considerable social and psychological risks to the users unless the technology is properly controlled. This highlights the need for scalable and robust evaluation metrics for conversational chatbots. Existing evaluation metrics aim to automate offline user evaluation and approximate human judgment of pre-curated dialogs. However, they are limited in their ability to capture subjective perceptions of users who actually interact with the bots and might not generalize to real-world settings. To address this limitation, we propose an approach to approximate online human evaluation leveraging large language models (LLMs) from the GPT family. We introduce a new Dialog system Evaluation framework based on Prompting (DEP), which enables a fully automatic evaluation pipeline that replicates live user studies and achieves an impressive correlation with human judgment (up to Pearson r=0.95 on a system level). The DEP approach involves collecting synthetic chat logs of evaluated bots with an LLM in the other-play setting, where the LLM is carefully conditioned to follow a specific scenario. We further explore different prompting approaches to produce evaluation scores with the same LLM. The best performing prompts, which contain few-shot demonstrations and instructions, show outstanding performance on the tested dataset and demonstrate the ability to generalize to other dialog corpora.

arxiv情報

著者 Ekaterina Svikhnushina,Pearl Pu
発行日 2023-08-25 12:58:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC パーマリンク