要約
自律型会話エージェント、つまりチャットボットは、企業が顧客やパートナーにサポートを提供するメカニズムとしてますます一般的になりつつあります。
チャットボット、特に大規模言語モデル (LLM) などの生成 AI ツールを利用したチャットボットを評価するには、そのパフォーマンスを正確に評価できる必要があります。
ここでチャットボットのベンチマークが重要になります。
このペーパーでは、E2E (エンドツーエンド) ベンチマークと呼ばれる新しいベンチマークの使用を提案し、チャットボット、特に LLM を利用した回答の精度と有用性を評価するために E2E ベンチマークを使用する方法を示します。
。
E2E ベンチマークと、最先端技術で一般的に使用されている他の利用可能な指標の両方に基づいて、チャットボットの例をさまざまな洗練度レベルで評価し、提案されたベンチマークが他のベンチマークと比較して優れた結果を示していることを観察しました。
さらに、一部の指標は予測不可能であることが判明しましたが、コサイン類似度を使用する E2E ベンチマークに関連付けられた指標は、チャットボットの評価において良好なパフォーマンスを示しました。
私たちの最高のモデルのパフォーマンスは、E2E ベンチマークのメトリクスとしてコサイン類似度スコアを使用することにはいくつかの利点があることを示しています。
要約(オリジナル)
Autonomous conversational agents, i.e. chatbots, are becoming an increasingly common mechanism for enterprises to provide support to customers and partners. In order to rate chatbots, especially ones powered by Generative AI tools like Large Language Models (LLMs) we need to be able to accurately assess their performance. This is where chatbot benchmarking becomes important. In this paper, we propose the use of a novel benchmark that we call the E2E (End to End) benchmark, and show how the E2E benchmark can be used to evaluate accuracy and usefulness of the answers provided by chatbots, especially ones powered by LLMs. We evaluate an example chatbot at different levels of sophistication based on both our E2E benchmark, as well as other available metrics commonly used in the state of art, and observe that the proposed benchmark show better results compared to others. In addition, while some metrics proved to be unpredictable, the metric associated with the E2E benchmark, which uses cosine similarity performed well in evaluating chatbots. The performance of our best models shows that there are several benefits of using the cosine similarity score as a metric in the E2E benchmark.
arxiv情報
著者 | Debarag Banerjee,Pooja Singh,Arjun Avadhanam,Saksham Srivastava |
発行日 | 2023-08-08 23:30:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google