要約
大規模言語モデル(LLM)の台頭により、LLMチャットボット上で本質的に議論の余地のある質問に対する回答を求めることが可能になり、その能力を評価する信頼性の高い方法が必要になった。しかし、従来のQAベンチマークは、固定された回答を前提としており、この目的には不適切です。これを解決するために、私たちは、2,941の議論の余地のある質問のデータセットであるDebateQAを紹介します。我々は2つの評価指標を開発した:パースペクティブの多様性は、パースペクティブの包括性を評価するものであり、Dispute Awarenessは、LLMが質問の議論の余地を認めているかどうかを評価するものである。実験により、この2つのメトリクスが人間の嗜好に合致し、異なる基礎モデルにおいても安定していることが実証された。DebateQAと2つの評価基準を用いて、12の一般的なLLMと検索を利用した生成方法を評価した。その結果、LLMは一般的に議論の余地のある問題を認識することに優れているが、多様な視点を包含する包括的な回答を提供する能力はかなり異なることが明らかになった。
要約(オリジナル)
The rise of large language models (LLMs) has enabled us to seek answers to inherently debatable questions on LLM chatbots, necessitating a reliable way to evaluate their ability. However, traditional QA benchmarks assume fixed answers are inadequate for this purpose. To address this, we introduce DebateQA, a dataset of 2,941 debatable questions, each accompanied by multiple human-annotated partial answers that capture a variety of perspectives. We develop two metrics: Perspective Diversity, which evaluates the comprehensiveness of perspectives, and Dispute Awareness, which assesses if the LLM acknowledges the question’s debatable nature. Experiments demonstrate that both metrics align with human preferences and are stable across different underlying models. Using DebateQA with two metrics, we assess 12 popular LLMs and retrieval-augmented generation methods. Our findings reveal that while LLMs generally excel at recognizing debatable issues, their ability to provide comprehensive answers encompassing diverse perspectives varies considerably.
arxiv情報
著者 | Rongwu Xu,Xuan Qi,Zehan Qi,Wei Xu,Zhijiang Guo |
発行日 | 2024-08-02 17:54:34+00:00 |
arxivサイト | arxiv_id(pdf) |