要約
ユーザー情報のニーズを満たすために大規模言語モデル (LLM) の使用が増えていますが、さまざまな種類のあいまいさを含むユーザー クエリの処理における LLM の有効性は依然として不明であり、最終的にはユーザーの信頼と満足度を危険にさらしています。
この目的を達成するために、よく整理された分類法を使用して LLM を評価するためのベンチマークである CLAMBER を紹介します。
分類法に基づいて、さまざまな既製 LLM の長所、短所、および潜在的なリスクを評価するために、最大 12,000 個の高品質データを構築します。
私たちの調査結果は、あいまいなユーザークエリを特定して明確にするという現在のLLMの実用性が限られていることを示しており、思考連鎖(CoT)や少数のプロンプトによって強化されることさえあります。
これらの手法は、LLM に対する過信をもたらし、曖昧性の識別においてわずかな強化しか得られない可能性があります。
さらに、現在の LLM は、競合解決の欠如と固有の知識の不正確な利用のために、高品質の明確な質問を生成するという点で不十分です。
この文書では、CLAMBER がガイダンスを提示し、プロアクティブで信頼できる LLM に関するさらなる研究を推進します。
私たちのデータセットは https://github.com/zt991211/CLAMBER で入手できます。
要約(オリジナル)
Large language models (LLMs) are increasingly used to meet user information needs, but their effectiveness in dealing with user queries that contain various types of ambiguity remains unknown, ultimately risking user trust and satisfaction. To this end, we introduce CLAMBER, a benchmark for evaluating LLMs using a well-organized taxonomy. Building upon the taxonomy, we construct ~12K high-quality data to assess the strengths, weaknesses, and potential risks of various off-the-shelf LLMs. Our findings indicate the limited practical utility of current LLMs in identifying and clarifying ambiguous user queries, even enhanced by chain-of-thought (CoT) and few-shot prompting. These techniques may result in overconfidence in LLMs and yield only marginal enhancements in identifying ambiguity. Furthermore, current LLMs fall short in generating high-quality clarifying questions due to a lack of conflict resolution and inaccurate utilization of inherent knowledge. In this paper, CLAMBER presents a guidance and promotes further research on proactive and trustworthy LLMs. Our dataset is available at https://github.com/zt991211/CLAMBER
arxiv情報
著者 | Tong Zhang,Peixin Qin,Yang Deng,Chen Huang,Wenqiang Lei,Junhong Liu,Dingnan Jin,Hongru Liang,Tat-Seng Chua |
発行日 | 2024-05-20 14:34:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google