要約
この論文では、中国語の大規模言語モデルで幻覚現象を測定するために、HalluQA (中国語幻覚質問応答) という名前のベンチマークを確立します。
HalluQA には、複数のドメインにまたがる、綿密に設計された 450 の敵対的な質問が含まれており、中国の歴史文化、習慣、社会現象が考慮されています。
HalluQA の構築中に、模倣的な虚偽と事実誤認という 2 つのタイプの幻覚を考慮し、GLM-130B と ChatGPT に基づいて敵対的サンプルを構築します。
評価には、モデル出力が幻覚かどうかを判定するためのGPT-4を用いた自動評価手法を設計します。
私たちは、ERNIE-Bot、Baichuan2、ChatGLM、Qwen、SparkDesk などを含む 24 の大規模な言語モデルで広範な実験を行っています。24 モデルのうち 18 モデルでは、50% 未満の非幻覚率を達成しました。
これは、HalluQA が非常に挑戦的であることを示しています。
さまざまな種類のモデルで主な幻覚の種類とその原因を分析します。
さらに、さまざまなタイプのモデルでどのタイプの幻覚を優先する必要があるかについても説明します。
要約(オリジナル)
In this paper, we establish a benchmark named HalluQA (Chinese Hallucination Question-Answering) to measure the hallucination phenomenon in Chinese large language models. HalluQA contains 450 meticulously designed adversarial questions, spanning multiple domains, and takes into account Chinese historical culture, customs, and social phenomena. During the construction of HalluQA, we consider two types of hallucinations: imitative falsehoods and factual errors, and we construct adversarial samples based on GLM-130B and ChatGPT. For evaluation, we design an automated evaluation method using GPT-4 to judge whether a model output is hallucinated. We conduct extensive experiments on 24 large language models, including ERNIE-Bot, Baichuan2, ChatGLM, Qwen, SparkDesk and etc. Out of the 24 models, 18 achieved non-hallucination rates lower than 50%. This indicates that HalluQA is highly challenging. We analyze the primary types of hallucinations in different types of models and their causes. Additionally, we discuss which types of hallucinations should be prioritized for different types of models.
arxiv情報
著者 | Qinyuan Cheng,Tianxiang Sun,Wenwei Zhang,Siyin Wang,Xiangyang Liu,Mozhi Zhang,Junliang He,Mianqiu Huang,Zhangyue Yin,Kai Chen,Xipeng Qiu |
発行日 | 2023-10-05 07:57:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google