要約
自然言語生成 (NLG) における幻覚は部屋の中の象のようなもので、明白ではありますが、最近の成果により生成されたテキストの流暢さと文法的正確さが大幅に向上するまでは見落とされがちでした。
大規模言語モデル (LLM) の場合、幻覚はさまざまな下流タスクやカジュアルな会話で発生する可能性があり、信頼性と安全性を高めるために正確な評価が必要です。
しかし、幻覚評価に関する現在の研究は多岐にわたり、最適な評価方法を整理し選択することは依然として困難です。
さらに、NLP 研究が徐々に LLM の領域に移行するにつれて、この方向に新たな課題がもたらされています。
この論文は、次の 3 つの主要な側面に対処することを目的として、幻覚評価方法の進化に関する包括的な調査を提供します。1) 事実の多様な定義と粒度。
2) 自動評価器のカテゴリとその適用可能性。
3)未解決の課題と今後の方向性。
要約(オリジナル)
Hallucination in Natural Language Generation (NLG) is like the elephant in the room, obvious but often overlooked until recent achievements significantly improved the fluency and grammatical accuracy of generated text. For Large Language Models (LLMs), hallucinations can happen in various downstream tasks and casual conversations, which need accurate assessment to enhance reliability and safety. However, current studies on hallucination evaluation vary greatly, and people still find it difficult to sort out and select the most appropriate evaluation methods. Moreover, as NLP research gradually shifts to the domain of LLMs, it brings new challenges to this direction. This paper provides a comprehensive survey on the evolvement of hallucination evaluation methods, aiming to address three key aspects: 1) Diverse definitions and granularity of facts; 2) The categories of automatic evaluators and their applicability; 3) Unresolved issues and future directions.
arxiv情報
著者 | Siya Qi,Yulan He,Zheng Yuan |
発行日 | 2024-04-18 09:52:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google