HALO: An Ontology for Representing and Categorizing Hallucinations in Large Language Models

要約

ChatGPT のような大規模言語モデル (LLM) を含む生成 AI の最近の進歩により、自然言語処理から知識発見、データ マイニングに至るまでの分野で大きな機会が開かれています。
しかし、モデルが情報の捏造や「幻覚」、一見単純な問題に対する誤った推論などの問題を起こしやすいという認識も高まっています。
ChatGPT のようなモデルの人気により、学者も市民科学者も、いくつかの異なる種類と重症度の幻覚を記録しています。
この一連の研究にもかかわらず、これらの幻覚を (関連するメタデータを使用して) きめ細かいレベルで記述および表現するための正式なモデルはまだ不足しています。
この論文では、幻覚オントロジー (HALO) を提示することで、このギャップに対処します。HALO は、OWL で書かれた正式な拡張可能なオントロジーであり、現在、LLM で発生することが知られている 6 つの異なるタイプの幻覚のサポートと、来歴および実験メタデータのサポートを提供します。
また、複数の独立した Web ソースから帰納的に収集した幻覚を含むデータセットを収集して公開し、HALO を使用してこのデータセットをモデル化し、コンピテンシーの質問に答えることができることを示します。

要約(オリジナル)

Recent progress in generative AI, including large language models (LLMs) like ChatGPT, has opened up significant opportunities in fields ranging from natural language processing to knowledge discovery and data mining. However, there is also a growing awareness that the models can be prone to problems such as making information up or `hallucinations’, and faulty reasoning on seemingly simple problems. Because of the popularity of models like ChatGPT, both academic scholars and citizen scientists have documented hallucinations of several different types and severity. Despite this body of work, a formal model for describing and representing these hallucinations (with relevant meta-data) at a fine-grained level, is still lacking. In this paper, we address this gap by presenting the Hallucination Ontology or HALO, a formal, extensible ontology written in OWL that currently offers support for six different types of hallucinations known to arise in LLMs, along with support for provenance and experimental metadata. We also collect and publish a dataset containing hallucinations that we inductively gathered across multiple independent Web sources, and show that HALO can be successfully used to model this dataset and answer competency questions.

arxiv情報

著者 Navapat Nananukul,Mayank Kejriwal
発行日 2024-04-02 17:55:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク