Distinguishing Ignorance from Error in LLM Hallucinations

要約

大規模言語モデル (LLM) は、根拠のない、事実に誤りがある、または前世代と矛盾する幻覚出力の影響を受けやすいです。
私たちはクローズブック質問応答 (CBQA) に焦点を当てます。これまでの研究では、考えられる 2 種類の幻覚の区別、つまり、モデルが (1) パラメーターに正しい答えを保持していないのか、それとも (2) 答えが保持されていないのか、という点に十分に取り組んでいませんでした。
必要な知識があるにも関わらず、間違ってしまう。
私たちは、これらのケースを区別することが幻覚を検出し軽減するために重要であると主張します。
具体的には、ケース (2) は、知識がモデルのパラメーター内に存在するため、モデルの内部計算に介入することで軽減される可能性があります。
対照的に、ケース (1) では、緩和のために利用できるパラメトリックな知識がないため、外部の知識源に頼るか、あるいは控えることによって対処する必要があります。
2 つのケースを区別しやすくするために、2 番目の幻覚タイプのモデル固有のデータセットを構築するためのアプローチである、正しい知識があるにもかかわらず間違った答え (WACK) を紹介します。
私たちの精査実験は、2 種類の幻覚がモデルの内部状態で異なる方法で表現されることを示しています。
次に、WACK を使用して構築されたデータセットがモデル間でばらつきを示すことを示し、モデルが特定の事実についての知識を共有している場合でも、幻覚を引き起こす特定の例では依然としてばらつきがあることを示します。
最後に、WACK データセットでプローブをトレーニングすると、一般的な汎用の万能データセットを使用するよりもケース (2) の幻覚の幻覚検出が向上することを示します。
コードは https://github.com/technion-cs-nlp/hallucination-mitigation で入手できます。

要約(オリジナル)

Large language models (LLMs) are susceptible to hallucinations-outputs that are ungrounded, factually incorrect, or inconsistent with prior generations. We focus on close-book Question Answering (CBQA), where previous work has not fully addressed the distinction between two possible kinds of hallucinations, namely, whether the model (1) does not hold the correct answer in its parameters or (2) answers incorrectly despite having the required knowledge. We argue that distinguishing these cases is crucial for detecting and mitigating hallucinations. Specifically, case (2) may be mitigated by intervening in the model’s internal computation, as the knowledge resides within the model’s parameters. In contrast, in case (1) there is no parametric knowledge to leverage for mitigation, so it should be addressed by resorting to an external knowledge source or abstaining. To help distinguish between the two cases, we introduce Wrong Answer despite having Correct Knowledge (WACK), an approach for constructing model-specific datasets for the second hallucination type. Our probing experiments indicate that the two kinds of hallucinations are represented differently in the model’s inner states. Next, we show that datasets constructed using WACK exhibit variations across models, demonstrating that even when models share knowledge of certain facts, they still vary in the specific examples that lead to hallucinations. Finally, we show that training a probe on our WACK datasets leads to better hallucination detection of case (2) hallucinations than using the common generic one-size-fits-all datasets. The code is available at https://github.com/technion-cs-nlp/hallucination-mitigation .

arxiv情報

著者 Adi Simhi,Jonathan Herzig,Idan Szpektor,Yonatan Belinkov
発行日 2024-10-29 14:31:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク